Перейти к основному содержимому

Настройки индексации

Индексация базы знаний делится на несколько этапов:

  1. Обработка данных — преобразование текста в формат MD.
  2. Чанкинг — разбиение текста на фрагменты (чанки).
  3. Векторизация — преобразование полученных чанков в векторные представления (эмбеддинги).

На вкладке НастройкиИндексация вы можете менять параметры для чанкинга и векторизации.

Чанкинг

Параметр Способ разделения текста определяет, каким образом текст будет разбит на части.

Текст будет разбит на части по словам. Укажите максимальное количество символов в чанке.

Как будет разбит текст

Допустим в настройке Максимальный размер чанка указано значение 70. У вас есть фрагмент текста из 2 предложений, каждое из которых по 100 символов.

При чанкине текст будет разбит на 3 чанка:

  1. 70 символов первого предложения.
  2. Оставшиеся 30 символов первого предложения и 40 второго.
  3. Оставшиеся 60 символов второго предложения.

Выберите язык источников, чтобы текст был разбит на части корректно. Если ваши источники на нескольких языках, выберите язык, на котором будут чаще всего отправлять запросы базе знаний.

подсказка

Чтобы посмотреть, на какие части разделен ваш источник, скачайте архив с чанками:

  1. Перейдите в раздел Источники и наведите курсор на нужный источник.
  2. Нажмите Архив чанков.

При тестировании базы знаний вы также сможете посмотреть, какие чанки были выбраны для подготовки ответа.

Векторизация

Вы можете выбрать модель для векторизации текста. Она будет использоваться не только для векторизации ваших данных, но и запросов от пользователей:

  • text-embedding-3-large — модель от компании OpenAI. При ее использовании ваши данные будут отправляться на зарубежный сервер.
  • intfloat/multilingual-e5-large — модель, размещенная на серверах компании Just AI, которые находятся в России.