Перейти к основному содержимому

Настройки индексации

Индексация данных, загруженных в базу знаний, состоит из нескольких этапов:

  1. Обработка данных — преобразование текста в формат MD.
  2. Чанкинг — разбиение текста на фрагменты (чанки).
  3. Векторизация — преобразование полученных чанков в векторные представления (эмбеддинги).

В разделе НастройкиИндексация вы можете менять параметры для чанкинга и векторизации.

предупреждение

После изменения настроек индексации нужно будет заново проиндексировать базу знаний.

Векторизация

Параметр Модель векторизатора определяет языковую модель для векторизации текста. Эта модель будет применяться для векторизации как ваших данных, так и запросов от пользователей:

  • text-embedding-3-large — модель от компании OpenAI. При ее использовании ваши данные будут отправляться на зарубежный сервер.
  • intfloat/multilingual-e5-large — модель, размещенная на серверах компании Just AI, которые находятся в России.

Чанкинг

Способ разделения текста

Параметр Способ разделения текста определяет, каким образом текст будет разбит на чанки:

  • По длине — текст будет разбит на части по длине, с учетом границ слов.
  • С помощью LLM — текст будет разбит на части с помощью языковой модели. В этом случае чанки будут учитывать иерархическую структуру текста: заголовки, абзацы, названия разделов и документа.

Состав настроек зависит от выбранного способа разделения.

  • Максимальный размер чанка, в символах.

    Как будет разбит текст

    Допустим, в настройке указано значение 70. У вас есть текст из 2 предложений, каждое из которых по 100 символов.

    При чанкинге текст будет разбит на 3 чанка:

    1. 70 символов первого предложения.
    2. Оставшиеся 30 символов первого предложения и 40 второго.
    3. Оставшиеся 60 символов второго предложения.
  • Язык — язык документов-источников. Настройка помогает разбить текст на чанки корректно. Если ваши источники на нескольких языках, выберите язык, на котором будут чаще всего отправлять запросы базе знаний.

Настройки LLM

Настройки LLM будут применяться для получения описания изображений, а при чанкинге с помощью LLM — также для формирования чанков.

  • Модель — выберите одну из доступных языковых моделей.
  • Максимальное количество токенов в запросе — ограничивает количество токенов, которое может быть отправлено в LLM.
  • Максимальное количество токенов в ответе — ограничивает количество токенов, которое может быть сгенерировано LLM за одну итерацию.
  • Температура — регулирует креативность ответов. При более высоких значениях результаты будут более творческими и менее предсказуемыми.
подсказка

Чтобы посмотреть, на какие части разделен ваш источник, скачайте архив с чанками:

  1. Перейдите в раздел Источники и наведите курсор на нужный источник.
  2. Нажмите Архив чанков.

При тестировании базы знаний вы также сможете посмотреть, какие чанки были выбраны для подготовки ответа.