Настройки индексации
Индексация данных, загруженных в базу знаний, состоит из нескольких этапов:
- Обработка данных — преобразование текста в формат MD.
- Чанкинг — разбиение текста на фрагменты (чанки).
- Векторизация — преобразование полученных чанков в векторные представления (эмбеддинги).
В разделе Настройки → Индексация вы можете менять параметры для чанкинга и векторизации.
После изменения настроек индексации нужно будет заново проиндексировать базу знаний.
Векторизация
Параметр Модель векторизатора определяет языковую модель для векторизации текста. Эта модель будет применяться для векторизации как ваших данных, так и запросов от пользователей:
- text-embedding-3-large — модель от компании OpenAI. При ее использовании ваши данные будут отправляться на зарубежный сервер.
- intfloat/multilingual-e5-large — модель, размещенная на серверах компании Just AI, которые находятся в России.
Чанкинг
Способ разделения текста
Параметр Способ разделения текста определяет, каким образом текст будет разбит на чанки:
- По длине — текст будет разбит на части по длине, с учетом границ слов.
- С помощью LLM — текст будет разбит на части с помощью языковой модели. В этом случае чанки будут учитывать иерархическую структуру текста: заголовки, абзацы, названия разделов и документа.
Состав настроек зависит от выбранного способа разделения.
- По длине
- С помощью LLM
-
Максимальный размер чанка, в символах.
Как будет разбит текст
Допустим, в настройке указано значение 70. У вас есть текст из 2 предложений, каждое из которых по 100 символов.
При чанкинге текст будет разбит на 3 чанка:
- 70 символов первого предложения.
- Оставшиеся 30 символов первого предложения и 40 второго.
- Оставшиеся 60 символов второго предложения.
-
Язык — язык документов-источников. Настройка помогает разбить текст на чанки корректно. Если ваши источники на нескольких языках, выберите язык, на котором будут чаще всего отправлять запросы базе знаний.
- Средний размер чанка, в токенах — если текстовая единица меньше указанного значения, то она не будет разбиваться на более мелкие смысловые части, например документ на главы или главы на подглавы.
- Специальный чанкинг для больших таблиц — если включен, большие таблицы, которые модель не может обработать самостоятельно, будут разбиты на части. В каждом чанке будет включена строка с заголовками столбцов. Это позволяет модели лучше понять структуру данных и сгенерировать более точный ответ.
Настройки LLM
Настройки LLM будут применяться для получения описания изображений, а при чанкинге с помощью LLM — также для формирования чанков.
- Модель — выберите одну из доступных языковых моделей.
- Максимальное количество токенов в запросе — ограничивает количество токенов, которое может быть отправлено в LLM.
- Максимальное количество токенов в ответе — ограничивает количество токенов, которое может быть сгенерировано LLM за одну итерацию.
- Температура — регулирует креативность ответов. При более высоких значениях результаты будут более творческими и менее предсказуемыми.
Чтобы посмотреть, на какие части разделен ваш источник, скачайте архив с чанками:
- Перейдите в раздел Источники и наведите курсор на нужный источник.
- Нажмите → Архив чанков.
При тестировании базы знаний вы также сможете посмотреть, какие чанки были выбраны для подготовки ответа.