Настройки поиска и генерации ответов
Чтобы перейти к параметрам поиска чанков и генерации ответов, выберите в меню Настройки → Поиск.
Основные настройки
Поиск чанков
Настройка Поиск чанков определяет способ поиска чанков в документах:
- По сходству эмбеддингов
- С помощью LLM
При таком способе поиска система будет искать чанки по семантическом сходству эмбеддингов. Векторное представление запроса пользователя будет сравниваться с векторными представлениями чанков ваших данных.
В этом случае поиск чанков будет осуществляться с помощью языковой модели. Модель сама будет инициировать поиск наиболее подходящих эмбеддингов ваших документов в векторном хранилище.
При этом система будет отправлять модели чанки ваших данных, а LLM будет анализировать их, запрашивать дополнительные. Поиск будет окончен, когда модель найдет наиболее подходящие чанки.
В поле Промт вы можете указать дополнительные параметры поиска и поведения модели.
LLM
В секции LLM вы можете настроить параметры языковой модели. При поиске по сходству эмбеддингов настройки LLM будут применяться для генерации ответа на запрос пользователя, а при поиске с помощью LLM — также для поиска чанков в документах.
Вам доступны следующие параметры:
- Модель — выберите одну из доступных языковых моделей. При поиске чанков с помощью LLM вам будет доступны только модели, которые поддерживают function calling — он позволяет модели запрашивать чанки.
- Максимальное количество токенов в запросе определяет максимальное количество токенов, которое может быть отправлено в LLM.
- Максимальное количество токенов в ответе определяет максимальное количество токенов, которое может быть сгенерировано LLM за одну итерацию.
- Температура — регулирует креативность ответов. При более высоких значениях результаты будут более творческими и менее предсказуемыми. Рекомендуем менять или температуру, или Top P, но не оба параметра одновременно.
- Top P — регулирует разнообразность ответов. При низких значениях нейросеть выбирает из меньшего количества вероятных слов, но при высоких — ответ может получиться разнообразнее. Рекомендуем менять или Top P, или температуру, но не оба параметра одновременно.
- Presence penalty — штраф за повторение слов в ответе. Чем выше значение, тем меньше слов будут повторяться в ответе.
- Frequency penalty — штраф за частоту слов в ответе. Чем выше значение, тем меньше будут повторяться слова, которые уже были использованы в ответе.
Retrieving
Retrieving-параметры позволяют настроить параметры поиска чанков в документах. Состав настроек зависит от выбранного способа поиска чанков.
- По сходству эмбеддингов
- С помощью LLM
-
Top K — количество чанков, которые будут извлекаться из источников для дальнейшей обработки, например, генерации ответа или повторного ранжирования.
подсказкаЕсли вы планируете использовать повторное ранжирование, увеличьте значение Top K. Это позволит модели-реранкеру выбирать подходящие чанки из большего числа кандидатов.
-
Num candidates — количество кандидатов-чанков, из которых будут выбраны K-чанки. Рекомендуемое значение:
Top K * 10
. -
Количество соседних чанков — количество соседних чанков одного чанка, которые будут также использоваться для подготовки ответа. Соседние чанки помогают модели лучше понять контекст запроса и сгенерировать более точный ответ.
Например, если Top K — 10, а Количество соседних чанков — 3, то к каждому K-чанку добавится еще по 3 чанка до и после него. Таким образом объем K-чанка увеличится, в итоге модели будет отправлено 10 «больших» чанков.
-
Перефразировать запрос — если включено, система попытается перефразировать запрос пользователя, чтобы он стал понятнее. Это может улучшить качество поиска.
Укажите промт для перефразирования запроса.
-
Учитывать историю диалога — если включено, система будет учитывать предыдущие запросы пользователя при поиске чанков. Это позволяет модели лучше понимать контекст и генерировать более точные ответы.
-
Top K — количество чанков, которые будут извлекаться из источников для дальнейшей обработки, например, генерации ответа или повторного ранжирования.
подсказкаЕсли вы планируете использовать повторное ранжирование, увеличьте значение Top K. Это позволит модели-реранкеру выбирать подходящие чанки из большего числа кандидатов.
-
Num candidates — количество кандидатов-чанков, из которых будут выбраны K-чанки. Рекомендуемое значение:
Top K * 10
. -
Количество соседних чанков — количество соседних чанков одного чанка, которые будут также использоваться для подготовки ответа. Соседние чанки помогают модели лучше понять контекст запроса и сгенерировать более точный ответ.
Например, если Top K — 10, а Количество соседних чанков — 3, то к каждому K-чанку добавится еще по 3 чанка до и после него. Таким образом объем K-чанка увеличится, в итоге модели будет отправлено 10 «больших» чанков.
-
Настройки истории диалога:
- Максимальный размер истории диалога в токенах
- Минимальное количество запросов пользователя
Повторное ранжирование
Эти параметры позволяют настроить процесс повторного ранжирования чанков, который происходит после этапа Retrieving. Есть несколько типов повторного ранжирования:
-
Эмпирическое.
Эмпирическое ранжирование работает быстрее, чем ранжирование с помощью модели, но менее точно.
-
С помощью модели.
Если эмбеддинги хорошо соответствуют запросу, повторное ранжирование можно отключить. В этом случае для сравнения чанков будет использоваться только оценка релевантности, полученная от векторного хранилища.
После того как вы выбрали тип повторного ранжирования, укажите параметры:
- Эмпирическое
- С помощью модели
- Максимальное количество чанков — максимальное количество чанков, которые будут отправлены в LLM вместе с запросом пользователя для подготовки ответа.
- Максимальное количество чанков для одного документа — максимальное количество чанков из одного документа, которые будут отправлены в LLM. Настройка полезна, чтобы чанки из одного документа не заняли весь контекст при подготовке ответа.
- Минимальный score — минимальная оценка релевантности чанка, чтобы он был отправлен в LLM вместе с запросом пользователя для подготовки ответа.
- Максимальное отличие score первого чанка от последнего, (%) — максимальное отличие оценок релевантности первого и последнего чанка в списке, чтобы они были отправлены в LLM вместе с запросом пользователя для подготовки ответа.
- Максимальное количество чанков — максимальное количество чанков, которые будут отправлены в LLM вместе с запросом пользователя для подготовки ответа.
- Минимальный score — минимальная оценка релевантности чанка, чтобы он был отправлен в LLM вместе с запросом пользователя для подготовки ответа.
- Модель — модель, которая будет использоваться для повторного ранжирования.
Настройки генерации ответа
В этой секции вы можете указать промт для LLM, который будет использоваться при генерации ответа на запрос пользователя.