Перейти к основному содержимому

Настройки поиска и генерации ответов

Чтобы перейти к параметрам поиска чанков и генерации ответов, выберите в меню НастройкиПоиск.

Основные настройки

Настройка Поиск чанков определяет способ поиска чанков в документах:

При таком способе поиска система будет искать чанки по семантическом сходству эмбеддингов. Векторное представление запроса пользователя будет сравниваться с векторными представлениями чанков ваших данных.

LLM

В секции LLM вы можете настроить параметры языковой модели. При поиске по сходству эмбеддингов настройки LLM будут применяться для генерации ответа на запрос пользователя, а при поиске с помощью LLM — также для поиска чанков в документах.

Вам доступны следующие параметры:

  • Модель — выберите одну из доступных языковых моделей. При поиске чанков с помощью LLM вам будет доступны только модели, которые поддерживают function calling — он позволяет модели запрашивать чанки.
  • Максимальное количество токенов в запросе определяет максимальное количество токенов, которое может быть отправлено в LLM.
  • Максимальное количество токенов в ответе определяет максимальное количество токенов, которое может быть сгенерировано LLM за одну итерацию.
  • Температура — регулирует креативность ответов. При более высоких значениях результаты будут более творческими и менее предсказуемыми. Рекомендуем менять или температуру, или Top P, но не оба параметра одновременно.
  • Top P — регулирует разнообразность ответов. При низких значениях нейросеть выбирает из меньшего количества вероятных слов, но при высоких — ответ может получиться разнообразнее. Рекомендуем менять или Top P, или температуру, но не оба параметра одновременно.
  • Presence penalty — штраф за повторение слов в ответе. Чем выше значение, тем меньше слов будут повторяться в ответе.
  • Frequency penalty — штраф за частоту слов в ответе. Чем выше значение, тем меньше будут повторяться слова, которые уже были использованы в ответе.

Retrieving

Retrieving-параметры позволяют настроить параметры поиска чанков в документах. Состав настроек зависит от выбранного способа поиска чанков.

  • Top K — количество чанков, которые будут извлекаться из источников для дальнейшей обработки, например, генерации ответа или повторного ранжирования.

    подсказка

    Если вы планируете использовать повторное ранжирование, увеличьте значение Top K. Это позволит модели-реранкеру выбирать подходящие чанки из большего числа кандидатов.

  • Num candidates — количество кандидатов-чанков, из которых будут выбраны K-чанки. Рекомендуемое значение: Top K * 10.

  • Количество соседних чанков — количество соседних чанков одного чанка, которые будут также использоваться для подготовки ответа. Соседние чанки помогают модели лучше понять контекст запроса и сгенерировать более точный ответ.

    Например, если Top K — 10, а Количество соседних чанков — 3, то к каждому K-чанку добавится еще по 3 чанка до и после него. Таким образом объем K-чанка увеличится, в итоге модели будет отправлено 10 «больших» чанков.

  • Перефразировать запрос — если включено, система попытается перефразировать запрос пользователя, чтобы он стал понятнее. Это может улучшить качество поиска.

    Укажите промт для перефразирования запроса.

  • Учитывать историю диалога — если включено, система будет учитывать предыдущие запросы пользователя при поиске чанков. Это позволяет модели лучше понимать контекст и генерировать более точные ответы.

Повторное ранжирование

Эти параметры позволяют настроить процесс повторного ранжирования чанков, который происходит после этапа Retrieving. Есть несколько типов повторного ранжирования:

  • Эмпирическое.

    Эмпирическое ранжирование работает быстрее, чем ранжирование с помощью модели, но менее точно.

  • С помощью модели.

Если эмбеддинги хорошо соответствуют запросу, повторное ранжирование можно отключить. В этом случае для сравнения чанков будет использоваться только оценка релевантности, полученная от векторного хранилища.

После того как вы выбрали тип повторного ранжирования, укажите параметры:

  • Максимальное количество чанков — максимальное количество чанков, которые будут отправлены в LLM вместе с запросом пользователя для подготовки ответа.
  • Максимальное количество чанков для одного документа — максимальное количество чанков из одного документа, которые будут отправлены в LLM. Настройка полезна, чтобы чанки из одного документа не заняли весь контекст при подготовке ответа.
  • Минимальный score — минимальная оценка релевантности чанка, чтобы он был отправлен в LLM вместе с запросом пользователя для подготовки ответа.
  • Максимальное отличие score первого чанка от последнего, (%) — максимальное отличие оценок релевантности первого и последнего чанка в списке, чтобы они были отправлены в LLM вместе с запросом пользователя для подготовки ответа.

Настройки генерации ответа

В этой секции вы можете указать промт для LLM, который будет использоваться при генерации ответа на запрос пользователя.