

Исследование по повышению производительности в системах RAG
Исследователи из Еврейского университета в Иерусалиме обнаружили, что количество документов, обработанных с помощью технологии расширенной генерации поиска (RAG), влияет на производительность языковой модели, даже если общая длина текста остается постоянной.
Исследовательская группа использовала набор данных проверки MuSiQue, содержащий 2417 вопросов с ответами. Каждый вопрос ссылается на 20 абзацев Википедии, при этом два-четыре абзаца содержат релевантную информацию об ответе, а остальные служат реалистичными отвлекающими факторами.
Чтобы изучить, как количество документов влияет на производительность, исследователи создали несколько разделов данных. Они постепенно сократили количество документов с 20 до 15, 10, восьми и, наконец, до двух-четырех документов, содержащих релевантную информацию. Чтобы поддерживать единообразное количество токенов и позиционирование информации, они расширили выбранные документы, используя текст из оригинальных статей Википедии.
Тестирование нескольких моделей с открытым исходным кодом, включая Llama-3.1, Qwen2 и Gemma 2, показало, что сокращение количества документов повысило производительность до 10 процентов в большинстве случаев. Qwen2 оказался исключением, возможно, более эффективно обрабатывая несколько коллекций документов. Хотя этим протестированным моделям всего несколько месяцев, более новые версии, такие как Llama-3.3, Qwen2.5 и Gemma 3, уже заменили их.
Языковые модели работали значительно лучше, когда им предоставлялись только вспомогательные документы, что означало более короткий контекст и устранение отвлекающего контента. Результаты показали, что похожие, но не связанные между собой документы, часто извлекаемые в системах RAG, могут запутать модель и снизить
Читать на habr.com