



Перегрузка языковых моделей информацией приводит к нерелевантным ответам
Предполагается, что большие языковые модели могут обрабатывать миллионы токенов (фрагментов слов и символов, из которых состоят входные данные) одновременно. Но чем длиннее контекст, тем хуже они справляются с задачей.
Таков вывод нового исследования, проведённого Chroma Research. Компания Chroma, создающая векторную базу данных для ИИ-приложений, на самом деле выигрывает, когда моделям требуется помощь в получении информации из внешних источников. Тем не менее масштаб и методология этого исследования заслуживают внимания: исследователи протестировали 18 ведущих ИИ-моделей, включая GPT, Claude, Gemini и Qwen, в четырёх типах задач. Среди них были семантический поиск, задачи на повторение и ответы на вопросы в объёмных документах.
Исследование основано на знакомом тесте «иголка в стоге сена», когда модель должна выбрать конкретное предложение, спрятанное в длинном блоке нерелевантного текста. Команда Chroma раскритиковала этот тест за измерение только буквального совпадения строк, поэтому они изменили его, чтобы он требовал настоящего семантического понимания.
В частности, они вышли за рамки простого распознавания ключевых слов двумя основными способами. Во-первых, вместо того чтобы задавать вопрос, в котором используются те же слова, что и в скрытом предложении, они задавали вопросы, связанные с ним только семантически. Например, в задании, вдохновлённом тестом NoLiMa, может быть задан вопрос: «Кто был в Хельсинки?», если в тексте упоминается только то, что Юки живёт рядом с музеем Киасма. Чтобы дать ответ на этот вопрос, модель должна использовать свои знания об окружающем мире, а не просто искать совпадения ключевых слов.
Для моделей это оказалось гораздо более сложной задачей. При ответе на эти семантические вопросы
Читать на habr.com