Проблемы языковых моделей при анализе длинных текстов: выводы исследования
В результате исследования, проведённого учёными из Мюнхенского университета Людвига-Максимилиана, Мюнхенского центра машинного обучения и Adobe Research, было установлено, что современные языковые модели искусственного интеллекта имеют ограничения при обработке и анализе больших объёмов текстовой информации.
Команда протестировала 12 ведущих моделей, включая GPT-4o, Gemini 1.5 Pro и Llama-3.3-70B, каждая из которых способна обрабатывать не менее 128 000 токенов.
Тест NOLIMA (No Literal Matching) проверяет, насколько хорошо модели AI могут связывать информацию и делать выводы, не полагаясь на совпадающие слова. В тесте используются вопросы и текстовые отрывки, составленные таким образом, чтобы избежать использования общей лексики, что заставляет модели понимать концепции и устанавливать связи.
Вот как это работает: в тексте может быть фраза «Юки на самом деле живёт рядом с Земпер-оперой». Соответствующий вопрос будет звучать так: «Кто из персонажей уже бывал в Дрездене?» Чтобы дать правильный ответ, модель должна понять, что Земпер-опера находится в Дрездене, и выбрать Юки в качестве ответа.
Результаты показывают, что модели испытывают трудности при увеличении длины текста. Производительность значительно снижается в диапазоне от 2000 до 8000 токенов. При 32 000 токенов 10 из 12 моделей работают вполовину медленнее, чем обычно, по сравнению с более короткими текстами.
Исследователи указывают на ограничения базового механизма внимания моделей, который не справляется с более длинными контекстами. Без подсказок в виде совпадающих слов моделям сложно находить и связывать релевантную информацию.
Производительность снижается ещё больше, когда требуется больше шагов для принятия решения (скрытых переходов). Порядок информации тоже
Читать на habr.com