

Разработан метод оценки нейросетей в работе с длинными текстами
Исследователи из Института AIRI, МФТИ и Лондонского института математических наук (LIMS) разработали бенчмарк BABILong для оценки производительности языковых моделей при работе с большими текстами. Бенчмарк включает 20 задач, ориентированных на поиск и анализ разрозненных фактов в крупных текстах, включая индукцию, дедукцию, связывание информации, простейшие вычисления и работу со списками. BABILong опубликован в публичном репозитории для поддержки научного сообщества и будет представлен на конференции NeurIPS 2024 в Ванкувере.
Длина контекста — объем информации, удерживаемой нейросетью для выполнения задачи. Несмотря на увеличение этого параметра в современных моделях, фактическое использование данных часто ограничено 10–20%, и модели преимущественно обращают внимание на первые и последние абзацы текста. Производительность существенно снижается с увеличением сложности задач.
BABILong измеряет качество ответа модели и зависимость точности от длины контекста. Основой послужил набор задач из BABI, ориентированный на базовые операции логики и арифметики, дополненный данными художественной литературы. Первоначально рассчитанные на короткие тексты задачи были распределены по литературным произведениям, требуя от моделей не просто находить информацию, но и анализировать её для получения верного ответа.
В ходе экспериментов исследователи использовали бенчмарк для анализа производительности популярных моделей при контексте длиной от тысячи до 50 миллионов токенов. Результаты показали, что модели теряют точность, когда объем данных превышает 25% от заявленной длины контекста, что подчеркивает необходимость улучшения обработки информации.
Команда также разработала адаптацию бенчмарка для русского языка — Libra, в сотрудничестве с R&D
Читать на habr.com