«Вспомнить всё»: исследователи предложили архитектуру языковых моделей с большой памятью
9 февраля на arXiv была опубликована новая научная работа "LM2: Large Memory Models", в которой исследователи описали обновление классической архитектуры LLM на базе трансформеров. LM2 превосходит как модель RMT с дополненной памятью на 37.1%, так и базовую модель Llama-3.2 на 86,3% в среднем по задачам.
Исследователи из Convergence Labs представили Large Memory Model (LM2) – новую архитектуру языковых моделей, которая преодолевает ограничения традиционных трансформеров в обработке длинного контекста.
LM2 дополняет стандартный механизм внимания отдельным модулем памяти, который взаимодействует с входными данными, отбирает важную информацию и обновляется по мере работы модели.
Ключевое отличие LM2 – дополнительный поток памяти, который дополняет стандартный поток внимания в трансформерах. Этот механизм включает:
Кросс-аттеншен между модулем памяти и входными данными.
Гейты управления (запись, забывание и извлечение данных), позволяющие динамически обновлять хранимую информацию.
Разделение процессов обработки и хранения информации, что делает модель устойчивой к длинным контекстам.
Модель тестировалась на двух ключевых наборах данных:
BABILong – сложный бенчмарк для многоступенчатых рассуждений. LM2 показала прирост точности на 37,1% по сравнению с предыдущими архитектурами с улучшенной памятью.
MMLU – тест на общие знания. LM2 улучшила результаты на 5%, демонстрируя, что модуль памяти не мешает базовой работоспособности модели на универсальных задачах.
LM2 – очередной шаг вперед в развитии ИИ. Сейчас большое количество инвестиций идёт как раз в новые архитектуры - многие ожидают, что следующие грандиозные прорывы будут следствие не просто масштабирования (увеличения кол-ва параметров), а именно смены самой архитектурной парадигмы в
Читать на habr.com