

Новая методика оптимизации LLM сокращает затраты памяти до 75%
Исследователи токийского стартапа Sakana AI разработали новую технологию, которая позволяет языковым моделям более эффективно использовать память. Это позволит предприятиям сократить расходы на создание приложений на основе больших языковых моделей (LLM) и других моделей на основе Transformer.
Метод называется « универсальной памятью трансформеров». Он использует специальные нейронные сети для оптимизации LLM с целью сохранения важных фрагментов информации и исключения избыточных деталей из контекста.
Ответы моделей Transformer, основы LLM, зависят от содержимого их «контекстного окна », то есть того, что они получают в качестве входных данных от пользователей.
Окно контекста можно считать рабочей памятью модели. Тонкая настройка содержимого контекстного окна может оказать огромное влияние на производительность модели. Это привело к появлению целой области «инженерия подсказок».
Текущие модели поддерживают очень длинные контекстные окна с сотнями тысяч или даже миллионами токенов (числовых представлений слов, частей слов, фраз, понятий и чисел, вводимых пользователями в своих подсказках).
Это позволяет пользователям втиснуть больше информации в свои подсказки. Однако более длинные подсказки могут привести к более высоким вычислительным затратам и к снижению производительности. Оптимизация подсказок для удаления ненужных токенов при сохранении важной информации может снизить затраты и увеличить скорость.
Современные методы оптимизации подсказок требуют больших ресурсов или вынуждают пользователей вручную тестировать различные конфигурации, чтобы уменьшить размер подсказок.
Универсальная память трансформеров оптимизирует подсказки с помощью модели памяти с нейронным внимание (NAMM), простых нейронных сетей, которые решают,
Читать на habr.com