Кризис отменяется: Google изобрел квантовый алгоритм сокращения объема памяти для ИИ в 6 раз
Есть шанс, что дефицит памяти откладывается: Google Research представили TurboQuant — алгоритм сжатия, который сокращает объем памяти, необходимой для больших языковых моделей (LLM), одновременно повышая скорость и сохраняя точность и качество результатов.
TurboQuant направлен на уменьшение размера кэша «ключ-значение», который Google сравнивает с «цифровой шпаргалкой», хранящей важную информацию, чтобы не вычислять ее повторно. Эта шпаргалка необходима потому, что LLM на самом деле ничего не знают — они только удачно имитируют знания благодаря векторам, отражающим семантическое содержание токенизированного текста.
Когда два вектора похожи, это означает их концептуальную близость. Многомерные векторы, которые могут иметь сотни или тысячи вложений, описывают сложную информацию — например, пиксели изображения или большой массив данных. Они также занимают много памяти и раздувают кэш «ключ-значение», что становится узким местом для производительности.
Чтобы сделать модели менее ресурсоемкими, разработчики применяют техники квантования для работы с более низкой точностью. Недостаток в том, что результаты ухудшаются — качество оценки токенов снижается. По ранним результатам Google, TurboQuant обеспечивает 8-кратное повышение производительности и 6-кратное сокращение использования памяти в некоторых тестах без потери качества.
Применение TurboQuant к модели ИИ происходит в два этапа. Для достижения качественного сжатия Google разработал систему под названием PolarQuant. Обычно векторы в моделях ИИ кодируются с помощью стандартных координат XYZ, но PolarQuant преобразует их в полярные координаты в декартовой системе. На этой круговой сетке векторы сводятся к двум элементам: радиусу (сила основных данных) и направлению
Читать на itc.ua