Meta* предлагает новые масштабируемые слои памяти
По мере того как предприятия продолжают внедрять большие языковые модели (LLM) в различные приложения, одной из ключевых задач, с которыми они сталкиваются, является повышение фактических знаний моделей и уменьшение галлюцинаций. В новой статье исследователи из Meta AI предлагают «масштабируемые слои памяти», которые могут стать одним из нескольких возможных решений этой проблемы.
Масштабируемые слои памяти добавляют больше параметров в LLM, увеличивая их способность к обучению без необходимости дополнительных вычислительных ресурсов. Это полезно для приложений, где можно выделить дополнительную память для фактических знаний, но при этом требуется скорость вывода более легких моделей.
Традиционные языковые модели используют «плотные слои» для кодирования огромного количества информации в их параметрах. В плотных слоях все параметры используют свою полную емкость и в основном активируются одновременно во время вывода. Плотные слои могут изучать более сложные функции по мере их увеличения, но увеличение их размеров требует дополнительных вычислительных и энергетических ресурсов.
В отличие от этого, для простых фактических знаний намного более эффективными и интерпретируемыми были бы более простые слои с архитектурами ассоциативной памяти, напоминающими таблицы поиска. Именно этим занимаются памятные слои. Они используют простые разреженные активации и механизмы поиска по ключ-значение для кодирования и извлечения знаний. Разреженные слои занимают больше памяти, чем плотные слои, но одновременно используют только небольшую часть параметров, что делает их гораздо более вычислительно эффективными.
Слои памяти существуют уже несколько лет, но редко используются в современных архитектурах глубокого обучения. Они не оптимизированы
Читать на habr.com