Microsoft представила технологию Phi-4-mini-flash-reasoning, которая повышает пропускную способность токенов в 10 раз
Компания Microsoft представила Phi-4-mini-flash-reasoning — облегчённую модель искусственного интеллекта, созданную для сценариев с жёсткими ограничениями по вычислительным ресурсам, памяти или задержкам. Модель, разработанная для периферийных устройств и мобильных приложений, призвана обеспечить высокую эффективность логического вывода без требований к аппаратному обеспечению.
Phi-4-mini-flash-reasoning содержит 3,8 миллиарда параметров и основан на семействе Phi-4, представленном в декабре, с упором на математические рассуждения.
В основе новой модели лежит обновленная архитектура под названием SambaY, которая теперь включает блок стробированной памяти (GMU) и «дифференцированное внимание». Традиционные трансформаторы полагаются на комплексное внимание на каждом уровне, чтобы решить, какие части входного сигнала имеют наибольшее значение.
GMU упрощает этот процесс, заменяя сложные операции перекрёстного внимания простым поэлементным умножением текущего входного сигнала и состояния памяти из предыдущего слоя. Это позволяет модели динамически определять, на каких токенах следует сосредоточиться, без обычных вычислительных затрат.
SambaY сочетает в себе несколько механизмов внимания: один слой полного внимания создаёт кэш «ключ-значение», к которому могут обращаться последующие слои, а глобальные мультиплексоры заменяют примерно половину слоёв перекрёстного внимания, позволяя слоям обмениваться информацией с помощью облегчённых операций умножения. Такой подход сокращает как использование памяти, так и вычислительные требования. В типичных моделях объём данных, передаваемых между памятью и процессором, увеличивается по мере роста длины последовательности, но в SambaY этот показатель практически не меняется.
Эти архитектурные
Читать на habr.com