Microsoft представила встроенную в Windows 11 локальную языковую модель Mu
Microsoft презентовала малую языковую модель Mu, которая встроена в Windows 11 и будет работать локально. Эта модель обеспечивает работу агента в настройках, доступного для инсайдеров Windows в Dev Channel с ПК Copilot+, путём сопоставления запросов ввода на естественном языке с вызовами функций настроек.
Нейронный процессор (NPU) отвечает со скоростью более 100 токенов в секунду. При разработке Mu использовали данные работы на NPU Phi Silica.
Модель разработана с нуля. Это языковая модель кодера-декодера 330M, оптимизированная для мелкомасштабного развёртывания, особенно на NPU на ПК Copilot+. Она следует архитектуре преобразователя кодера-декодера, то есть кодер сначала преобразует вход в скрытое представление фиксированной длины, а затем декодер генерирует выходные токены на основе этого представления. На практике это приводит к снижению задержки и повышению пропускной способности на специализированном оборудовании. Например, на Qualcomm Hexagon NPU применение Mu позволила достичь снижения задержки на 47% и в 4,7 раза более высокой скорости декодирования по сравнению с моделью с одним только декодером аналогичного размера.
Конструкция Mu была тщательно настроена для ограничений и возможностей NPU. Это касается архитектуры модели и форм параметров. Размеры слоев модели соответствуют предпочтительным размерам тензора NPU и единицам векторизации, гарантируя, что умножение матриц и другие операции будут выполняться с максимальной эффективностью. Распределение параметров между кодером и декодером тоже оптимизировали — эмпирически отдав предпочтение разделению 2/3–1/3 (например, 32 слоя кодера против 12 слоев декодера в одной конфигурации).
Mu использует распределение веса в определённых компонентах для сокращения общего
Читать на habr.com