“Сбер” выпустил GigaChat 3.1 (702B и 10B): две мощные MoE-модели с лицензией MIT
“Сбер” выпустил крупное обновление семейства больших языковых моделей GigaChat, выложив новые версии GigaChat-3.1-Ultra (702B) и GigaChat-3.1-Lightning (10B) в открытый доступ. Модели доступны на Hugging Face и GitVerse под лицензией MIT – разработчики могут разворачивать их, адаптировать под корпоративные данные и использовать как основу для чат-ботов, ассистентов или отраслевых ИИ-сервисов.
Обновление стало самым масштабным с момента ноябрьского preview. В новых версиях полностью переработан этап постобучения, архитектура переведена с dense на MoE (mixture of experts), а ключевым качественным улучшением стала устойчивость генерации – модели значительно реже уходят в циклы, особенно в длинных диалогах.
Релиз планировался ещё на январь, но на этапе валидации выяснилось, что все три модели склонны к повторениям – от простых повторов одного слова до сложных циклов вроде:
“…Тропики. Обжигающее солнце. Пальмы. Пальмы. Пальмы. И жара, жара, жара. И океан, океан, океан…”
Чтобы измерить проблему, инженеры придумали собственную метрику на основе BPE-подобного сжатия хвоста генерации. Идея проста: если конец ответа состоит из повторяющихся фрагментов, он хорошо сжимается; если разнообразен – почти не сжимается. Метрика получила название BPE_CYCLES и позволила поднять порог обнаружения циклов с 75% до 90%.
Вместо посттренировочной квантизации (PTQ), которая сохраняла качество на бенчмарках, но приводила к проседанию на аренах, этап DPO полностью переведён в нативный FP8. Такой подход не только восстановил, но местами и превзошёл качество BF16, сократив потребление памяти вдвое. В связке с MTP (multi-token prediction) это даёт прирост скорости инференса до 38% по сравнению с моделью в BF16 – на H100 с concurrency=32 удалось достичь
Читать на habr.com