



GLM-4.7 Flash. Локальная модель, которая реально тянет уровень флагманов
ZAI выпустили GLM-4.7 Flash, облегченную версию флагмана GLM-4.7. Это модель на 30 млрд параметров с контекстом 128K и архитектурой MoE, ориентированная на локальный запуск без серверных бюджетов уровня бигтеха.
Идея проста. Закрыть разрыв между компактными SLM и проприетарными монстрами. Flash должна дать разработчикам SOTA-уровень в кодинге и агентных сценариях, оставаясь при этом доступной для локальной инфраструктуры.
Архитектура MoE делает модель обманчиво легкой. Формально 30B, но активных параметров на токен значительно меньше. В сообществе говорят примерно о 3 млрд. Это означает, что по реальной вычислительной нагрузке она ближе к средним моделям, сохраняя при этом ширину мышления старших решений.
Одна из ключевых фичей это Interleaved Thinking. В отличие от привычного подхода, где модель вываливает весь chain-of-thought в начале, здесь размышление происходит перед каждым вызовом инструмента. Для агентных систем это критично. Модель может планировать шаг за шагом, корректируя стратегию по ходу работы, а не идти по заранее зашитому сценарию.
ZAI отдельно акцентируют внимание на файнтюне под эстетику и DevOps. Модель училась не просто генерировать валидный HTML и CSS, а писать код с адекватной структурой, отступами и современными паттернами. Ее подтянули под работу с CLI, навигацию по файловой системе и понимание прав доступа. Это делает ее пригодной для реальных инженерных задач, а не только для демо.
Бенчмарки выглядят впечатляюще. В SWE-bench Verified модель набирает 59.2 процента. Для сравнения, Qwen3-30B-A3B показывает 22.0, а GPT-OSS-20B около 34.0. В математическом AIME 25 результат 91.6 процента, что также выше ближайших конкурентов. На BrowseComp Flash обходит GPT-OSS-20B почти в полтора раза.
На практике это
Читать на habr.com
