GLM-5.1: Z.ai представила открытую модель для длинных агентных задач и сложной разработки кода
Z.ai представила GLM-5.1 — новое флагманское поколение своей модели для агентной разработки. По заявлению компании, модель заметно прибавила именно в задачах программирования по сравнению с предыдущей версией.
Судя по опубликованным результатам, GLM-5.1 показывает лучший на текущий момент результат на SWE-Bench Pro, а также с большим отрывом опережает GLM-5 на NL2Repo, где оценивается генерация репозиториев, и на Terminal-Bench 2.0, который проверяет работу модели в реальных терминальных сценариях.
Разработчики делают акцент не только на качестве первого ответа, но и на работе модели вдолгую. По их словам, многие предыдущие модели, включая GLM-5, быстро упираются в потолок: сначала дают быстрый прирост, а затем почти перестают улучшать результат, даже если дать им больше времени.
GLM-5.1, как утверждает Z.ai, лучше приспособлена к длинным агентным сценариям. Модель дольше сохраняет продуктивность в многошаговых задачах: разбивает проблему на части, проводит эксперименты, анализирует результаты, находит ограничения и корректирует стратегию по ходу работы. За счет этого она может улучшать решение на протяжении сотен итераций и тысяч вызовов инструментов.
Этот подход компания показывает на трех типах задач: оптимизации векторного поиска с одной числовой метрикой, бенчмарке GPU-ядер с измеряемым ускорением и открытой задаче по созданию веб-приложения, где модель сама определяет, что именно стоит улучшать дальше.
В первом сценарии разработчики взяли VectorDBBench — открытый бенчмарк, где модели нужно по заготовке на Rust собрать производительную векторную базу для приближенного поиска ближайших соседей. В стандартной версии теста на чтение и правку файлов, сборку, тесты и профилирование дается 50 вызовов инструментов, а итог
Читать на habr.com