

GLM-5.1 собрала Linux-десктоп в браузере за 8 часов и взяла SOTA на SWE-Bench Pro
Китайская Z.ai выпустила подробный рассказ о GLM-5.1 — обновлении флагманской модели, которое заняло первое место на бенчмарке SWE-Bench Pro для сложных инженерных задач. Результат 58,4 балла оказался выше, чем у GPT-5.4 (57,7), Claude Opus 4.6 (57,3) и Gemini 3.1 Pro (54,2). Веса опубликованы на HuggingFace под лицензией MIT.
Главное в релизе — не сами цифры, а заявленная концепция. Команда Z.ai пишет, что предыдущие модели (включая GLM-5) быстро исчерпывают арсенал инструментов: применяют знакомые приемы в первых попытках, выходят на плато и больше не улучшаются, сколько времени им ни дай. GLM-5.1 проектировали так, чтобы она оставалась полезной на длинной дистанции — разбивала задачу на части, ставила эксперименты, читала результаты, находила узкие места и пересматривала стратегию через сотни итераций и тысячи вызовов инструментов.
Чтобы это показать, авторы прогнали модель через три сценария с разной степенью обратной связи. Самый зрелищный — задача собрать в браузере веб-приложение, имитирующее десктоп Linux, без стартового кода и макетов. В обычном прогоне модели обычно сдаются быстро: рисуют каркас с панелью задач и парой окон-заглушек и объявляют задачу выполненной. GLM-5.1 запустили в простой обвязке, которая после каждого круга заставляла модель пересматривать собственный результат и решать, что улучшить. Цикл крутился восемь часов, и к концу в браузере работал полноценный десктоп с файловым менеджером, терминалом, текстовым редактором, монитором системы, калькулятором и играми — все в едином визуальном стиле.
Второй кейс — открытый бенчмарк VectorDBBench, где модель должна реализовать поиск ближайших соседей по вектору на скелете кода на Rust. Лучший прежний результат за один сеанс из 50 ходов — 3547 запросов в
Читать на habr.com