OpenClaw на базе DeepSeek сам переписал свой код — и стал работать в 2,4 раза лучше
Китайские исследователи представили MOSS — систему, в которой ИИ-агент переписывает собственный исходный код, а не промпты или скиллы. На тестах с OpenClaw на базе DeepSeek V3.2 средний скор на четырех задачах вырос с 0.25 до 0.61 за одну итерацию без участия человека — при пороге прохода в 0.75.
Современных ИИ-агентов можно разделить на три уровня: сама модель, обвязка из кода вокруг нее (harness) и текстовые артефакты — промпты, скиллы, схемы памяти. Сейчас пользователь может дорабатывать только артефакты, что заметно ограничивает возможности ИИ-агента. Поменять веса модели сложно, поэтому авторы MOSS взялись за обвязку — роутинг сообщений, порядок срабатывания хуков, управление сессией, и т. д. Логика простая: если баг живет в коде, а не в тексте, никакая правка промпта до него не достанет. MOSS — первый, кто лезет именно туда.
Работает он так. Когда пользователь жалуется в чате на плохой ответ или фоновый сканер сам находит проблемные сессии, формируется батч провалов. Дальше запускается конвейер:
диагностика проблемы;
план фикса и его ревью;
написание кода и его ревью;
проверка результата;
финальный вердикт.
По итогам проверки редактирование кода делает внешний кодинг-агент — на выбор Claude Code, Codex, DeepSeek-TUI или OpenCode. Кандидата проверяют на временных контейнерах с тем же образом, что пойдет в продакшен. Если все нормально, агент сам сообщает пользователю в чате, что готов обновиться, и после согласия фоновый процесс выполняет обновление.
В контрольном тесте на четырех задачах из бенчмарка claweval (аудит SLA и проверка цепочек пополнения склада) базовый OpenClaw показывал скор 0.21–0.33 при пороге прохода 0.75. Агент сам нашел проблему: внутренний посредник, который собирает результаты нескольких инструментов,
Читать на habr.com