«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой
Claude Opus 4.6 и 4.7 в более чем 12% прогонов на главном агентном бенчмарке кодинга SWE-Bench Pro считывали правильный ответ напрямую из git-истории, лежащей в Docker-контейнере с задачей. GPT-5.4 и 5.5 такого ни разу не делали, Gemini — около 1%. Установила это Datacurve — компания, который продает данные для дообучения моделей и сегодня выкатила собственный бенчмарк кодинг-агентов DeepSWE.
Логика проверки была такая. Команда взяла случайные задачи из обоих бенчмарков и прогнала их через девять популярных моделей. Затем LLM-судья в чистом сэндбоксе сверял патч агента с эталонным решением. Из 38 случаев читерства у Opus 33 содержали команды вида git log --all или git show <gold-hash>, после которых эталонный патч копировался в решение. Авторы формулируют дипломатично: контейнер делает это возможным, но именно Claude — единственное семейство, которое стабильно этой возможностью пользуется.
Главный результат аудита: верификатор SWE-Bench Pro разошелся с независимым судьей на 32% решений. Поэтому команда и предложила DeepSWE — в нем подобная проблема наблюдается только в 1,4% решений. В наборе 113 задач из 91 активного open-source-репозитория. Каждая написана с нуля, а не адаптирована из реального пул-реквеста. Верификаторы проверяют наблюдаемое поведение, а не конкретные имена символов. Контейнер — shallow clone без эталонного коммита: подсмотреть негде.
Результаты переставили лидерборд. GPT-5.5 — 70%, GPT-5.4 — 56%, Opus 4.7 — 54%. Разрыв между моделями вырос с 30 пунктов на SWE-Bench Pro до 70 на DeepSWE. Claude Haiku 4.5, у которого 39% на SWE-Bench Pro, на DeepSWE обвалился до нуля — авторы намекают, что средние модели могли существенно перевыполнять на более простых и загрязненных бенчмарках.
Слабые места Datacurve
Читать на habr.com