Об этом же в других СМИ

habr.com / 4 недели назад

OpenRouter Fusion обошел GPT-5.5 и Opus 4.8 — за счет совещания моделей

habr.com / 1 месяц назад

Лучший ИИ-агент, который не слушается: Claude Fable 5 возглавил новый бенчмарк Agent Arena

habr.com / 1 месяц назад

Google выпустила DiffusionGemma — открытую языковую модель, которая генерирует текст как картинку

habr.com / 1 месяц назад

Вышел SWE-Marathon: бенчмарк, где агенты часами пишут код — и почти никто не доходит до финиша

habr.com / 1 месяц назад

Microsoft хотела сделать людей «зависимыми» от ИИ-агента Scout — а CEO отрекся от стратегии своих вице-президентов

Больше по теме

29.05.2026 - 09:32 / habr.com

«Opus 4.7 подсматривает ответы!»: Datacurve раскритиковала бенчмарк SWE-Bench Pro — и выпустила свой

Claude Opus 4.6 и 4.7 в более чем 12% прогонов на главном агентном бенчмарке кодинга SWE-Bench Pro считывали правильный ответ напрямую из git-истории, лежащей в Docker-контейнере с задачей. GPT-5.4 и 5.5 такого ни разу не делали, Gemini — около 1%. Установила это Datacurve — компания, который продает данные для дообучения моделей и сегодня выкатила собственный бенчмарк кодинг-агентов DeepSWE.

Логика проверки была такая. Команда взяла случайные задачи из обоих бенчмарков и прогнала их через девять популярных моделей. Затем LLM-судья в чистом сэндбоксе сверял патч агента с эталонным решением. Из 38 случаев читерства у Opus 33 содержали команды вида git log --all или git show <gold-hash>, после которых эталонный патч копировался в решение. Авторы формулируют дипломатично: контейнер делает это возможным, но именно Claude — единственное семейство, которое стабильно этой возможностью пользуется.

Главный результат аудита: верификатор SWE-Bench Pro разошелся с независимым судьей на 32% решений. Поэтому команда и предложила DeepSWE — в нем подобная проблема наблюдается только в 1,4% решений. В наборе 113 задач из 91 активного open-source-репозитория. Каждая написана с нуля, а не адаптирована из реального пул-реквеста. Верификаторы проверяют наблюдаемое поведение, а не конкретные имена символов. Контейнер — shallow clone без эталонного коммита: подсмотреть негде.

Результаты переставили лидерборд. GPT-5.5 — 70%, GPT-5.4 — 56%, Opus 4.7 — 54%. Разрыв между моделями вырос с 30 пунктов на SWE-Bench Pro до 70 на DeepSWE. Claude Haiku 4.5, у которого 39% на SWE-Bench Pro, на DeepSWE обвалился до нуля — авторы намекают, что средние модели могли существенно перевыполнять на более простых и загрязненных бенчмарках.

Слабые места Datacurve

экономика закон самит доллар gemini runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга habr.com / 1 месяц назад

Opus 4.8 поставил рекорд в сложнейшем ИИ-бенчмарке. Результат — 1,4% habr.com / 1 месяц назад

NVIDIA представила Nemotron 3 Ultra: открытая 550B-модель, до 5 раз быстрее в своем классе habr.com / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 22:38

технологии экономика общество В последнее время многие современные ноутбуки стали выходить без HDMI-порта

Производители ноутбуков стали чаще исключать порты HDMI из-за желания уменьшить размеры лэптопа и расширения возможностей USB-C, пишет журнал SlashGear.

16.07 / 21:57

Sony Разработчикам эмулятора KytyPS5 удалось запустить GTA V, Quake II и другие трёхмерные игры

Разработчики эмулятора PlayStation 5 KytyPS5 выпустили обновление, в котором им впервые удалось запустить GTA V, QuakeII и другие трёхмерные игры. Проекты запускаются с разной производительностью, но разработчики считают, что сейчас важно добиться максимальной совместимости.

16.07 / 20:25

технологии происшествия Apple вирус самит На Mac обнаружили опасный вирус CrashStealer, который маскируется под системную утилиту Apple

Специалисты Jamf Threat Labs обнаружили новое вредоносное ПО для macOS под названием CrashStealer, которое выдает себя за встроенную систему отправки отчетов об ошибках Apple. По данным исследователей, вирус способен незаметно похищать конфиденциальную информацию пользователя, включая пароли, данные браузеров и криптовалютных кошельков.

16.07 / 19:57

здоровье общество депрессия лечение антидепрессанты Какие лекарства нельзя принимать на ночь - предупреждение медиков

Некоторые препараты могут слабо проявлять свое действие. если пить их на ночь, а некоторые и вовсе нанести вред здоровью.

16.07 / 19:57

связь здоровье алкоголь общество болезнь Какое количество алкоголя резко увеличивает риск болезней

Безопасной дозы спиртного не существует, говорят врачи, но есть смертельно опасная доза.

16.07 / 19:48

технологии Яндекс Telegram общество политика «Солар»: злоумышленники используют спрос на инструменты для обхода блокировок Telegram

С февраля 2026 года Роскомнадзор ограничивает работу мессенджера Telegram на территории России. Пользователи пытаются обойти ограничения и ищут доступные способы на просторах интернета. Этим начали пользоваться злоумышленники. Эксперты центра исследования киберугроз Solar 4RAYS ГК «Солар», ведущего провайдера комплексной кибербезопасности в России, обнаружили в топе поисковой выдачи вредоносные клоны популярных прокси-сервисов. Причем размещены они как на официальной платформе для хостинга ИТ-проектов GitHub, так и на ее зеркалах.

16.07 / 19:48

продукты технологии происшествия политика вирус Гарда повысила уровень защиты веб-приложений и ускорила обработку запросов

Мы выпустили новую версию межсетевого экрана уровня приложений «Гарда WAF» 3.2.

16.07 / 19:26

Samsung технологии Qualcomm Pink Складные смартфоны Почти без изменений, но дороже: инсайдер раскрыл характеристики, цены и цвета складного Samsung Galaxy Z Flip 8

Авторитетный немецкий инсайдер Роланд Квандт (Roland Quandt) продолжает сливать подробности складных флагманов Samsung. Он уже раскрыл все характеристики Galaxy Z Fold 8 и Galaxy Z Fold 8 Ultra и поделился информацией о Galaxy Z Flip 8, который, по слухам, может стать последним смартфоном этой серии.

16.07 / 19:26

продукты история прогноз Шоу бизнес Take-Two GTA VI может принести разработчикам до $5,2 млрд за первую неделю после релиза — аналитики поделились новым прогнозом

Информация портала APP. о том, что за первые сутки после старта предзаказов GTA VI было продано 39 млн копий, оказалась ими неправильно интерпретирована и обозначала ожидаемые показатели за первый год. Теперь же аналитическое агентство Newzoo поделилось собственным прогнозом, который выглядит вполне реалистично, хотя цифры выглядят не менее впечатляюще.

16.07 / 19:03

люди здоровье дети общество климат Сколько воды нужно пить для здоровья сердца и суставов

Достаточное потребление воды может значительно снизить риск сердечно-сосудистых заболеваний и проблем с суставами, утверждают врачи.

Лента новостей

На главную страницу