Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга
В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче "собрать приложение с нуля" она показала 87,8%, обойдя GPT-5.5 от OpenAI (86,5%). Бенчмарк ведет команда из платформы вайб-кодинга Replit вместе с Georgian AI Lab и Университетом Карнеги — Меллона.
ViBench отличается от привычных тестов вроде SWE-bench тем, что измеряет не умение дописать код или починить баг, а способность агента собрать работающее приложение целиком — с базой данных, авторизацией и интерфейсом. Проверяет результат не набор юнит-тестов, а отдельный ИI-агент, который открывает готовое приложение в браузере и кликает по нему так, как это делал бы живой пользователь. Метрика Pass@1 показывает долю приложений, которые с первой попытки работают идеально, без единого бага и пропущенной функции. ViBench был представлен на конференции CAIS '26 и стал первым открытым бенчмарком такого рода.
В свежем прогоне Opus 4.8 и GPT-5.5 образуют отдельную лигу: между ними меньше двух процентных пунктов, а дальше идет резкий обрыв. Третье место с большим отставанием у GLM 5.1 (66,2%), за ним кучно расположились GPT-5.4 Mini, Gemini 3.5 Flash, Kimi K2.6 и DeepSeek V4 Pro — все в районе 60%. Замыкает список MiniMax M2.7 с 17,6%, но эта же модель оказалась в разы дешевле всех остальных: один прогон обходится в 14 центов против двух долларов у лидеров.
Важная оговорка: этот снапшот покрывает только задачу создания с нуля (Zero-to-One) и прогнан на расширенном наборе из 24 приложений, тогда как в исходной статье их было 15. Часть новых приложений авторы сами называли относительно простыми, а две другие задачи бенчмарка — доработка фич
Читать на habr.com
