Об этом же в других СМИ

habr.com / 4 недели назад

Внедрение вайб-кодинга вызвало раскол в инженерных командах

cursorinfo.co.il / 1 месяц назад

Тренер назвал лучшие упражнения для сжигания калорий

incrypted.com / 1 месяц назад

Wintermute назвала политику ФРС главным сдерживающим фактором для крипторынка

cursorinfo.co.il / 1 месяц назад

Самое опасное время года для сердца назвал кардиолог

cursorinfo.co.il / 1 месяц назад

Важнейшие черты для финансового успеха назвал нобелевский лауреат

Больше по теме

08.06.2026 - 10:41 / habr.com

Replit назвал Opus 4.8 лучшим ИИ для вайб-кодинга

В обновленном рейтинге ViBench — бенчмарке, который проверяет, насколько хорошо ИИ собирает приложения с нуля по текстовому описанию, — первое место заняла модель Opus 4.8 от Anthropic. В задаче "собрать приложение с нуля" она показала 87,8%, обойдя GPT-5.5 от OpenAI (86,5%). Бенчмарк ведет команда из платформы вайб-кодинга Replit вместе с Georgian AI Lab и Университетом Карнеги — Меллона.

ViBench отличается от привычных тестов вроде SWE-bench тем, что измеряет не умение дописать код или починить баг, а способность агента собрать работающее приложение целиком — с базой данных, авторизацией и интерфейсом. Проверяет результат не набор юнит-тестов, а отдельный ИI-агент, который открывает готовое приложение в браузере и кликает по нему так, как это делал бы живой пользователь. Метрика Pass@1 показывает долю приложений, которые с первой попытки работают идеально, без единого бага и пропущенной функции. ViBench был представлен на конференции CAIS '26 и стал первым открытым бенчмарком такого рода.

В свежем прогоне Opus 4.8 и GPT-5.5 образуют отдельную лигу: между ними меньше двух процентных пунктов, а дальше идет резкий обрыв. Третье место с большим отставанием у GLM 5.1 (66,2%), за ним кучно расположились GPT-5.4 Mini, Gemini 3.5 Flash, Kimi K2.6 и DeepSeek V4 Pro — все в районе 60%. Замыкает список MiniMax M2.7 с 17,6%, но эта же модель оказалась в разы дешевле всех остальных: один прогон обходится в 14 центов против двух долларов у лидеров.

Важная оговорка: этот снапшот покрывает только задачу создания с нуля (Zero-to-One) и прогнан на расширенном наборе из 24 приложений, тогда как в исходной статье их было 15. Часть новых приложений авторы сами называли относительно простыми, а две другие задачи бенчмарка — доработка фич

технологии конференция самит доллар gemini runawayllm Грузия

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Лучший чай для снятия воспаления в организме назвал диетолог cursorinfo.co.il / 1 месяц назад

Сливочное масло против оливкового – что лучше для готовки и сердца cursorinfo.co.il / 1 месяц назад

Самый полезный фрукт для людей в возрасте назвал врач cursorinfo.co.il / 1 месяц назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 15:56

Anthropic выпустила Opus 5: почти флагманская мощность за полцены

В индустрии искусственного интеллекта недели считаются за годы, а кварталы — за столетия. Не успели пользователи привыкнуть к майскому релизу модели Opus 4.8, как компания Anthropic представила Opus 5. Это «золотая середина» для тех, кто хочет производительности уровня флагманской Fable 5, но не желает переплачивать за избыточную автономность.

25.07 / 15:37

ученые NASA Луна экспедиция космос На Луне таится серьезная опасность для астронавтов - исследование

Экипажи NASA указали на проблему, которая может возникнуть, когда будет отправлена следующая миссия к Луне.

25.07 / 15:15

животные здоровье общество психология собака Тайны поведения собак – 17 заблуждений назвал эксперт

Многие владельцы ошибочно приписывают собакам человеческие эмоции. Современная наука помогает взглянуть на поведение питомцев совершенно по-новому.

25.07 / 15:15

продукты технологии Apple общество самит Новый MacBook Neo станет заметно быстрее: Apple готовит серьезное обновление доступного ноутбука

Ожидается, что MacBook Neo 2 выйдет только в 2027 году, однако первые подробности уже позволяют понять, каким станет следующее поколение бюджетного ноутбука Apple.

25.07 / 15:15

технологии смартфон интернет общество самит Не только для зарядки: 4 способа использовать USB-порт на роутере

USB-порт на роутере позволяет легко превратить обычную флешку в бесплатное домашнее облачное хранилище.

25.07 / 15:15

технологии хакеры смартфон техника гаджет Хакеры могут взломать смартфон из-за ошибки владельцев - эксперты

Смартфоны часто подвергаются атакам хакеров, которые пытаются похитить данные пользователей.

25.07 / 15:02

Samsung технологии семья политика отпуск Samsung One UI 9: 13 ошибок и ваш смартфон превращается в «кирпич»

Samsung готовит для пользователей One UI 9 настоящий цифровой стоицизм. Компания решила радикально подойти к вопросу безопасности и защиты от грубого перебора паролей (brute-force). Теперь попытка угадать PIN-код превратится в игру в «сапера», где в конце вас будет ждать не просто надпись «попробуйте позже», а полная очистка памяти устройства.

25.07 / 14:48

технологии смартфон общество мобильный телефон лайфхак Ошибка может дорого стоить: где нельзя оставлять смартфон

Привычка класть телефон в первое попавшееся место кажется безобидной, но именно она часто становится причиной перегрева, износа аккумулятора и дорогостоящего ремонта. Приобретая защитные чехлы и стекла, многие забывают о банальных условиях эксплуатации.

25.07 / 14:31

SpaceX Nvidia семья самит инвестор Сектор токенизированных акций в Robinhood Chain вырос почти в семь раз с момента запуска сети

Сектор RWA в сети Robinhood Chain продолжает стремительно расти после запуска мейннета в начале июля 2026 года. По данным DefiLlama, по состоянию на 25 июля активная рыночная капитализация токенизированных активов достигла $72,68 млн, что почти в семь раз больше, чем $10,34 млн 2 июля. Основным драйвером стали токенизированные акции американских компаний, которые постепенно набирают популярность среди пользователей сети. Токенизированные акции: альтернатива брокерам или красивая иллюзия? 22.07.2025 Читать Токенизированные акции стали драй

25.07 / 14:15

АЭС роды электроэнергия энергетика звезда Техас разрешил «зажечь» звезду: термоядерный реактор Texatron выходит на испытания

Пока мир осторожно наблюдает за прогрессом больших государственных проектов, частный сектор в Техасе решил, что хватит ждать милости от природы или бюджетных комитетов. Компания American Fusion сделала важный шаг к реализации своей амбициозной цели — создания коммерчески выгодной термоядерной энергетики. Департамент здравоохранения штата Техас (DSHS) официально выдал разрешение на проведение исследований и испытаний экспериментальной установки Texatron Fusion Engine.

Лента новостей

На главную страницу