Об этом же в других СМИ

habr.com / 7 месяцев назад

Новая модель DeepSeek V3.2 уже доступна бесплатно в Koda для VS Code и CLI

habr.com / 7 месяцев назад

Внутреннее исследование Anthropic: рост output, падение deep-skills и новая роль разработчика

habr.com / 7 месяцев назад

Разработчик выпустил Storm Search — плагин для VS Code с улучшенным глобальным поиском по кодовой базе

habr.com / 7 месяцев назад

Anthropic купила разработчика открытого движка Bun

habr.com / 7 месяцев назад

Anthropic покупает Bun, а Claude Code достигает годовой выручки в $1 млрд

Больше по теме

18.11.2025 - 07:46 / habr.com

Code Arena: живой бенчмарк для ИИ-разработчиков вместо статических тестов

Code Arena — новый бенчмарк для ИИ, который пишет код как агент-разработчик: не один файл, а полноценные веб-приложения с итерациями, правками и деплоем в живом окружении.

Модели работают в изолированных сэндбоксах через структурированные tool calls (create_file, edit_file, read_file, run_command), всё логируется: промпты, изменения, рендер, снапшоты проекта. Сессии можно восстанавливать и шарить по ссылке.

Оценка строится не только на «прошёл тесты / не прошёл», а по трём осям: функциональность, удобство и соответствие задумке. Вывод делают люди в парных сравнениях, а результаты агрегируются с учётом доверительных интервалов, разброса и согласия между оценщиками.

Code Arena полностью перерабатывает старый WebDev Arena: новый лидерборд (WebDev V2) запускается с нуля, без смешивания данных, с упором на воспроизводимость, прозрачность и bias-аудиты при любых изменениях платформы.

В планах — поддержка многофайловых React-приложений, больших репозиториев и мультимодальных агентных сценариев, чтобы тестировать ИИ в условиях, максимально похожих на реальную работу команды разработки.

Индустрия ИИ уже доросла до момента, когда вопрос «может ли модель писать код?» звучит устаревше. Гораздо важнее другое: «насколько хорошо модель способна собрать реальное приложение от первой формулировки задачи до работающего интерфейса?»

Команда платформы Arena отвечает на этот вызов запуском Code Arena — новой системы оценки ИИ-моделей, которые пишут и правят код как агенты-разработчики, а не как генераторы одиночных функций.

Традиционная схема оценки выглядит просто: модели дают задачу, она выдаёт код, код компилируется и прогоняется через набор заранее подготовленных тестов. Если всё прошло — модель «молодец».

Но реальная разработка на это совсем не

технологии люди закон общество аномалия

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

CTO fwdays'25: ключевые инсайты от SharksCode об AI, порядке в микросервисной архитектуре и прочем itc.ua / 7 месяцев назад

Начался Advent of Code 2025 — адвент-календарь с задачами по программированию habr.com / 7 месяцев назад

«ИИ – черный ящик». Директор AI Office Европейской комиссии – о конкуренции ЕС с США и Китаем, регулировании ИИ и возможностях для украинских разработчиков. Интервью forbes.ua / 7 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 02:27

продукты здоровье Здоровье и красота питание кулинария Ужин, который остановит старение, назвали эксперты

Полезный ужин может быть еще и очень вкусным, говорят специалисты и рассказывают, что нужно есть для молодости и хорошего самочувствия.

15.07 / 01:22

люди ученые наука история общество Археологи обнаружили пещеру с доисторическими рисунками (ФОТО)

Международная группа исследователей совершила крупное открытие на востоке страны. На стенах скрытого грота ученые нашли около сотни древних фигур.

15.07 / 00:31

медицина люди общество лечение медики Война с прыщами: 5 ошибок, которые навсегда испортят вашу кожу

Специалист объяснила, почему попытки пересушить кожу агрессивными средствами приводят к обратному эффекту и вызывают тяжелые воспаления.

14.07 / 23:23

общество семья отдых человек врачи Привычки, которые незаметно разрушают сердце, назвали врачи

Обычные действия, которые многие считают безобидными, способны со временем серьезно навредить сердцу.

14.07 / 23:23

животные общество природа самит биологи Кашалоты общаются с помощью двух разных диалектов

Крупные морские биологи опубликовали отчет об акустических исследованиях в Европе. Ученые выявили четкие различия в сигналах млекопитающих.

14.07 / 22:14

технологии Apple прогноз журналист предприятия Поставщики Apple завершили подготовку к производству iPhone 20

В новой публикации инсайдер сообщил, что для юбилейной модели Apple выбрала концепцию «возвращения к стеклу». По его словам, качество изготовления устройства должно соответствовать уровню первого поколения iPhone Air.

14.07 / 22:06

продукты медицина люди здоровье общество Почему эксперты просят избегать солнцезащитных спреев

Эксперты выяснили, что популярные аэрозоли могут вредить здоровью. Узнайте, какие три опасных компонента не должны быть указаны на упаковке вашей косметики.

14.07 / 21:13

происшествия люди общество самит животный мир Живут в каждом доме: действительно ли пауки-сенокосцы смертельно ядовиты

Пауки-сенокосцы встречаются по всему миру, населяя разнообразные среды и в частности жилища людей. Они имеют длинные, тонкие лапки, благодаря которым они кажутся намного больше, чем есть на самом деле. Однако с их ядом не все так просто.

14.07 / 19:45

люди ученые общество самит психология Почему прошлое кажется лучше настоящего - ответ ученых

Особенности человеческой памяти заставляют многих воспринимать прошлое более счастливым, чем оно было на самом деле.

14.07 / 19:45

здоровье продукты питания общество семья Здоровье и красота Дешевле и полезнее лосося – ученые назвали неожиданный суперфуд

Врачи рекомендуют сочетать разные источники ценных жиров. Ореховая добавка не должна полностью вытеснять рыбу из меню.

Лента новостей

На главную страницу