Code Arena: живой бенчмарк для ИИ-разработчиков вместо статических тестов
Code Arena — новый бенчмарк для ИИ, который пишет код как агент-разработчик: не один файл, а полноценные веб-приложения с итерациями, правками и деплоем в живом окружении.
Модели работают в изолированных сэндбоксах через структурированные tool calls (create_file, edit_file, read_file, run_command), всё логируется: промпты, изменения, рендер, снапшоты проекта. Сессии можно восстанавливать и шарить по ссылке.
Оценка строится не только на «прошёл тесты / не прошёл», а по трём осям: функциональность, удобство и соответствие задумке. Вывод делают люди в парных сравнениях, а результаты агрегируются с учётом доверительных интервалов, разброса и согласия между оценщиками.
Code Arena полностью перерабатывает старый WebDev Arena: новый лидерборд (WebDev V2) запускается с нуля, без смешивания данных, с упором на воспроизводимость, прозрачность и bias-аудиты при любых изменениях платформы.
В планах — поддержка многофайловых React-приложений, больших репозиториев и мультимодальных агентных сценариев, чтобы тестировать ИИ в условиях, максимально похожих на реальную работу команды разработки.
Индустрия ИИ уже доросла до момента, когда вопрос «может ли модель писать код?» звучит устаревше. Гораздо важнее другое: «насколько хорошо модель способна собрать реальное приложение от первой формулировки задачи до работающего интерфейса?»
Команда платформы Arena отвечает на этот вызов запуском Code Arena — новой системы оценки ИИ-моделей, которые пишут и правят код как агенты-разработчики, а не как генераторы одиночных функций.
Традиционная схема оценки выглядит просто: модели дают задачу, она выдаёт код, код компилируется и прогоняется через набор заранее подготовленных тестов. Если всё прошло — модель «молодец».
Но реальная разработка на это совсем не
Читать на habr.com