



Выпущен бенчмарк FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов»
Компания Cognition выпустила новый бенчмарк FrontierCode для измерения «способности ИИ-моделей выдерживать стандарты качества реальных кодовых баз». По словам его создателей, обычно кодинговые бенчмарки для LLM оценивают лишь формальное выполнение задач, а теперь пора задаваться более сложным вопросом: «могут ли модели писать хороший код?»
Для оценки этого они оттолкнулись от другого вопроса: «Если бы выполнение тестовой задачи было реальным пулл-реквестом от модели, то смерджил бы мейнтейнер его или нет?»
Как признают авторы, здесь существуют как объективные критерии (возможно выделить «блокеры», с которыми точно не будет смерджен), так и более сложная субъективная составляющая. Для создания тестовых заданий и критериев оценки они обратились к мейнтейнерам ряда реальных репозиториев.
Получилась система оценки результатов по ряду критериев:
Behavioural correctness: решает ли код от машины поставленную задачу?
Regression safety: не ломает ли он при этом что-то другое в кодовой базе?
Mechanical cleanliness: проходит ли он проверки проекта вроде lint check?
Test correctness: будут ли тесты, созданные LLM для проверки своего решения, падать без него?
Scope: затрагивает ли решение «лишние» места в коде, не требующиеся для этой задачи?
Code quality: соответствует ли решение конвенциям кодовой базы, следует ли паттернам проектирования, остаётся ли читабельным?
Там, где для оценки возможно использовать стандартные детерминированные средства вроде юнит-тестов, бенчмарк обращается к ним. Но в более сложных вопросах (вроде идиоматичности и читаемости кода) для оценки прибегает к LLM.
Всего в бенчмарке 150 задач, и 50 наиболее сложных из них выделены в отдельную подгруппу «Diamond». При выходе бенчмарка даже лидирующая в нём модель Opus 4.8
Читать на habr.com
