Об этом же в других СМИ

habr.com / 2 недели назад

Представлен открытый проект Eternal для запуска Linux на виртуальной машине для долговременного хранения ПО (тысячи лет)

habr.com / 2 недели назад

Apple выпустила CLI и Python SDK для локальных ML-моделей из Foundation Models

habr.com / 2 недели назад

Вышел VidCoder 12.20 — открытый проект для копирования DVD/Blu-ray и перекодирования видео для ПК на Windows

habr.com / 2 недели назад

Fable 5 стала первой в бенчмарке по кодингу DeepSWE. Всего на 3% лучше GPT-5.5 за вдвое большую цену

habr.com / 2 недели назад

Alibaba представила Qwen-Robot Suite — набор AI-моделей для роботов и физических агентов

Больше по теме

13.06.2026 - 06:56 / habr.com

Выпущен бенчмарк FrontierCode для оценки ИИ-моделей по «качеству пулл-реквестов»

Компания Cognition выпустила новый бенчмарк FrontierCode для измерения «способности ИИ-моделей выдерживать стандарты качества реальных кодовых баз». По словам его создателей, обычно кодинговые бенчмарки для LLM оценивают лишь формальное выполнение задач, а теперь пора задаваться более сложным вопросом: «могут ли модели писать хороший код?»

Для оценки этого они оттолкнулись от другого вопроса: «Если бы выполнение тестовой задачи было реальным пулл-реквестом от модели, то смерджил бы мейнтейнер его или нет?»

Как признают авторы, здесь существуют как объективные критерии (возможно выделить «блокеры», с которыми точно не будет смерджен), так и более сложная субъективная составляющая. Для создания тестовых заданий и критериев оценки они обратились к мейнтейнерам ряда реальных репозиториев.

Получилась система оценки результатов по ряду критериев:

Behavioural correctness: решает ли код от машины поставленную задачу?

Regression safety: не ломает ли он при этом что-то другое в кодовой базе?

Mechanical cleanliness: проходит ли он проверки проекта вроде lint check?

Test correctness: будут ли тесты, созданные LLM для проверки своего решения, падать без него?

Scope: затрагивает ли решение «лишние» места в коде, не требующиеся для этой задачи?

Code quality: соответствует ли решение конвенциям кодовой базы, следует ли паттернам проектирования, остаётся ли читабельным?

Там, где для оценки возможно использовать стандартные детерминированные средства вроде юнит-тестов, бенчмарк обращается к ним. Но в более сложных вопросах (вроде идиоматичности и читаемости кода) для оценки прибегает к LLM.

Всего в бенчмарке 150 задач, и 50 наиболее сложных из них выделены в отдельную подгруппу «Diamond». При выходе бенчмарка даже лидирующая в нём модель Opus 4.8

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Вышел AnyDesk 9.7.6 для Windows, AnyDesk 9.7.1 для macOS и AnyDesk 8.2.0 для iOS habr.com / 2 недели назад

ИИ проваливает почти 65% реальных научных задач — отрезвляющие результаты бенчмарка OpenAI LifeSciBench habr.com / 2 недели назад

Местами лучше Claude Fable 5: открытая GLM-5.2 показала сильные результаты в бенчмарках habr.com / 2 недели назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

09.07 / 11:39

экономика общество экспедиция космос человек Что происходит с мозгом человека в космосе - исследование

Ученые обнаружили изменения, которые могут стать серьезным вызовом для полетов на Луну и Марс.

09.07 / 11:23

Apple СМИ закон политика рубль В РФ вступил в силу закон о штрафах за авторизацию через иностранные сервисы

7 июля 2026 года в России вступил в силу закон (Федеральный закон от 26.06.2026 № 199-ФЗ «О внесении изменений в Кодекс Российской Федерации об административных правонарушениях») о запрете авторизации на сайтах и приложениях через Google, Apple ID и другие иностранные сервисы. С этого момента российские компании обязаны использовать только отечественные инструменты для входа новых пользователей на свои ресурсы. За неисполнение требований для компаний предусмотрены штрафы.

09.07 / 11:23

курс Selectel открыл бесплатный курс «Искусственный интеллект для бизнеса»

Вы узнаете, как безопасно внедрять ИИ в процессы и извлекать из этого прибыль. Курс пригодится всем, кто только начинает работать с ИИ или хочет использовать его эффективнее.

09.07 / 11:23

LG конференция общество LG выяснила, насколько 480 Гц помогают побеждать в играх: разница с 60 Гц оказалась неожиданно большой

Компания LG Display опубликовала результаты исследования, посвящённого влиянию частоты обновления игровых мониторов на реальные результаты игроков. Эксперимент показал, что переход с 60 Гц на 480 Гц способен заметно улучшить игровые показатели, включая скорость реакции и точность стрельбы.

09.07 / 11:23

технологии Xiaomi Corning 9000 мАч, 3500 нит и не боится ударов дуриана: раскрыты новые подробности об аккумуляторе и дисплее Redmi Note 17 Pro

Компания Redmi раскрыла официальные подробности о характеристиках аккумулятора, зарядки и дисплея смартфона Redmi Note 17 Pro перед его презентацией в Китае, запланированной на 14 июля.

09.07 / 11:11

Samsung технологии экономика общество доллар Samsung открыла предварительную регистрацию на Galaxy Z Fold8 и Z Flip8

В этом году компания предлагает более скромные бонусы по сравнению с прошлогодней кампанией. Покупатели, оставившие предварительную заявку, получат кредит на 30 долларов, который можно использовать для покупки аксессуаров и других товаров в официальном магазине Samsung.

09.07 / 11:09

экономика общество банк google anz Swift объявила о готовности блокчейн-реестра к запуску

Платежная сеть Swift объявила о готовности своего блокчейн-реестра к первичному использованию. В рамках пилотного проекта 17 банков с шести континентов протестируют трансграничные платежи с использованием токенизированных депозитов. В Swift заявили, что новый блокчейн-реестр позволит финансовым учреждениям осуществлять круглосуточные трансграничные платежи с помощью токенизированных депозитов. Общий реестр обеспечивает банкам безопасный уровень координации для токенизированных депозитов, выпущенных в собственных реестрах. Это позволяет проводить переводы для клиентов, в том числе

09.07 / 11:06

общество MAGNIT TECH запускает два трека магистратуры – по бэкенд-разработке в Москве и аналитике данных в Краснодаре

MAGNIT TECH открыл набор на два партнерских трека магистратуры – совместно с Центральным университетом (Москва) и Кубанским государственным университетом (Краснодар).

09.07 / 11:06

бизнес продукты изоляция Виртуализация zVirt 5.0 показала отсутствие уязвимостей по результатам очередного этапа grey-box тестирования CICADA8

Orion soft представил результаты очередного этапа анализа защищенности платформы виртуализации zVirt. Проверку версии zVirt 5.0 проводили специалисты CICADA8 в рамках программы регулярного тестирования продуктов Orion soft.

09.07 / 11:06

технологии Apple санкции политика ТАСС Apple удалила приложение «Яндекс Пэй» из App Store в разных странах, кроме России

Apple удалила приложение «Яндекс Пэй» из магазинов App Store в разных странах, кроме РФ. Компания «Яндекс» сообщила ТАСС, что приложение «Яндекс Пэй» по-прежнему доступно в российском App Store.

Лента новостей

На главную страницу