Об этом же в других СМИ

habr.com / 1 месяц назад

Пользователи при помощи ИИ воссоздали переговоры погибших в авиакатастрофе пилотов

tech.onliner.by / 1 месяц назад

Ученые узнали, как стресс влияет на нашу способность делать верные выводы

cursorinfo.co.il / 1 месяц назад

Как древняя акула способна бороться с раком - ответ ученых

cursorinfo.co.il / 1 месяц назад

Продукты, которые способны улучшить работу почек, назвали врачи

habr.com / 1 месяц назад

Amazon прекратила поддержку Kindle, выпущенных до 2013 года

Больше по теме

08.05.2026 - 10:14 / habr.com

Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg

Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае модель получает бинарные файлы и документацию ряда приложений (в их числе FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью.

Условия этого бенчмарка сделаны жёсткими: например, моделям не дают доступ в интернет (хотя живой разработчик при аналогичной задаче наверняка обращался бы к интернету). Поэтому результаты могут отличаться от применения LLM в реальных проектах.

Авторы ProgramBench пишут, что обычно бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах (вроде «исправить конкретный баг»). Однако люди применяют ИИ и для полного создания проектов с нуля, порой почти безнадзорного, когда за моделью оказываются решения вроде архитектурных. Ранее такие способности почти не измерялись систематически, и это сподвигло на создание нового бенчмарка.

Результаты сейчас оказались следующими. Ни одна текущая модель не справляется с задачами целиком — так, чтобы получившееся приложение проходило 100% тестов, сравнивающих её поведение с исходным приложением. Во многих случаях проходит часть тестов. Доля успешных тестов оказывается выше при воссоздании простых CLI-приложений вроде утилиты fzf, но почти нулевой у сложных вроде FFmpeg:

Поскольку полученные приложения не проходят 100% тестов, сейчас официальный лидерборд бенчмарка оценивает результаты всех моделей в 0%. Также там введена отдельная графа «почти получилось» для случаев, когда приложение проходит 95% тестов. И у лидирующей сейчас модели Opus 4.7 получилось набрать такой результат в 3% из всех заданий.

Комментаторы зачастую отмечают, что и у живых разработчиков без интернета результаты получились бы

технологии люди общество

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Разработан бенчмарк GeomMotif из 57 задач для выявления ошибок ИИ-моделей при проектировании геометрии белковых структур habr.com / 1 месяц назад

Какие комнатные растения способны заметно улучшить ваше здоровье cursorinfo.co.il / 2 месяца назад

DeepSeek V4 силен только в «своих» бенчмарках. На независимых — отстает на 8 месяцев habr.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

14.07 / 21:13

происшествия люди общество самит животный мир Живут в каждом доме: действительно ли пауки-сенокосцы смертельно ядовиты

Пауки-сенокосцы встречаются по всему миру, населяя разнообразные среды и в частности жилища людей. Они имеют длинные, тонкие лапки, благодаря которым они кажутся намного больше, чем есть на самом деле. Однако с их ядом не все так просто.

14.07 / 19:45

люди ученые общество самит психология Почему прошлое кажется лучше настоящего - ответ ученых

Особенности человеческой памяти заставляют многих воспринимать прошлое более счастливым, чем оно было на самом деле.

14.07 / 19:45

здоровье продукты питания общество семья Здоровье и красота Дешевле и полезнее лосося – ученые назвали неожиданный суперфуд

Врачи рекомендуют сочетать разные источники ценных жиров. Ореховая добавка не должна полностью вытеснять рыбу из меню.

14.07 / 19:44

Samsung технологии Xiaomi история жертва Xiaomi представила Redmi Note 17 и 17 Pro — производительность, память и камеры принесены в жертву доступности, но батареи впечатляют

На рынке бюджетных смартфонов появилось интересное, хотя и весьма компромиссное пополнение. Xiaomi официально представила Redmi Note 17 и Redmi Note 17 Pro, о которых в последние дни ходило множество слухов.

14.07 / 19:36

люди закон общество политика Советская электроника. Встреча основателей двух удивительных Музеев

Сегодня состоялась знаменательная встреча двух замечательных людей. Эти два человека живут в городе Чебоксары. Оба, практически в одно и то же время, основали два музея и ничего до февраля сего года не знали друг о друге.

14.07 / 19:36

общество рубль НДС авиакомпания «Аэрофлот» закупил 200 серверов Yadro для обновления ИТ-инфраструктуры

Компания «Аэрофлот» приобрела у производителя вычислительной техники и электроники Yadro, которая входит в «ИКС Холдинг», 200 серверов Yadro V240 G3. Информация о поставке опубликована на сайте вендора.

14.07 / 19:36

технологии общество самит Специалист по ИБ показал, что копию дверного ключа можно создать за 10 минут по фотографии, опубликованной в соцсетях

Специалист по кибербезопасности и этичный хакер Эван Оттингер показал, что копию дверного ключа можно быстро воссоздать по анализу фотографии, опубликованной в социальных сетях.

14.07 / 19:36

технологии закон Telegram общество политика Дуров: Евросоюз становится банановой республикой, Telegram не будет сканировать ваши личные сообщения

Павел Дуров сравнил Евросоюз с банановыми республиками из-за закона о слежке за публикациями пользователей в интернете и сетевых сервисах.

14.07 / 19:18

люди работа общество самит астрология Идеальные коллеги: какие знаки Зодиака лучше всего работают вместе

Совместимость важна не только в любви, но и работе, говорят астрологи.

14.07 / 19:18

люди здоровье общество модель Эксперт Стоит ли израильтянам повторять за Хейли Бибер – мнение дерматолога

Израильский дерматолог оценила популярные домашние рецепты красоты. Многие модные лайфхаки из интернета вредят здоровью кожи.

Лента новостей

На главную страницу