Выпущен бенчмарк, проверяющий способность ИИ воссоздать FFmpeg
Новый бенчмарк ProgramBench использует нестандартный подход к измерению способностей LLM. В его случае модель получает бинарные файлы и документацию ряда приложений (в их числе FFmpeg), а затем должна с нуля создать приложения с аналогичной функциональностью.
Условия этого бенчмарка сделаны жёсткими: например, моделям не дают доступ в интернет (хотя живой разработчик при аналогичной задаче наверняка обращался бы к интернету). Поэтому результаты могут отличаться от применения LLM в реальных проектах.
Авторы ProgramBench пишут, что обычно бенчмарки проверяют способности LLM к программированию на маленьких изолированных задачах (вроде «исправить конкретный баг»). Однако люди применяют ИИ и для полного создания проектов с нуля, порой почти безнадзорного, когда за моделью оказываются решения вроде архитектурных. Ранее такие способности почти не измерялись систематически, и это сподвигло на создание нового бенчмарка.
Результаты сейчас оказались следующими. Ни одна текущая модель не справляется с задачами целиком — так, чтобы получившееся приложение проходило 100% тестов, сравнивающих её поведение с исходным приложением. Во многих случаях проходит часть тестов. Доля успешных тестов оказывается выше при воссоздании простых CLI-приложений вроде утилиты fzf, но почти нулевой у сложных вроде FFmpeg:
Поскольку полученные приложения не проходят 100% тестов, сейчас официальный лидерборд бенчмарка оценивает результаты всех моделей в 0%. Также там введена отдельная графа «почти получилось» для случаев, когда приложение проходит 95% тестов. И у лидирующей сейчас модели Opus 4.7 получилось набрать такой результат в 3% из всех заданий.
Комментаторы зачастую отмечают, что и у живых разработчиков без интернета результаты получились бы
Читать на habr.com
