AI выигрывает 40% от бюджета в миллион долларов в последнем тесте кодирования OpenAI
Новый бенчмарк от OpenAI раскрывает как перспективы, так и ограничения AI в разработке ПО. Хотя модели AI могут справиться со многими задачами программирования, они все еще испытывают трудности со сложными программными проектами, требующими глубокого понимания и комплексных решений. Тест SWE-Lancer от OpenAI проверил возможности моделей AI с использованием 1400 реальных заданий от Upwork, что составляет $1 млн. стоимости разработки.
Оценка была сосредоточена на двух ключевых областях: непосредственные задачи разработки и решения по управлению проектами. Задачи разработки варьировались от простых исправлений ошибок за 50 долларов до сложных реализаций функций за 32 000 долларов. На более простом конце AI решал такие проблемы, как исправление избыточных вызовов API. Более сложные задачи включали создание кроссплатформенной функциональности воспроизведения видео для веб-приложений, iOS, Android и настольных приложений. Задача среднего уровня за 1 000 долларов включала устранение несоответствий между изображениями аватаров на разных страницах.
Тест также проверял способность AI оценивать различные решения, предлагаемые разработчиками-людьми. Например, при рассмотрении предложений по функции вставки изображений iOS AI должен был оценить несколько факторов: насколько хорошо каждое решение обрабатывало различные форматы буфера обмена, минимизировало ли оно запросы разрешений и насколько близко оно соответствовало стандартному поведению iOS.
OpenAI использовала сквозное тестирование, разработанное и трижды проверенное опытными разработчиками. В отличие от простых модульных тестов, эти симуляции охватывали полные рабочие процессы пользователя — например, тестирование ошибки аватара требовало входа в систему, загрузки фотографий
Читать на habr.com