Почему AI-модели не могут конкурировать с фрилансерами-разработчиками: анализ OpenAI
Модели больших языков (LLMs) уже изменили разработку программного обеспечения, однако компаниям стоит дважды подумать, прежде чем полностью заменять человеческих разработчиков программного обеспечения на LLM, несмотря на утверждение генерального директора OpenAI Сэма Альтмана о том, что модели могут заменить «низкоуровневых» инженеров.
В новой работе исследователи OpenAI описали, как они разработали бенчмарк для тестирования LLM под названием SWE-Lancer, который проверяет, сколько могут заработать модели на реальных фриланс-задачах по разработке ПО. Тест показал, что, хотя модели могут решать баги, они не способны понять, почему баг возник, и продолжают допускать ошибки.
Исследователи дали трем моделям — GPT-4o и o1 от OpenAI и Claude-3.5 Sonnet от Anthropic — 1488 фриланс-задач по разработке программного обеспечения с платформы Upwork на общую сумму $1 миллион. Задачи были разделены на две категории: задачи исполнителей (решение багов или внедрение функций) и управленческие задачи (где модель играет роль менеджера, выбирающего лучшее предложение для решения проблем).
«Результаты показывают, что реальные фриланс-задачи в нашем бенчмарке остаются сложными для передовых языковых моделей», — пишут исследователи.
Тесты показали, что базовые модели не могут полностью заменить человеческих инженеров. Хотя они могут помочь решать баги, они не достигли уровня, на котором могут самостоятельно зарабатывать фриланс-доход.
Исследователи и 100 других профессиональных разработчиков отобрали потенциальные задачи с Upwork и, не изменяя их текст, загрузили их в контейнер Docker, чтобы создать набор данных SWE-Lancer. Контейнер не имел доступа к интернету и GitHub, чтобы исключить возможность того, что модели будут сканировать изменения кода
Читать на habr.com
