Исследование Microsoft показывает, что модели AI по-прежнему испытывают трудности с отладкой программного обеспечения
Модели AI от OpenAI, Anthropic и других ведущих лабораторий AI все чаще используются для помощи в задачах программирования. Генеральный директор Google Сундар Пичаи заявил в октябре, что 25% нового кода в компании генерируется AI, а генеральный директор Meta* Марк Цукерберг выразил амбиции по широкому внедрению моделей кодирования AI в гиганте социальных сетей.
Однако даже некоторые из лучших современных моделей испытывают трудности с устранением ошибок программного обеспечения, которые не смутили бы опытных разработчиков.
Новое исследование Microsoft Research, научно-исследовательского подразделения Microsoft, показывает, что модели, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не в состоянии отладить множество проблем в тесте разработки программного обеспечения под названием SWE-bench Lite. Результаты являются отрезвляющим напоминанием о том, что, несмотря на смелые заявления таких компаний, как OpenAI, AI по-прежнему не может сравниться с экспертами-людьми в таких областях, как кодирование.
Соавторы исследования протестировали девять различных моделей в качестве основы для агента, который имел доступ к ряду инструментов отладки, включая отладчик Python. Они поручили этому агенту решить курируемый набор из 300 задач по отладке программного обеспечения из SWE-bench Lite.
По словам соавторов, даже при оснащении более сильными и новыми моделями их агент редко успешно завершал более половины задач отладки. Claude 3.7 Sonnet имел самый высокий средний показатель успеха (48,4%), за ним следовали o1 от OpenAI (30,2%) и o3-mini (22,1%).
Почему неудовлетворительная производительность? Некоторые модели испытывали трудности с использованием доступных им инструментов отладки и пониманием того, как разные инструменты
Читать на habr.com
