Об этом же в других СМИ

habr.com / 1 год назад

Генеральный директор Microsoft заявил, что до 30% кода компании было написано ИИ

chudo.tech / 1 год назад

«Яндекс» начинает работу над программным обеспечением для гуманоидных роботов

habr.com / 1 год назад

Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение

habr.com / 1 год назад

Google прекращает поддержку программного обеспечения для ранних термостатов Nest

habr.com / 1 год назад

Dropbox добавляет новые функции в Dash, свой поисковый инструмент на базе AI

Больше по теме

14.04.2025 - 17:36 / habr.com

Исследование Microsoft показывает, что модели AI по-прежнему испытывают трудности с отладкой программного обеспечения

Модели AI от OpenAI, Anthropic и других ведущих лабораторий AI все чаще используются для помощи в задачах программирования. Генеральный директор Google Сундар Пичаи заявил в октябре, что 25% нового кода в компании генерируется AI, а генеральный директор Meta* Марк Цукерберг выразил амбиции по широкому внедрению моделей кодирования AI в гиганте социальных сетей.

Однако даже некоторые из лучших современных моделей испытывают трудности с устранением ошибок программного обеспечения, которые не смутили бы опытных разработчиков.

Новое исследование Microsoft Research, научно-исследовательского подразделения Microsoft, показывает, что модели, включая Claude 3.7 Sonnet от Anthropic и o3-mini от OpenAI, не в состоянии отладить множество проблем в тесте разработки программного обеспечения под названием SWE-bench Lite. Результаты являются отрезвляющим напоминанием о том, что, несмотря на смелые заявления таких компаний, как OpenAI, AI по-прежнему не может сравниться с экспертами-людьми в таких областях, как кодирование.

Соавторы исследования протестировали девять различных моделей в качестве основы для агента, который имел доступ к ряду инструментов отладки, включая отладчик Python. Они поручили этому агенту решить курируемый набор из 300 задач по отладке программного обеспечения из SWE-bench Lite.

По словам соавторов, даже при оснащении более сильными и новыми моделями их агент редко успешно завершал более половины задач отладки. Claude 3.7 Sonnet имел самый высокий средний показатель успеха (48,4%), за ним следовали o1 от OpenAI (30,2%) и o3-mini (22,1%).

Почему неудовлетворительная производительность? Некоторые модели испытывали трудности с использованием доступных им инструментов отладки и пониманием того, как разные инструменты

технологии самит инвестор google Шоу бизнес Марк Цукерберг Сундар Пичаи dilnaz04 Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

В течение шести лет строительство ведущего центра обработки данных AI может обойтись в $200 млрд habr.com / 1 год назад

OpenAI выпускает «облегченную» версию своего инструмента для глубоких исследований ChatGPT habr.com / 1 год назад

Adobe хочет создать индикатор в стиле robots.txt для изображений, используемых при обучении AI habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

18.07 / 12:38

продукты технологии Apple самит стартап StepFun представила StepX Neo — смартфон с операционной системой, изначально созданной для автономных ИИ-агентов

Китайская компания StepFun представила StepX Neo — первый в мире смартфон с автономным управлением. Устройство работает на операционной системе Step AOS, разработанной для агентов искусственного интеллекта.

18.07 / 12:24

ученые прогнозы Солнце Земля магнитные бури Магнитная супербуря ударит по Земле — возможны катастрофы

Исследование показало, что существующие модели недооценивали экстремальный солнечный ветер и "потолка" у мощности геомагнитных токов, похоже, не существует.

18.07 / 11:56

закон президент общество законодательство рубль Операторам ЦОДов не удалось добиться пересмотра арендных ставок в Подмосковье

В Московской области не планируют пересматривать правила расчёта арендной платы за государственные земельные участки под строительство дата‑центров. Это следует из ответа министерства имущественных отношений региона на обращение Ассоциации участников отрасли центров обработки данных (ЦОД). «Ведомости» ознакомились с перепиской, её подлинность подтвердил президент ассоциации Игорь Дорофеев.

18.07 / 11:54

Samsung самит Samsung выпустила SSD 990: быстрый PCIe 4.0-накопитель с высокой скоростью и более доступной ценой

Samsung официально представила новый твердотельный накопитель SSD 990, который занял место между массовыми моделями компании и флагманской линейкой 990 Pro. Новинка предлагает интерфейс PCIe 4.0, скорость чтения до 7250 МБ/с, объем до 2 ТБ и улучшенную энергоэффективность, при этом стоит дешевле Pro-версии.

18.07 / 11:49

продукты экономика самит дефицит инвестор СМИ: Anthropic готова заплатить Meta за мощности $10 млрд

Компания Meta ведет переговоры с разработчиком ИИ-моделей Anthropic о предоставлении вычислительных мощностей своих дата-центров в аренду. Потенциальная двухлетняя сделка может достигнуть $10 млрд и стать для Meta первым масштабным контрактом по продаже ИИ-инфраструктуры, пишет The NYT. По данным источников, знакомых с ходом переговоров, Anthropic обратилась к Meta с соответствующим предложением еще в июне. Если стороны достигнут договоренности, компания будет платить ежемесячными платежами в течение двух лет. При этом договор будет предусматривать возможно

18.07 / 11:46

люди дети общество смерть врачи Что видит человек перед смертью, рассказал врач

Опытный врач, работающий в паллиативной помощи, заверил, что зачастую в последние минуты жизни людям не страшно.

18.07 / 11:46

животные общество погоня человек нападения Есть ли шанс убежать от льва - ученые поставили точку в споре

Лев способен развивать скорость до 70 км/ч, однако главную опасность для человека представляет вовсе не это.

18.07 / 11:18

погода люди здоровье общество жара Жара может обострить четыре распространенные заболевания - врач

Мощная волна жары, охватившая ряд стран мира, может привести к резкому ухудшению самочувствия и обострению болезней.

18.07 / 11:18

люди ученые общество отношения мозг Почему любовь сводит с ума - три странных открытия ученых

Почему любовь может ранить, исцелять и вызывать зависимость одновременно, объяснили ученые.

18.07 / 11:15

связь люди Amazon SpaceX общество Спутниковый интернет Amazon Leo начнёт работать в Южной Африке в 2027 году

Amazon заключила партнёрское соглашение с крупнейшим интернет‑провайдером Южной Африки Herotel. Оператор запустит услугу Evry по обеспечению связи в отдалённых и сельских районах, а работать она будет на базе спутниковой группировки Amazon Leo. Реализация проекта намечена на 2027 год.

Лента новостей

На главную страницу