Об этом же в других СМИ

habr.com / 1 год назад

Сотрудничество Microsoft и OpenAI под микроскопом: решение антимонопольного регулятора Великобритании

habr.com / 1 год назад

GPT-4.5: самая большая модель ИИ от OpenAI или шаг назад в развитии технологий?

habr.com / 1 год назад

Что думают эксперты и пользователи о выпуске модели GPT-4.5?

habr.com / 1 год назад

Вышел GPT-4.5 от OpenAI [обновляется, UPD 4]

nbnews.com.ua / 1 год назад

Альтман объяснил, почему задерживается полноценный релиз ChatGPT 4.5

Больше по теме

23.02.2025 - 03:28 / habr.com

Почему AI-модели не могут конкурировать с фрилансерами-разработчиками: анализ OpenAI

Модели больших языков (LLMs) уже изменили разработку программного обеспечения, однако компаниям стоит дважды подумать, прежде чем полностью заменять человеческих разработчиков программного обеспечения на LLM, несмотря на утверждение генерального директора OpenAI Сэма Альтмана о том, что модели могут заменить «низкоуровневых» инженеров.

В новой работе исследователи OpenAI описали, как они разработали бенчмарк для тестирования LLM под названием SWE-Lancer, который проверяет, сколько могут заработать модели на реальных фриланс-задачах по разработке ПО. Тест показал, что, хотя модели могут решать баги, они не способны понять, почему баг возник, и продолжают допускать ошибки.

Исследователи дали трем моделям — GPT-4o и o1 от OpenAI и Claude-3.5 Sonnet от Anthropic — 1488 фриланс-задач по разработке программного обеспечения с платформы Upwork на общую сумму $1 миллион. Задачи были разделены на две категории: задачи исполнителей (решение багов или внедрение функций) и управленческие задачи (где модель играет роль менеджера, выбирающего лучшее предложение для решения проблем).

«Результаты показывают, что реальные фриланс-задачи в нашем бенчмарке остаются сложными для передовых языковых моделей», — пишут исследователи.

Тесты показали, что базовые модели не могут полностью заменить человеческих инженеров. Хотя они могут помочь решать баги, они не достигли уровня, на котором могут самостоятельно зарабатывать фриланс-доход.

Исследователи и 100 других профессиональных разработчиков отобрали потенциальные задачи с Upwork и, не изменяя их текст, загрузили их в контейнер Docker, чтобы создать набор данных SWE-Lancer. Контейнер не имел доступа к интернету и GitHub, чтобы исключить возможность того, что модели будут сканировать изменения кода

технологии общество Сэм Альтман cognitronn

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Новая модель ИИ Anthropic позволяет пользователям решать, насколько она обоснованна habr.com / 1 год назад

OpenAI представила обновленную модель GPT-4.5 incrypted.com / 1 год назад

Стремление OpenAI к росту оказывает давление на стартапы в сфере AI habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 23:27

технологии происшествия смартфон самит гаджет Батарея смартфона быстро умирает из-за опасной ошибки пользователей

Одна распространенная ошибка сокращает срок службы батареи значительно быстрее, чем использование телефона во время зарядки.

25.07 / 22:55

продукты общество Здоровье и красота питание болезнь Как защититься от камней в почках - советы врачей

Профилактика является лучшим методом борьбы с камнями в почках, говорят специалисты.

25.07 / 22:10

технологии общество политика доллар курс Google подтвердила подорожание смартфонов Pixel: новая линейка Pixel 11 станет дороже еще до старта продаж

По словам топ-менеджера, производитель долгое время сдерживал рост цен, несмотря на серьезные изменения на рынке компонентов. Однако ситуация изменилась настолько существенно, что компании пришлось пересмотреть ценовую политику практически для всей линейки устройств.

25.07 / 20:16

технологии общество семья самит intel NEC представила сверхлегкий ноутбук с автономностью более 30 часов: зарядку можно оставить дома

Информация о характеристиках ноутбука опубликована самой NEC, а ключевые технические детали также подтверждаются спецификациями производителя. Новинка ориентирована прежде всего на бизнес-пользователей, которым важны минимальный вес, высокая автономность и современная аппаратная платформа.

25.07 / 19:56

экономика золото общество интересное intel Bosgame E6 ECO: компактная коробка с Intel Core 3 304 и Wi-Fi 7 за $380

Bosgame решила, что рынку мини-ПК не хватает еще одного игрока, и анонсировала модель E6 ECO. Это представитель линейки Ecolite, который не пытается впечатлить мощностью для рендеринга тяжёлого видео, а просто хочет тихо стоять на вашем столе и выполнять повседневные задачи. Официальные продажи стартуют в середине августа 2026 года, а цена вопроса — $380 (около 16900 грн).

25.07 / 19:56

технологии Lenovo интересное intel Вертикальная реальность: Lenovo выпустила моноблок ThinkCentre X AIO Aura Edition с «квадратным» экраном

Пока весь мир старается вместить как можно больше контента в ультраширокие мониторы, Lenovo решила пойти другим путем — вверх. Новый моноблок ThinkCentre X AIO Aura Edition, который наконец-то выбрался за пределы китайского рынка, предлагает формат, от которого у любителей бесконечных таблиц Excel и программного кода должно случиться приятное дежавю. Устройство выглядит как попытка напомнить нам, что вертикальное пространство иногда важнее панорамных видов в играх.

25.07 / 19:48

связь технологии смартфон деньги интернет Пользователи WhatsApp столкнулись с массовыми блокировками

Десятки пользователей внезапно потеряли доступ к аккаунтам, а причины происходящего до сих пор остаются неизвестными.

25.07 / 19:41

реклама технологии смартфон общество самит За вами следит собственный смартфон - как остановить скрытую слежку

Даже без подключения к Wi-Fi телефон способен оставлять цифровой след, по которому можно узнавать владельца и фиксировать его перемещения.

25.07 / 19:18

технологии дети самит курс интересное HMD представила компактный Touch AI с дизайном в стиле Nokia Lumia и встроенным ИИ: смартфон создан для цифрового детокса

Устройство уже доступно для предварительного заказа в Китае по цене 469 юаней. По актуальному курсу это составляет примерно 2 900 гривен. При этом производитель делает ставку не на производительность, а на удобство повседневного использования, автономность и минимализм.

25.07 / 19:08

люди ученые общество самит человек Идеальное мужское лицо - какая черта оказалась важнее остальных

Анализ сотен мужских лиц показал, какая особенность внешности сильнее остальных влияет на первое впечатление и привлекательность.

Лента новостей

На главную страницу