Об этом же в других СМИ

habr.com / 1 год назад

OpenAI запускает новые инструменты для создания агентов AI

habr.com / 1 год назад

Microsoft готовит внутренние модели AI, способные конкурировать с OpenAI и Anthropic

habr.com / 1 год назад

Turing, ключевой поставщик кодирования для OpenAI и других производителей LLM, привлек $111 млн при оценке в $2,2 млрд

habr.com / 1 год назад

Бывший руководитель отдела политики OpenAI критикует компанию за «переписывание» истории безопасности AI

habr.com / 1 год назад

OpenAI отходит от теории внезапного прорыва в области AGI

Больше по теме

24.02.2025 - 16:40 / habr.com

AI выигрывает 40% от бюджета в миллион долларов в последнем тесте кодирования OpenAI

Новый бенчмарк от OpenAI раскрывает как перспективы, так и ограничения AI в разработке ПО. Хотя модели AI могут справиться со многими задачами программирования, они все еще испытывают трудности со сложными программными проектами, требующими глубокого понимания и комплексных решений. Тест SWE-Lancer от OpenAI проверил возможности моделей AI с использованием 1400 реальных заданий от Upwork, что составляет $1 млн. стоимости разработки.

Оценка была сосредоточена на двух ключевых областях: непосредственные задачи разработки и решения по управлению проектами. Задачи разработки варьировались от простых исправлений ошибок за 50 долларов до сложных реализаций функций за 32 000 долларов. На более простом конце AI решал такие проблемы, как исправление избыточных вызовов API. Более сложные задачи включали создание кроссплатформенной функциональности воспроизведения видео для веб-приложений, iOS, Android и настольных приложений. Задача среднего уровня за 1 000 долларов включала устранение несоответствий между изображениями аватаров на разных страницах.

Тест также проверял способность AI оценивать различные решения, предлагаемые разработчиками-людьми. Например, при рассмотрении предложений по функции вставки изображений iOS AI должен был оценить несколько факторов: насколько хорошо каждое решение обрабатывало различные форматы буфера обмена, минимизировало ли оно запросы разрешений и насколько близко оно соответствовало стандартному поведению iOS.

OpenAI использовала сквозное тестирование, разработанное и трижды проверенное опытными разработчиками. В отличие от простых модульных тестов, эти симуляции охватывали полные рабочие процессы пользователя — например, тестирование ошибки аватара требовало входа в систему, загрузки фотографий

общество бюджет доллар dilnaz04

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Сообщается, что OpenAI планирует взимать до $20 000 в месяц за специализированных AI-агентов habr.com / 1 год назад

Amazon планирует новую модель рассуждений, чтобы конкурировать с OpenAI и Anthropic habr.com / 1 год назад

OpenAI планирует внедрить видеогенератор Sora в ChatGPT habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

22.07 / 03:49

люди ученые общество самит человек Почему волосы бывают прямыми или кудрявыми - ответ ученых

Исследователи объяснили, с какими факторами связано появление прямых или кудрявых волос от рождения.

22.07 / 03:31

Nvidia общество политика самит изоляция Проект HAMi для виртуализации ускорителей перешел в инкубатор CNCF

Зачастую дорогие графические процессоры фрагментируются и простаивают. Классическая проблема — задача забирает видеокарту целиком, хотя в действительности использует лишь малую часть ее ресурсов. Как в таком случае эффективно распоряжаться кластером? Не забываем, что оборудование поставляется разными вендорами, каждый из которых предлагает свою модель управления.

22.07 / 03:12

мода и стиль Pulsar объявила дату запуска продаж игровой мыши Feinmann F01 Noctua Edition с кулером

Южнокорейская Pulsar представила итоговую версию игровой мыши Feinmann F01 Noctua Edition со встроенным в корпус вентилятором от бренда Noctua. Кулер направляет воздушный поток к ладони геймера во время длительных игровых сессий. Продажи периферийного устройства стартуют 21 июля 2026 года.

22.07 / 03:12

люди ученые здоровье человек кофе Кофе может помочь в борьбе со старением - исследование

Исследователи объяснили, какие свойства кофе являются наиболее эффективными в "войне" против старости.

22.07 / 01:44

люди экономика общество климат вода Тарифы за воду вырастут в два раза – прогноз ученых из Стэнфорда

Специалисты Стэнфорда разработали модель для оценки стоимости водоснабжения. Программа учитывает поведение потребителей и климатические угрозы.

22.07 / 01:02

LG Шоу бизнес Телевизоры LG OLED evo 2026 года получат новый режим изображения Creator Original: как он повлияет на просмотр контента

Компания LG Electronics анонсировала новый режим изображения Creator Original, который появится на отдельных моделях телевизоров LG OLED evo 2026 года. Его создали в сотрудничестве с Prime Video, чтобы киностудии и создатели контента могли точнее настраивать отображение своих фильмов и сериалов на совместимых телевизорах.

22.07 / 00:25

здоровье общество самит психология психика Фразы, которые произносит только искренне любящий муж

Мужчина, который искренне уважает свою жену, обычно говорит о ней 7 приятных вещей.

22.07 / 00:18

общество Meta Threads вводит новые функции родительского контроля: что нужно знать пользователям

Компания Meta объявила о запуске функции Parental Supervision в социальной сети Threads. Она станет доступной в США уже на следующей неделе и позволит родителям и опекунам контролировать использование платформы подростками через сервис Family Center. Нововведение расширяет возможности уже существующих Teen Accounts, которые автоматически имеют повышенный уровень защиты.

21.07 / 23:24

люди алкоголь общество самит мозг 5 привычек людей, которые не умеют расслабляться без алкоголя

Ловушка дофамина: что на самом деле происходит с мозгом, когда вы глушите усталость алкоголем.

21.07 / 23:24

продукты общество человек врачи сон Продукты, которые могут испортить сон, назвали врачи

Даже полезные на первый взгляд продукты, съеденные вечером, могут нарушить сон, вызвать ночные пробуждения и ухудшить самочувствие.

Лента новостей

На главную страницу