Об этом же в других СМИ

habr.com / 1 год назад

Руководитель OpenAI заявил, что компания не прочь купить браузер Chrome от Google

habr.com / 1 год назад

Anysphere отказывается от продажи OpenAI: Cursor растёт слишком быстро

habr.com / 1 год назад

OpenAI o3 демонстрирует почти идеальную производительность в тесте с длинным контекстом

habr.com / 1 год назад

Chatbot Arena становится Arena Intelligence Inc.: развитие платформы для тестирования ИИ-моделей

habr.com / 1 год назад

OpenAI запускает гибкую обработку данных для более дешевых и медленных задач

Больше по теме

07.04.2025 - 09:24 / habr.com

Тест OpenAI PaperBench: системы ИИ не могут полноценно заменить исследователей

Новый тест OpenAI PaperBench показывает, что ИИ пока не может самостоятельно воспроизводить научные исследования, и исследователи-люди по-прежнему имеют преимущество.

Этот тест подвергает системы ИИ серьёзному испытанию: воссоздайте 20 научных работ, представленных на ICML 2024, одной из самых престижных конференций по машинному обучению. Работы охватывают широкий спектр исследований в области машинного обучения: от глубокого обучения с подкреплением до вероятностных методов и тестирования надёжности.

Чтобы точно измерить производительность, команда работала напрямую с авторами оригинальной статьи, чтобы создать обширную систему оценки. В результате было создано более 8300 конкретных контрольных точек, которые определяют, успешно ли система воспроизводит исследование.

Хотя системы ИИ могут искать в интернете общую информацию, они не могут заглянуть в исходный код авторов. Вместо этого они должны разработать собственную полную кодовую базу и создать скрипт reproduce.sh, который автоматически запускает все эксперименты. У каждой системы есть двенадцать часов на выполнение задачи в стандартных условиях тестирования.

Проверка каждой заявки представляет собой отдельную задачу. Эксперты-люди обычно тратят десятки часов на оценку одной статьи, что делает крупномасштабное тестирование непрактичным. Чтобы решить эту проблему, OpenAI разработала систему оценки на основе ИИ, которая значительно сокращает время и затраты.

Модель o3-mini, разработанная командой, соответствует человеческому суждению с точностью 83%, при этом сокращая расходы с тысяч долларов за статью до всего 66 долларов. Их более мощная модель o1 обеспечивает чуть более высокую точность — 84%, но стоит дороже — 830 долларов за статью.

Даже самые эффективные модели с

конференция общество самит доллар google gemini mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI назначила новых некоммерческих ‘консультантов’ habr.com / 1 год назад

Anthropic готовит конкурента голосовому режиму OpenAI в ChatGPT habr.com / 1 год назад

OpenAI корректирует политику безопасности в ответ на конкурентное давление habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 12:10

наука самит палеонтология 385 миллионов лет. В Китае нашли самый древний в мире янтарь

В Китае палеонтологи обнаружили в залежах угля сотни микроскопических фрагментов янтаря, датируемых средним девоном — период, который был 385 миллионов лет назад. Эти находки примерно на 65 миллионов старше предыдущего янтаря-рекордсмена и на 150 миллионов лет старше первых динозавров.

17.07 / 12:06

происшествия люди общество климат Солнце Солнце уничтожит Землю - сколько осталось человечеству

Исследования позволили определить примерную дату, когда Солнце уничтожит нашу планету, а вместе с ней и все живое.

17.07 / 12:06

здоровье общество интересное знаки зодиака Дом и интерьер Какие испытания ждут знаки Зодиака в середине июля 2026

Середина июля 2026 года станет периодом, когда многим знакам захочется ясности, спокойствия и более понятного движения вперед.

17.07 / 12:06

общество самит лечение врачи лекарства На какой руке правильно измерять давление - названо важное правило

Врачи рассказали, на какой руке следует производить измерения и какие показатели должны насторожить.

17.07 / 12:06

продукты продукты питания закон история Знаменитости От импотенции и морфия: тайны создания напитка Coca-Cola

Историки напомнили о необычном происхождении знаменитой темной газировки. Изначально этот продукт продавался исключительно в медицинских лавках.

17.07 / 12:04

технологии общество самит симптомы intel Microsoft признала ошибку в работе Capability Access Manager с потреблением дополнительных 500 ГБ памяти

В ходе тестирования специалисты Windows Latest обнаружили, что файл с именем «CapabilityAccessManager.db-wal» может занимать большую часть системного дискового пространства в Windows 11, потребляя сотни гигабайт. Microsoft подтвердила наличие проблемы.

17.07 / 12:04

технологии Вышел Blender 5.2 LTS

Blender Foundation выпустил Blender 5.2 LTS — крупное обновление бесплатного кроссплатформенного пакета программ для 3D-графики с открытым исходным кодом, предназначенного для GNU/Linux, macOS и Windows.

17.07 / 12:04

Tesla бюджет крипто токен Глава Instagram**: бюджеты ИИ-токенов вскоре могут быть ограничены для каждого инженера

Через один-два года бюджеты токенов для работы с моделями искусственного интеллекта могут быть ограничены, поскольку темпы расходования средств на них сравняются с зарплатами высококвалифицированных инженеров, рассказал в выпуске Lenny's Podcast генеральный директор Instagram** Адам Моссери.

17.07 / 12:04

технологии закон карантин Обновление Microsoft Defender может позволить хакерам полностью заполнить дисковое пространство ПК с Windows 11

Исследователь безопасности Nightmare-Eclipse обнаружил, что недавнее критическое обновление для Microsoft Defender позволяет хакерам заполнить всё свободное место на диске.

17.07 / 11:55

дети Tesla Маск выпустил новую Tesla! Но есть нюанс — это детский велобег Balance Bike

Илон Маск (Elon Musk) решил, что настоящих фанатов Tesla нужно выращивать с пеленок и неожиданно выпустил… детский велосипед Balance Bike.

Лента новостей

На главную страницу