Об этом же в других СМИ

habr.com / 1 год назад

«Непостижимые волшебники»: как китайский Deepseek обгоняет Кремниевую долину в сфере AI

habr.com / 1 год назад

Китайский конкурент OpenAI o1 Kimi k1.5 теперь доступен бесплатно в веб-версии

habr.com / 1 год назад

OpenAI обновляет Canvas ChatGPT: поддержка модели o1 и рендеринг HTML/React кода

habr.com / 1 год назад

Deepseek показывает пример: как создать мощный AI с минимальными затратами

habr.com / 1 год назад

Марк Цукерберг заявил, что к концу года у Meta* будет 1,3 млн графических процессоров для искусственного интеллекта

Больше по теме

11.01.2025 - 14:08 / habr.com

Deepseek v3 на уровне o1 OpenAI: что показывают независимые бенчмарки

Независимые тесты показали, что модель o1 от OpenAI решает лишь 30% программных задач в бенчмарках, а не 48,9%, как утверждала компания. Эти результаты добавляют масла в огонь растущей дискуссии о том, как измерять возможности AI.

В своем новом исследовании, используя кодировочный бенчмарк OpenAI "SWE-Bench Verified", исследователь AI Александро Квадрон обнаружил то, что он называет удивительным разрывом. В то время как OpenAI сообщала, что их модель справляется почти с половиной реальных программных задач с GitHub, тестирование Квадрона показывает, что она решает менее трети задач.

Sonnet 3.5 от Anthropic обошел конкурентов, решив 53 процента задач — возможно, потому что модель помогала разрабатывать саму процедуру тестирования. Примечательно, что менее дорогая модель Deepseek v3 показала результаты примерно на уровне o1 от OpenAI в тестах Квадрона.

Почему такое большое различие? Разрыв между заявлениями OpenAI и выводами Квадрона объясняется методами тестирования. OpenAI использовала "Agentless" — фреймворк, предоставляющий AI очень конкретные инструкции для решения программных задач. Квадрон, с другой стороны, использовал "OpenHands", который дает AI больше свободы в подходе к решению проблем.

Квадрон утверждает, что OpenHands считался золотым стандартом, когда OpenAI проводила свои тесты, но они решили его не использовать. Он подозревает, что более жесткий метод тестирования OpenAI может отдавать предпочтение моделям, которые просто запоминают решения, вместо того чтобы действительно решать новые проблемы независимо.

Это не просто академическая придирка. OpenAI подчеркивала якобы сильные стороны o1 в области рассуждений и способности справляться с новыми задачами. "Но почему o1 испытывает трудности с истинным открытым

Apple Путешествия золото самит финансирование dilnaz04 eps

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

OpenAI становится единственным заказчиком предлагаемого проекта инфраструктуры искусственного интеллекта Stargate habr.com / 1 год назад

Исследование OpenAI: больше времени на размышление делает AI более устойчивым к манипуляциям habr.com / 1 год назад

SoftBank и OpenAI инвестируют по $19 млрд в проект Stargate habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

24.07 / 03:41

продукты деньги рубль бюджет самит Где купить токены? Запускаем ИИ-роутер с 300+ LLM

Когда проекту нужны возможности генеративного ИИ, перед разработчиком встает чисто инфраструктурный тупик. Одной модели для всех задач почти никогда не хватает. В итоге вы ищете обходные пути для оплаты зарубежными картами или закупаете токены вразнобой у десятка разных неофициальных агрегаторов и занимаетесь менеджментом подписок.

24.07 / 03:41

происшествия люди животные человек кошка Почему кошки предпочитают питаться с пола - ответ экспертов

Часто хозяева замечают, что кошки отдают предпочтение еде, которая высыпана на пол, несмотря на наличие миски рядом.

24.07 / 03:08

Samsung технологии Apple Amazon Samsung объявила о запуске своей первой кредитной карты на рынке США под названием Samsung Galaxy Card

Samsung представила свою первую кредитную карту Samsung Galaxy Card для пользователей в США. Новинка предлагает существенный кешбэк при покупке продукции южнокорейского производителя.

24.07 / 02:39

происшествия история ядерное оружие самит пилот Одна из самых странных ядерных катастроф – что произошло в 1968 году

Ошибка пилота превратила рутинный вылет в смертельную ловушку для экипажа. Пожар на борту заставил военных эвакуироваться посреди полярной ночи.

24.07 / 01:50

происшествия золото история самит археология Пропуск в загробный мир: в Египте нашли гробницы с золотыми языками

Ученые связывают обнаруженные гробницы с античным торговым городом Левкаспис. Этот крупный прибрежный центр процветал во времена Римской империи.

23.07 / 23:30

люди экономика общество человек Здоровье и красота Почему людям с ожирением так трудно похудеть - исследование

Ученые изучили данные 1754 человек и обнаружили необычную реакцию организма на увеличение физических нагрузок.

23.07 / 23:17

продукты Alibaba представила Qwen3.8 — 2,4-триллионную ИИ-модель и пообещала открыть ее веса

Alibaba анонсировала новую флагманскую модель Qwen3.8. Китацы заявляют, что модель содержит 2,4 трлн параметров. Обещают и выложить веса.

23.07 / 22:49

Огурцы по-корейски — хрустящая закуска с насыщенным вкусом - Журнал "ФОКУС ВНИМАНИЯ"

Огурцы по-корейски — одна из самых популярных корейских закусок, которая сочетает свежесть овощей, пикантные специи и насыщенный аромат кунжутного масла.

23.07 / 22:49

Как изменился путь клиента: сегодня вас «гуглят» раньше, чем покупают - Журнал "ФОКУС ВНИМАНИЯ"

Еще несколько лет назад путь клиента выглядел достаточно просто. Человек увидел рекламу, перешёл на сайт, посмотрел предложение, пообщался с менеджером и принял решение.

23.07 / 22:28

продукты связь технологии экспорт общество Документация Delta Design обновилась: варианты исполнений, веб-панель Identity, новые аппертуры DeltaCAM

Сегодня в пользовательской документации Eremex вышло несколько новых статей, а также провели техническое обслуживание самого сайта: поправили битые ссылки, ускорили загрузку и улучшили поиск.

Лента новостей

На главную страницу