Об этом же в других СМИ

habr.com / 1 год назад

Stability AI выпускает модель ИИ для создания стереотреков на смартфонах

gagadget.com / 1 год назад

Meta откладывает запуск Llama 4 Behemoth: модель все еще не готова

incrypted.com / 1 год назад

OpenAI запустила обновленную модель чат-бота GPT-4.1 для всех пользователей

habr.com / 1 год назад

Microsoft и OpenAI могут пересмотреть условия своего партнерства

habr.com / 1 год назад

OpenAI объяснила, как выбрать подходящую модель ChatGPT

Больше по теме

30.04.2025 - 05:08 / habr.com

Выпущенная модель OpenAI o3 значительно слабее предварительной версии в тестах на рассуждение

Недавний анализ, проведенный фондом Arc Prize Foundation показал, что модель o3 от OpenAI демонстрирует значительно более слабые результаты на стандартизированных тестах рассуждений, чем ранее протестированная предварительная версия o3.

ARC Prize Foundation, некоммерческая группа, занимающаяся оценкой AI, использует открытые бенчмарки, такие как ARC-AGI, чтобы подчеркнуть разрыв между человеческим мышлением и текущими системами искусственного интеллекта. Каждая оценка направлена на выяснение текущего состояния области.

Тест ARC-AGI предназначен для проверки символического мышления, многошаговой композиции и применения правил в зависимости от контекста — навыков, которые люди часто демонстрируют без специальной подготовки, но которые модели AI выполняют лишь в ограниченной степени.

Анализ оценивал производительность на «низком», «среднем» и «высоком» уровнях рассуждений, которые варьируют глубину рассуждений модели. «Низкий» приоритет отдает скорости и минимальному использованию токенов, в то время как «высокий» призван поощрять более комплексное решение проблем. Для этого исследования две модели — o3 и o4-mini — были протестированы на всех трех уровнях рассуждений на 740 задачах из ARC-AGI-1 и ARC-AGI-2, что дало 4400 точек данных.

По данным ARC Prize Foundation, o3 достигла точности 41% (низкая вычислительная мощность) и 53% (средняя вычислительная мощность) на ARC-AGI-1. Меньшая модель o4-mini достигла 21% (низкая вычислительная мощность) и 42% (средняя вычислительная мощность). На более сложном тесте ARC-AGI-2 обе текущие модели значительно отстали, набрав менее трех процентов точности.

На более высоких уровнях рассуждений («высокий» вычислительный уровень) обе модели не смогли выполнить многие задачи. Анализ также

продукты люди самит доллар крипто dilnaz04 Microsoft

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Новая небольшая модель искусственного интеллекта Ai2 превосходит аналогичные по размеру модели от Google и Meta* habr.com / 1 год назад

Microsoft бросает вызов OpenAI с новыми моделями AI Phi-4 с открытым исходным кодом habr.com / 1 год назад

Xiaomi выпустила MiMo — открытую языковую модель с функцией рассуждения habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 20:44

Samsung технологии reddit Samsung объяснила странный дефект экрана Galaxy S26 Ultra: проблема оказалась не такой серьезной, как опасались владельцы

Некоторые владельцы Samsung Galaxy S26 Ultra обратили внимание на необычную особенность дисплея нового флагмана. При использовании смартфона на максимальной яркости под прямыми солнечными лучами в центральной части экрана может появляться легкий красноватый оттенок. Сначала пользователи предположили, что речь идет о серьезной аппаратной неисправности, однако Samsung уже выступила с официальным разъяснением и подтвердила, что готовит программное исправление.

17.07 / 20:12

продукты медицина общество самит жара Как охладить кровать за 10 минут - простой трюк, спасающий от жары

Жаркие летние ночи часто становятся настоящим испытанием, но есть способ с этим справиться.

17.07 / 20:12

туризм общество евро курорт пляж Популярные курорты атакует рыба-монстр - может раздробить кости

На опасное существо начали жаловаться рыбаки, ее уже замечают туристы на популярных пляжах.

17.07 / 20:12

связь люди книги психология Психология и отношения Ученый раскрыл "секрет счастья" - все проще, чем кажется

Известный ученый рассказал, что его жизнь буквально разделилась на две части и после 50 лет он стал счастливым.

17.07 / 20:12

здоровье общество самит Здоровье и красота полезные продукты Какие грибы могут обеспечить надежную защиту от рака

Врачи и диетологи советуют чаще включать в свой рацион грибы - особые элементы в их составе могут надежно защитить от развития раковых клеток.

17.07 / 19:26

самит дети и родители MacRumors 1Password получил интеграцию с Claude: ИИ теперь может входить на сайты без доступа к вашим паролям

Компания 1Password официально объявила о запуске интеграции с ИИ-платформой Claude от Anthropic. Новая функция позволяет искусственному интеллекту использовать сохраненные в менеджере паролей учетные данные для выполнения действий в браузере, при этом сами пароли остаются недоступными как для Claude, так и для серверов Anthropic.

17.07 / 19:26

СМИ общество самит doom Software Аша Шарма не выпотрошила id Software: глава студии призвал не верить пессимистичным заголовкам

id Software стала одной из самых пострадавших студий в ходе “большой перезагрузки” XBOX, запущенной Ашей Шармой (Asha Sharma). Авторы культовых шутеров Doom, Wolfenstein и Quake потеряли 136 человек (из 185) и даже утверждалось, что в студии не осталось никого, кто умеет работать с движком id Tech и другим специфическим инструментарием.

17.07 / 18:47

люди общество болезнь деменция симптомы Эффективная профилактика деменции - как уберечь себя и близких

Эксперты рассказали, как уберечь себя и своих родных от тяжелого возрастного заболевания.

17.07 / 18:38

люди общество самит психология Психология и отношения Как вежливо поставить на место токсичного человека - 10 лучших фраз

Вероятно, каждому из нас доводилось сталкиваться с грубым и неприятным собеседником. Как правильно поставить его на место, не опускаясь до грубости?

17.07 / 18:38

связь люди здоровье климат самоубийство Как глобальное потепление связано с самоубийствами - ответ ученых

Ученые проанализировали последствия глобального потепления, связанные с самоубийствами.

Лента новостей

На главную страницу