Об этом же в других СМИ

habr.com / 6 месяцев назад

Блэкаут в Сан-Франциско парализовал роботакси Waymo — эксперты требуют новых правил

habr.com / 6 месяцев назад

Пока Запад спорит об AGI, Китай регулирует ИИ-подружек

habr.com / 6 месяцев назад

Автор «теста на AGI» объяснил истинную цель своего бенчмарка

habr.com / 6 месяцев назад

ИИ создал 50 новых миллиардеров в 2025 году — кто они и на чем заработали

habr.com / 6 месяцев назад

Anthropic и OpenAI удвоили лимиты до Нового года. Пользователи Claude не заметили разницы

Больше по теме

15.12.2025 - 14:51 / habr.com

Новая GPT-5.2 поставила рекорд в сложнейшем «бенчмарке на AGI»

OpenAI представила GPT-5.2 — свою новую флагманскую модель, которая доступна в API и раскатывается в ChatGPT. А организация ARC Prize уже опубликовала результаты своих бенчмарков ARC-AGI-1 и ARC-AGI-2, которые считаются сложным тестом на абстрактное мышление и нередко называются "экзаменом на AGI". Модель заняла первое место в обоих бенчмарках, но остановимся на результатах ARC-AGI-2 — эта версия была выпущена недавно и считается, что ее задачи еще не "попали" в обучающие дата-сеты для ИИ.

Итак, GPT-5.2 Pro выполняет 54,2% задач против 54% у предыдущего рекордсмена. Разница небольшая, но стоит отметить, что ранее первое место принадлежало Poetiq — специальной системе "оркестрации" сразу нескольких копий Gemini 3 Pro, заточенной под бенчмарки типа ARC-AGI. Сейчас же лучший результат показала модель, которая доступна массовому пользователю. Также стоит обратить внимание на "обычную" GPT-5.2 Thinking: в режиме X-High она решила 52,9% задач при цене лишь $1,90 за задачу против $15,27 у GPT-5.2 Pro и $30,75 у Poetiq. Это показывает, что более доступным версиям модели теперь доступны задачи повышенной сложности.

Напомню, что в ARC-AGI проверяют умение ИИ переносить полученные навыки на похожие задачи. Сначала модели показывают две визуальных головоломки в формате "условие — правильно решенная версия". Задача ИИ — вывести правило, по которому решались эти головоломки, а затем с его помощью решить третью. Люди решают такие головоломки сравнительно легко, но вот ИИ ARC-AGI до недавнего времени не давался. GPT-5.2 оказалась близка к человеческому уровню - для ARC-AGI-2 он установлен в 66%.

Из других бенчмарков стоит отметить прирост в GDPval — 70,9% у GPT-5.2 Thinking против 38,8% у GPT-5.1 Thinking. Это новый бенчмарк OpenAI, в

люди общество крипто Enterprise gemini runawayllm

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

«Общий интеллект — полная чушь»: Янн ЛеКун и Демис Хассабис поспорили, что называть AGI habr.com / 6 месяцев назад

Доработанная GPT-5.2 обошла человека в «тесте на AGI» habr.com / 6 месяцев назад

Глава Google DeepMind: У человечества осталось 10 лет на адаптацию к новому миру habr.com / 6 месяцев назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

06.07 / 17:49

продукты здоровье продукты питания общество еда Безопасную недельную норму куриных яиц назвали эксперты

Одно куриное яйцо концентрирует в себе до семи граммов идеального по аминокислотному составу растительного и животного белка.

06.07 / 17:49

погода продукты общество Здоровье и красота жара Не ешьте в жару: три продукта, заставляющие ваше тело "закипать"

Медики предупредили об опасности в жару продуктов, критически перегружающих метаболизм и провоцирующих опасное обезвоживание организма.

06.07 / 17:49

технологии люди отпуск самолет человек Какая ошибка во время полета может испортить отпуск с первых минут

Эксперты советуют подготовиться к этой проблеме еще до вылета, иначе неприятные симптомы могут сопровождать всю поездку.

06.07 / 17:32

iPhone технологии Apple история самит Инсайдер: iPhone 18 Pro Max может получить самый большой аккумулятор в истории бренда

Авторитетный инсайдер Digital Chat Station со ссылкой на поставщиков аккумуляторов для Apple поделился показателями аккумуляторов iPhone 18 Pro и Pro Max. Информация получена из китайской сертификационной базы аккумуляторов ССС и оценивается как заслуживающая доверие.

06.07 / 17:15

доллар intel Acer выпустила ноутбук Swift 16 с флагманским Intel Core Ultra X9 388H и OLED-экраном 120 Гц

Если ранее модель предлагалась только с чипами Core Ultra X7 358H и Core Ultra 7 355, то теперь покупателям доступна конфигурация на базе флагманского Intel Core Ultra X9 388H. Обновленный Swift 16 впервые показали на выставке CES 2026 в январе, а уже в апреле ноутбук появился в продаже. Теперь производитель расширил линейку наиболее производительной модификацией для пользователей, которым требуется максимум мощности.

06.07 / 17:09

Samsung технологии деньги самит интересное Belkin выпустила повербанк для тех, кто вечно забывает кабель

Компания Belkin, которая годами строит репутацию производителя качественных аксессуаров по цене, которая иногда заставляет задуматься о целесообразности покупки, вывела на рынок новую модель внешнего аккумулятора. Главная фишка здесь не в космических технологиях, а в тривиальном удобстве: устройство имеет интегрированный кабель USB-C. Теперь ситуация «взял повербанк, но забыл провод» становится чуть менее вероятной, если вы, конечно, не забудете само устройство в стене перед выходом.

06.07 / 17:09

общество nintendo Евросоюз Игровые консоли Nintendo Switch первого поколения уходит из Европы: с февраля 2027 года консоль снимут с продажи

Nintendo сообщила неожиданную новость: с середины февраля 2027 года в Европе снимут с продажи консоли Switch первого поколения. Это решение касается как базовой модели гаджета, так и Switch Lite и Switch OLED. До указанного срока ритейлеры по-прежнему могут закупать Nintendo Switch в необходимых объемах.

06.07 / 17:09

Samsung технологии история ice интересное Такого еще не было: в мобильном подразделении Samsung впервые зафиксированы убытки

Авторитетный инсайдер Ice Universe поделился интересной информацией, полученной от сотрудников Samsung. Они рассказали, что мобильное подразделение корейской компании впервые в своей истории показало убыток при выпуске смартфонов. Сообщается, что во втором квартале 2026 года сумма убытка составила около $740 млн.

06.07 / 17:09

продукты технологии intel мода и стиль Keychron Thunderbolt 5 Dock: 14 портов и цена как за неплохой смартфон

Компания Keychron, которую мы все знаем и любим за механические клавиатуры, что заставляют коллег по офису вас немного недолюбливать, решила расширить свой ассортимент. На этот раз они выпустили не очередной «кастом», а серьезное железо — док-станцию Thunderbolt 5 Dock (14-in-1). Это первый подобный продукт бренда, и он сразу нацеливается в высшую лигу, где господствуют Intel и профессиональные рабочие станции.

06.07 / 17:02

продукты здоровье Telegram еда питание В каком порядке есть продукты, чтобы избежать скачков сахара

Нутрициолог рассказал, как правильно сочетать продукты и в каком порядке их лучше есть.

Лента новостей

На главную страницу