Новая GPT-5.2 поставила рекорд в сложнейшем «бенчмарке на AGI»
OpenAI представила GPT-5.2 — свою новую флагманскую модель, которая доступна в API и раскатывается в ChatGPT. А организация ARC Prize уже опубликовала результаты своих бенчмарков ARC-AGI-1 и ARC-AGI-2, которые считаются сложным тестом на абстрактное мышление и нередко называются "экзаменом на AGI". Модель заняла первое место в обоих бенчмарках, но остановимся на результатах ARC-AGI-2 — эта версия была выпущена недавно и считается, что ее задачи еще не "попали" в обучающие дата-сеты для ИИ.
Итак, GPT-5.2 Pro выполняет 54,2% задач против 54% у предыдущего рекордсмена. Разница небольшая, но стоит отметить, что ранее первое место принадлежало Poetiq — специальной системе "оркестрации" сразу нескольких копий Gemini 3 Pro, заточенной под бенчмарки типа ARC-AGI. Сейчас же лучший результат показала модель, которая доступна массовому пользователю. Также стоит обратить внимание на "обычную" GPT-5.2 Thinking: в режиме X-High она решила 52,9% задач при цене лишь $1,90 за задачу против $15,27 у GPT-5.2 Pro и $30,75 у Poetiq. Это показывает, что более доступным версиям модели теперь доступны задачи повышенной сложности.
Напомню, что в ARC-AGI проверяют умение ИИ переносить полученные навыки на похожие задачи. Сначала модели показывают две визуальных головоломки в формате "условие — правильно решенная версия". Задача ИИ — вывести правило, по которому решались эти головоломки, а затем с его помощью решить третью. Люди решают такие головоломки сравнительно легко, но вот ИИ ARC-AGI до недавнего времени не давался. GPT-5.2 оказалась близка к человеческому уровню - для ARC-AGI-2 он установлен в 66%.
Из других бенчмарков стоит отметить прирост в GDPval — 70,9% у GPT-5.2 Thinking против 38,8% у GPT-5.1 Thinking. Это новый бенчмарк OpenAI, в
Читать на habr.com