Вышел бенчмарк ARC-AGI-3: люди набирают 100%, GPT-5.4 — 0,26%
ARC Prize Foundation опубликовала технический отчет о третьей версии бенчмарка ARC-AGI — теста на общий интеллект, созданного Франсуа Шолле, автором фреймворка Keras. В отличие от предыдущих версий, где модели угадывали правила по статичным парам "вход — выход" на цветных сетках, ARC-AGI-3 — это 135 интерактивных пошаговых сред, по сути мини-игр на сетке 64×64. Агент должен сам исследовать среду, понять ее механики и догадаться о цели: никаких инструкций ему не дают.
Бенчмарк измеряет четыре компонента агентного интеллекта: исследование, построение модели мира, самостоятельное целеполагание и планирование. Ключевая метрика — RHAE — считает не просто факт решения, а эффективность в действиях по сравнению с людьми. Формула квадратичная: если человек прошел уровень за 10 действий, а ИИ за 100, модель получает не 10%, а 1%. Каждую среду калибровали на живых людях — 486 участников проходили тестирование в Сан-Франциско трижды в неделю. Среда попадала в бенчмарк, только если минимум двое из десяти тестировщиков проходили ее полностью с первой попытки.
Результаты передовых моделей на полуприватном наборе: Gemini 3.1 Pro Preview — 0,37%, GPT-5.4 (High) — 0,26%, Opus 4.6 (Max) — 0,25%, Grok-4.20 — 0,00%. Люди при этом решают 100% сред, медианное время — 7,4 минуты. Авторы подчеркивают: причина перехода к интерактивному формату — компрометация предыдущих версий. В отчете приводится пример: Gemini 3 в цепочке рассуждений использует правильный маппинг чисел на цвета из ARC-AGI, хотя в промпте об этом ни слова. Это значит, что данные бенчмарка представлены в обучающих выборках моделей.
Самое спорное решение — официальный лидерборд учитывает только ИИ, работающие без "харнесса", то есть программных инструментов, помогающих ему решить
Читать на habr.com

