Бенчмарк ARC перестаёт быть барьером: современные подходы оптимизации рушат его значимость
Бенчмарк ARC (Abstraction and Reasoning Corpus), долгое время считавшийся одной из самых сложных проверок абстрактного мышления для ИИ, оказался ещё одной «жертвой» оптимизации и инженерных ухищрений в индустрии ИИ. По данным аналитиков и свежим результатам стартапа Poetiq, современные системы на базе больших моделей, включая GPT‑5.2 X‑High, показали до 75 % точности на ARC‑AGI‑2, что выше средней оценки человека на этих задачах.
Изначально ARC создавался для измерения истинного обобщающего интеллекта, а не простого запоминания статистики или шаблонов. Его особенность заключалась в том, что задачи требуют абстрактного рассуждения и понимания закономерностей, чего именно не хватает многим большим языковым моделям. Однако последние успехи продемонстрировали, что инженерные стратегии, такие как усовершенствованные промпты, генерация кода и итеративное самокорректирование, позволяют системам достигать очень высоких результатов, превращая ARC из лабораторного испытания в оптимизационный таргет.
Компания Poetiq подробно описывает свой подход: их система направляет основную модель (например, GPT‑5.2) на генерацию кода для решения каждой отдельной задачи, затем исполняет этот код, проверяет корректность результата и вносит исправления, если они требуются. Несколько независимых запусков затем объединяются для повышения надёжности итогового вывода. Этот цикл сочетает мощь генеративных моделей с программным анализом и логикой поиска, что существенно повышает итоговые баллы.
Тем не менее высокие результаты пока относятся только к «публичным» наборам данных, доступным для обучения и оптимизации. На полусекретных наборах, которые обычно используются для официальных соревнований и частных тестов, показатели могут заметно падать,
Читать на habr.com