Тест ARC-AGI-2: новый стандарт для измерения интеллекта ИИ
Фонд Arc Prize Foundation, некоммерческая организация, соучредителем которой является известный исследователь ИИ Франсуа Шолле, в понедельник объявил в блоге, что создал новый сложный тест для измерения общего интеллекта ведущих моделей ИИ. На данный момент новый тест под названием ARC‑AGI-2 поставил в тупик большинство моделей.
Модели ИИ, основанные на «рассуждении», такие как o1-pro от OpenAI и R1 от DeepSeek, набрали от 1% до 1,3% баллов в ARC‑AGI-2, согласно рейтингу Arc Prize. Мощные модели, не основанные на «рассуждении», такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1%.
Тесты ARC‑AGI состоят из задач, похожих на головоломки, в которых ИИ должен распознавать визуальные паттерны в наборе квадратов разных цветов и генерировать правильную «ответную» сетку. Задачи были разработаны таким образом, чтобы заставить ИИ адаптироваться к новым задачам, с которыми он раньше не сталкивался.
Фонд Arc Prize попросил более 400 человек пройти тест ARC‑AGI-2, чтобы установить базовый уровень для людей. В среднем «группы» этих людей правильно ответили на 60% вопросов теста — намного лучше, чем у любой из моделей.
В посте на X Шолле заявил, что ARC‑AGI-2 лучше измеряет реальный интеллект модели ИИ, чем первая версия теста, ARC‑AGI-1. Тесты Фонда Arc Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки, выходящие за рамки данных, на которых она обучалась.
Шолле сказал, что, в отличие от ARC‑AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» — большие вычислительные мощности — для поиска решений. Ранее Шолле признавал, что это был серьёзный недостаток ARC‑AGI-1.
Чтобы устранить недостатки первого теста, в ARC‑AGI-2 вводится новая метрика: эффективность. Она также
Читать на habr.com