
Фонд Arc Prize представил новый AGI-тест, который ставит в тупик большинство ИИ-моделей
Фонд Arc Prize, некоммерческая организация, сооснованная видным исследователем ИИ Франсуа Шолле, объявил в блоге в понедельник о создании нового, сложного теста для измерения общего интеллекта ведущих моделей искусственного интеллекта.
Пока что новый тест, получивший название ARC-AGI-2, оказался непосильным для большинства моделей.
По данным таблицы лидеров Arc Prize, модели с акцентом на логическое мышление, такие как o1-pro от OpenAI и R1 от DeepSeek, набирают от 1% до 1,3% на ARC-AGI-2. Мощные, но не специализированные на рассуждениях модели — включая GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash — показывают результат около 1%.
Тесты ARC-AGI состоят из задач, напоминающих головоломки, где ИИ должен выявлять визуальные закономерности в массивах разноцветных квадратов и на их основе генерировать правильную сетку-ответ. Эти задачи созданы так, чтобы вынуждать ИИ адаптироваться к новым, незнакомым ситуациям.
Более 400 человек прошли тест ARC-AGI-2 для установления базового человеческого уровня. В среднем, «панели» участников справлялись с 60% заданий — значительно лучше, чем любые из протестированных моделей.
В публикации на X Шолле утверждает, что ARC-AGI-2 является более точным показателем подлинного интеллекта ИИ-моделей, чем первая версия теста — ARC-AGI-1. Тесты фонда Arc Prize направлены на оценку способности ИИ к эффективному освоению новых навыков вне рамок обучающих данных.
По словам Шолле, в отличие от ARC-AGI-1, новая версия теста исключает возможность нахождения решений с помощью «грубой силы» — чрезмерных вычислительных ресурсов. Он ранее признавал это слабым местом первой версии.
В качестве ответа на эти недостатки ARC-AGI-2 вводит новую метрику — эффективность. Моделям также необходимо интерпретировать
Читать на habr.com