

Новый тест AGI ставит в тупик большинство моделей ИИ
Фонд Arc Prize — некоммерческая организация, соучредителем которой является выдающийся исследователь искусственного интеллекта Франсуа Шоссель. было объявлено в своем блоге в понедельник компания сообщила о создании нового сложного теста для измерения общего интеллекта ведущих моделей ИИ.
Пока что новый тест под названием ARC-AGI-2 поставил в тупик большинство моделей.
Модели «рассуждающего» ИИ, такие как OpenAIo1-pro от . и R1 от DeepSeek набрали от 1% до 1.3% на ARC-AGI-2, согласно таблице лидеров Arc Prize. Мощные неинтеллектуальные модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, набрали около 1%.
Тесты ARC-AGI состоят из головоломок, в которых ИИ должен идентифицировать визуальные шаблоны из набора цветных квадратов и генерировать правильную сетку «ответов». Задания были разработаны, чтобы заставить ИИ адаптироваться к новым проблемам, с которыми он раньше не сталкивался.
Фонд Arc Prize пригласил более 400 человек принять участие в ARC-AGI-2, чтобы установить базовый уровень для человека. В среднем «панели» этих людей ответили правильно на 60% вопросов теста — намного лучше, чем любая из моделей.
В своем посте на X Шолле утверждает, что ARC-AGI-2 является лучшим индикатором реального интеллекта модели ИИ, чем первая итерация теста, ARC-AGI-1. Тесты Arc Prize направлены на оценку того, может ли система ИИ эффективно приобретать новые навыки за пределами данных, на которых она была обучена.
Шолле отметил, что, в отличие от ARC-AGI-1, новый тест не позволяет моделям ИИ полагаться на «грубую силу» — высокую вычислительную мощность — для поиска решений. Ранее Шолле признал, что это было главным недостатком ARC-AGI-1.
Чтобы устранить недостатки первого теста, ARC-AGI-2 вводит новую метрику: эффективность.
Читать на hitechexpert.top
