Показатели лучших моделей OpenAI рухнули в новом бенчмарке ARC-AGI-2
Новый бенчмарк AI ARC-AGI-2 значительно поднимает планку для тестов AI. В то время как люди могут легко решать эти задачи, даже высокоразвитые системы AI, такие как OpenAI o3, явно терпят неудачу.
Франсуа Шолле и его команда выпустили ARC-AGI-2, новую версию своего теста AI. Несмотря на то, что новый тест соответствует формату ARC-AGI-1, он обеспечивает, по словам команды, более сильный сигнал для измерения истинного интеллекта системы.
«Это тест AI, разработанный для измерения общего подвижного интеллекта, а не заученных навыков — набора никогда ранее невиданных задач, которые людям кажутся простыми, но с которыми современный AI сталкивается с трудностями», — пояснил Шолле на X.
Тест фокусируется на возможностях, которых все еще не хватает современным системам AI: интерпретация символов, многошаговое композиционное мышление и применение правил в зависимости от контекста.
Эталон был полностью откалиброван по результатам работы человека. В сеансах живого тестирования с 400 участниками были оставлены только те задачи, которые могли надежно решить несколько человек. Средний показатель сдающих тест без предварительной подготовки составил 60%, в то время как группа из 10 экспертов достигла 100%.
Результаты начального тестирования рисуют отрезвляющую картину. Даже самые передовые системы работают плохо. Чисто языковые модели, такие как GPT-4.5, Claude 3.7 Sonnet и Gemini 2, набирают ноль процентов. Модели с базовыми цепочками рассуждений, такие как Claude 3.7 Sonnet Thinking, R1 и o3-mini, набирают только от нуля до одного процента.
Модель o3-low от OpenAI показала особенно заметное падение производительности, упав с 75,7% на ARC-AGI-1 до примерно 4% на ARC-AGI-2. Победители ARC Prize 2024, команда ARChitects, испытали аналогичное
Читать на habr.com