Языковые модели ИИ тестируют на способность рассуждать в игре «Phoenix Wright: Ace Attorney»
Исследователи подвергли ведущие модели ИИ новому виду тестирования, которое показывает, насколько хорошо они могут рассуждать, чтобы одержать победу в суде. Результаты выявили некоторые явные различия как в производительности, так и в стоимости.
Команда из лаборатории искусственного интеллекта Hao в Калифорнийском университете в Сан-Диего оценила современные языковые модели с помощью игры «Phoenix Wright: Ace Attorney», в которой игрокам нужно собирать улики, выявлять противоречия и раскрывать правду, скрывающуюся за ложью.
По мнению Hao AI Lab, игра Ace Attorney особенно хорошо подходит для этого теста, потому что она требует от игроков собирать доказательства, выявлять противоречия и находить правду за ложью. Моделям пришлось анализировать длинные диалоги, выявлять несоответствия во время допроса и выбирать подходящие доказательства, чтобы оспорить показания свидетелей.
Эксперимент был отчасти вдохновлён соучредителем OpenAI Ильёй Суцкевером, который однажды сравнил предсказание следующего слова с пониманием детективной истории. Недавно Суцкевер получил дополнительное финансирование в размере нескольких миллиардов евро для нового проекта в области ИИ.
Исследователи протестировали несколько лучших мультимодальных моделей и моделей логического мышления, в том числе OpenAI o1, Gemini 2.5 Pro, Claude 3.7-thinking и Llama 4 Maverick. И o1, и Gemini 2.5 Pro достигли 4-го уровня, но o1 показал лучшие результаты в самых сложных случаях.
Тест выходит за рамки простого анализа текста или изображений. Как объясняет команда, моделям приходится анализировать длинные контексты и выявлять в них противоречия, точно понимать визуальную информацию и принимать стратегические решения в ходе игры.
«Игровой дизайн выводит ИИ за рамки чисто
Читать на habr.com


