ИИ учится играть в Super Mario Bros.: какие модели показали лучшие результаты
Думали, что «Pokemon» — сложный тест для ИИ? Одна группа исследователей утверждает, что Super Mario Bros. ещё сложнее.
Лаборатория искусственного интеллекта Hao, исследовательская организация Калифорнийского университета в Сан-Диего, в пятницу внедрила ИИ в игры Super Mario Bros. Claude 3.7 от Anthropic показал наилучшие результаты, за ним следует Claude 3.5. Gemini 1.5 Pro от Google и GPT-4o от OpenAI показали худшие результаты.
Это была не совсем та же Super Mario Bros., что и оригинальная версия 1985 года. Игра запускалась в эмуляторе и была интегрирована с фреймворком GamingAgent, чтобы ИИ мог управлять Марио.
Игровой агент, разработанный компанией Hao, передавал ИИ базовые инструкции, например: «Если рядом препятствие или враг, двигайтесь/прыгайте влево, чтобы увернуться», и скриншоты из игры. Затем ИИ генерировал входные данные в виде кода Python для управления Марио.
Тем не менее, Нао говорит, что игра заставила каждую модель «научиться» планировать сложные манёвры и разрабатывать игровые стратегии. Интересно, что лаборатория обнаружила, что модели, основанные на рассуждениях, такие как o1 от OpenAI, которые шаг за шагом «размышляют» над проблемами, чтобы найти решение, показали худшие результаты, чем модели, не основанные на рассуждениях, несмотря на то, что в целом они были сильнее в большинстве тестов.
По словам исследователей, одна из основных причин, по которой модели рассуждений испытывают трудности при игре в реальном времени, заключается в том, что им требуется некоторое время, обычно несколько секунд, для принятия решения о действиях. В Super Mario Bros. время решает всё. Секунда может означать разницу между безопасным прыжком и падением и смертью.
Игры десятилетиями использовались для тестирования
Читать на habr.com


