ИИ-модель Google Gemini «запаниковала», играя в Pokémon
Google и Anthropic изучают, как их новейшие модели ИИ справляются с играми в Pokémon — результаты могут быть как забавными, так и поучительными. На этот раз Google DeepMind написал в отчёте, что Gemini 2.5 Pro впадает в панику, когда его покемоны близки к смерти. Согласно отчёту, это может привести к «качественно заметному ухудшению способности модели к рассуждению».
Тестирование ИИ — или процесс сравнения производительности различных моделей ИИ — это сомнительное дело, которое часто даёт мало информации о реальных возможностях конкретной модели. Но некоторые исследователи считают, что изучение того, как модели ИИ играют в видеоигры, может быть полезным (или, по крайней мере, забавным).
За последние несколько месяцев два разработчика, не связанные с Google и Anthropic, запустили на Twitch стримы под названием «Gemini играют в Pokémon» и «Claude играет в Pokémon», где любой желающий может в реальном времени наблюдать за тем, как ИИ пытается пройти детскую видеоигру, выпущенную более 25 лет назад.
Каждый стрим отображает процесс «рассуждений» ИИ — или перевод на естественный язык того, как ИИ оценивает задачу и приходит к ответу, — что даёт нам представление о том, как работают эти модели.
Хотя прогресс в развитии этих моделей ИИ впечатляет, они всё ещё не очень хорошо играют в Pokémon. Gemini требуется сотни часов, чтобы пройти игру, которую ребёнок мог бы пройти в разы быстрее. Интересно наблюдать за тем, как ИИ проходит игру Pokémon, не столько из-за времени прохождения, сколько из-за того, как он ведёт себя на протяжении всего пути.
«В ходе прохождения игры Gemini 2.5 Pro попадает в различные ситуации, которые заставляют модель имитировать панику», — говорится в отчёте.
Такое состояние «паники» может привести к ухудшению
Читать на habr.com