Gemini 3 оказался сильнее в “Мафии” и шахматах, а ChatGPT o3 и 5.2 – в покере
Платформа Game Arena, начавшаяся с шахмат, расширилась двумя новыми, куда более коварными играми: социальной дедукцией в “Мафии” (Werewolf) и расчетом рисков в покере.
Зачем ИИ игры? Как отмечает генеральный директор Google DeepMind Демис Хассабис, индустрии искусственного интеллекта “нужны гораздо более сложные и надежные бенчмарки”. Классические тесты на знание фактов или решение математических задач уже не отражают всей глубины возможностей современных моделей. Игры же, особенно такие разные, предлагают объективные метрики для оценки реальных навыков: от долгосрочного планирования и логики до коммуникации и принятия решений в условиях неопределенности.
Шахматный бенчмарк, запущенный в Game Arena в прошлом году, был первым шагом. Он оценивает стратегическое мышление, адаптацию и планирование. Но что интересно: в отличие от традиционных движков вроде Stockfish, которые перебирают миллионы позиций в секунду, большие языковые модели подходят к игре иначе – через распознавание паттернов и “интуицию”, что гораздо ближе к человеческому стилю.
Сейчас Gemini 3 Pro и Gemini 3 Flash занимают первые строчки в шахматном лидерборде. Их внутренние рассуждения показывают использование стратегической логики, основанной на классических концепциях – мобильности фигур и безопасности короля. Резкий скачок в производительности по сравнению с поколением Gemini 2.5 наглядно демонстрирует, как быстро развиваются модели.
А вот “Мафия” – уже совершенно другой уровень. Это первая командная игра в Arena, которая ведется полностью на естественном языке. Моделям приходится ориентироваться в неявной информации, скрытой в диалоге: деревня должна вычислить оборотней, а те – маскироваться и манипулировать.
Этот бенчмарк проверяет “мягкие навыки” –
Читать на habr.com
