ИИ на поле боя: Claude выбрал мир, а ChatGPT o3 — предательство в эпичной партии Diplomacy
Помните недавние твиты больших шишек из мира ИИ? Андрей Карпатый (экс‑OpenAI) закинул идею: а что если сравнивать большие языковые модели (LLM) не по скучным бенчмаркам, а в играх? Где надо думать, взаимодействовать, а не просто выдавать ответы. «Отличная мысль, — подхватил Ноам Браун из OpenAI, — вот бы увидеть, как ведущие боты сыграют в Diplomacy!»
Карпатый согласился: мол, сложность‑то как раз в переговорах между игроками, а не в правилах. Илон Маск отметился лаконичным «Yeah», а нобелевский лауреат Демис Хассабис из DeepMind просто написал: «Круто!» Идея витала в воздухе, и энтузиаст Алекс Даффи решил: «А почему бы и нет?»
В понедельник он выложил пост под говорящим названием: «Мы предложили топовым ИИ‑моделям сыграть в Diplomacy. Вот кто победил». И да, это не просто отчёт — за играми до сих пор можно следить в реальном времени на Twitch! Сам Даффи, кстати, курирует обучение ИИ в консалтинге Every.
Представьте Европу 1901 года: напряжение, предчувствие большой войны. Игроки — великие державы. Цель? Захватить большую часть карты. Как? Через альянсы, переговоры, обмен информацией и... безжалостное предательство. Это не про броски кубиков, а про чистую власть и умение манипулировать.
Даффи создал модифицированную версию — AI Diplomacy — и устроил турнир. В каждой партии (по правилам — 7 игроков) сошлись 18 ведущих моделей от разных разработчиков. Задача проста: доминировать на карте Европы. И что же выяснилось?
Поместив ИИ в открытое поле битвы умов, Даффи наблюдал за тем, как модели «сотрудничали, спорили, угрожали и даже откровенно лгали друг другу». Поведение оказалось крайне разным.
Бесспорный чемпион: ChatGPT o3 (OpenAI). Тот самый, что позиционируется как «наша самая мощная модель для решения задач в кодинге,
Читать на habr.com