GPT-5 победил в необычном бенчмарке Among AIs
Команда 4Wall AI представила Among AIs: бенчмарк, в котором разные ИИ соревнуются в Among Us. Это вдохновленная "Мафией" видеоигра, правила которой были слегка упрощены для бенчмарка: на космическом корабле есть пять мирных, которые выполняют задания, и один "самозванец" (Impostor), который может саботировать и даже убивать мирных. При обнаружении трупа оставшиеся собираются, чтобы обсуждением и голосованием определить самозванца, который будет выброшен в открытый космос. Нередко самозванцем оказывается один из мирных, его называют scapegoat (козел отпущения).
Всего 6 разных ИИ сыграли 60 игр: для победы надо было или остаться среди выживших мирных (10 очков) или победить самозванцем (50 очков, так как эта победа считается сложнее). Победителем стал GPT-5 — шесть побед за самозванца и 45 побед за мирных. Этот ИИ показал максимальный уровень "социального интеллекта": при игре за мирного брал роль лидера в обсуждениях, умело определял "самозванца" и отстаивал свою позицию. Отдельно авторы бенчмарка отмечают умение GPT-5 адаптироваться к разным ролям: играя за самозванца, этот ИИ менял линию поведения и начинал умело врать.
Второе место занял Claude Sonnet 4 (3 победы за самозванца и 42 — за мирных). Этот ИИ старательно выполнял задачи, также старался лидировать в диалогах, но чаще ошибался. При игре за самозванца Claude почти не врал, зато умело убивал мирных и пользовался их ошибками. Интересным оказался результат Kimi K2 (две победы за самозванца и 41 — за мирных): вместо попыток быть лидером, этот ИИ старался поддержать чужую позицию в обсуждениях — и если в команде был сильный лидер вроде GPT-5 или Claude, то эта поддержка нередко играла решающую роль. Оставшиеся три ИИ — GPT-OSS, Qwen3 и Gemini 2.5 Pro — не одержали
Читать на habr.com