LLM Skirmish: Grok 4.1 Fast обошёл Gemini в написании стратегии, потратив в 37 раз меньше
ИИ уже давно научился писать код, сочинять оды и даже проходить “Покемонов”. Но чего действительно хочет каждая уважающая себя нейросеть – так это помериться силами с себе подобными в честном PvP, и лучше в реальном времени. Встречайте LLM Skirmish: бенчмарк, где LLM пишут тактические стратегии для RTS-сражений и выясняют, чей код круче.
Авторы проекта вдохновлялись игрой Screeps – MMO-песочницей для программистов, где люди писали JavaScript-стратегии, а их юниты добывали ресурсы и захватывали территории. Здесь та же идея, только вместо людей за клавиатурой языковые модели. Каждая LLM получает описание игры, API и пару примеров, после чего генерирует скрипт на одном из языков (через обвязку OpenCode). Скрипт выполняется в игровом движке, и начинается битва: два ИИ управляют базами, юнитами, ресурсами и пытаются уничтожить спавн противника.
Турнир состоит из пяти раундов, в каждом раунде каждая модель играет со всеми остальными по разу (всего 10 матчей за раунд). После каждого раунда LLM получают логи прошедших боёв и могут скорректировать свою стратегию. Это проверка на обучение в контексте: насколько хорошо модель учится на своих ошибках и подстраивается под соперника.
Пока что турнирную таблицу, составленную авторами проекта, возглавляет Claude Opus 4.5 (Anthropic).
Каждая LLM-модель живёт в изолированном Docker-контейнере. Оркестратор присылает ей задание – например, OBJECTIVE.md с правилами игры и документацией по API. Для раундов со второго по пятый дополнительно передаётся NEXT_ROUND.md с логами предыдущих матчей. Модель должна сгенерировать программный код тактической стратегии, который затем проверяется на валидность (если ошибка – даётся до трёх попыток исправить). После этого скрипт запускается в игровой среде.
Цель
Читать на habr.com