
Factorio пополняет список видеоигр, которые также тестируют производительность AI
Factorio, сложная компьютерная игра, ориентированная на строительство и управление ресурсами, стала последним инструментом исследователей для оценки возможностей AI. Игра проверяет способность языковых моделей планировать и строить сложные системы, управляя при этом множеством ресурсов и производственных цепочек.
Factorio Learning Environment (FLE) предоставляет два различных режима тестирования. «Lab-Play» включает 24 структурированных задания с определенными целями и ограниченными ресурсами, от простых сборок из двух машин до сложных фабрик с почти 100 машинами. В режиме «Open Play» агенты AI исследуют процедурно сгенерированные карты с одной целью: построить самую большую возможную фабрику.
Система работает через API Python, который позволяет агентам генерировать код для действий и проверять статус игры. Эта настройка проверяет способность языковых моделей синтезировать программы и управлять сложными системами. API обеспечивает функции для размещения и соединения компонентов, управления ресурсами и мониторинга хода производства.
Для измерения успеха исследователи оценивают производительность агентов, используя два ключевых измерения: «Производственный показатель», который вычисляет общую стоимость продукции и увеличивается экспоненциально с ростом сложности производственной цепочки, и «Вехи», которые отслеживают важные достижения, такие как создание новых предметов или исследование технологий. Экономическая симуляция игры учитывает такие факторы, как дефицит ресурсов, рыночные цены и эффективность производства.
Исследовательская группа, в которую входит ученый Anthropic, оценила шесть ведущих языковых моделей в среде FLE: Claude 3.5 Sonnet, GPT-4o и GPT-4o mini, DeepSeek-V3, Gemini 2.0 Flash и
Читать на habr.com