Об этом же в других СМИ

obozrevatel.com / 1 год назад

На каких iPhone будет доступно обновление iOS 19: список

cursorinfo.co.il / 1 год назад

Какие продукты едят все люди, живущие более 100 лет, - список от экспертов

gagadget.com / 1 год назад

Полный список заявленных игр, которые выйдут на Nintendo Switch 2 в 2025-2026 годах

Больше по теме

19.03.2025 - 11:06 / habr.com

Factorio пополняет список видеоигр, которые также тестируют производительность AI

Factorio, сложная компьютерная игра, ориентированная на строительство и управление ресурсами, стала последним инструментом исследователей для оценки возможностей AI. Игра проверяет способность языковых моделей планировать и строить сложные системы, управляя при этом множеством ресурсов и производственных цепочек.

Factorio Learning Environment (FLE) предоставляет два различных режима тестирования. «Lab-Play» включает 24 структурированных задания с определенными целями и ограниченными ресурсами, от простых сборок из двух машин до сложных фабрик с почти 100 машинами. В режиме «Open Play» агенты AI исследуют процедурно сгенерированные карты с одной целью: построить самую большую возможную фабрику.

Система работает через API Python, который позволяет агентам генерировать код для действий и проверять статус игры. Эта настройка проверяет способность языковых моделей синтезировать программы и управлять сложными системами. API обеспечивает функции для размещения и соединения компонентов, управления ресурсами и мониторинга хода производства.

Для измерения успеха исследователи оценивают производительность агентов, используя два ключевых измерения: «Производственный показатель», который вычисляет общую стоимость продукции и увеличивается экспоненциально с ростом сложности производственной цепочки, и «Вехи», которые отслеживают важные достижения, такие как создание новых предметов или исследование технологий. Экономическая симуляция игры учитывает такие факторы, как дефицит ресурсов, рыночные цены и эффективность производства.

Исследовательская группа, в которую входит ученый Anthropic, оценила шесть ведущих языковых моделей в среде FLE: Claude 3.5 Sonnet, GPT-4o и GPT-4o mini, DeepSeek-V3, Gemini 2.0 Flash и

продукты технологии общество самит дефицит gemini dilnaz04

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Hollow Knight: Silksong снова возглавляет список желаемых игр Steam, опередив Deadlock и Elden Ring: Nightreign gagadget.com / 1 год назад

Исследование по повышению производительности в системах RAG habr.com / 1 год назад

Продукты для быстрого снижения давления - врачи составили список cursorinfo.co.il / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

16.07 / 06:08

связь технологии смартфон Эксперт гаджет Почему смартфоны лишились съемных аккумуляторов – основные причины

Производители смартфонов отказались от съемных аккумуляторов в пользу более тонкого дизайна.

16.07 / 06:04

reddit Valve выпустит обновление для повышения порога температуры, вызывающего «красную полосу смерти» в Steam Machine

Valve сообщила о планах выпустить обновление BIOS компактного компьютера Steam Machine, которое увеличит порог срабатывания на температуру, приводящий к появлению «красной полосы смерти» (Red Line of Death, RLOD).

16.07 / 05:38

люди общество самит отношения психология Как не испортить первое свидание – шесть вещей, которые все меняют

Желание произвести идеальное впечатление часто мешает людям трезво оценить партнера. Эксперты призвали сместить фокус внимания на личные интересы.

16.07 / 05:37

пожар деньги наука история общество Во Франции нашли клад с монетами 3 века: как выглядел (фото)

Археологи во французском городе Сенон обнаружили уникальное сокровище времен Римской империи. Во время раскопок они обнаружили три керамических сосуда, заполненные бронзовыми и медными монетами III века нашей эры.

16.07 / 05:25

происшествия политика самит крипто Добавили ИИ-ассистента в Kubernetes-платформу: управление кластером на человеческом языке и планы на встроенную LLM

Привет, Хабр! Мы активно работаем над упрощением эксплуатации Deckhouse Kubernetes Platform (DKP). Недавно рассказывали, что полное управление платформой через веб-интерфейс стало доступно в бесплатной редакции DKP. Сегодня делаем следующий шаг — встраиваем туда ИИ-ассистента, так что попробовать его может любой и без коммерческой лицензии.

16.07 / 05:25

продукты экономика президент политика рубль «Руссофт»: более 20% IT-компаний могут снизить выручку за 2026 год

В 2026 году более 20% IT‑компаний могут снизить годовую выручку. Это следует из прогноза ассоциации «Руссофт», сделанного на основе ежегодного опроса более 300 участников индустрии ПО в марте‑апреле. Но совокупно к концу 2026 года выручка российских софтверных компаний может увеличиться на 17% до 3,3 трлн рублей, ожидают в ассоциации.

16.07 / 05:18

продукты здоровье продукты питания самит еда Какой йогурт на самом деле полезнее для вашего здоровья

Выбор между греческим и обычным йогуртом зависит исключительно от ваших индивидуальных целей.

16.07 / 04:36

бизнес происшествия животные общество собака Скрытая угроза для собаки во время прогулки – ветеринар предупредил

Ветеринары призывают полностью отказаться от общих поилок возле магазинов и пабов. В такой посуде скапливаются сотни опасных микробов.

16.07 / 03:26

происшествия ученые автомобиль мода и стиль Как быстро выехать из пробки на авто - ответ ученых удивит

Исследователи назвали эффективный способ, благодаря которому можно быстро покинуть пробку без агрессивного вождения автомобиля.

16.07 / 03:26

люди здоровье общество банк болезнь Какое количество кофе может повысить риск сердечного приступа

В больших количествах кофеин создает нагрузку на сердце и может навредить сосудам.

Лента новостей

На главную страницу