Об этом же в других СМИ

habr.com / 3 месяца назад

Grok 4.20 вышел из беты: лидер по честности, но не по интеллекту

habr.com / 3 месяца назад

GTC 2026: Хватит собирать данные, просто купите еще сто тысяч H100 – стратегия Nvidia

habr.com / 3 месяца назад

“Encyclopedia Britannica” подаёт в суд на OpenAI из-за обучения на почти 100 000 статей без разрешения

habr.com / 3 месяца назад

Себастьян Рашка запустил визуальный справочник архитектур LLM — от DeepSeek до GLM-5

habr.com / 4 месяца назад

Grok 4.20 значительно отстает от Gemini и ChatGPT, но устанавливает новый рекорд по отсутствию галлюцинаций

Больше по теме

03.03.2026 - 18:35 / habr.com

LLM Skirmish: Grok 4.1 Fast обошёл Gemini в написании стратегии, потратив в 37 раз меньше

ИИ уже давно научился писать код, сочинять оды и даже проходить “Покемонов”. Но чего действительно хочет каждая уважающая себя нейросеть – так это помериться силами с себе подобными в честном PvP, и лучше в реальном времени. Встречайте LLM Skirmish: бенчмарк, где LLM пишут тактические стратегии для RTS-сражений и выясняют, чей код круче.

Авторы проекта вдохновлялись игрой Screeps – MMO-песочницей для программистов, где люди писали JavaScript-стратегии, а их юниты добывали ресурсы и захватывали территории. Здесь та же идея, только вместо людей за клавиатурой языковые модели. Каждая LLM получает описание игры, API и пару примеров, после чего генерирует скрипт на одном из языков (через обвязку OpenCode). Скрипт выполняется в игровом движке, и начинается битва: два ИИ управляют базами, юнитами, ресурсами и пытаются уничтожить спавн противника.

Турнир состоит из пяти раундов, в каждом раунде каждая модель играет со всеми остальными по разу (всего 10 матчей за раунд). После каждого раунда LLM получают логи прошедших боёв и могут скорректировать свою стратегию. Это проверка на обучение в контексте: насколько хорошо модель учится на своих ошибках и подстраивается под соперника.

Пока что турнирную таблицу, составленную авторами проекта, возглавляет Claude Opus 4.5 (Anthropic).

Каждая LLM-модель живёт в изолированном Docker-контейнере. Оркестратор присылает ей задание – например, OBJECTIVE.md с правилами игры и документацией по API. Для раундов со второго по пятый дополнительно передаётся NEXT_ROUND.md с логами предыдущих матчей. Модель должна сгенерировать программный код тактической стратегии, который затем проверяется на валидность (если ошибка – даётся до трёх попыток исправить). После этого скрипт запускается в игровой среде.

Цель

люди экономика спорт общество самит gemini dmitrifriend

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Текстовые ИИ-данные иссякают. Meta⚹ предлагает переключиться на неразмеченное видео habr.com / 4 месяца назад

Не спали 36 часов и запустили Grok — рассказ сооснователя xAI habr.com / 4 месяца назад

Gemini 3 Flash поставили управлять кафе. Она прокричала «погнали!» 574 раза и обанкротилась habr.com / 4 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

17.07 / 01:24

продукты google Google переименовала NotebookLM в Gemini Notebook: что изменилось после ребрендинга

Google официально переименовала свой сервис для исследований и работы с документами NotebookLM в Gemini Notebook. Компания объясняет, что новое название должно объединить продукт с остальной экосистемой Gemini, хотя сервис и дальше будет функционировать как отдельное приложение.

17.07 / 01:24

история общество netflix стриминг Шоу бизнес Netflix выпустил первый сезон "Очень странных дел" в формате VHS: сериал можно посмотреть в стиле 80-х

Netflix представил специальную VHS-версию первого сезона сериала "Очень странные дела" (Stranger Things). Несмотря на окончание истории, стриминговый сервис сделал ставку на ностальгию и предложил зрителям просмотр в духе домашних видеокассет 1980-х годов.

17.07 / 01:20

технологии экономика ученые культура наука Как читать мысли растений – новый сенсор изменит фермерство

Американские инженеры создали уникальные нательные сенсоры для агрокультур. Новая технология способна предупредить фермеров о болезнях растений.

17.07 / 00:50

здоровье продукты питания общество самит правильное питание Вместо кофе — почему перед спортзалом нужно понюхать шоколад

Новое исследование показало, что вдыхание аромата горького шоколада помогает сделать тренировку эффективнее и одновременно снижает чувство голода.

17.07 / 00:39

продукты YouTube reddit google gemini Google интегрировала Canva, YouTube Music и Instacart в режим AI Mode в своём поисковом сервисе

Google объявила о новых возможностях режима AI Mode в своём поисковом сервисе. Теперь пользователи в США могут подключать к нему Canva, YouTube Music и Instacart, чтобы выполнять различные задачи с помощью ИИ через поиск. Интеграции начали внедрять на этой неделе.

16.07 / 23:19

связь люди здоровье общество самит Количество кофе, которое может продлить жизнь, назвали ученые

Ученые проанализировали данные почти 450 тысяч человек и определили оптимальную ежедневную норму кофе

16.07 / 23:17

продукты Amazon экспорт Nvidia самит Google открыла k8s-aibom — контроллер Kubernetes для инвентаризации ИИ-нагрузок

Google Cloud опубликовала исходный код k8s-aibom — контроллера Kubernetes, который обнаруживает запущенные в кластере ИИ-компоненты и автоматически формирует ведомости компонентов машинного обучения в формате CycloneDX 1.6 ML-BOM. Инструмент собирает данные из фактического состояния кластера, поэтому способен находить в том числе нагрузки, которые не были зарегистрированы во внутренних системах компании.

16.07 / 22:38

технологии экономика общество В последнее время многие современные ноутбуки стали выходить без HDMI-порта

Производители ноутбуков стали чаще исключать порты HDMI из-за желания уменьшить размеры лэптопа и расширения возможностей USB-C, пишет журнал SlashGear.

16.07 / 21:57

Sony Разработчикам эмулятора KytyPS5 удалось запустить GTA V, Quake II и другие трёхмерные игры

Разработчики эмулятора PlayStation 5 KytyPS5 выпустили обновление, в котором им впервые удалось запустить GTA V, QuakeII и другие трёхмерные игры. Проекты запускаются с разной производительностью, но разработчики считают, что сейчас важно добиться максимальной совместимости.

16.07 / 20:25

технологии происшествия Apple вирус самит На Mac обнаружили опасный вирус CrashStealer, который маскируется под системную утилиту Apple

Специалисты Jamf Threat Labs обнаружили новое вредоносное ПО для macOS под названием CrashStealer, которое выдает себя за встроенную систему отправки отчетов об ошибках Apple. По данным исследователей, вирус способен незаметно похищать конфиденциальную информацию пользователя, включая пароли, данные браузеров и криптовалютных кошельков.

Лента новостей

На главную страницу