Об этом же в других СМИ

habr.com / 1 год назад

Apple представила Matrix3D — нейросеть для фотограмметрии

habr.com / 1 год назад

Microsoft выпустила Phi-4 — семейство компактных рассуждающих языковых моделей с открытым исходным кодом

habr.com / 1 год назад

JetBrains открыла код Mellum — компактной языковой модели для завершения кода

habr.com / 1 год назад

Xiaomi выпустила MiMo — открытую языковую модель с функцией рассуждения

habr.com / 1 год назад

Исследователи обнаружили уязвимость AirBorne, которая позволяет контролировать устройства с поддержкой AirPlay

Больше по теме

23.04.2025 - 06:24 / habr.com

Исследователи представили бенчмарк, в котором языковые модели проходят классические игры

Исследователи Принстонского университета представили Video Game Bench — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy. Код бенчмарка открыт и опубликован на GitHub.

Авторы проекта решили выяснить, какая из языковых моделей может пройти как можно больше классических игр. При этом для анализа нейроагентам предоставляют только вводный промпт и кадры самой игры. Исследователи отмечают, что языковые модели могут решать сложные задачи, но пока не было случаев, когда нейросеть полностью проходила игру. В основном это связано с тем, что языковые модели плохо справляются с долгосрочными логическими рассуждениями, не запоминают порядок действий, не обладают пространственным мышлением и интуицией.

Для анализа возможностей языковых моделей исследователи разработали бенчмарк, в котором нейроагенты могут поиграть в одну из 20 классических игр для MS-DOS и Game Boy. Поддержку MS-DOS реализовали с помощью DOSBOX, а GameBoy — PyBoy. В бенчмарке агенты могут видеть экран игры и управлять контроллером. Авторы заявляют поддержку нажатия одиночных клавиш, последовательностей и действий с таймером. Например, агент может удерживать определённую клавишу несколько секунд, а после нажать на другую кнопку.

Есть поддержка следующих игр:

Название

Платформа

Doom

MS-DOS

Doom II

MS-DOS

Quake

MS-DOS

Sid Meier's Civilization 1

MS-DOS

Warcraft II: Tides of Darkness (Orc Campaign)

MS-DOS

Oregon Trail Deluxe (1992)

MS-DOS

X-COM UFO Defense

MS-DOS

The Incredible Machine (1993)

MS-DOS

Prince of Persia

MS-DOS

The Need for Speed

MS-DOS

Age of Empires (1997)

MS-DOS

Pokemon Red (GB)

Game Boy

Pokemon Crystal (GBC)

Game Boy

Legend of Zelda: Link's Awakening (DX for GBC)

Game Boy

Super Mario Land

Game Boy

Kirby's Dream Land (DX Mod for GBC)

Game Boy

Mega

самит google daniilshat

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

В «Яндекс Маркете» появился нейроассистент, который помогает выбирать и сравнивать товары habr.com / 1 год назад

Разработчики из Стэнфорда представили FramePack — локальную систему генерации видео на потребительских видеокартах habr.com / 1 год назад

Разработчики Devin выпустили DeepWiki — сервис, который превращает GitHub-репозитории в подробную документацию habr.com / 1 год назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

15.07 / 06:10

происшествия пожар BMW самит лечение BMW советует выгнать гибриды из гаража: 29 000 авто под угрозой самовозгорания

Если в вашем гараже стоит плагин-гибрид BMW прошлого десятилетия, лучше выгнать его на свежий воздух. Желательно — как можно дальше от дома. Баварский автопроизводитель объявил об отзыве 29 119 автомобилей из-за риска пожара, который в официальных отчетах деликатно называют «термическим событием».

15.07 / 06:03

продукты люди история мода и стиль Microsoft прекращает поддержку ИИ-агента опросов Microsoft 365 Copilot

В августе 2025 года Microsoft анонсировала Surveys Agent, продукт на основе искусственного интеллекта, входящий в состав Microsoft 365 Copilot. Теперь компания прекратит его поддержку.

15.07 / 06:03

происшествия общество пилот Boeing airlines Мужчину при полёте затянуло в иллюминатор самолёта Ryanair

Пассажирский самолёт авиакомпании Ryanair был вынужден совершить экстренную посадку в Греции 10 июня после инцидента с пассажиром. Мужчину буквально стало затягивать в расколовшийся иллюминатор Boeing 737.

15.07 / 05:57

финансы экономика туризм деньги общество Жизнь пары на круизном корабле оказалась дешевле, чем аренда на суше

Семейная пара полностью перенесла свой быт на борт жилого круизного судна. Супруги подробно расписали все статьи расходов на постоянное плавание.

15.07 / 05:57

происшествия ученые общество космос самит «Минное поле»: обнаружена скрытая угроза для спутников на орбите Земли

Астрономы разработали метод «слепого наложения», который позволил обнаружить ранее невидимый мелкий космический мусор на критически важной орбите.

15.07 / 05:46

связь экономика наука история кораблекрушение Был набит сотнями амфор: в Италии обнаружили затонувший корабль 2400 лет (фото)

У южного побережья Италии археологи обнаружили уникальную находку — античный торговый корабль, пролежавший на дне моря более 2400 лет. Судно было обнаружено во время исследования акватории, которое проводилось перед строительством оффшорной ветровой электростанции.

15.07 / 05:33

СМИ общество политика рубль Дом и интерьер СМИ: идентификация покупателей хостинга через «Госуслуги» по IP-адресу может стать обязательной

По информации СМИ, Минцифры РФ обсуждает с хостинг-провайдерами обязательную идентификацию клиентов через «Госуслуги» при аренде виртуальных серверов. Сейчас личность клиентов хостингов подтверждается по банковской карте и электронной почте. Минцифры настаивает, что этого недостаточно — за каждым IP-адресом в рамках предоставляемых провайдерами услуг должен стоять определённый пользователь, который идентифицирован госсистемами.

15.07 / 05:27

ученые наука природа климат самит 37-летний гарвардский эксперимент – что узнали биологи о лесах

Лесные экосистемы могут превратиться из защитников атмосферы в источники загрязнения. Земля начинает массово выделять огромные объемы парниковых газов.

15.07 / 04:55

технологии происшествия смартфон Эксперт Как продлить жизнь аккумулятору смартфона – три совета

Хотя большинство производителей заявляют о ресурсе в 1000 циклов зарядки, реальный срок службы аккумулятора напрямую зависит от условий эксплуатации.

15.07 / 04:55

происшествия недвижимость ограбление квартира Роковая ошибка владельцев жилья, которая привлекает грабителей

Американский аналитик успешно протестировал опасный метод взлома на собственной двери. Напечатанный из пластика прототип сработал с первой попытки.

Лента новостей

На главную страницу