Исследователи представили бенчмарк, в котором языковые модели проходят классические игры
Исследователи Принстонского университета представили Video Game Bench — бенчмарк, в котором языковые модели проходят классические игры для MS-DOS и Game Boy. Код бенчмарка открыт и опубликован на GitHub.
Авторы проекта решили выяснить, какая из языковых моделей может пройти как можно больше классических игр. При этом для анализа нейроагентам предоставляют только вводный промпт и кадры самой игры. Исследователи отмечают, что языковые модели могут решать сложные задачи, но пока не было случаев, когда нейросеть полностью проходила игру. В основном это связано с тем, что языковые модели плохо справляются с долгосрочными логическими рассуждениями, не запоминают порядок действий, не обладают пространственным мышлением и интуицией.
Для анализа возможностей языковых моделей исследователи разработали бенчмарк, в котором нейроагенты могут поиграть в одну из 20 классических игр для MS-DOS и Game Boy. Поддержку MS-DOS реализовали с помощью DOSBOX, а GameBoy — PyBoy. В бенчмарке агенты могут видеть экран игры и управлять контроллером. Авторы заявляют поддержку нажатия одиночных клавиш, последовательностей и действий с таймером. Например, агент может удерживать определённую клавишу несколько секунд, а после нажать на другую кнопку.
Есть поддержка следующих игр:
Название
Платформа
Doom
MS-DOS
Doom II
MS-DOS
Quake
MS-DOS
Sid Meier's Civilization 1
MS-DOS
Warcraft II: Tides of Darkness (Orc Campaign)
MS-DOS
Oregon Trail Deluxe (1992)
MS-DOS
X-COM UFO Defense
MS-DOS
The Incredible Machine (1993)
MS-DOS
Prince of Persia
MS-DOS
The Need for Speed
MS-DOS
Age of Empires (1997)
MS-DOS
Pokemon Red (GB)
Game Boy
Pokemon Crystal (GBC)
Game Boy
Legend of Zelda: Link's Awakening (DX for GBC)
Game Boy
Super Mario Land
Game Boy
Kirby's Dream Land (DX Mod for GBC)
Game Boy
Mega
Читать на habr.com