Grok 5 научат видеть интерфейсы как человек — и работать быстрее людей
Шэнь Чжоран, специалист по рассуждающим моделям в xAI, рассказал, что разработчики Grok 5 хотят натренировать модель играть в видеоигры как живой человек. Первым полигоном называют League of Legends и StarCraft 2, но настоящая цель эксперимента выходит далеко за рамки игр — в команде считают, что подобный опыт позволит улучшить то, как ИИ взаимодействует с любой программой.
Ранее крупные проекты в обучении игровых ИИ — вроде OpenAI Five и AlphaStar от Google DeepMind — работали с играми через специальную обвязку. Агент получал идеально структурированное состояние мира: координаты юнитов, точные значения здоровья, экономику, информацию о видимости. Действия тоже задавались высокоуровневыми командами, без риска "промахнуться" по кнопке или не успеть к нужному тику игрового цикла. В некоторых версиях у агента вообще была глобальная «карта» происходящего, недоступная человеку.
В новом подходе Grok 5 хотят лишить этих суперспособностей и заставить играть по тем же правилам, что и живых киберспортсменов: модель будет смотреть на экран через видеопоток, распознавать интерфейс, помнить события, которые уже ушли за кадр, и управлять игрой с помощью тех же инструментов, что и человек — мышь, клавиатура, горячие клавиши.
Из этого вырастает сразу несколько жестких требований. Во-первых, скорость: профессионалы в StarCraft 2 могут выдавать свыше 1000 действий в минуту, а реакция на критические события укладывается примерно в 150 миллисекунд. Модель должна успевать за то же время принять кадр с камеры, распознать интерфейс, оценить ситуацию и выдать действие — и делать это с частотой порядка десятков раз в секунду. Во-вторых, восприятие: ИИ обязан понимать пиксельный интерфейс на лету, различать панели, полоски здоровья, иконки
Читать на habr.com