


SIMA 2. Как Google учит нейросеть действовать в виртуальных мирах
SIMA 2 — это не просто обновление прошлой версии. Это качественно новый агент от Google DeepMind, который демонстрирует, как крупные языковые модели могут научиться не только рассуждать о мире, но и активно действовать в нем. Цель - создать агента, который понимает сложные инструкции на естественном языке и выполняет их в динамичных 3D-мирах, имитируя действия человека. В качестве платформы для обучения и тестирования используются коммерческие игры (например, No Man's Sky, Valheim) и специализированные исследовательские симуляторы.
В основе SIMA 2 лежит модель Gemini, дообученная на данных из виртуальных симуляций и игр. Ключевое отличие от предыдущего поколения (SIMA 1) — переход от реактивного следования инструкциям к осмысленному поведению. Агент теперь способен поддерживать диалог, строить многошаговые планы и рассуждать о своих действиях, что приближает его к понятию «агентности».
Цифры говорят сами за себя. На наборе обучающих сред (игры вроде Valheim и No Man's Sky) SIMA 2 демонстрирует почти двукратное превосходство над предшественником, приближая успешность выполнения задач к уровню человека. Его результат в 86% на автоматических оценках и 76% на человеческих практически сравнивается с уровнем человека-оператора (88% и 78% соответственно), которому, в отличие от агента, не ограничивали время на выполнение.
Этот рост не равномерен по всем типам задач. В навыках, требующих понимания контекста и работы с интерфейсами (взаимодействие, управление объектами), агент практически сравнялся с человеком. Однако в задачах на тонкую моторику и быстрое принятие решений (боевые столкновения) разрыв остается. Это отражает фундаментальную сложность интеграции высокоуровневого планирования с низкоуровневым контролем.
Настоящая