Одна фотография – 90 метров симуляции: Nvidia Lyra 2.0 делает тренировку роботов дешёвой и быстрой
Исследователи Nvidia представили Lyra 2.0 – систему, которая по одной фотографии генерирует большие связные трёхмерные окружения. Полученные сцены можно изучать в реальном времени и напрямую использовать для симуляции роботов, например в физическом движке Nvidia Isaac Sim.
Существующие ИИ-модели для генерации 3D страдают от двух фундаментальных проблем. Во-первых, при отдалении виртуальной камеры от стартовой точки цвета и структуры начинают искажаться – дрейфовать. Во-вторых, если камера возвращается в уже виденное место, модель часто пересоздаёт окружение с нуля, словно ничего там раньше не было.
Система берёт один снимок и генерирует видео с управлением камерой, имитирующее виртуальную прогулку по сцене. Эти ролики затем автоматически преобразуются в 3D-представления, которые можно просматривать в реальном времени и экспортировать в симуляционные среды. Согласно научной статье, длина сгенерированных сцен достигает 90 метров.
Чтобы решить первый камень преткновения – модель забывает ранее увиденные области, как только они покидают кадр, – Lyra 2.0 сохраняет трёхмерную геометрию для каждого сгенерированного кадра. Когда камера возвращается к уже посещённой области, система извлекает предыдущие кадры и использует их пространственную информацию как ориентир. Видеомодель по-прежнему занимается непосредственной генерацией изображений, поэтому ошибки в сохранённой геометрии не просачиваются в новые кадры.
Со вторым камнем – маленькие ошибки накапливаются на каждом шаге генерации видео и со временем превращаются в серьёзные искажения – борются хитрее: во время обучения модель специально подкармливают её же ошибочными выходами. Так она учится распознавать падение качества и корректировать его, а не передавать ошибки дальше по
Читать на habr.com

