

Помнит минуты: релиз Matrix-Game 3.0, ИИ-движка интерактивного видео в 720p и 40 к/с
Skywork AI выпустила Matrix-Game 3.0 – новую версию интерактивной мир-модели с открытым исходным кодом. Главные цифры релиза: генерация видео в разрешении 720p со скоростью 40 кадров в секунду на модели с 5 млрд параметров, а также поддержка долгосрочной памяти, удерживающей контекст на протяжении минуты и более.
Модель уже доступна на GitHub и Hugging Face. Разработчики выложили не только веса, но и код, а также подробный технический отчет. Как и в случае с Matrix-Game 2.0, которая легла в основу мультиплеерной мир-модели Solaris от команды Saining Xie, новый релиз продолжает традицию полной открытости.
Архитектура построена вокруг трёх компонентов:
Промышленный движок данных – комбинация синтетических сцен на Unreal Engine, автоматически собранных данных из AAA-игр и аугментированных реальных видеороликов. На выходе – масштабируемые четвёрки “видео – поза – действие – промпт”.
Обучение с памятью и самокоррекцией – базовый DiT (diffusion transformer) оснастили буфером ошибок. Во время тренировки модель запоминает разницу между предсказанным и реальным кадром (δ = x̂ᵢ − xⁱ), а затем намеренно вносит возмущения (x̃ᵢ = xⁱ + γδ), имитируя неидеальные условия генерации. Это позволяет модели учиться самоисправлению на длинных последовательностях.
Инференс, приближенный к реальности – для вывода применили многосегментную дистилляцию на основе distribution matching distillation (DMD) в связке с INT8-квантованием слоев внимания и облегчённым VAE-декодером MG-LightVAE (ускорение до 5,2×). В итоге 5B-модель выдает 40 FPS в 720p, используя 8 GPU для DiT и 1 GPU для VAE.
Ключевое нововведение – механизм извлечения памяти с учётом камеры. В единое пространство внимания помещаются латентные представления прошлых кадров, шум текущего кадра и
Читать на habr.com