

ByteDance представила систему DreamActor-M1: управление мимикой и движениями в видео
Компания ByteDance представила DreamActor-M1 — новую систему искусственного интеллекта, которая позволяет пользователям точно контролировать выражение лица и движения тела в создаваемых видео.
Система использует то, что компания называет «гибридным управлением» — сочетание нескольких управляющих сигналов, работающих вместе. Архитектура DreamActor-M1 состоит из трёх основных компонентов. В её основе лежит кодировщик лица, который может изменять выражение лица независимо от личности человека или положения его головы. По словам исследователей ByteDance, это устраняет распространённое ограничение предыдущих систем.
Система управляет движениями головы с помощью 3D-модели, используя цветные сферы для направления взгляда и ориентации головы. Для управления движениями тела используется 3D-система скелета с адаптивным слоем, который подстраивается под разные типы телосложения для создания более естественных движений.
На этапе обучения модель изучает изображения, снятые под разными углами. По словам исследователей, это позволяет ей генерировать новые ракурсы даже на основе одного портрета, интеллектуально заполняя недостающие детали, такие как одежда и поза.
Обучение происходит в три этапа: сначала модель работает над базовыми движениями тела и головы, затем добавляет точно контролируемую мимику и, наконец, оптимизирует всё вместе для более скоординированных результатов. ByteDance сообщает, что модель обучалась на 500 часах видео, в которых в равных долях были показаны движения всего тела и верхней части тела.
По словам исследователей, DreamActor-M1 превосходит аналогичные системы как по качеству изображения, так и по точности управления движением, включая коммерческие продукты, такие как Runway Act-One.
У системы есть ограничения. Она
Читать на habr.com