Meta* разрабатывает ИИ-систему MoCha, которая превращает текст в анимированных персонажей
Исследователи из Meta и Университета Ватерлоо создали MoCha — систему искусственного интеллекта, которая генерирует полную анимацию персонажей с синхронизированной речью и естественными движениями.
В отличие от предыдущих моделей, которые фокусировались только на лицах, MoCha может воспроизводить движения всего тела с разных ракурсов, включая синхронизацию губ, жесты и взаимодействие между несколькими персонажами. Первые демонстрации были сосредоточены на крупных и средних планах, где система генерировала движения верхней части тела и жесты, соответствующие устному диалогу.
MoCha работает на основе модели диффузионного трансформера с 30 миллиардами параметров. Он создаёт HD-видеоролики продолжительностью около пяти секунд со скоростью 24 кадра в секунду, что ставит его в один ряд с современными моделями создания видео.
Система представляет механизм «Внимание к окну речи и видео» для решения двух постоянных проблем при создании видео с помощью ИИ: сжатие видео во время обработки при сохранении полного разрешения звука и несовпадение движений губ при параллельном создании видео.
Система достигает этого, ограничивая доступ каждого кадра к определённому окну аудиоданных. Такой подход отражает то, как работает человеческая речь: движения губ зависят от непосредственных звуков, а язык тела следует более широким закономерностям в тексте. Добавление маркеров до и после каждого кадра помогает создавать более плавные переходы и более точную синхронизацию губ.
Исследователи создали систему, используя 300 часов тщательно отфильтрованного видеоконтента, хотя они и не раскрыли исходный материал. Они дополнили его текстовыми видеопоследовательностями, чтобы расширить спектр возможных выражений и взаимодействий.
Для сцен с несколькими
Читать на habr.com