Модель ИИ VACE от Alibaba стремится стать универсальным инструментом для работы с видео
Учёные из Alibaba Group представили VACE — модель ИИ общего назначения, предназначенную для решения широкого спектра задач по созданию и редактированию видео в рамках единой системы.
Основой модели является усовершенствованная архитектура диффузионного трансформера, но главное здесь — новый формат входных данных: «Блок обработки видео» (VCU). VCU — это ответ Alibaba на извечную проблему, связанную с мультимодальными входными данными: он принимает всё — от текстовых подсказок до последовательностей эталонных изображений или видео, а также пространственных масок — и преобразует их в единое представление. Команда разработала специальные механизмы, чтобы эти разрозненные входные данные работали вместе, а не конфликтовали друг с другом.
Процесс начинается с масок, разделяющих изображение на «реактивные» области — цели для модификации — и «неактивные» зоны, которые остаются нетронутыми. Вся эта визуальная информация встраивается в общее пространство признаков и объединяется с соответствующим текстовым вводом.
Чтобы сгенерированное видео оставалось последовательным от кадра к кадру, VACE сопоставляет эти характеристики с латентным пространством, созданным в соответствии со структурой диффузионного преобразователя. Слои, встраивающие время, гарантируют, что понимание моделью последовательности не нарушается при переходе от одного кадра к другому. Механизм внимания объединяет характеристики из разных модальностей и временных отрезков, чтобы система могла обрабатывать всё как единое целое — независимо от того, создаётся ли новый видеоконтент или редактируются существующие кадры.
Набор инструментов VACE охватывает четыре основные задачи: создание видео на основе текстовых подсказок, синтез новых кадров на основе эталонных изображений
Читать на habr.com