v2a-модель PrismAudio учится озвучивать видео, разделяя смысл, время, эстетику и пространство
Разработчики из команды FunAudioLLM (входящей в Alibaba Group) представили PrismAudio – новый фреймворк для генерации звука по видео (video-to-audio, v2a), который кардинально меняет подход к этой задаче.
Вместо того чтобы пытаться оптимизировать всё и сразу с помощью единой функции потерь, как это делалось раньше, PrismAudio разбивает процесс на четыре специализированных потока рассуждений – семантический, темпоральный, эстетический и пространственный. Каждый из них обучается с помощью собственной функции награды в рамках многомерного обучения с подкреплением (multi-dimensional RL).
Результаты уже доступны для тестирования на платформах Hugging Face и ModelScope.
Проблема существующих v2a-моделей, как объясняют авторы в опубликованной статье, заключается в “запутывании целей”. Когда одна функция потерь пытается одновременно отвечать за соответствие звука содержимому кадра (семантика), его синхронность с движениями (темпоральность), высокое качество (эстетика) и правильное позиционирование в пространстве, модель неизбежно идёт на компромиссы.
PrismAudio обходит это ограничение, предлагая decomposed multi-CoT. Вместо монолитного пути генерации используются четыре независимых потока:
Semantic CoT (определяет, что должно звучать),
Temporal CoT (вычисляет, когда должен раздаться звук),
Aesthetic CoT (отвечает за качество звучания)
и Spatial CoT (определяет откуда идёт звук).
Такая декомпозиция делает процесс не только более точным, но и объяснимым.
Ключевое новшество фреймворка – многомерное обучение с подкреплением. Каждый из четырёх CoT-потоков получил свою собственную функцию награды: MS-CLAP для семантики, Synchformer для синхронизации, StereoCRW для пространственной точности и ряд других для эстетического качества. Это позволяет
Читать на habr.com