Netflix выкатил open-source модель, которая изменит видео-редакторы
Netflix представила VOID (Video Object Inpainting and Decomposition) — фреймворк, который переводит задачу удаления объектов из видео на рельсы латентной диффузии. В отличие от классических методов, которые часто грешат «заплаточным» подходом, VOID использует механизм декомпозиции сцены. Модель разделяет видеопоток на слои фона и динамические маски, что позволяет нейросети не просто закрашивать пиксели, а реконструировать структуру сцены с учетом глубины и перспективы.
Техническое ядро VOID сфокусировано на решении проблемы темпоральной связности (temporal consistency), которая является ахиллесовой пятой большинства диффузионных моделей. Благодаря специфическим механизмам внимания (attention) и анализу межкадровых связей, модель минимизирует артефакты мерцания и «плавающих» текстур. В сравнительных тестах VOID демонстрирует превосходство над текущим SOTA-решением в лице ProPainter, обеспечивая более стабильное заполнение зон за маской даже при быстром движении камеры или перекрытии объектов.
Архитектурно VOID спроектирована как гибкий пайплайн, способный работать с масками любой сложности — от удаления мелких проводов до полной замены крупных объектов в кадре. Одной из ключевых фишек стала поддержка поэтапного инференса, что позволяет модели сохранять детализацию текстур без потери общего контекста сцены. Разработчики реализовали проект на базе PyTorch и обеспечили нативную совместимость с экосистемой Diffusers, что значительно упрощает интеграцию VOID в профессиональные VFX-пайплайны и создание кастомных расширений.
Для развертывания модели «в один клик» потребуются серьезные ресурсы: стандартный запуск оптимизирован под GPU уровня NVIDIA A100 (40 ГБ VRAM). Однако для сообщества предусмотрены сценарии оптимизации —
Читать на habr.com
