Netflix научил собственную ИИ-модель удалять объекты из видео и перестраивать сцену
Netflix открыл доступ к модели VOID для редактирования видео с помощью ИИ, которая удаляет из кадра объекты и следы их взаимодействия с окружающей средой, а затем достраивает сцену так, чтобы оставшиеся элементы вели себя правдоподобно без удалённого объекта. ИИ-модель уже доступна для установки на Hugging Face и, по данным разработчиков, в опросе 25 участников получила 64,8% предпочтений против 18,4% у её ближайшего конкурента Runway.
VOID (Video Object and Interaction Deletion) рассчитана на сцены, где после удаления объекта нужно изменить поведение всего остального кадра. Вместо пересъёмки или полной переработки эпизода с помощью компьютерной графики ИИ-модель позволяет преобразовать уже снятый материал в новую версию сцены. В описании технологии этот подход сводится к простой задаче: убрать из видеозаписи причину события и одновременно пересчитать его последствия.
Netflix относит разработку к ИИ-моделям, работающим одновременно с изображением и текстом. Система не только стирает объект из сцены, но и восстанавливает недостающие части видеоряда так, чтобы оставшиеся элементы выглядели словно удалённого объекта не было. Один из примеров — лобовое столкновение двух машин, которое ИИ превращает в сцену с одной машиной на дороге, убирая второе транспортное средство и перестраивая траекторию первого. При наличии обломков, дыма и пламени они тоже удаляются.
Следующий пример. Человек прыгает в бассейн, а система после удаления фигуры перестраивает сцену так, что вода выглядит спокойной и ни в бассейне, ни рядом с ним не остается следов всплеска.
Авторы ИИ-модели в предварительной научной статье называют VOID системой удаления объектов из видео для физически правдоподобного восстановления изображения в сложных сценах. Netflix
Читать на habr.com