Google представила генератор видео по тексту на базе Imagen
Исследователи Google объявили о разработке системы искусственного интеллекта Imagen Video, способной по словесным запросам генерировать видео с разрешением 1280×768 пикселей и частотой 24 кадра в секунду.
https://twitter.com/hojonathanho/status/1577712621037445121 Инструмент базируется на алгоритме Imagen, являющимся аналогом DALL-E 2 и Stable Diffusion. Генератор картинок использует большую предобученную языковую нейросеть и каскадную диффузную модель, и сочетает в себе «глубокий уровень понимания слов с беспрецедентной степенью фотореализма».
Изображения, сгенерированные Imagen. Данные: Google.Как поясняют исследователи Google, Imagen Video берет текстовое описание и создает 16-кадровый ролик с разрешением 24×48 пикселей и частотой 3 FPS. Затем система масштабирует и «предсказывает» дополнительные изображения.
В результате алгоритм генерирует 128-кадровую анимацию с разрешением 1280×768 пикселей и частотой 24 FPS.
Первый этап генерации видео Imagen Video. Данные: Google.Промежуточный этап генерации видео Imagen Video. Данные: Google.Готовое видео, сгенерированное Imagen Video. Данные: Google.Для обучения Imagen Video разработчики использовали 14 млн пар «видео-описание» и 60 млн «изображение-текст», а также общедоступный набор данных LAION-400M, что позволило модели применять ряд эстетических аспектов.
Видео, сгенерированное Imagen Video. Данные: Google.Во время тестирования исследователи обнаружили, что алгоритм может создавать «акварельные» ролики или переносить стиль Ван Гога. По их словам, Imagen Video продемонстрировал понимание глубины и трехмерности, что позволило ему генерировать видео, как будто записанные дроном.
Видео, сгенерированное Imagen Video. Данные: Google.Также система умеет правильно отображать
Читать на forklog.com
