Stable Virtual Camera: система ИИ для создания 3D-видео из фотографий
Компания Stability AI представила «Stable Virtual Camera» — новую систему искусственного интеллекта, которая преобразует обычные фотографии в 3D-видео без необходимости в сложных 3D-реконструкциях или оптимизации сцен.
Система может создавать 360-градусные видеоролики продолжительностью до 30 секунд, используя всего одну фотографию или до 32 входных изображений. Она поддерживает 14 различных движений камеры, включая вращение на 360 градусов, спирали, эффекты масштабирования и более сложные траектории, такие как лемнискаты (петлеобразные пути). Когда все камеры образуют траекторию, Stability AI сообщает, что сгенерированные изображения являются трёхмерными, согласованными во времени и, как следует из названия, «стабильными».
Система работает с различными форматами изображений, включая квадратные (1:1), портретные (9:16) и альбомные (16:9). Эта возможность стала неожиданностью для исследователей, поскольку модель обучалась только на квадратных изображениях размером 576x576 пикселей. Команда считает, что модель каким-то образом самостоятельно научилась работать с изображениями разных размеров.
«Stable Virtual Camera» основана на модели диффузии с 1,3 миллиарда параметров, построенной на архитектуре Stable Diffusion 2.1. Чтобы улучшить пространственное восприятие, исследователи преобразовали 2D-самосознание модели в 3D-самосознание.
Система обрабатывает входные изображения в два этапа: сначала она генерирует так называемые «опорные изображения» на основе входных данных. Затем она создаёт желаемые перспективы между этими опорными точками. По словам разработчиков, эта двухэтапная процедура помогает обеспечить последовательный и стабильный результат.
Тесты показывают, что Stable Virtual Camera работает лучше, чем существующие
Читать на habr.com