Представлен Pyramid Flow — новый высококачественный ИИ-генератор видео с открытым исходным кодом
Количество моделей для генерации видео на базе искусственного интеллекта стремительно растет. На этой неделе была представлена новая модель — Pyramid Flow, которая быстро генерирует высококачественные видео продолжительностью до 10 секунд и имеет полностью открытый исходный код.
Модель Pyramid Flow была разработана совместно исследователями из Пекинского университета, Пекинского университета почты и телекоммуникаций и компании Kuaishou Technology (создателя высоко оценённой проприетарной системы генерации видео на базе ИИ — Kling). Pyramid Flow основана на новой технологии, при которой единая модель искусственного интеллекта генерирует видео поэтапно. На большинстве этапов создаются версии с низким разрешением, а версия в полном разрешении формируется только на завершающем этапе генерации.
Модель доступна для загрузки в виде исходного кода на платформах Hugging Face и GitHub. Она может быть запущена в демонстрационной среде, однако требует от пользователя загрузки и запуска кода на собственном компьютере.
Ссылка на демонстрацию примера видео от Pyramid Flo в X
При инференсе модель способна сгенерировать 5-секундное видео в разрешении 384p всего за 56 секунд, что сопоставимо или быстрее многих аналогичных диффузионных моделей. Однако Gen-3 Alpha Turbo от Runway по-прежнему лидирует по скорости генерации ИИ-видео, создавая ролики менее чем за минуту.
Видео, опубликованные создателями модели, выглядят невероятно реалистично, имеют высокое разрешение и впечатляют — аналогично тому, что предлагают проприетарные решения. Можно увидеть различные примеры на странице проекта на GitHub.
Pyramid Flow основана на концепции пирамидального сопоставления потоков — метода, который значительно сокращает вычислительные затраты на генерацию
Читать на habr.com
