



ИИ-система StreamDiT генерирует видео в реальном времени со скоростью 16 кадров в секунду и разрешением 512p
Новая система искусственного интеллекта под названием StreamDiT может генерировать видео в реальном времени на основе текстовых описаний, открывая новые возможности для игр и интерактивных медиа.
StreamDiT, разработанный исследователями из Meta* и Калифорнийского университета в Беркли, создаёт видео в режиме реального времени со скоростью 16 кадров в секунду с помощью одного высокопроизводительного графического процессора. Модель с 4 миллиардами параметров выдаёт видео в разрешении 512p. В отличие от предыдущих систем, которые генерировали полные видеоклипы перед воспроизведением, StreamDiT создаёт видеопотоки в режиме реального времени, кадр за кадром.
Команда продемонстрировала различные варианты использования. StreamDiT может на лету генерировать минутные видеоролики, отвечать на интерактивные запросы и даже редактировать существующие видео в режиме реального времени. В одной из демонстраций свинья на видео превратилась в кошку, а фон остался прежним.
Система основана на специальной архитектуре, разработанной для повышения скорости. StreamDiT использует скользящий буфер для одновременной обработки нескольких кадров, работая над следующим кадром и выводя предыдущий. Новые кадры сначала получаются зашумлёнными, но постепенно очищаются, пока не становятся готовыми к отображению. Согласно статье, системе требуется около полсекунды для создания двух кадров, а после обработки получается восемь готовых изображений.
Процесс обучения был разработан таким образом, чтобы повысить универсальность. Вместо того чтобы сосредоточиться на одном методе создания видео, модель обучалась с использованием нескольких подходов на 3000 высококачественных видео и более крупном наборе данных, состоящем из 2,6 миллиона видео. Обучение проводилось на
Читать на habr.com