Decart запустил MirageLSD — модель искусственного интеллекта, которая преобразует видео в реальном времени
Стартап в области генеративного ИИ Decart запустил MirageLSD — видеомодель на основе искусственного интеллекта, которая преобразует видео в реальном времени. Система призвана решить две серьёзные проблемы, связанные с существующими инструментами на основе ИИ для работы с видео: медленный рендеринг и быстрое снижение качества изображения с течением времени.
Видеомодели на основе ИИ часто работают медленно и, как правило, способны генерировать только короткие ролики длительностью от пяти до десяти секунд, после чего качество изображения начинает ухудшаться. MirageLSD использует другой подход. Вместо того чтобы генерировать целые видеопоследовательности, модель создаёт каждый кадр отдельно.
Система использует окно с последними кадрами, текущий видеовход и запрос пользователя для прогнозирования следующего кадра по мере воспроизведения потока. Каждый новый кадр сразу же используется на следующем этапе вычислений, поэтому модель может мгновенно реагировать на изменения в прямой трансляции. Такая настройка позволяет непрерывно преобразовывать видео в реальном времени со скоростью 20 кадров в секунду и разрешением 768 x 432, сохраняя при этом низкую задержку для интерактивных приложений.
Чтобы качество видео оставалось стабильным при длительных сеансах, Decart использует два метода обучения. Первый, называемый «принудительная диффузия», добавляет шум к каждому кадру по отдельности, обучая модель очищать изображения, не полагаясь на предыдущие кадры. Это помогает предотвратить накопление ошибок с течением времени.
Второй метод, «расширение истории», предполагает, что во время обучения модель сталкивается с искажёнными или ошибочными кадрами, поэтому она учится выявлять и исправлять повторяющиеся ошибки, а не просто пропускать их.
Ком
Читать на habr.com