



Video O1 от Kling AI обходит Veo 3.1 в обработке исходных изображений
Китайская компания Kling AI представила свою новую разработку — Video O1. По словам создателей, это «первая в мире единая мультимодальная видеомодель», способная работать и как генератор, и как редактор видео в одном гибком контуре.
По утверждению Kling AI, Video O1 объединила в себе целый набор задач, для которых раньше приходилось держать под рукой разные инструменты. Модель умеет создавать ролики длительностью от 3 до 10 секунд — по текстовому описанию или по набору референсных изображений. Но этим дело не ограничивается: она столь же легко берётся за уже готовый материал — меняет героя, подстраивает погоду, корректирует стилистику или цветовую гамму. И всё это — по одному запросу, позволяющему одновременно добавить персонажа, перестроить фон и накрутить нужный визуальный стиль.
Модель способна параллельно интерпретировать до семи входов — изображения, фрагменты видео, описания персонажей и обычный текст. Пользователь может менять содержимое ролика простыми командами вроде «Убери прохожих» или «Замени дневной свет на сумерки» — никаких масок, подслоёв и ключевых кадров вручную.
Можно загрузить и собственных персонажей, и реквизит, и целые сцены — система использует их в разных условиях, подстраивая под контекст. В качестве ориентиров модель принимает даже действия или движения камеры. В Kling утверждают, что Video O1 хорошо понимает входные данные и умеет сохранять целостность объекта — будь то человек или предмет — даже при смене ракурсов или обстановки.
В основе Video O1 лежит мультимодальная архитектура‑трансформер, хотя подробностями разработчики делиться не торопятся. Компания представила собственный «Multimodal Visual Language» (MVL) — мультимодальный визуальный язык, который служит своеобразным мостом между текстом
Читать на habr.com