Вышла видеомодель Google Gemini Omni: «превратит что угодно во что угодно»
Google 19 мая на конференции I/O 2026 представила Gemini Omni Flash — первую модель нового семейства Omni, способную не просто генерировать видео, а переделывать уже снятый ролик по текстовым командам прямо в чате. Анонс делал глава Google DeepMind Демис Хассабис. Модель раскатывается сразу: всем подписчикам тарифов Google AI Plus, Pro и Ultra по всему миру через приложение Gemini и киноинструмент Flow, а в YouTube Shorts и приложении YouTube Create — бесплатно, в течение недели.
Главное отличие от прошлогодней Veo — направление работы. Veo превращала текст в видео с нуля, Omni берет любой ввод (текст, изображения, аудио или готовое видео) и меняет в нем то, что нужно: персонажей, объекты, происходящее в кадре. Редактирование идет цепочкой — каждая следующая команда опирается на предыдущую, при этом персонажи остаются прежними, а сцена "помнит", что было до этого. Отдельно Google делает упор на физику: компания заявляет, что модель точнее обращается с гравитацией, динамикой жидкостей и кинетической энергией, поэтому из короткого промпта можно собрать, например, наглядный научный ролик — на презентации показывали пластилиновый ролик про сворачивание белка.
В Google подумали о безопасности. Каждое видео получает незаметный цифровой водяной знак SynthID, и его происхождение можно проверить через приложение Gemini, через Gemini в браузере Chrome и в поиске Google. Вставить в ролик можно собственный аватар — внешность и голос самого пользователя, — но менять чужую речь и звук модель на старте не дает: эту способность придержали, пока не придумают, как раздать ее безопасно. Логика понятна — без таких рамок Omni превращается в готовую фабрику дипфейков.
Это только начало семейства. Google уже анонсировала старшую модель Omni Pro
Читать на habr.com
