



В интерфейсе Gemini засветилась видеомодель Omni — за неделю до Google I/O 2026
За неделю до Google I/O 2026 (19–20 мая) в интерфейсе Gemini обнаружилась неанонсированная видеомодель Omni. 2 мая пользователь X под ником @Thomas16937378 заметил в вкладке генерации видео строку «Start with an idea or try a template. Powered by Omni», после чего тему подхватил TestingCatalog. 11 мая упоминания Omni всплыли уже в мобильном приложении Gemini с описанием «Meet our new video model. Remix your videos, edit directly in chat, try a template, and more». Похоже на ограниченный A/B-тест перед анонсом на I/O.
Что известно по утечкам. Omni появляется рядом с внутренним кодовым именем «Toucan» — текущей видео-связкой Gemini, работающей поверх Veo 3.1. Метаданные интерфейса намекают, что Omni — это расширение или эволюция Veo, а не отдельная архитектура. Сам же TestingCatalog описывает три возможных трактовки: новое маркетинговое имя для того же Veo-конвейера; отдельная видеомодель в семействе Gemini рядом с Veo; либо настоящая омни-модель, генерирующая текст, изображения и видео в одном стеке, по аналогии с GPT-4o. По одному UI-стрингу различить эти варианты невозможно.
Что показали ранние сэмплы. Самый обсуждаемый пример — клип, где профессор выводит на доске тригонометрические тождества с пошаговым объяснением. Уравнения корректны, мимика и движение выглядят естественно — для AI-видео это нетривиально, поскольку требует не только визуальной когерентности, но и семантической точности. Ещё один пример — кинематографичная сцена с двумя мужчинами, едящими спагетти у моря. По оценке TestingCatalog, по чистой генерации Omni уступает ByteDance Seedance 2, лидеру публичных бенчмарков, но заметно сильнее в редактировании: удаление вотермарок, подмена объектов в кадре, переписывание сцены через чат. Этот паттерн повторяет
Читать на habr.com