Google выкатила Veo 3.1 Lite – дешёвую нейросеть для создания видео
31 марта компания Google DeepMind официально запустила Veo 3.1 Lite – свою самую доступную нейросеть для генерации видео. Новая модель уже открыта для разработчиков через Gemini API и Google AI Studio. Генерация контента теперь стоит более чем в два раза дешевле по сравнению с версией Veo 3.1 Fast, при этом скорость работы осталась на прежнем высоком уровне. Подробная техническая спецификация уже выложена в документации для разработчиков.
Свежий анонс от поискового гиганта появился буквально сразу после того, как OpenAI на днях закрыла проект Sora. После ухода конкурента Google оказалась лицом к лицу в основном с китайскими разработчиками – особенно с Seedance 2.0 от Alibaba. Азиатский аналог выдаёт картинку выдающегося качества, но тянет за собой целый шлейф проблем с авторскими правами.
Google чётко позиционирует новинку как оптимальное решение для массового продакшена и прототипирования. Разработчики получают генерацию текста в видео (text-to-video) и картинки в видео (image-to-video) в разрешениях 720p и 1080p. Поддерживаются портретный (9:16) и ландшафтный (16:9) форматы, а длину роликов можно задать на 4, 6 или 8 секунд.
Под капотом у всего семейства Veo 3.1 трудится архитектура diffusion transformer (DiT). В отличие от традиционных диффузионных U-Net-моделей, которые часто теряются в длинных временных зависимостях, новинка оперирует пространственно-временными патчами. Иными словами, нейросеть воспринимает видео не как набор статичных 2D-картинок, а как непрерывную последовательность токенов в латентном пространстве.
Вычисления происходят в сжатом виде, минуя пиксельное пространство, что серьёзно экономит вычислительные ресурсы. Это обеспечивает лучшую временную согласованность: освещение, текстуры и геометрия объектов
Читать на habr.com