Google пополнилась улучшенными моделями генерации медиаконтента: Lyria, Veo 2 и Chirp 3 доступны избранным клиентам
В среду Google выпустила обновления для нескольких своих собственных моделей искусственного интеллекта для генерации медиаконтента, доступных через облачную платформу Vertex AI. Lyria, модель Google text-to-music, теперь доступна в предварительном просмотре для избранных клиентов, а модель создания видео Veo 2 компании была улучшена новыми возможностями редактирования и настройки визуальных эффектов.
Компания также запустила функцию клонирования голоса на базе Chirp 3, модели понимания аудио Google, для «разрешенных» пользователей. А генератор изображений Imagen 3 теперь обеспечивает то, что компания описывает как значительно лучшую производительность.
Обновления, приуроченные к Cloud Next, являются последним рывком Google к монополизации корпоративного рынка генеративного AI. Компания, возможно, наиболее напрямую конкурирует с Amazon, которая предлагает сопоставимую облачную платформу AI под названием Bedrock с собственным набором фирменных моделей генеративного AI.
Google позиционирует Lyria как альтернативу бесплатным музыкальным библиотекам. Используя эту модель, клиенты могут создавать песни в различных стилях и жанрах, от джазовых фортепианных соло до лоу-фай треков, заявила компания.
Chirp 3, тем временем, может синтезировать речь примерно на 35 языках. Впервые представленный ранее в этом году, Chirp 3 управляет Instant Custom Voice, который, как предполагается, может клонировать голос с 10 секундами аудио. Теперь он доступен всем. Эта модель также лежит в основе нового инструмента, запущенного в предварительной версии, называемого Transcription with Diarization, который разделяет и идентифицирует говорящих в записях с несколькими участниками.
По словам Google, для предотвращения злоупотреблений Instant Custom Voice
Читать на habr.com