
Google добавляет свою голосовую модель Chirp 3 к своей платформе Vertex AI
Большая часть внимания в генеративном AI была сосредоточена на текстовых интерфейсах, используемых для генерации текста, изображений и многого другого. Следующая волна, похоже, будет голосом, и она быстро накатывает. В последней разработке Google сегодня объявила, что добавит Chirp 3 — свои модели преобразования речи в текст и HD-текста в речь — в свою платформу разработки Vertex AI, начиная со следующей недели.
На прошлой неделе Google тихо объявила, что Chirp 3 выпустит восемь новых голосов для 31 языка. Варианты использования платформы включают создание голосовых помощников, создание аудиокниг и разработку агентов поддержки и озвучки для видео. Новость была объявлена на мероприятии в офисах DeepMind компании Google в Лондоне.
Его усилия предпринимаются в то же время, когда другие делают рывок вперед в своей работе над голосовым AI. На прошлой неделе Sesame — стартап, стоящий за вирусными, очень реалистично звучащими приложениями AI «Maya» и «Miles», — объявил о запуске своей модели для разработчиков, чтобы создавать собственные настраиваемые приложения и сервисы поверх его технологий. В частности, будут введены ограничения на использование Chirp 3, чтобы попытаться контролировать неправильное использование.
«Мы просто работаем над некоторыми из этих вещей с нашей командой по безопасности», — сказал Томас Куриан, генеральный директор Google Cloud.
ElevenLabs — один из крупнейших стартапов, который привлек сотни миллионов долларов финансирования для расширения своей деятельности в сфере голосовых сервисов на базе искусственного интеллекта.
Эта новость поставит Chirp 3 в один ряд с новыми версиями флагманского LLM Gemini, которые сейчас проходят тестирование, а также с его моделью генерации изображений Imagen и
Читать на habr.com