



Gemini 3.1 Flash TTS: Google представила новую модель синтеза речи с управлением через текст
Google анонсировала новую модель синтеза речи — Gemini 3.1 Flash TTS. Основной акцент — на управляемости генерации и более естественном звучании. Модель уже доступна в превью для разработчиков и бизнеса через API и облачные сервисы.
В новой версии улучшили общее качество речи — модель звучит более естественно и вариативно по сравнению с предыдущими версиями. По данным бенчмарка Artificial Analysis, она получила высокий рейтинг по субъективной оценке слушателей.
При этом важнее не столько само качество, сколько контроль над генерацией. В модели появилась возможность задавать параметры речи прямо в тексте — без сложных конфигураций или отдельных настроек.
Ключевое нововведение — так называемые audio tags. Это текстовые инструкции, которые встраиваются прямо в исходный текст и позволяют управлять: тоном и интонацией, темпом речи, акцентом и манерой подачи.
Фактически это попытка сделать TTS ближе к сценарию: разработчик задаёт не просто текст, а «режиссуру» озвучки.
Дополнительно поддерживаются диалоги с несколькими голосами, настройка параметров для каждого «персонажа» и изменение стиля речи внутри одной реплики.
С учётом новых возможностей модель ориентирована на более сложные сценарии, чем классический TTS:
голосовые интерфейсы и ассистенты
генерация диалогов (например, для обучения или игр)
озвучка видео и контента
автоматизация колл-центров и IVR
За счёт управления через текст можно быстрее прототипировать голосовые сценарии без отдельной настройки аудио-пайплайна.
Модель поддерживает более 70 языков. Отдельно отмечается возможность контролировать акцент и стиль речи, что важно для локализации.
Это делает модель применимой не только для прототипов, но и для продакшн-сценариев с международной аудиторией.
На момент анонса
Читать на habr.com