



70 языков и нейросеть-актёр: чем удивил ElevenLabs v3 в новой версии своей TTS
В мире нейроозвучки случилось знаковое событие: ребята из ElevenLabs только что выкатили свою новую модель текст‑в‑речь — Eleven v3. И это шаг к тому, чтобы окончательно стереть грань между синтетическим и натуральным голосом.
Чем же так крута v3? Ну, представьте нейросеть, которая не просто проговаривает текст, а умеет:
Менять интонацию на лету — от радостного возгласа к задумчивой грусти.
Смеяться [laughs], вздыхать [sighs] или переходить на шепот [whispers] — да, прямо в тексте можно ставить такие аудиотеги.
Озвучивать диалоги нескольких персонажей с разными характерами — идеально для аудиодрам, подкастов или игр.
Звучать искренне, драматично, саркастично — в общем, передавать весь спектр эмоций.
Легко менять акценты или тональность прямо посреди предложения.
И даже петь. (Пока в альфе.)
Всё это стало возможно благодаря совершенно новой архитектуре модели. Разработчики заявляют, что Eleven v3 — самая выразительная TTS‑модель на сегодня. Ключевое слово здесь — контроль. Хотите, чтобы герой аудиокниги задрожал от страха или засмеялся? Пожалуйста. Нужно плавно переключиться между двумя персонажами в диалоге? Легко. Достигается это через специальные аудиотеги прямо в промпте — как команды для опытного актера озвучки.
«С Eleven v3 вы получаете полный контроль над эмоциями, подачей и невербальными сигналами, — не без гордости заявил Мати Станишевски, сооснователь и CEO ElevenLabs. — Вы можете управлять темпом, эмоцией и стилем, чтобы они идеально соответствовали любому сценарию. И, следуя нашей глобальной миссии, мы рады расширить поддержку модели до более чем 70 языков».
И да, про языки — это отдельный большой плюс. Если раньше модель понимала 33 языка (охватывая ~60% населения планеты), то теперь их больше 70, а покрытие выросло
Читать на habr.com
