Яндекс Браузер обновил модель перевода и научился переводить видео живыми голосами ещё с семи языков
В прошлом году Яндекс Браузер при переводе видео научился сохранять тембр и интонации оригинального голоса, создавая перевод, который звучит более естественно и близко к оригиналу. Сегодня мы расширили количество языков для этого типа перевода — Браузер переведёт и озвучит видео с итальянского, испанского, французского, китайского, японского, корейского и немецкого языков.
Команда полностью обновила стек перевода видео в «Живых голосах»: расширила языковое покрытие, повысила качество локализации и одновременно сократила вычислительные затраты на генерацию.
Перевод с сохранением оригинальных голосов и интонаций выполняет нейросетевая модель — её обучили на сотнях тысяч часов устной речи. Чтобы озвучить ролик, модель анализирует оригинальную аудиодорожку, определяет тембр, ритм и особенности речи всех участников видео, а затем воспроизводит их в русскоязычной озвучке. За счёт этого перевод звучит ближе к оригиналу и помогает точнее воспринимать эмоциональную составляющую контента.
Самое содержательное изменение — смена кодека. Команда перешла на семантический S3 Tokenizer из открытой модели CosyVoice 2. В прежнем подходе декодер опирался в основном на акустические латенты, и много информации о спикере было «впаяно» прямо в токены. S3 Tokenizer устроен иначе: его токены кодируют преимущественно семантику, ритмику и интонационный контур, а тембр и стиль спикера задаются отдельно — через биометрический эмбеддинг. Это дало более естественный перенос интонации и стабильный тембр между разными аудиодорожками одного спикера.
Простой tokens‑to‑mel Flow Matching декодер (внутри его называли CosyFlow) на чистых данных давал отличный прирост, но в видеопереводе много нестандартных условий: шумы, помехи, старые плёночные записи,
Читать на habr.com