

Vall-E — новая ИИ-технология Microsoft, которая очень точно имитирует голос человека на основе 3-секундного семпла
Исследователи Microsoft создали новую модель искусственного интеллекта Vall-E, способную воспроизвести голос, идентичный человеческому. Отмечается, что Vall-E учится на «дискретных кодах, полученных из стандартной модели нейронного аудиокодека», а также на записях 60 тысяч часов разговоров (это в 100 раз больше, чем в существующих системах) из более чем 7 тысяч динамиков. Большинство диалогов взяты из общедоступных сайтов с аудиокнигами LibriVox.
Помогаем
Как бойцы Херсонского направления выбирают дроны и как это можете сделать вы
Vall-E базируется на технологии EnCodec, которую Meta анонсировала в октябре 2022 года. Она анализирует голос человека, разбивает информацию на компоненты и синтезирует вариации его звучания в разных фразах. Даже прослушав лишь трехсекундный семпл, Vall-E может воспроизвести тембр и эмоциональный тон говорящего.
«Результаты эксперимента показывают, что Vall-E значительно превосходит современную систему TTS [ИИ, воспроизводящий голоса, которых он никогда не слышал] с точки зрения естественности речи и похожести на говорящего», — говорится в статье исследователей.
Примеры воспроизведения голосов Vall-E можно прослушать на GitHub. Большинство звучат идентично записям, несмотря на то, что использованы только короткие фрагменты. Несколько голосов звучат более роботизировано и напоминают голоса традиционного ПО для преобразования текста в звук.
Исследователи Microsoft считают, что Vall-E в будущем можно использовать как инструмент преобразования текста в голос, способ редактирования речи и систему создания аудио, соединив его с другими генеративными ИИ, такими как GPT-3.
Курс ФІНАНСОВИЙ ДИРЕКТОР Ставайте досвідченим фахівцем з фінансів на рівні директора! РЕЄСТРУЙТЕСЯ!Как и в случае со
Читать на itc.ua