


Синтезатор речи VALL-E сымитирует любой голос в одно мгновение: как это возможно
ИИ-бот умеет имитировать любой голос и звук — ему достаточно прослушать оригинал в течение нескольких секунд. Исследователи Microsoft объявили о новой модели искусственного интеллекта для преобразования текста в речь, сообщает сайт ArsTechnica. Проект VALL-E, может точно имитировать голос человека и для этого достаточно всего трехсекундного отрывка для примера.
Конечно, чем длиннее образец речи, тем точнее и натуральнее искусственный интеллект сможет его сымитировать. Как только VALL-E "выучит" конкретный голос, он может синтезировать звук таким образом, что сможет подделать даже эмоциональный тон говорящего. Создатели ИИ-инструмента говорят, что их разработку можно использовать для высококачественных приложений преобразования текста в речь.
Но уже сейчас понятно, что подобная технология даст большое поле для распространения различных фейков и информационных диверсий, если этот инструмент попадет не в те руки. А если представить симбиоз разработки Microsoft и технологии Deepfake (подделка визуального образа), то даже представить страшно, что ждет СМИ и всех нас в будущем. Проект VALL-E от Microsoft основан на технологии EnCodec, о которой Meta объявила в октябре 2022 года.
В отличие от других методов преобразования текста в речь, которые обычно синтезируют речь, манипулируя формами сигналов, дискретные сигналы EnCodec состоят из текстовых и акустических подсказок. С помощью них искусственный интеллект генерирует соответствующие акустические маркеры голоса и использует их для синтеза речи. Специалисты Microsoft обучали искусственный интеллект VALL-E на звуковой библиотеке, собранной Meta, под названием LibriLight .
Она содержит 60 тыс. часов англоязычной речи от более чем 7 тыс. носителей, в основном взятых из
. Читать на focus.ua