



Nvidia выпустила открытую модель PersonaPlex — голосовой ИИ, который одновременно слушает и говорит
Традиционные голосовые помощники последовательно запускают распознавание речи, языковые модели и синтез речи. Это позволяет настраивать голос и роль, но приводит к роботизированным разговорам с неестественными паузами. Более новые системы, такие как Moshi от французской лаборатории искусственного интеллекта Kyutai, делают разговоры более естественными, но привязывают пользователей к одному фиксированному голосу и роли.
По словам Nvidia, PersonaPlex сочетает в себе лучшие черты обоих подходов: пользователи могут выбирать из разных голосов и определять любую роль с помощью текстовых подсказок, будь то мудрый помощник, сотрудник службы поддержки клиентов или вымышленный персонаж.
PersonaPlex одновременно слушает и говорит. Помимо речевого контента, модель изучает особенности разговорного поведения, например, когда нужно сделать паузу, когда прервать разговор и когда произнести подтверждающие звуки, такие как «угу». Она обновляет свое внутреннее состояние во время разговора пользователя и немедленно отправляет ответы.
Согласно техническому документу, в ходе тестов PersonaPlex показала задержку всего 0,07 секунды при переключении динамиков, по сравнению с 1,3 секундами у Google Gemini Live. Модель основана на Moshi и имеет 7 миллиардов параметров с частотой дискретизации звука 24 кГц.
Ключевое нововведение - это гибридная система подсказок, которая объединяет два входных параметра. Голосовая подсказка - короткий аудиофрагмент, фиксирующий характеристики голоса и манеру речи. И текстовая подсказка, которая описывает роль, биографию и контекст разговора. Оба параметра обрабатываются вместе для создания целостного образа персонажа.
Исследователи демонстрируют работу системы на нескольких примерах. В примере с обслуживанием клиентов
Читать на habr.com