
Sesame AI демонстрирует впечатляющего голосового помощника с открытым исходным кодом
Sesame AI, калифорнийский стартап, использует нетрадиционный подход к голосовому ИИ, намеренно добавляя дефекты в свою речь. Их новая модель представляет собой первый шаг к более аутентичным диалогам и тому, что они называют «присутствием голоса» в системах ИИ.
Согласно результатам предварительного тестирования, наиболее впечатляющими особенностями Sesame являются такие тонкие элементы, как микропаузы, акценты и смех во время разговора. В одном из диалогов аватар Sesame Майя в режиме реального времени отреагировала на внезапный смех пользователя, продемонстрировав эмоциональную осведомлённость.
Система намеренно имитирует человеческое поведение, например, исправляет себя в середине предложения и извиняется за перерывы в речи. Techradar особо отметил эти намеренные несовершенства, подчеркнув, что они отличаются от отполированного корпоративного стиля ChatGPT или Gemini.
В смоделированных сценариях, таких как обсуждение стресса на работе или планирование вечеринки, система предлагала контекстуально подходящие ответы и вопросы, а не использовала шаблонные фразы.
Система обрабатывает речь, используя семантические маркеры для лингвистических свойств и фонетики, а также акустические маркеры для таких характеристик звука, как высота тона и ударение. Для оптимизации обучения аудиодекодер обучается только на одной шестнадцатой части аудиокадров, в то время как семантическая обработка использует весь набор данных.
Модель обучалась на одном миллионе часов аудиоданных на английском языке за пять эпох. Она может обрабатывать последовательности из 2048 токенов (около двух минут аудио) в сквозной архитектуре. Этот подход отличается от традиционных систем преобразования текста в речь интегрированной обработкой текста и аудио.
В ходе слепых
Читать на habr.com
