Sesame выпускает свою базовую модель искусственного интеллекта
Sesame, компания, занимающаяся искусственным интеллектом, выпустил базовая модель, на которой основан поразительно реалистичный голосовой помощник Maya.
Модель, имеющая 1 миллиард параметров («параметры» — это отдельные компоненты модели), лицензирована по лицензии Apache 2.0, что означает, что ее можно использовать в коммерческих целях с небольшими ограничениями. Модель, называемая CSM-1B, генерирует «аудиокоды RVQ» из текстовых и аудиовходов, согласно описанию Sesame на платформе разработки Hugging Face AI.
RVQ означает «остаточное векторное квантование», метод кодирования звука в дискретные маркеры, называемые кодами. RVQ используется в ряде последних аудиотехнологий ИИ, включая SoundStream от Google и МетаКодек.
CSM-1B использует модель из семейства Llama компании Meta в качестве основы в паре с компонентом аудио «декодера». По словам Sesame, пересмотренная версия CSM обеспечивает работу Maya.
«Модель с открытым исходным кодом — это модель первого поколения», — пишет Sesame в репозиториях CSM-1B Hugging Face и GitHub. «Она способна генерировать множество голосов, но не была настроена на какой-либо конкретный голос […] У модели есть некоторый потенциал для языков, отличных от английского, из-за загрязнения данных в обучающих данных, но она, скорее всего, не будет работать хорошо».
Неясно, какие данные Sesame использовал для обучения CSM-1B. Компания не раскрывает их.
Стоит отметить, что модель не имеет реальных гарантий, о которых можно было бы говорить. Sesame имеет систему чести и просто призывает разработчиков и пользователей не использовать модель для имитации голоса человека без его согласия, создания вводящего в заблуждение контента, такого как фейковые новости, или для «злонамеренных» или «вредоносных»
Читать на hitechexpert.top
