Sesame, стартап, создавший вирусного виртуального помощника Maya, выпускает свою базовую модель AI
Компания Sesame, занимающаяся разработкой искусственного интеллекта, выпустила базовую модель, на которой основан Maya — впечатляюще реалистичный голосовой помощник. Модель, размер которой составляет 1 миллиард параметров, находится под лицензией Apache 2.0, что означает, что ее можно использовать в коммерческих целях с небольшими ограничениями. Названная CSM-1B, модель генерирует «аудиокоды RVQ» из текстовых и аудиовходов, согласно описанию Sesame на платформе разработки AI Hugging Face.
RVQ относится к «остаточной векторной квантизации», технике кодирования звука в дискретные токены, называемые кодами. RVQ используется в ряде последних аудиотехнологий AI, включая SoundStream от Google и Encodec от Meta*.
CSM-1B использует модель из семейства Llama компании Meta в качестве основы в паре с аудиокомпонентом «декодера». Sesame утверждает, что Maya работает на основе тонко настроенного варианта CSM.
«Модель с открытым исходным кодом — это базовая модель генерации», — пишет Sesame в репозиториях CSM-1B Hugging Face и GitHub.
«Она способна воспроизводить множество голосов, но не была настроена на какой-либо конкретный голос. Модель имеет некоторую способность к неанглийским языкам из-за загрязнения данных в обучающем наборе, но, скорее всего, с ними она справится не очень хорошо ».
Неясно, какие данные Sesame использовал для обучения CSM-1B. Компания не сообщила.
Стоит отметить, что у модели нет реальных гарантий, о которых можно было бы говорить. Sesame имеет систему чести и просто призывает разработчиков и пользователей не использовать модель для имитации голоса человека без его согласия, создания вводящего в заблуждение контента, такого как фейковые новости, или участия в «вредных» или «злонамеренных» действиях.
Я
Читать на habr.com