Об этом же в других СМИ

gagadget.com / 2 месяца назад

Раскладушек Motorola будет больше: компания представила базовую Razr 70 и первую промежуточную Plus-модель

habr.com / 2 месяца назад

Как корпорация ITG масштабировала сервисную модель на всю компанию

habr.com / 2 месяца назад

Единая цена, Auto-режим и оркестрация: как Veai выбирает модель за вас

habr.com / 2 месяца назад

xAI выпустила флагманскую голосовую модель для реального общения

habr.com / 2 месяца назад

DeepSeek выпустил V4 — открытую модель с контекстом в миллион токенов

Больше по теме

09.04.2026 - 19:23 / habr.com

VoxCPM2: открытая 2B TTS-модель на 30 языках

VoxCPM2 - крупное обновление открытой системы синтеза речи VoxCPM. Модель обучена на более 2 млн. часов мультиязычных аудиоданных и поддерживает 30 языков, включая русский, китайский, английский, японский, корейский, арабский и хинди (плюс 9 диалектов китайского).

За проектом стоит OpenBMB, структура при Университете Цинхуа, объединяющая академическую лабораторию THUNLP и коммерческую компанию ModelBest.

THUNLP - одна из сильнейших академических групп по LLM в Азии, которой руководит легенда китайского NLP, профессор Maosong Sun.

OpenBMB известна сериями CPM, MiniCPM, AgentCPM и фреймворками BMTrain и OpenPrompt.

В отличие современных TTS-систем, VoxCPM2 работает напрямую с непрерывными представлениями в латентном пространстве AudioVAE V2.

Пайплайн состоит из 4 стадий: LocEnc, TSLM, RALM и LocDiT. На выходе - аудио с частотой 48 кГц студийного качества: асимметричная архитектура AudioVAE V2 принимает референс на 16 кГц и повышает разрешение без внешнего апсемплера.

Voice Design создает голос по текстовому описанию: достаточно указать пол, возраст, тембр, эмоцию и темп - никакого референсного аудио не нужно.

Controllable Voice Cloning клонирует голос по короткому аудиофрагменту и в довесок позволяет управлять стилем, эмоциями и скоростью речи, сохраняя оригинальный тембр.

Из версии 1.5 перешел режим Ultimate Cloning: если передать вместе с референсом его точный транскрипт, модель воспроизводит ритм, интонации и манеру речи.

На Seed-TTS-eval модель показывает WER 1.84% на английском и CER 0.97% на китайском при сходстве голоса (SIM) 75.3% и 79.5% соответственно.

На мультиязычном Minimax-MLS-test система лидирует по SIM в подавляющем большинстве из 24 языков, опережая Minimax, ElevenLabs, FishAudio S2 и Qwen3-TTS.

В задаче

технологии Nvidia самит профессор Apache Sun крипто mefdayy

Читать на habr.com

Все новости от habr.com

Об этом же в других СМИ

Представлен открытый проект Command Finder для поиска команд в терминале на естественном языке habr.com / 2 месяца назад

OpenAI против OpenAI: компания открыла модель для защиты данных от ChatGPT habr.com / 2 месяца назад

Qwen выпустила 27B-модель, которая обгоняет флагман на 397B habr.com / 2 месяца назад

Сайт vsenovosti.life - агрегатор новостей из открытых источников. Источник указан в начале и в конце анонса. Вы можете пожаловаться на новость, если находите её недостоверной.

25.07 / 07:11

Samsung технологии Xiaomi Qualcomm интересное Samsung Galaxy F70 Pro появился в Geekbench: новый смартфон получит Snapdragon 6 Gen 3 и Android 16

Хотя Samsung пока официально не анонсировала смартфон, публикация в Geekbench подтверждает, что устройство уже проходит финальные этапы тестирования. Подобные появления обычно происходят незадолго до презентации новых моделей.

25.07 / 07:07

технологии Nvidia общество политика самит NVIDIA открыла веса Cosmos 3 Edge — компактной модели мира для роботов и автономных систем

NVIDIA выпустила в открытый доступ Cosmos 3 Edge — компактную модель мира (World Model) на 4 млрд параметров. Она предназначена для задач физического искусственного интеллекта: робототехники, компьютерного зрения, автономного транспорта и интеллектуальной инфраструктуры. Модель стала самым компактным представителем семейства Cosmos 3 и рассчитана на работу на устройствах с ограниченными вычислительными ресурсами.

25.07 / 07:07

дети президент общество политика законопроект Франция запретила доступ к социальным сетям для лиц младше 15 лет

Французский парламент одобрил законопроект, запрещающий доступ к социальным сетям детям младше 15 лет. Президент европейской страны Эммануэль Макрон назвал этот проект ключевой реформой своего последнего срока пребывания на посту главы страны. Положение должно начать работать к сентябрю 2026 года.

25.07 / 06:41

продукты люди здоровье общество питание Как нужно завтракать, чтобы забыть о проблемах с давлением

Правильное питание – один из ключевых способов управления гипертонией, и первый шаг можно сделать уже за завтраком.

25.07 / 05:50

наука история общество самит профессор В Мьянме обнаружили невероятную находку в возрасте 99 млн лет: как выглядит (фото)

В куске бирманского янтаря ученые обнаружили крошечного геккона, жившего около 99 миллионов лет назад. Уникальная находка позволила исследователям не только описать новый вид, но и с большой вероятностью определить, что это самец — случай, чрезвычайно редко встречающийся в палеонтологии.

25.07 / 05:20

экономика евро автомобили доллар мода и стиль V8 возвращается: Mercedes-AMG готовит ультралимитированное купе CLE Mythos

Пока фанаты бренда пытаются переварить переход новой C63 на четыре цилиндра, Mercedes-AMG, похоже, решил устроить сеанс реабилитации. На трассе Нюрбургринг заметили прототип, который не просто шумит, а буквально кричит о возвращении к истокам. Это Mercedes-AMG CLE в исполнении Mythos — второй модели в новой иерархии сверхдорогого эксклюзива от немецкого автогиганта.

25.07 / 05:12

вооружение общество политика tiktok правительство В Украине предложили заблокировать TikTok: появилась петиция с призывом ограничить работу соцсети

Документ под номером № 41/010384-26эп опубликован на официальном сайте правительства. Пока речь идет лишь об инициативе гражданина, которая должна собрать 25 тысяч подписей для обязательного рассмотрения Кабинетом Министров. На момент подготовки материала петицию поддержали всего 86 человек, поэтому никаких решений о блокировке TikTok в Украине не принято.

25.07 / 04:15

Samsung технологии Huawei история общество Продажи складных смартфонов в России обновили рекорд: за четыре года рынок вырос более чем в два раза

По данным М.Видео рынок складных смартфонов продолжает расти и по итогам первого полугодия 2026 года достиг исторического максимума как в денежном, так и в количественном выражении.

25.07 / 03:21

люди общество психология психика Психология и отношения 4 привычки, которые мешают вам стать эмоционально умнее

Эмоциональный интеллект часто проявляется не в действиях, а в том, от каких привычек человек отказывается в повседневной жизни.

25.07 / 02:35

происшествия ученые наука золото история Индийский океан в степи – редкие находки археологов в Казахстане

Ученые нашли кирпичи государственного стандарта ордынской эпохи. Из этого материала строили мечети и дворцы знати.

Лента новостей

На главную страницу