



Датасет Granary от Nvidia: миллион часов речи для обучения нового поколения ИИ
Хотя сегодня кажется, что ИИ повсюду, на деле он уверенно работает лишь с частью из семи тысяч существующих языков, оставляя без внимания огромный пласт мировой аудитории. Nvidia решила устранить этот очевидный пробел — в первую очередь в Европе.
Компания представила мощный набор открытых инструментов, который позволит разработчикам создавать высококачественные системы распознавания и синтеза речи для 25 европейских языков. Среди них есть и крупные, широко используемые, но главное — сюда попали и забытые фаворитами больших технокорпораций языки вроде хорватского, эстонского и мальтийского.
Задача проста и амбициозна: дать возможность программистам создавать голосовые сервисы, которые для многих уже стали обыденностью, — от многоязычных чат‑ботов, действительно понимающих собеседника, до систем поддержки клиентов и переводчиков, работающих мгновенно.
Сердцем этой инициативы стала Granary — гигантская библиотека человеческой речи. В ней около миллиона часов аудиозаписей, тщательно отобранных, чтобы обучать ИИ тонкостям распознавания и перевода устной речи.
Чтобы извлечь максимум из этих данных, Nvidia предлагает две новые языковые AI‑модели:
Canary-1b‑v2 — крупная модель, созданная для высокой точности при сложной транскрипции и переводе;
Parakeet‑tdt-0.6b‑v3 — модель для молниеносных приложений, где важна прежде всего скорость.
Тем, кто хочет заглянуть под капот, пригодится научная статья о Granary, которую представят в этом месяце на конференции Interspeech в Нидерландах. А нетерпеливые разработчики могут уже сейчас скачать набор данных и обе модели на Hugging Face.
Но настоящее волшебство — в том, как эти данные были созданы. Общеизвестно: обучение ИИ требует невероятных объёмов данных, а их сбор обычно растягивается на месяцы,
Читать на habr.com