Hugging Face запускает FastRTC для упрощения голосовых и видеоприложений в режиме реального времени
Hugging Face, стартап в сфере искусственного интеллекта, стоимость которого оценивается более чем в 4 миллиарда долларов, представил FastRTC — библиотеку Python с открытым исходным кодом, которая устраняет основное препятствие для разработчиков при создании аудио- и видеоприложений с использованием искусственного интеллекта в реальном времени.
«Создание приложений WebRTC и Websocket в реальном времени на Python очень сложно», — сказал Фредди Болтон, один из создателей FastRTC, в своем объявлении на X.com.
Технология WebRTC обеспечивает прямую связь браузера с браузером для аудио, видео и обмена данными без плагинов или загрузок. Несмотря на то, что она необходима для современных голосовых помощников и видеоинструментов, реализация WebRTC остается специализированным набором навыков, которым большинство инженеров машинного обучения (ML) просто не обладают.
Время не могло быть более стратегическим. Голосовой AI привлек огромное внимание и капитал — ElevenLabs недавно получила финансирование в размере 180 миллионов долларов, в то время как такие компании, как Kyutai, Alibaba и Fixie.ai, выпустили специализированные аудио-модели.
Тем не менее, разрыв между этими сложными моделями AI и технической инфраструктурой, необходимой для их развертывания в отзывчивых приложениях реального времени, сохраняется. Как отметила Hugging Face в своем сообщении в блоге, «инженеры ML могут не иметь опыта работы с технологиями, необходимыми для создания приложений реального времени, таких как WebRTC».
FastRTC решает эту проблему с помощью автоматизированных функций, обрабатывающих сложные части общения в реальном времени. Библиотека обеспечивает распознавание голоса, возможности очередности, тестирование интерфейсов и даже генерацию временного
Читать на habr.com