Podcastle запускает модель преобразования текста в речь с более чем 450 голосами ИИ
Платформа для записи и редактирования подкастов Podcastle теперь присоединяется к другим компаниям в гонке по преобразованию текста в речь с помощью ИИ, выпустив собственную модель под названием Asyncflow v1.0. Также будет доступен API для разработчиков, позволяющий напрямую интегрировать модель преобразования текста в речь в свои приложения.
Компания может предложить более 450 голосов ИИ, которые могут озвучивать текст. Также было заявлено, что технология и модель разработаны таким образом, чтобы затраты на обучение и вывод данных были низкими, что даёт преимущество перед конкурентами.
Таким образом, Podcastle присоединяется к ряду стартапов, включая ElevenLabs, Speechify и WellSaid, которые разработали технологию и модели искусственного интеллекта для преобразования любого текста в голосовой ролик, озвучиваемый искусственным интеллектом. Эта технология охватывает такие области использования, как маркетинг, реклама, создание контента, образование и корпоративное обучение.
Основатель Podcastle Арто Ерицян рассказал TechCrunch, что компания всегда хотела создать модель преобразования текста в речь, но затраты на обучение и требования к данным были очень высокими.
«Мы хотели создать надёжную модель преобразования текста в речь с самого начала. Однако затраты на разработку были очень высокими. Благодаря недавним разработкам больших языковых моделей в прошлом году мы смогли совершить прорыв и создать высококачественную голосовую модель без необходимости в огромном количестве данных», — сказал Ерицян.
В прошлом году компания также привлекла финансирование в размере 13,5 млн долларов.
Ерицян сказал, что в то время как Podcastle берёт около 40 долларов за 500 минут преобразования текста в речь, ElevenLabs берёт за то же самое 99
Читать на habr.com