ElevenLabs представил автономную модель преобразования речи в текст Scribe
ElevenLabs, стартап в сфере искусственного интеллекта, который только что получил 180 миллионов долларов в рамках мегафинансирования, в первую очередь известен своим мастерством в создании аудио. Компания сделала шаг в другом технологическом направлении, выпустив свою первую автономную модель преобразования речи в текст под названием Scribe.
Стартап, стоимость которого оценивается в 3,3 миллиарда долларов, помог многим другим компаниям предоставлять услуги преобразования речи в текст благодаря своей обширной библиотеке голосов. Однако сейчас компания стремится выйти на рынок распознавания речи и конкурировать с такими компаниями, как Gladia, Speechmatics, AssemblyAI, Deepgram и моделями Whisper от OpenAI.
Модель Scribe от ElevenLabs поддерживает более 99 языков на момент запуска. Компания относит более 25 языков к категории с высокой точностью, в которой количество ошибок в словах составляет менее 5%. В этот список входят английский (заявленная точность 97%), французский, немецкий, хинди, индонезийский, японский, каннада, малаялам, польский, португальский, испанский и вьетнамский. Другие языки распределены по разным категориям с высоким (5–10% ошибок в словах), хорошим (10–20% ошибок в словах) и средним (25–50% ошибок в словах) процентом ошибок в словах.
Компания заявила, что модель превзошла Google Gemini 2.0 Flash и Whisper Large V3 на нескольких языках в тестах FLEURS и Common Voice.
Компания ElevenLabs разработала компонент преобразования речи в текст для своей платформы диалоговых агентов на основе ИИ, которая была выпущена в прошлом году. Однако это первый раз, когда компания выпускает автономную модель распознавания речи. В беседе с TechCrunch в прошлом месяце генеральный директор Мати Станишевски рассказал об
Читать на habr.com