



Voxtral — новая модель распознавания речи от Mistral, которая дешевле проприетарных аналогов
Французская компания Mistral, специализирующаяся на искусственном интеллекте, представляет Voxtral — модель распознавания речи с открытым исходным кодом. Она обещает заменить проприетарные решения, предлагая при этом вдвое меньшую стоимость.
Модели Voxtral представлены в двух вариантах: 24B для производственных приложений и компактная модель 3B для локального и периферийного развёртывания. Обе модели поддерживают контекстное окно на 32 000 токенов, которое, по словам представителей Mistral, может обрабатывать аудиофайлы длительностью до 30 минут для расшифровки или до 40 минут для понимания.
В отличие от стандартных инструментов для расшифровки, Voxtral предоставляет возможность задавать вопросы и получать ответы, а также обобщать информацию без использования отдельных моделей распознавания речи и языковых моделей. Кроме того, пользователи могут использовать голосовые команды для непосредственного запуска серверных функций, автоматически преобразуя устные запросы в вызовы API.
Модели поддерживают автоматическое распознавание речи на английском, испанском, французском, португальском, хинди, немецком, голландском и итальянском языках, сохраняя при этом возможности понимания текста, заложенные в основу языковой модели Mistral Small 3.1.
Тесты Mistral показывают, что Voxtral Small превосходит ведущую модель с открытым исходным кодом Whisper large-v3, а также GPT-4o mini Transcribe и Gemini 2.5 Flash во всех протестированных задачах. В задачах на расшифровку коротких текстов на английском языке и в тесте Common Voice от Mozilla он, как сообщается, превосходит ElevenLabs Scribe — на данный момент одну из самых эффективных моделей.
В тесте на многоязычное распознавание речи FLEURS Voxtral Small якобы превосходит Whisper на всех
Читать на habr.com