Universal-1 от AssemblyAI превзошел Whisper от OpenAI: новый лидер в гонке решений для распознавания речи
Почти год Whisper от OpenAI удерживал лидерство среди открытых решений для распознавания речи, но теперь пальму первенства среди API сервисов перехватила новая модель Universal-1 от AssemblyAI. Обученная на более чем 12,5 миллионах часов многоязычных аудиоданных, Universal-1 превосходит предыдущего лидера - Whisper от OpenAI, а также другие коммерческие решения по ключевым параметрам.
В основе Universal-1 лежит архитектура Conformer RNN-T с 600 миллионами параметров. Энкодер модели состоит из стека сверточных слоев для 4-кратного субдискретизации, позиционного кодирования и 24 слоев Conformer, использующих chunk-wise attention с размером чанка 8 секунд. Это обеспечивает не только устойчивость к вариациям длительности аудио, но и ускоряет обработку за счет ограничения вычислений внимания внутри каждого чанка. Декодер RNN-T использует двухслойный LSTM предиктор и джойнер для генерации выходных токенов.
Процесс обучения Universal-1 состоял из двух этапов: предобучения энкодера на немаркированных аудиоданных с помощью алгоритма BEST-RQ и дообучения полной модели RNN-T на маркированных данных. Для предобучения использовался оптимизатор AdamW с линейно убывающей скоростью обучения, а дообучение проводилось с различными скоростями обучения для энкодера и декодера. Использование микса из транскрибированных человеком и псевдомаркированных данных позволило добиться высокой акустической и лингвистической устойчивости модели.
Результаты тестирования показывают, что Universal-1 превосходит аналоги по точности распознавания речи на 10% и более для английского, испанского и немецкого языков, а также генерирует на 30% меньше некорректных вставок слов на обычной речи и на 90% - на фоновых шумах. Universal-1 демонстрирует WER на уровне 7.3%
Читать на habr.com

