




Google Health AI выпускает MedASR: модель преобразования речи в текст для клинической диктовки
Команда Google Health AI выпустила MedASR - модель преобразования речи в текст на основе архитектуры Conformer. Она предназначена для клинической диктовки и разговоров между врачами и пациентами и разработана для интеграции в современные рабочие процессы с использованием искусственного интеллекта.
MedASR - это модель преобразования речи в текст, основанная на архитектуре Conformer. Она предварительно обучена для медицинской диктовки и транскрипции. Модель позиционируется как отправная точка для разработчиков, которые хотят создавать приложения для здравоохранения, основанные на распознавании голоса, такие как инструменты для диктовки в радиологии или системы для записи заметок о визитах пациентов.
Модель имеет 105 миллионов параметров и принимает одноканальное аудио с частотой 16 000 герц и 16-битными целыми волновыми формами. Она выдает только текстовый вывод, поэтому может быть напрямую интегрирована в системы обработки естественного языка или генеративные модели, такие как MedGemma.
MedASR входит в портфель Health AI Developer Foundations вместе с MedGemma, MedSigLIP и другими медицинскими моделями, которые имеют общие условия использования и согласованную систему управления.
MedASR обучена на разнообразном корпусе деидентифицированной медицинской речи. Набор данных включает около 5 000 часов диктовки врачей и клинических разговоров в области радиологии, внутренней медицины и семейной медицины.
Для обучения пары аудиосегментов сопоставляются с транскриптами и метаданными. Подмножества разговорных данных аннотируются медицинскими именованными сущностями, включая симптомы, лекарства и состояния. Это дает модели хорошее покрытие клинической лексики и фраз, которые используются в рутинной документации.
Модель предназначена
Читать на habr.com