Яндекс победил шум
Бывало с вами так - лежишь в ванной, хочешь посмотреть видео с конями, кричишь "Алиса!", а колонка тебя не слышит из-за льющейся воды, работающего телевизора, пылесоса, чайника, соседа с перфоратором, стройки за окном?
Один из способов - жениться на женщине по имени Алиса, но тогда вам придется растить детей, убирать срач в доме и ездить в глупые отели в эмирате Дубай. Должно существовать более эффективное решение, не требующее обратной дискриминации мужчин.
Инженеры (ни в коем случае не рисёчеры) из Яндекса посмотели на эту проблему, и, похоже, нашли элегантное решение. Почитать подробней пейпер можно по ссылке на Архиве, а ниже - моя художественная интепретация.
Уже есть куча методов адаптивного шумоподавления.
Бимформинг (Beamforming, BF) пытается "слушать" в определённом направлении, это такое бионическое ухо. Но если ты орёшь не с той стороны - оно тебя не услышит.
Адаптивное шумоподавление (или в народе, ANC) пытается вычесть фоновый шум из сигнала. Проблема в том, что если ты что-то говорил прямо перед ключевым словом, система может принять твой голос за шум и "вычесть" и его. Проблема знакома всем, кто пытается в наушниках-затычках Sony гулять по улице и общаться на совещаниях по работе.
Дата сатанизм с ансамблями моделей позволяет запустить по отдельной нейронке на каждый аудиоканал и потом объединить результаты. Вычислительно дорого, для слабого процессора в колонке - верная смерть от перегрева.
Яндексоиды решили сделать комибнацию из всех этих штук. Вместо того чтобы выбирать один-единственный "чистый" канал, они подают на вход сразу несколько. Например, сырой звук со всенаправленного микрофона, и вместе с ним- звук, уже почищенный через ANC.
Перед основной моделью распознавания они поставили небольшую и очень лёгкую
Читать на habr.com