Интеграционный подход распознавания зашумленной русскоязычной речи Даниил Гомонюк∗ , Игорь Никифоров† , Дмитрий Дробинцев‡ Высшая школа программной инженерии Санкт-Петербургский Политехнический Университет Санкт-Петербург, Россия Email: ∗ dan.gomonuk@gmail.com, † igor.nikiforovv@gmail.com, ‡ drobintsev_df@spbstu.ru Аннотация—Исследовательская работа посвящена мето- распознать слово которого нет в словаре, но чем больше дам автоматического преобразования аудиозаписей в тексто- количество слов, входящих в словарь, тем больше вероят- вый формат - распознаванию речи. ность ошибки, так как выбор слова из словаря становиться В частности, особое внимание уделено распознаванию за- шумленной русской речи. неоднозначнее. Такие инструменты подходят для распозна- В работе предоставления обзор существующих методов вания заранее известных фраз, например речевых команд, распознавания, которые включают "интегральные"и "ги- но они не эффективны при распознавании спонтанной бридные"методы. Приведен сравнительный обзор существу- речи. Одной из систем, реализующих рассматриваемый ющих реализаций рассмотренных методов и их метрики. метод, является CMUSphinx. На основе сравнительного анализа делается вывод, что тех- нология "Mozilla DeepSpeech"наиболее мощный инструмент Методы, основанные на нейронных сетях, можно разде- распознавания. лить на "интегральные"и "гибридные"[4] методы. Несмотря Отличительной особенностью работы является исполь- на то, что они подходят для распознавания спонтанной зование комбинированного метода распознавания, который речи, они не избавлены от недостатков: позволяет улучшить качество распознавания зашумленной • качество распознавания во многом зависит от каче- речи. Комбинированный метод объединяет в себе "инте- гральные"и "гибридные"методы. Предлагаемый подход реа- ства исходной аудиозаписи, что накладывает высокие лизован в программном средстве для распознавания зашум- требования на качество исходной аудиозаписи; ленной русской речи с использованием технологии "Mozilla • отсутствие универсальных методов и реализующих их DeepSpeech". Результаты показывают эффективность пред- библиотек. Зачастую для каждой конкретной задачи ложенного подхода. Разработанное программное средство может быть исполь- необходимо создавать свое собственное решение; зовано компаниям в целях снижения трудозатрат при осу- • для каждого языка (например, русского, английского, ществлении технической поддержки заказчиков. китайского), приходится проводить дополнительную Ключевые понятия—распознавание речи, зашумленная настройку систем распознавания. речь, аудиозапись, Mozilla DeepSpeech, Baidu, Kaldi Поэтому актуальной является задача создания такого ме- тода, который бы позволял снизить влияние перечислен- I. Введение ных недостатков и повысить эффективность и качество Инновационные подходы и технологии с каждым днем распознавания речи. Важно отметить еще и то, что на все больше и больше интегрируются в устоявшихся го- текущий день существует малое количество работ, спе- дами сферах жизнедеятельности человека. Не является циализирующихся на распознавании зашумленной русской исключением и применение методов машинного обучения речи. для распознавания аудиозаписей. Так, например, распо- Целью настоящей работы является разработка интегра- знавание речи по аудиозаписям позволяет повысить эф- ционного метода распознавания русской речи при наличии фективность служб клиентской поддержки, даёт возмож- шума. ность проводить аналитику звонков [1], избегая проблем с соблюдением закона “О персональных данных”, так как II. Технологии распознавания речи, основанные на зачастую в аудио-звонках упоминается конфиденциальная нейронных сетях информация [2]. Ниже перечислены две основные группы Существует большое количество инструментов и тех- методов: основанные на применении скрытых марковских нологий распознавания речи, основанные на нейронных моделей и методы, основанные на нейронных сетях. сетях. К ведущим решениям с открытым исходным кодом Описание методов, основанных на применении скрытых можно отнести Mozilla DeepSpeech и Kaldi. Все методы марковских моделей (далее СММ), можно найти, напри- делятся на две группы: интегральные и гибридные. Гибрид- мер, в работе [3]. Инструменты на основе этих методов ные решения состоят из множества отдельных компонен- очень точны, но требуют составления словаря, соотнося- тов, ошибка в одном компоненте может привести к про- щего слово и его фонемы (например слово “ноль” разби- блемам в других и повлиять на общий результат (качество вается на фонемы “n” “oo” “ll”). Такая система не сможет распознавания). Создание гибридных решений сложнее, Copyright© 2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). Таблица I Сравнение различных моделей распознавания речи [4] Модель Технология Речевой корпус WER % Гибридные СММ/ИНС модели CNN Torch7 WSJ (Nov’92) 6.7 Kaldi-dnn5b-pretrain-dbn-dnn-smbr recipe Kaldi WSJ (Nov’92) 3.35 CTC модели RNN-CTC + Kaldi + trigram LM Kaldi WSJ (Nov’92) 6.7 LSTM-CTC + trigram LM Eesen WSJ (Nov’92) 7.9 Шифратор-дешифратор модели CNN + RNN + CTC Baidu WSJ (Nov’92) 4.42 CNN + ASG Torch7,Baidu LibriSpeech 7.2 чем создание решений, основанных на интегральном под- Естественным условием для сравнения разных ASR- ходе: каждый компонент системы необходимо подбирать и систем с помощью этой метрики является запуск тестов настраивать под конкретную задачу. Интегральный метод на одинаковом оборудовании заключается в создании одной нейронной сети, которая не нуждается в других компонентах, таких как акустическая B. Сравнительный анализ ASR по метрике WER или языковая модели К недостаткам такой модели можно Проведём сравнительный анализ различных моделей отнести большой размер обучающей выборки. для распознавания речи, по трём основным группам: гибридные СММ/ИНС модели, CTC-модели, шифратор- III. Сравнительный анализ существующих реализаций дешифратор модели на основе механизма внимания. Возь- систем автоматизированного распознавания речи мём только две лучше модели в каждой группе по показа- телю WER. A. Метрики оценки систем автоматизированного распо- Гибридные СММ/ИНС модели состоят из блока скры- знавания речи тых марковских моделей(СММ) определяющего наиболее Корректная оценка результатов работы систем автома- вероятную последовательность фонем и блока искусствен- тизированного распознавания речи (англ. automatic system ной нейронной сети(ИНС), которая вычисляет вероятность recognision, далее ASR системы), и как следствие воз- последовательности полученную от СММ. можность корректно сравнить разные ASR системы, имеет CTC (Connectionist Temporal Classification) позволяет большое значение как для конечных пользователей, так и моделям рекуррентных нейронных сетей обучаться без на- для разработчиков таких систем. В данной работе пред- чального выравнивания звуковой дорожки и транскрипции. ставленные метрики будут использоваться не только для Шифратор-дешифратор модели используются для за- сравнения систем, но и для оценки конечного результата дач, где длины входной и выходной последовательностей работы предложенного метода. Для ASR систем существу- являются переменными. Шифратор это нейронная сеть, ет две основные группы метрик оценивания [5]: которая выделяет признаки из входного сигнала в проме- жуточное представление. Дешифратор это рекуррентная • метрики точности распознавания; нейронная сеть, которая использует промежуточное пред- • метрики скорости распознавания. ставление для генерации выходных последовательностей. Основным способом оценки точности распознавания яв- Для сравнения моделей были использованы два ляются метрики, основанные на расстоянии Левенштейна набора англоязычных аудиозаписей WSJ(Nov’92)[7] и [6]. Расстояние Левенштейна — это метрика, опреде- LibriSpeech[8]. Оба этих набора являются стандартами ляющая разницу между двумя символьными последова- для тестирования англоязычных ASR. тельностями. Она рассчитывается как количество опера- Как можно увидеть из Таблицы I. однозначными лиде- ций удаления, вставки и замены преобразовывающих одну рами по показателю WER являются технологии Kaldi и последовательность символов в другую. Наиболее распро- Baidu. Далее мы будем использовать их реализации: vosk страненными метриками, основанными на расстоянии Ле- - реализацию Kaldi для русского языка и DeepSpeech - венштейна, являются WER - количество ошибочных слов в открытый проект компании Mozilla реализующий техно- предложении и SER количество ошибочных предложений. логию Baidu. Важным параметром любой системы является скорость Даже на этой небольшой выборке видно насколько об- ее работы. Для ASR метрикой, на основе которой вычис- ширно количество способов настройки моделей машинно- ляется скорость работы, является метрика SF(RT). Она го обучения, и на сколько сильно отличаются показатели считается как отношение скорости обработки аудиофайла качества даже в рамках одной технологии. Кроме того, ни к длительности этого аудиофайла. К примеру, если файл одна из этих систем не проводит анализ распознанного длительность в одну минуту обрабатывается тридцать се- текста, так как единицей их работы являются морфемы - кунд, то SF = 0.5. т.е. звуки. Предложенный интеграционный метод предпо- лагает получение результатов от нескольких разных ASR- Первый этап, предобработка аудио. Аудиозапись приво- систем, и проводит коррекцию ошибок основываясь на дится к заданному формату с конкретной частотой дискре- результатах других ASR, подбирает наиболее вероятные тизации. Затем производится очистка от шумов, например слова там, где распознание не удалось. Выбор из полу- с помощью быстрого преобразования Фурье (далее БПФ). ченных вариантов может произвести оператор-человек или Очищенная от шумов аудиозапись разбивается на более система контекстного анализа. мелкие по паузам, тем самым решается несколько про- Другими словами, предлагается сделать ансамбль ASR блем: во-первых, мы заранее знаем где были паузы - т.е. систем с коррекцией ошибок. законченные мысли и можем это использовать при выдаче конечного результата, во-вторых, мы частично избежим IV. Интеграционный подход распознавания зашумленной проблемы смешения дикторов. речи Второй этап, распознавание аудио. Полученные ауди- A. Описание метода озаписи помещаются в базу данных и маркируются как Основные этапы предложенного подхода: проводится относящиеся к одному тексту. Каждая аудиозапись от- очистка аудиозаписи от шумов, после этого выполняется правляется параллельно во все системы ASR, на выхо- ее распознавание с помощью нескольких разных систем де которых мы получаем варианты распознанной фразы. автоматического распознавания речи. Полученные резуль- После обработки всех аудиозаписей и получения наборов таты составят список наиболее вероятных гипотез (N- распознанных фраз можно приступать к анализу текстов. Best-List)[12], выбор из которых может произвести либо Третий этап, коррекция ошибок. Сначала мы исправля- оператор-человек, либо система контекстного анализа. ем ошибки в каждой фразе - сравнивая её с вариантами от других ASR, и составляем наиболее полное предложение. Затем в этом предложении проводится обработка после- довательностей, разделенных пробелами - мы определяем является ли последовательность словом, если нет, то какие варианты слов из алфавита могут ей соответствовать. Если последовательность невозможно распознать она маркиру- ется спецсимволом MASK. Четвертый этап, коррекция ошибок на основе контекста. На данном этапе с помощью ручного или автоматического анализа контекста выявляется, составляют ли полученные фразы осмысленный текст. Автоматический анализ кон- текста предлагается производить с помощью BERT. B. Алгоритм Предложенный метод призван уменьшить количество ошибок и как следствие повысить качество распознава- ния речи. Сделать это предлагается за счет уменьшения пространства всех возможных фраз, путем использования нескольких распознающих систем и получения нескольких возможных вариантов фраз, из которых и будет произво- дится дальнейший выбор. Полученные фразы должны быть сопоставлены, выяв- ление наиболее вероятных вариантов фраз происходит по следующему алгоритму (описан для трех систем). • проверяем не состоит ли фраза из одного слова; • удаляем все пробельные символы и определяем явля- ется ли получившийся результат словом с заданным редакционным расстоянием; • если предыдущий пункт верен, обработку можно счи- тать завершенной. Все три варианта фразы сортируются по следующим параметрам: Рис. 1. Cтруктурная схема предлагаемого подхода • совпадения количества пробельных символов у На вход программной системы передается аудиозапись, нескольких фраз, это свидетельствует о правильном после прохождения нескольких этапов на выходе пользова- определении границ слов; тель системы получает наиболее вероятное предложение. • совпадения длины строки; • по количеству точно распознанных слов (сколько слов 3) удобство использования и замены разных ASR ис- из фразы есть в словаре); пользующих разные библиотеки; • по приоритету ASR, если по какой-то причине мы 4) предоставление кроссплатформенного интерфейса доверяем одной из ASR больше. для работы с системой. После сортировки принимаем первую фразу за истин- ную. Выравниваем фразы, по совпадающим словам, за- Для обеспечения перечисленных требований использу- меняя пробелы вокруг совпавших слов на спецсимволы. ется ансамбль докер контейнеров, задачи которым уста- Таким образом мы получаем границы, правильно распо- навливаются через REST-API сервис, который выступает знанных участков. интерфейсом для внешних пользователей и выполняет Промежутки, находящиеся внутри спецсимволов, срав- функцию брокера задач используя очередь задач. ниваем по описанному выше алгоритму, не совпавшие про- REST-API сервис реализует архитектуру приложения межутки обозначаем как не распознанные. Если ни в одном “Клиент-Сервер“, тем самым обеспечивает кроссплатфор- промежутке из группы нет хотя бы одного корректного менность системы. Использование REST-сервиса предо- слова, помечаем этот диапазон как не распознанный. ставляет широкие возможности для клиентских приложе- Таким образом, получаем лучшую из возможных ком- ний. Клиентское приложение может быть написано под бинацию результатов, в которой не распознанные участ- практически любую операционную систему, под практиче- ки помечены спецсимволом MASK. Если предложение не ски любую платформу (включая мобильную), и практиче- удалось распознать полностью, то фраза анализируется ски на любом языке программирования. Вместо аутенти- с помощью BERT - анализатора контекста от компании фикации пользователя REST-API сервис реализует простой Google. способ защиты данных пользователей. При загрузке файла клиент получает уникальный ключ, полученный на основе C. Особенности очистки от шума переданной аудиозаписи, вычисленный с использованием Одной из задач, которую необходимо было решить в хеш-функции. Результат распознавания предоставляется рамках данной работы, является задача предобработки в ответ на получение этого ключа. Для предотвращения звука и удаления шумов. Нам необходимо это сделать не перехвата ключа, связь между клиентом и сервером реа- только для уменьшения вероятности ошибки, но и для лизована через протокол HTTPS. большей однородности записей. Для того чтобы повысить отклик программной системы Есть два основных способа решения этой проблемы: каждый из перечисленных сервисов должен иметь возмож- модели на основе рекуррентных нейронных сетей, и раз- ность обрабатывать аудиозаписи независимо. Это сложно личные алгоритмы спектрального анализа. В работе был реализовать при обработке всей аудиозаписи целиком, по- произведен сравнительный анализ двух инструментов, ре- этому решено разбивать аудиозапись на меньшие отрезки ализующих эти подходы: RNNoise и ffmpeg. ориентируясь на паузы в речи. По умолчанию, разбиение В рамка проекта ffmpeg разработан фильтр afftdn, пред- осуществляется на группы, в которых встречается 100 пауз назначенный для очистки аудио от шума. В основе этого по 2 секунды. Эти два параметра (длина интервала паузы фильтра лежит алгоритм БПФ. и количество пауз) настраивается в системе для гибкого RNNoise — это свободный инструмент, основанный на конфигурирования и получения наилучшего качества рас- рекуррентной нейронной сети с типом ячеек GRU. Модель познавания. Чтобы сервисы имели возможность одновре- RNNoise обученная на различных видах шумов, пытается менно работать с одним и тем же участком аудиофайла анализировать аудиозапись и вычленять различные виды каждый участок загружается в сервис хранения файлов шума. откуда любой другой сервис может его получить. Разбие- При практическом использовании оказалось, что фильтр ние позволило не только использовать независимость сер- afftdn справляется с задачей лучше RNNoise, и работает висов, но и снизило время ожидания пользователем перво- быстрее, поэтому для очистки шумов был выбран именно го предложения. Независимость работы всех компонентов он. позволила использовать все ASR-системы одновременно, тем самым обеспечив параллельность системы на этапе D. Реализация подхода распознавания аудиозаписи. Для реализации предложенного подхода разработана В качестве конкретных инструментов для реализации программная система, отвечающая следующим требовани- были выбраны: ям: 1) возможность встраивания новых процедур для обра- 1) язык разработки - Python3.6; ботки аудиозаписи; 2) очередь задач - Redis; 2) возможность параллельного распознавания аудиоза- 3) сервис конвертации и очистки от шума - ffmpeg; писей с помощью ASR, следовательно необходима 4) сервис диаризации - pyAudioAnalysis; возможность одновременного использования одного 5) сервис хранения файлов - Scality S3; аудио файла; 6) сервисы ASR - Kaldi, DeepSpeech, CMUSphinx. E. Результаты [8] V. Panayotov, G. Chen, D. Povey and S. Khudanpur, "Librispeech: An ASR corpus based on public domain audio books,"2015 IEEE Результаты работы программной системы были оценены International Conference on Acoustics, Speech and Signal Processing по показателям WER и SF, описанных в пункте III-A. (ICASSP), Brisbane, QLD, 2015, pp. 5206-5210. Тестовые записи, взятые из набора русскоязычных аудио [9] Makovkin K.A. [Hybrid models – Hidden Markov Models/Multilayer perceptron and their application in speech recognition systems. Servey]. open_stt, обладают следующими характеристиками: Rechevye tehnologii – Speech Technology. 2012. vol. 3. pp. 58–83. (In • 15 минут записи - 1400 слов; Russ.). [10] Markovnikov N.M., Kipyatkova I., Karpov A., Filchenkov A. Deep neural • 17Мб; networks in Russian speech recognition. Proceedings of 2017 Artificial • 128 Kbit/sec; Intelligence and Natural Language Conference. 2017. pp. 54–67 • 3% шума. [11] Levenshtein V.I. Binary codes capable of correcting deletions, insertions, and reversals. Soviet physics. Doklady. 1996. vol. 10. pp. 707–710. Замеренные показатели сравнивались со средним значе- [12] Yen-Lu Chow and Richard Schwartz. 1989. The N-Best algorithm: нием трех ASR систем, лежащих в основе программной an efficient procedure for finding top N sentence hypotheses. In Proceedings of the workshop on Speech and Natural Language системы. На проверочном наборе данных предложенная (HLT ’89). Association for Computational Linguistics, USA, 199–202. система показала ухудшение по показателю SF в среднем DOI:https://doi.org/10.3115/1075434.1075467 на 27%. Другими словами, программная система работает [13] Ronzhin A.L., Karpov A.A., Li I.V. Rechevoj i mnogomodal’nyj interfejsy [Speech and multimodal interfaces]. М.: Nauka. 2006. 173 медленнее, что объясняется большим количеством компо- p. (In Russ.). нентов. По показателю WER программная система пока- [14] Kipyatkova I., Karpov A. DNN-Based Acoustic Modeling for Russian зала результаты лучше на 7%, снизив количество ошибок Speech Recognition Using Kaldi. International Conference on Speech and Computer. 2016. pp. 246–253. за счет контекстного анализа. [15] LeCun Y., Bengio Y. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks. 1995. V. Заключение vol. 3361. no. 10. pp. 1995. В работе приведен обзор методов преобразования ауди- [16] Романенко А.Н., Матвеев Ю.Н., and Минкер В.. "Перенос знаний в задаче автоматического распознавания русской речи в телефонных озаписей в текст. Проведен сравнительный анализ су- переговорах"Научно-технический вестник информационных техно- ществующих реализаций для рассмотренных методов, на логий, механики и оптики, vol. 18, no. 2, 2018, pp. 236-242. основе которого сделан вывод что интегральные системы [17] Povey D. et al. The Kaldi speech recognition toolkit». IEEE 2011 workshop on automatic speech recognition and understanding. IEEE пока что немного уступают в точности распознавания Signal Processing Society. 2011. 4 p. гибридным СММ/ИНС моделям. [18] Comparing Speech Recognition Systems (Microsoft API, Google API Представлен интеграционный подход, который комби- And CMU Sphinx) Këpuska V, Bohouta G [19] Zaity B., Wannous H., Shaheen Z., Chernoruckiy I., Drobintsev P., нирует различные ASR с системами улучшения аудио и Pak V. "A hybrid convolutional and recurrent network approach for обработкой текста. conversational AI in spoken language understanding."(2019). Приведены детали реализации и проведен анализ ре- зультатов по двум метрикам качества, который показывает выигрыш используемого метода над существующими под- Integration approach for automatic speech recognition of ходами. noisy Russian language Daniil Gomonyuk, Igor Nikiforov, Dmitry Drobintsev Список литературы Higher School of Software Engineering [1] Using the Doc2Vec Algorithm to Detect Semantically Similar Jira Issues Peter the Great St. Petersburg Polytechnic University in the Process of Resolving Customer Requests Kovalev, A., Voinov, St. Petersburg, Russia N., Nikiforov, I. 2020 Studies in Computational Intelligence [2] Федеральный закон от 27.07.2006 n 152-фз (ред. от 31.12.2017) "О Abstract—The research considers methods for the automated персональных данных" conversion of audio recordings into a text data format, in other [3] Балакшин Павел Валерьевич. Алгоритмические и программные words, speech recognition. Particular emphasis is placed on the средства распознавания речи на основе скрытых марковских recognition of noisy Russian-language speech. моделей для телефонных служб поддержки клиентов: диссер- The paper provides an overview of existing speech recognition тация кандидата технических наук: 05.13.11 / Балакшин Па- methods which include end-to-end and modular methods. There вел Валерьевич;[Место защиты: Федеральное государственное is a review and comparative analysis of existing implementations автономное образовательное учреждение высшего образования of the methods and their metrics. Based on a comparative «Санкт-Петербургский национальный исследовательский универси- тет информационных технологий, механики и оптики»].- Санкт- analysis, it is concluded that Mozilla DeepSpeech technology is Петербург, 2015.- 127 с. the most powerful speech recognition tool. [4] Марковников, Н. М., и И. С. Кипяткова. Аналитический обзор A distinctive feature of the work is the use of the combined интегральных систем распознавания речи. Труды СПИИРАН, т. 3, recognition method, which allows to improve the recognition вып. 58, June 2018, сс. 77-10, doi:10.15622/sp.58.4. quality of noisy recordings. The end-to-end and modular methods [5] Карпов Алексей Анатольевич, Кипяткова Ирина Сергеевна. "Мето- are combined in single approach. The proposed approach is дология оценивания работы систем автоматического распознавания implemented in a software package for recognizing noisy Russian- речи"Известия высших учебных заведений. Приборостроение, vol. language speech using Mozilla DeepSpeech technology. The 55, no. 11, 2012, pp. 38-43. results showing the effectiveness of the proposed end-to-end [6] Прытков В.А. "Функция расстояния между строками на основе кусочно-постоянной модели"Доклады Белорусского государствен- method are demonstrated. ного университета информатики и радиоэлектроники, no. 4 (74), The developed software package can be used in companies 2013, pp. 22-28. engaged in technical support and call centers to improve the [7] Paul, Douglas B. and Janet M. Baker. “The design for the wall street efficiency of processing customer requests. journal-based CSR corpus.” ICSLP (1992).