Meaning Error Rate Людмила Гордеева Василий Ершов Игорь Лабутин Игорь Кураленок Университет ИТМО Яндекс Яндекс Яндекс lulu.gordeeva07@gmail.com noxoomo@yandex-team.ru НИУ ВШЭ solar@yandex-team.ru Labutin.IgorL@gmail.com Аннотация—Стандартный подход для оценки качества направлено на то, чтобы улучшать качество работы систем систем распознавания речи основан на вычислении числа распознавания для различных практических ситуаций. К неправильно распознанных слов (метрика WER, Word Error сожалению, основной фокус в данных работах направлен Rate). Данный подход является простым и достаточно эф- фективным в большинстве случаев. Однако, он не учитыва- на эксперименты с моделью распознавания, а именно ет несколько существенных факторов. Во-первых, системы эксперименты с архитектурой и типом нейронной сети распознавания голоса могут допускать ошибки, существенно (использование сверточных [11; 14] или рекуррентных се- меняющие смысл фразы, а метрика WER не является чув- тей [8], архитектуры на основе трансформеров [16], и т.д.), ствительной к данному типу ошибок. Во-вторых, в реальных методами аугментации и другими техниками обучения приложениях от систем распознавания голоса требуется не точная транскрибация слово в слово, а специфичная для глубинных сетей, а также способами ускорить обучение и конкретного приложения функциональность: возможность применение систем распознавания в реальных задачах. В определить потребность пользователя (интент) для голосо- то же время, все эти методы сравниваются на основе един- вых ассистентов; качество распознавания автомобильного ственной метрики — числе ошибочно распознанных слов номера, адреса, номера телефона и т.д. Таким образом, (WER), которая хотя и сильно коррелирует с качеством возникает необходимость в разработке метрик для оценки качества распознавания в конкретных приложениях, а так- распознавания, тем не менее не является чувствительной же необходимо научиться оценивать качество современных к ошибкам, существенно меняющим суть произнесенного систем не только в терминах числа ошибочно распознанных текста. Таким образом, улучшения моделей по существую- слов, но и с учетом того, что целью является передача смысла щей метрике не позволяют оценить влияние тех или иных фразы. В данной работе мы разработали общий подход к изменений на то, как эти изменения будет воспринимать построению такого типа метрик, а также способ оценки каче- ства метрик. Основная идея нового подхода — использование пользователь. В результате, в распознавании речи сегодня краудсорсинга и последующего сведения задачи построения возникает проблема, близкая к той, с которой столкнулся метрики к хорошо изученной задаче обучения с учителем. информационный поиск в 2000-х годах, когда стало понят- В качестве примера использования данного подхода мы но, что не все документы одинаково хорошо отвечают на предлагаем обобщение метрики WER — метрику MERaLM, запрос пользователя, а существующие метрики, такие, как обладающую следующими достоинствами: учет того, что не все ошибки одинаково MAP, не позволяют улучшать системы в сторону выявле- влияют на точность передачи смысла фразы и легкая ин- ния более релевантных документов [5]. В качестве реше- терпретируемость. ния было предложено семейство метрик DCG и NDCG [5]. Ключевые слова— автоматическое распознавание речи, В распознавании речи сегодня наблюдается аналогичная метрика, машинное обучение. проблема — отсутствует подход к построению метрик, отражающих то, как пользователи воспринимают работу I. Введение системы: какое распознавание считать ”хорошим”, а какое Автоматическое распознавание речи в настоящее время ”плохим”? Передает ли распознавание смысл исходного активно применяется для решения большого числа прак- текста? Какие ошибки считать существенными, а какие тических задач: голосовые помощники, автоматическая нет? Насколько влияет добавление или пропуск частицы генерация субтитров, автоматизация работы центров обра- ”не” на восприятие смысла? Человек, так или иначе, ботки звонков и т.д. Современные методы, основанные на может дать ответы на эти вопросы, в то время как метрика применении методов глубинного обучения, достигли каче- WER — нет, и мы считаем, что для дальнейшего развития ства, сравнимого с человеком [13] на общедоступных кор- систем распознавания голоса нужно понять, что и зачем пусах транскрибированных аудио таких, как LibriSpeech. мы хотим оптимизировать. В практических задачах требуется работать с шумными Наиболее эффективный подход к построению оценки данными, часто плохого качества (например, записи звон- качества систем распознавания голоса — привлечь к этой ков в телефонии), для которых разработанные системы задаче человека (например, на основе краудсорсинга), ко- показывают существенно худшее качество. Тем не менее, торый сможет формализовать такие понятия, как ”смысл этого качества уже достаточно для того, чтобы актив- фразы передан точно”. Однако экспертная оценка стоит но внедрять автоматическое распознавание в различные дорого и требует большого количества времени и усилий приложения. Большое количество работ в данной области на проведение любого эксперимента. Поэтому в данной Copyright© 2020 for this paper by its authors. Use permitted under Creative Commons License Attribution 4.0 International (CC BY 4.0). работе мы предлагаем решение, близкое по духу к тому, проблема того, что замена слова на его синоним, будет которое было применено для оценки ранжирования в ин- ”стоить дорого”, а значит отображение семантических формационном поиске с помощью метрики DCG и NDCG; свойств предложений все еще не отображается. и в системах автоматического перевода при переходе к Остальные метрики машинного перевода, являются раз- оцениванию с помощью метрики BLEU [4]. Вместо того, личными модификациями метрики BLEU и не подлежат чтобы привлекать экспертов к оценке каждой системы рассмотрению в рамках данной статьи. распознавания, мы их используем один раз для обучения модели, которая будет автоматически предсказывать рей- III. Методология сравнения метрик тинги экспертов. Мы выяснили какую задачу должна решать метрика для оценки качества систем распознавания речи, рассмотрели II. Обзор существующих метрик существующие метрики и выявили ряд основных недо- На данный момент в задачах автоматического распо- статков. Теперь необходимо разработать новый способ знавания речи используется метрика WER. Она является оценки, который будет лишен этих проблем. стандартом и используется для оценки качества систем. Первая задача, которая возникает при разработке новой Однако, несмотря на свою популярность, эта метрика метрики — формализация понятия того, что одна метрика имеет ряд существенных недостатков. Основным из них лучше чем другая. Одним из естественных способов такой является одинаковый вес ошибки. Как следствие, ошибки формализации является определение необходимого набора в словах сильно искажающих смысл и ошибки в незначи- свойств, которыми должна обладать ”хорошая” метрика. В тельных для содержания словах будут иметь одинаковые некоторых приложениях удается доказать, что такой набор веса. свойств определяет метрику однозначно. Так, например, На основе WER было разработано большое количество для некоторых моделей машинного обучения используют метрик, которые также применяются в области автома- технику SHAP values [15] из теории игр. Она позволяет, тического распознавания речи и вот некоторые из них: в некотором смысле, оптимально оценить вклад разных расстояние Левенштейна [1], WER with embeddings [10], признаков в итоговую модель. Аналогичные идеи можно MR-WER (Multi-Reference WER) [9], Match Error Word, использовать и при построении метрик оценки качества. Normalized WER, WIL (Word Information Lost)[7]. Тогда критерий качества метрики формализуется так — Эти метрики созданы в качестве альтернативы WER для любая метрика, удовлетворяющая набору свойств (по сути, применения в более узких областях: особенности языка, аксиом). Основная цель — составить такой набор аксиом, особенности конкретной задачи и т.д. Однако их основная что метрика, удовлетворяющая этим аксиомам, единствен- идея состоит в подсчете количества ошибок. Такая же идея на. В случае прикладных задач выбор метрики — выбор лежит и в основе WER. Таким образом, все эти метрики наиболее ”хорошего” для конкретной задачи набора акси- обладают одинаковыми недостатками. ом. Стоит отметить, что автоматическое распознавание го- К сожалению, такой подход в общем случае не реали- лоса не единственная область машинного обучения, где зуем. Во-первых, составление списка аксиом трудная и, используются метрики для оценки качества через сравне- во многом, субъективная задача. Во-вторых, даже имея ние пар предложений. В машинном переводе стандартной список аксиом, построить метрику, удовлетворяющую им, метрикой качества является BLEU (Bilingual evaluation а также доказать, что такая метрика единственна, выглядит understudy) [4]. Но метрики машинного перевода не под- как нерешаемая задача. ходят для задачи распознавания речи по двум причинам. Поэтому в данной статье мы предлагаем другой подход. Во-первых, это другая задача, для которой нет одного Вместо того, чтобы математически корректно вводить на- правильного ответа, в отличии от распознавания (в данной бор аксиом и доказывать, что какие-то метрики им удо- работе не рассматриваются языки, имеющие неоднознач- влетворяют, мы предлагаем сформулировать некоторую ное орфографическое представление). Во-вторых, ни одна ”идеальную” метрику для оценки качества распознавания метрика, использующаяся в машинном переводе, не отоб- речи. Основная цель метрики — согласованность с чело- ражает отсутствие или наличие семантических различий веком в рамках конкретной задачи. Поэтому идеальной предложений. метрикой можно назвать эксперта и подробную инструк- Задача машинного перевода интересна тем, что в ней цию, по которой эксперт сможет однозначно сопоставить были предприняты попытки внедрить идею передачи се- паре предложений (истинному тексту на аудио и гипотезе) мантической составляющей в метрику. Так появилась мет- некоторую оценку качества распознавания под требования рика NIST [6]. Она является усовершенствованной версией конкретного приложения. Тогда качество метрики в рамках стандартной метрики BLEU, но учитывает то, что штраф определенной прикладной задачи — это мера согласован- за разные ошибки должен быть разным. Величина штрафа ности с такой ”идеальной” метрикой. Ту метрику, которая обратно пропорциональна встречаемости ошибки. Такой лучше согласована, будем считать лучшей. способ позволяет давать малые штрафы за мелкие ошибки Чтобы применять такой подход для оценки качества в артиклях, а большие за ошибки в значимых словах. метрики в рамках конкретной прикладной задачи необ- При таком способе формирования штрафа хорошо видна ходимо формализовать понятие согласованности метрики с ”идеальной”. ”Идеальная” метрика обладает одним су- пустое слово (что соответствует удалению). Если во вто- щественным недостатком — высокая стоимость. Челове- ром предложении остались слова без пары, им в соответ- ческий труд стоит очень дорого, поэтому использовать ствие ставится пустое слово (что соответствует операции его непрерывно и в больших масштабах нецелесообраз- вставки). Таким образом, пара предложений однозначно но. Воспользуемся подходом, использующимся в задачах представляется в виде пар слов, некоторые из которых машинного обучения — подготовим репрезентативный на- могут быть пустыми. бор данных и получим значения ”идеальной” метрики В результате получается семейство метрик MERa только на нем. Подготовка такого набора — отдельная и (Meaning error rate), где каждый элемент семейства зада- трудная задача. В рамках данной статьи нет возможности ется своей функцией стоимости. уделить ей необходимое внимание. Таким образом, чтобы Далее рассмотрим базовый пример стоимостной функ- упорядочить метрики качества распознавания, достаточно ции, который был реализован. один раз посчитать для каждой из них меру согласованно- сти с ”идеальной” на фиксированном репрезентативном V. Стоимость исправления смысловой ошибки наборе данных. В качестве функции стоимости можно рассматривать Заметим, что в описанном процессе не формализовано абсолютно любую функцию. Для базовой реализации ис- понятие согласованности. Оно связано непосредственно пользуем линейную функцию от выбранных признаков для с множеством значений метрики. В экспериментах, кото- пары слов. рые будут описаны в этой статье для простоты выбрана Выбор признаков, а также данные для обучения модели бинарная шкала оценивания. В таком случае в качестве являются ключевыми элементами процесса построения меры согласованности может быть использована любая новой метрики. Основная сложность заключается в том, метрика качества модели бинарной классификации. Для что во многом эти составляющие взаимосвязаны и выбрать определенности мы будем использовать AUC — area under признаки, которые наиболее точно будут отображать вли- the curve (одна из основных метрик для оценки качества яние на итоговый смысл фразы очень сложно без данных, бинарной классификации [3]). репрезентативно представляющих предметную область. Как уже было ранее отмечено, сбор такого набора данных IV. Подход к построению семейства метрик является отдельной крайне трудоемкой задачей и выходит за рамки этой статьи. В связи с этим, выбор признаков Основной принцип построения метрики — согласован- был основан на некоторых эмпирических предположениях ность с ”идеальной” метрикой. Согласованность измеря- о важности с точки зрения совпадения по смыслу, однако ется на некотором фиксированном наборе данных, репре- в дальнейшем этот список можно и нужно расширить зентативно представляющем конкретную предметную об- и возможно найти более значимые. Выбранный набор ласть. При этом, в качестве метрики можно рассматривать признаков в таблице I. любую функцию от пары предложений. Как следствие, новой метрикой может быть любая функция пар пред- Таблица I ложений, однозначно описывающаяся некоторым набором Описание признаков параметров. Тогда задача построения новой метрики сво- дится к выбору модели, сбору данных для обучения этой Признак совпадает словарная форма слова модели и, собственно, обучения. исходное слово — ”нет” В качестве базовой модели была выбрана модификация распознанное слово — ”нет” стандартной метрики WER. Как и в метрике для ма- слова полностью совпадают исходное слово — ”не” шинного перевода NIST [6] попробуем усовершенствовать распознанное слово — ”не” функцию штрафа, рассмотрев произвольную функцию от исходное слово — ”да” пар слов, характеризующуюся набором параметров. распознанное слово — ”да” Формально можно записать ее следующим образом: ( ) По сути, функция, которую мы строим, соответствует MERa = min σ E(wi ,wj )∼D̂ Q(wi , wj )) , некоторой модели бинарной классификации (в базовой реализации — линейной). Модель обладает некоторым где набором параметров, которые заранее не известны, а зна- ex σ(x) = 1+e x — сигмоидальная функция, чит, их нужно как-то оценить (для линейной — набор E(wi ,wj )∼D̂ — эмпирическое математическое ожидание коэффициентов при признаках). (по парам слов (wi , wj )), Q(u, v) — стоимость замены слова u на слово v. VI. Оценка параметров Минимум берется по всем ”выравниваниям” предложе- 1) Подготовить обучающее множество. В качестве на- ний. Под ”выравниванием” подразумеваем следующее — блюдений в нашей задаче выступают пары (распо- каждому слову из первого предложения ставим в соот- знанный текст, исходный текст на аудио), а в ка- ветствие слово из второго (что соответствует замене) или честве целевой переменной — оценка эксперта о том, насколько точно предсказание передает смысл Таблица II текста. В наших экспериментах мы использовали Используемые обозначения бинарные предсказания, но в дальнейшем можно Обозначение Описание легко добавить вероятностные предсказания. X исходные данные (набор пар предложений) 2) Метод оценки, по сути, функция, которую мы стро- ytrain ответы асессоров (0 если смысл одинаковый, 1 если разный) им, соответствует некоторой модели бинарной клас- ypred значение метрики для пары предложений сификации (в базовой реализации — линейной). Q функция стоимости для пары слов Модель обладает некоторым набором параметров, U матрица признаков для уникальных которые заранее не известны, а значит их нужно как- (внутри датасета) пар S вектор значений score на соответствующих то оценить (для линейной — набор коэффициентов уникальных парах при признаках). C матрица, в которой элемент (i, j) соответствует количеству раз, которое VI-A. Данные уникальная пара под номером j встречается в паре предложений под номером i В качестве набора обучающих данных были собраны результаты распознавания голоса нескольких облачных сервисов компаний Яндекс и Google. Исходные аудио были собраны на основе реального набора данных теле- пары предложений — среднее значение Q на парах фонии (полученные результаты распознавания доступны слов — поэтому порядок слов не важен (важен лишь по ссылке https://github.com/gordeeva-ln/MERa). набор пар). Собранный набор данных представляет из себя множе- • Составляем список уникальных пар по всему набору ство пар — исходный текст аудио и текст, распознанный данных и представляем каждый элемент исходных одним из указанных выше сервисов. данных как вектор, где каждый элемент равен ко- Далее на его основе создали задание для сервиса Ян- личеству раз, которое соответствующая уникальная декс.Толока, в которой попросили людей (экспертов) раз- пара встречается в множестве пар для этой пары метить пары собранного набора данных на два класса. К предложений (матрица C). первому классу относятся предложения, совпадающие по • Таким образом, получаем равенство ypred = CS. смыслу, ко второму — различающиеся. Заметим, что не Такое представление данных удобно в контексте ис- для любой пары предложений можно однозначно устано- пользуемого алгоритма. вить, к какому классу нужно ее отнести. Поэтому каждая пара была отправлена одновременно трем пользователям. VI-D. Алгоритм Таким образом, был собран набор данных, использующий- 1) Выбираем некоторую начальную модель, предсказы- ся для эксперимента и содержащий в себе около 5000 вающую метрику для пары слов. В случае модели, размеченных пар. являющейся линейной функцией, достаточно задать набор стартовых весов (можно выбирать случайно). VI-B. Оценка параметров 2) Разбиение на пары: Наша задача свелась к стандартной логистической ре- Согласно текущей модели, для каждой пары пред- грессии. Для оценки оптимальных параметров необходимо ложений получаем оптимальное (минимально воз- найти минимум логистической функции потерь. Слож- можное) значение метрики при наилучшем возмож- ность задачи заключается в том, что стандартные методы ном ”выравнивании” (разбиении на пары слов) и оптимизации применять не получается, т.к. оптимальное соответствующее разбиение. Затем получаем матри- выравнивание зависит от параметров, которые мы оцени- цы C, S и U . Оптимальное выравнивание ищется ваем, а методы непрерывной оптимизации можно исполь- с помощью динамического программирования, ана- зовать только при фиксированном выравнивании. Поэтому логичного динамическому программированию для мы используем некоторый аналог EM-алгоритма [2], на вычисления WER, с той лишь разницей, что вес каждой итерации сначала фиксируем оптимальное вырав- удаления, вставки и замены одного слова на другое нивание при текущей оценке параметров, затем обновляем вычисляется с помощью модели, а не является кон- оценку параметров с помощью градиентного спуска, затем стантным. снова пересчитываем оптимальное выравнивание. 3) Шаг градиентного спуска: Посчитать производную функции потерь непосред- VI-C. Представление данных ственно по параметрам модели может быть достаточ- Чтобы пояснить дальнейшие рассуждения, введем но сложно, поэтому возьмем производную по S. При несколько вспомогательных обозначений: помощи представления ypred = CS производную по • Один элемент обучающего множества — пара пред- S посчитать легко. ложений. Обучим новую модель, которая по U (уникальным • В процессе подсчета метрики MERa для каждой пары парам) будет предсказывать направление градиент- предложений получаем набор пар слов. Метрика для ного спуска по S и добавим ее к существующей. 4) Повторяем шаги 2-3 пока алгоритм не начнет пере- Таким образом, мы показали, что с помощью методов обучаться. машинного обучения и правильной подготовки признаков можно отлавливать потери смысла. Разумеется данная кон- VII. Эксперименты кретная модель не является оптимальной. Большее число На основе предложенной модели и собранных данных признаков и более качественные методы обучения позво- был проведен набор экспериментов. Полученные коэффи- ляют получать лучшие результаты. Но, наборы признаков циенты при выбранных параметрах линейной модели в будут зависеть от конкретной задачи и данных и наша цель таблице1 . была показать работоспособность подхода, с чем такой Анализируя полученные коэффициенты, можно сде- простой пример успешно справился. лать несколько выводов. Во-первых, в основном значения очень малы. Такого результата можно было ожидать, так VIII. Направление для дальнейших исследований как выбор признаков был сделан не исходя из экспери- В данной работе мы предложили подход к построению ментов, а исходя из интуитивных представлений. Вторая семейства метрик. В качестве примера мы рассмотрели причина в том, что в качестве данных были выбраны простую линейную модель, обобщающую метрику WER. реальные распознавания голоса. Ошибки, с которыми не Несмотря на тот факт, что в качестве модели выбран справляются существующие на данный момент метрики наиболее простой вариант, набор признаков выбран не оп- и которые при этом можно описать в виде признаков от тимально, а на основе эмпирических предположений, нам пар слов, встречаются крайне редко, но именно на такие удалось показать, что даже на таком наборе параметров ошибки метрика должна реагировать. Поэтому так важно существующие метрики оказываются хуже. и для обучения, и для сравнения метрик между собой • В анализе естественного языка наилучшее качество собрать подробный репрезентативный набор данных. В в обширном спектре задач показывают нейросетевые рамках данной работы, не было задачи показать насколь- модели на основе BERT [12] и XLNet [17]. Модели ко сильное влияние оказывают выбранные признаки. Во- на основе нейронных сетей сложно интерпретировать, вторых, наибольший положительный вес имеет признак, но для ситуации, когда требуется только предсказы- отвечающий за полное совпадение слов. По полученным вать вероятность того, что распознавание передает выводам нельзя судить о значимости признаков, они всего смысл предложения, такие модели должны показы- лишь отражают данные, на которых модель обучалась. вать очень хороший результат. Стоит отметить, что до сих пор про признаки было • Достоинство предложенной метрики MERa— хоро- сказано только то, что корректно выбрать их можно после шая интерпретируемость. Однако в рамках данной тщательного анализа данных, но как этот анализ прово- статьи она была использована в качестве демонстра- дить и как выделять признаки — отдельная задача. ции работы нового подхода и во многом нуждается в Теперь переходим к оценке и попытаемся предсказать улучшениях. Для последующего использования, необ- для пары предложений эквивалентны они по смыслу ходимо пересмотреть набор признаков и выбранную или нет. Для текущего набора коэффициентов результаты моделей для оценки параметров. представлены в таблице III. • Сбор данных для обучения метрики является одной из ключевых задач. От того, насколько полно данные Таблица III описывают ситуации, которые важно распознать как Сравнение метрик. Для сравнения качества использовался AUC[3] одинаковые или разные по смыслу, зависит качество Метрика AUC работы метрики. В зависимости от той предметной WER 0.69 области, в которой метрика будет использована, этот Расстояние Левенштейна 0.63 набор данных окажется своим и всегда можно будет Лемматизированный WER (LER) 0.67 MERaLM 0.77 дообучиться. IX. Заключение Можем заметить, что MERaLM действительно показала лучшее качество по сравнению с предыдущими метриками В рамках этой статьи мы по-новому взглянули на метри- (WER, Расстояние Левенштейна) по основным характери- ки для задачи автоматического распознавания голоса и об- стикам. Метрика LER, по сути, является частным случаем наружили, что существующие варианты не удовлетворяют метрики MERaLM с единственным признаком — словар- базовым понятиям релевантности для данной задачи. Мы ной формой слова. Тот факт, что LER показал результаты предложили новый подход, который, несмотря на свою хуже, чем MERaLM говорит о том, что одного призна- простоту, позволяет отобразить насколько передает метри- ка недостаточно. Но комбинация с другими, пусть даже ка информацию об эквивалентности гипотезы и исходного незначительными признаками дает значительный прирост текста по смыслу. В качестве демонстрации применения в качестве. этого подхода было предложено новое семейство метрик, которое строится на основе оценки передачи смысла. 1 https://github.com/gordeeva-ln/MERa/Коэффициенты.pdf Проведенный эксперимент показал, что метрика из этого семейства, реализованная на основе линейной модели ока- [14] Li, Jason / Lavrukhin, Vitaly / Ginsburg, Boris / Leary, зывается лучше старых согласно нашему методу оценки Ryan / Kuchaiev, Oleksii / Cohen, Jonathan M. / Nguyen, качества метрик. Huyen / Gadde, Ravi Teja(2019): Jasper: An End-to-End Convolutional Neural Acoustic Model. Список литературы [15] Lundberg, Scott M / Lee, Su In (2017): A Unified [1] В. И. Левенштейн(1965): Двоичные коды с исправле- Approach to Interpreting Model Predictions. In: Guyon, нием выпадений, вставок и замещений символов, 4: I. / Luxburg, U. V. / Bengio, S. / Wallach, H. / Fergus, 845-848. R. / Vishwanathan, S. / Garnett, R. (Hg.), Advances [2] Dempster, A. P. / Laird, N. M. / Rubin, D. B.(1977): in Neural Information Processing Systems 30.Curran Maximum likelihood from incomplete data via the EM Associates, Inc.: 4765–4774. algorithm1-38. [16] Mohamed, Abdelrahman / Okhonko, Dmytro / [3] Bradley, Andrew P.(1997): The Use of the Area under Zettlemoyer, Luke (2019): Transformers with the ROC Curve in the Evaluation of Machine Learning convolutional context for ASR Algorithms, 7: 1145–1159. . [4] Papineni, Kishore / Roukos, Salim / Ward, Todd / [17] Yang, Zhilin / Dai, Zihang / Yang, Yiming / Carbonell, Zhu, Wei Jing(2002): Bleu: a Method for Automatic Jaime / Salakhutdinov, Russ R / Le, Quoc V (2019): Evaluation of Machine TranslationIn: Proceedings of XLNet: Generalized Autoregressive Pretraining for the 40th Annual Meeting of the Association for Language Understanding. In: Wallach, H. / Larochelle, Computational Linguistics311–318. H. / Beygelzimer, A. / Alché Buc, F.d'/ Fox, E. / Garnett, [5] Järvelin, Kalervo / Kekäläinen, Jaana(2002): Cumulated R. (Hg.), Advances in Neural Information Processing Gain-Based Evaluation of IR Techniques, 4: 422–446. Systems 32.Curran Associates, Inc.: 5754–5764. [6] Lin, Chin Yew / Och, Franz Josef(2004): Automatic Evaluation of Machine Translation Quality Using Longest Common Subsequence and Skip-Bigram StatisticsIn: Proceedings of the 42nd Annual Meeting on Association for Computational Linguistics605–es. [7] Morris, Andrew Cameron / Maier, Viktoria / Green, Phil(2004): From WER and RIL to MER and WIL: improved evaluation measures for connected speech recognition2765-2768. [8] Chan, William / Jaitly, Navdeep / Le, Quoc V. / Vinyals, Oriol(2015): Listen, Attend and Spell. [9] Ali, A. / Magdy, W. / Bell, P. / Renais, S.(2015): Multi-reference WER for evaluating ASR for languages with no orthographic rulesIn: 2015 IEEE Workshop on Automatic Speech Recognition and Understanding (ASRU)576-580. [10] Le, Ngoc Tien / Servan, Christophe / Lecouteux, Benjamin / Besacier, Laurent(2016): Better Evaluation of ASR in Speech Translation Context Using Word EmbeddingsIn: Interspeech 2016. [11] Pratap, Vineel / Hannun, Awni / Xu, Qiantong / Cai, Jeff / Kahn, Jacob / Synnaeve, Gabriel / Liptchinsky, Vitaliy / Collobert, Ronan(2018): wav2letter++: The Fastest Open-source Speech Recognition System. [12] Devlin, Jacob / Chang, Ming Wei / Lee, Kenton / Toutanova, Kristina(2019): BERT: Pre-training of Deep Bidirectional Transformers for Language UnderstandingIn: Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers)4171– 4186. [13] Synnaeve, Gabriel u.a.(2019): End-to-end ASR: from Supervised to Semi-Supervised Learning with Modern Architectures. Meaning Error Rate Liudmila Gordeeva Vasily Ershov Igor Labutin Igor Kuralenok ITMO University Yandex Yandex / SPb HSE Yandex / JetBrains Research lulu.gordeeva07@gmail.com noxoomo@yandex-team.ru Labutin.IgorL@gmail.com solar@yandex-team.ru Abstract—Currently, WER (Word Error Rate) is used as a metric for automatic speech recognition systems quality evaluation. This metric is rather simple and works well in many cases. But, WER and similar metrics do not take into account several key factors. The most critical one is a distortion of a phrase meaning by speech recognition systems, WER metric is not sensitive for such error types. Besides, some applications do not need perfect recognition word to word. Their specific requirements may be: identifying current user intent by voice assistants; exact recognition of licence plate, address, phone number, etc. To estimate the quality of speech recognition systems satisfying such requirements a new metric should be designed. One, that will reflect not only errors in words but also a semantic distortion. Here we present a new general approach for the construc- tion of a metric. The main idea of this approach is using crowdsourcing on the first stage of collecting a dataset and the next reduction of the construction problem to a well known supervised learning task. As an application example, we propose the generalization of the WER — MERaLM metric, which has the following advantages: it considers that different mistakes affect the meaning distortion in different ways, and; the easy interpretability of the assessment. Index Terms—automatic speech recognition, machine learn- ing