-

The Algorithm of Automatic Accentuation with Respect to the Speaking Norm of а Given Author

Anna Mosolova

a.mosolova@g.nsu.ru 0 0 Institute of Computational Technologies, SB RAS

443 450

The task of automatic accentuation is important to many eiflds of natuгal language processing including speech generation and poetry generation. In this paper we introduce а deep learning based algorithm of automatic accentuation. We describe the creation of а dataset rfom а collection of works Ьу А. S. Pushkin, а grammar dictionary Ьу А. А. Zaliznyak and а concordance of Pushkin's poems , the trainingof а recurrent neural network on this dataset and the evaluation of the resulting algorithm. The described algorithm outperrfoms the CRF-based baseline Ьу 10%.

nuder

Creative

А. В. Мосолова Институт вычислительныхтехнологийСО РАН

a. mosolova@g.nsu.ru Аннотация Задача автоматическойрасстановки ударений важна длямногихразделовобработкиестественногоязыка,включаясинтез речи и генерациюстихотворноготекста. В даннойстатье мы предла гаем основанныйна глубокомобучении алгоритмрасстановкиуда рений. В статье описывается составлениенабораданныхс помощью собраниясочиненийА. С. Пушкина,грамматическогословаряА. А. Зализняка и конкордансак стихам А. С. Пушкина,обучениена этом наборе данных рекуррентнойнейроннойсети и исследованиекаче ства работыполученногоалгоритма.Описываемыйалгоритмпревос ходитбазовыйметод,основанныйна алгоритмеусловныхслучайных полей, на десять процентов. 1

Введение Во многих областях анализа текста для его корректного рассмотрения тре буется наличие ударений у слов. Особенно это важно при анализе стихов. Однако стандартные алгоритмы акцентуации проставляют ударения на ос нове современных норм русского языка, в то время как ритмический ри сунок и рифма в стихотворениях многих авторов работает только при той орфоэпической норме, которая была принята в тот временной период разви тия русского языка, когда они создавали свои произведения. Таким образом, мы видим своем задачей разработку алгоритмов для автоматической рас становки ударений, который проводит акцентуацию с учетом норм, которые были использованы автором при написании своего произведения. В данной работе будут представлены два алгоритма, решающие эту задачу, имитируя нормы, которые использовал А. С. Пушкин. В разделе о данных опишем подготовку наборов данных, основанных на произведениях А. С. Пушкина, для обучения алгоритмов, далее рассмотрим устройство алгоритма с ис пользованием условных случайных полей и алгоритма с рекуррентной ней ронной сетью. В конце представлены результаты оценки качества работы этих алгоритмов на тестовом множестве и заключение о работе. * Работа осуществленав рамках гранта РНФ № 19-18-00466 «Разработкаи реа лизацияинформационнойсистемы многоуровнегоисследованиястихотворных текстов>> Исходный набор данных был обработан двумя способами для тестирования каждого из предложенных в статье алгоритмов. Для первого алгоритма, который использовался в качестве базового метода, был создан специаль ный корпус, основанный на первых четырёх томах собрания сочинений А. С. Пушкина в десяти томах [1]. Во всех стихотворениях были проставлены ударения с помощью акцентора, основанного на грамматическом словаре русского языка А. А. Зализняка (ударения проставлялись в соответствии с типом акцентной парадигмы из словаря), который использовал не только саму словоформу, но и ее морфологические характеристики для коррект ного проставления ударения в одинаковых словоформах некоторой лексемы [ 4 ]. Также был использован К<онкорданс к стихам А. С. Пушкина>> Дж. Томаса Шоу [2,3], из которого брались ударения к словам в строках, где встречались омографы (рис. 1). Те предложения, в которых ударение не могло было быть проставлено ввиду отсутствия какой-то из словоформ и в словаре А. А. Зализняка, и в Конкордансе, удалялись из стихотворения. Обработанные таким образом стихотворения затем преобразовывались в па ры последовательностей, состоящие из входной последовательности букв и желаемой выходной последовательности нулей и единиц, причём единица для элемента желаемой выходной последовательности означает то, что со ответствующий этому элементу символ входной последовательности должен находиться под ударением, а ноль - что нет (рис. 2).

Первая из последовательностей поступала на вход алгоритму, который делал ее предобработку перед использованием в качестве обучающего мно жества для нейросети. Каждый символ получал свой набор признаков: явля ется ли он заглавной/строчной буквой, буквой/цифрой/знаком препинания, предыдущая перед текущим символом буква, следующая за текущим сим волом буква. Для другого варианта алгоритма расстановки ударений, осно"Конкорданс"

+ Охо\

7 акцентор 7 плачу ванного на проставлении ударения не для целого текста, а для одного слова, использовался другой способ представления данных. Здесь на вход подается Рис.1. цепочка символов слова, а также его морфологическая характеристика, что позволяет автоматически разрешать неодзнозначность в омографах.

При обучении второго алгоритма использовался метод переноса обуче ния (transfer learning), поэтому для первичного обучения также был исполь зован корпус прозаических текстов, в которых были расставлены ударения. Количество уникальных слов в обучающей выборке составило более 800 ты сяч.

Дообучение проводилось с помощью второго массива данных - набора слов из [2,3].

Морфологическая информация о каждом слове генерировалась автома тически на основе словарного метода с использованием библиотеки pymorphy2 [ 6 ]. Омография на этапе подготовки корпуса разрешалась вручную. 3 3.1 Алгоритм

Базовый метод: условные случайные поля Обработанные описанным в разделе 2 способом последовательности посту пали на вход алгоритма, использующего метод условных случайных полей (Conditional random efilds, CRF), который является разновидностью метода Марковских случайных полей [ 5 ]. Принцип работы CRF схож с логистиче ской регрессией, этим объясняется быстрое обучение моделей такого рода, однако она предназначена для предсказания последовательностей и способ на использовать, в отличие от логистической регрессии, контекст в качестве признаков. Метод условных случайных полей часто применяется для задач определения частей речи, распознавания именованных сущностей, определе ния элементов последовательностей изображений, поэтому должен хорошо себя показывать и в задаче предсказания ударения.

Для обучения алгоритма акцентуации мы использовали имплементацию CRF в библиотеке sklearn-crfsuite [ 8 ] из библиотеки sklearn [ 7 ] для подбора оптимального алгоритма обучения, а также коэффициента регуляризации. и вентиль g Е {О,l} d, тогда s' вычисляется через произведение Адамара g и х и его суммированием с тем же произведением (1 - g) на s.

Таким образом мы можем контролировать запоминание отдельных эле ментов, однако для встраивания подобного вектора необходимо, чтобы мы могли дифференцировать функцию, которая выдавала бы нам 1 или О. Для этих целей используется вектор g' Е Rn, который затем передается в сигмо идную функцию для получения нужных 1 или О.

Первой архитектурой, использующей преобразование такого рода, была рекуррентная нейронная сеть типа LSTM [10], однако требуется долгое вре мя для приобретения этой сетью обобщающей способности, поэтому нами была использована рекуррентная нейронная сеть типа GRU.

Рекуррентный слой при обработке нового элемента последовательности получает на вход не только входной вектор признаков, но и вектор состоя ния слоя в предыдущий момент времени, поэтому было решено передавать информацию о морфологической характеристике слова вместо вектора со стояния слоя в предыдущий момент времени, так как простая конкатена ция слова и его морфологической характеристики значительно увеличивает размерность вектора признаков и, как следствие, экспоненциально растёт число обучаемых параметров нейронной сети, что может привести к её пе реобучению, т.е. потере обобщающей способности. Обычно в первый момент времени (при обработке первого элемента последовательности) вектор со стояния считается нулевым. Мы же будем инициализировать вектор состо яния для первого элемента последовательности не нулями, а признаковым описанием морфологической характеристики слова. Сама морфологическая характеристика слова прндварительно получается с помощью основанного на нейросети морфоанализатора RNNMorph [ 6 ]. Для обучения данной ней ронной сети был применён метод переноса обучения (transfer learning). Сна чала нейросеть была обучена расставлять уд арения в словах, полученных из обычных прозаических текстов, по правилам современного русского языка. Затем сеть была дообучена на словах из [2,3]. 4

Результаты Тестирование алгоритма проводилось на 25% от полученных наборов дан ных.

В результате экспериментов было показано, что вариант алгоритма на основе рекуррентных нейронных сетей типа GRU, инициализируемых со стоянием на основе векторного представления морфохарактеристик слова, показывает 5,6% ошибок в расстановке уд арений. Базовый алгоритм, осно ванный на условных случайных полях с использованием признаков симво лов, дает 15% ошибок на тестовом множестве (табл. 1).

Алгоритм, основанный на рекуррентных нейронных сетях, показывает лучшее качество по сравнению с условными случайными полями, в связи со своей способностью улавливать более тонкие закономерности в подавае мых ему на вход последовательностях. Однако, если необходимо получить Таблица 1. Результаты Алгоритм % ошибок Условные случайные поля (базовый метод) 15 Рекуррентная нейронная сеть 5,6 алгоритм, который способен быстро обучатьсвяы, бор будет отдан(хоть и с некоторойпотерей качества) в пользу CRF. 5

Заключение В даннойстатье мы описалипостроениекорпуса для обучения алгоритма автоматическойрасстановкиударения, базовый алгоритм,основанныйна условныхслучайных полях, и алгоритм,использующийрекуррентную ней роннуюсеть и морфологическиехарактеристикисловав качестве скрытого состояния.Экспериментыпоказали,что последнийалгоритмвыполняетза дачу акцентуациина 10% лучше, чем базовый метод. Благодарности. Эта работавыполненапод руководствомИвана Юрьеви ча Бондаренков рамках работы над грантомРНФ № 19-18-00466 <<Разра ботка и реализацияинформационнойсистемымногоуровнегоисследования стихотворныхтекстов>>. Список литературы 9. Werbos Р. J.: Backpropagation through time: what it does and how to do it. In:

Proceedings of the IEEE. рр. 1550-1560. (1990) 10. Hochreiter S., Schmidhuber J.: Long short-term memory. In: Neural computation. рр. 1735-1780. (1997)

4. Yakovenko , О., et al.: Algorithms for automatic accentuation and transcription of russian texts in speech recognition systems . In: In proceedings of the International Conference оп Speech and Computer. рр. 768-777 . Springer, Cham ( 2018 )

5. Sutton , Ch. , McCallum , А. An introduction to conditional random fields . In: oFundations and eТrnds@ in Machine Learning. рр. 267-373 . Now PuЫishers Inc., Hanover ( 2012 )

6. Anastasyev

D. G.

, Gusev

I. О.

, Indenbom

. М.: Improving Part-of-speech Tagging Via Multi-task Learning and Character-level Word Representations . In: Proceedings of the International Conference "Dialogue 2018 ". рр. 14 - 27 . Moscow ( 2018 )

7. Pedregosa F . et а!.: Scikit-learn: Machine learning in Python . In: T he Journal of machine Learning research. рр. 2825-2830 . ( 2011 )

8. Okazaki

: Crfsuite: а fast implementation of conditional random fields (cr)fs . ( 2007 )