=Paper= {{Paper |id=Vol-2790/paper39 |storemode=property |title= Алгоритм автоматической акцентуации с учетом орфоэпической нормы автора (The Algorithm of Automatic Accentuation with Respect to the Speaking Norm of a Given Author, short paper) |pdfUrl=https://ceur-ws.org/Vol-2790/paper39.pdf |volume=Vol-2790 |authors=Anna Mosolova |dblpUrl=https://dblp.org/rec/conf/rcdl/Mosolova20 }} == Алгоритм автоматической акцентуации с учетом орфоэпической нормы автора (The Algorithm of Automatic Accentuation with Respect to the Speaking Norm of a Given Author, short paper) == https://ceur-ws.org/Vol-2790/paper39.pdf
The Algorithm of Automatic Accentuation with
  Respect to the Speaking Norm of а Given
                   Author

                               Anna Mosolova

              Institute of Computational Technologies, SB RAS
                            a.mosolova@g.nsu.ru



    Abstract. The task of automatic accentuation is important to many
    fields of natuгal language processing including speech generation and
    poetry generation. In this paper we introduce а deep learning based al­
    gorithm of automatic accentuation. We describe the creation of а dataset
    from а collection of works Ьу А. S. Pushkin, а grammar dictionary Ьу
    А. А. Zaliznyak and а concordance of Pushkin's poems, the training of
    а recurrent neural network on this dataset and the evaluation of the re­
    sulting algorithm. The described algorithm outperforms the CRF-based
    baseline Ьу 10%.




Copyright © 2020 for this paper Ьу its authors. Use permitted under Creative
Commons License Attribution 4.0 Intemational (СС ВУ 4.0).




                                     443
     Алгоритм автоматической акцентуации с
      учетом орфоэпической нормы автора*

                             А. В. Мосолова

              Институт вычислительных технологий СО РАН
                          a.mosolova@g.nsu.ru


     Аннотация Задача автоматической расстановки ударений важна
     для многих разделов обработки естественного языка, включая синтез
     речи и генерацию стихотворного текста. В данной статье мы предла­
     гаем основанный на глубоком обучении алгоритм расстановки уда­
     рений. В статье описывается составление набора данных с помощью
     собрания сочинений А. С. Пушкина, грамматического словаря А. А.
     Зализняка и конкорданса к стихам А. С. Пушкина, обучение на этом
     наборе данных рекуррентной нейронной сети и исследование каче­
     ства работы полученного алгоритма. Описываемый алгоритм превос­
     ходит базовый метод, основанный на алгоритме условных случайных
     полей, на десять процентов.

      Keywords: Акцентуация · Рекуррентная нейронная сеть


1   Введение
Во многих областях анализа текста для его корректного рассмотрения тре­
буется наличие ударений у слов. Особенно это важно при анализе стихов.
Однако стандартные алгоритмы акцентуации проставляют ударения на ос­
нове современных норм русского языка, в то время как ритмический ри­
сунок и рифма в стихотворениях многих авторов работает только при той
орфоэпической норме, которая была принята в тот временной период разви­
тия русского языка, когда они создавали свои произведения. Таким образом,
мы видим своем задачей разработку алгоритмов для автоматической рас­
становки ударений, который проводит акцентуацию с учетом норм, которые
были использованы автором при написании своего произведения. В данной
работе будут представлены два алгоритма, решающие эту задачу, имитируя
нормы, которые использовал А. С. Пушкин. В разделе о данных опишем
подготовку наборов данных, основанных на произведениях А. С. Пушкина,
для обучения алгоритмов, далее рассмотрим устройство алгоритма с ис­
пользованием условных случайных полей и алгоритма с рекуррентной ней­
ронной сетью. В конце представлены результаты оценки качества работы
этих алгоритмов на тестовом множестве и заключение о работе.
* Работа осуществлена в рамках гранта РНФ № 19-18-00466 «Разработка и реа­
  лизация информационной системы многоуровнего исследования стихотворных
  текстов>>




                                   444
2   Данные

Исходный набор данных был обработан двумя способами для тестирования
каждого из предложенных в статье алгоритмов. Для первого алгоритма,
который использовался в качестве базового метода, был создан специаль­
ный корпус, основанный на первых четырёх томах собрания сочинений А.
С. Пушкина в десяти томах [1]. Во всех стихотворениях были проставлены
ударения с помощью акцентора, основанного на грамматическом словаре
русского языка А. А. Зализняка (ударения проставлялись в соответствии с
типом акцентной парадигмы из словаря), который использовал не только
саму словоформу, но и ее морфологические характеристики для коррект­
ного проставления ударения в одинаковых словоформах некоторой лексемы
[4]. Также был использован <<Конкорданс к стихам А. С. Пушкина>> Дж.
Томаса Шоу [2,3], из которого брались ударения к словам в строках, где
встречались омографы (рис. 1). Те предложения, в которых ударение не
могло было быть проставлено ввиду отсутствия какой-то из словоформ и
в словаре А. А. Зализняка, и в Конкордансе, удалялись из стихотворения.
Обработанные таким образом стихотворения затем преобразовывались в па­
ры последовательностей, состоящие из входной последовательности букв и
желаемой выходной последовательности нулей и единиц, причём единица
для элемента желаемой выходной последовательности означает то, что со­
ответствующий этому элементу символ входной последовательности должен
находиться под ударением, а ноль - что нет (рис. 2).
    Первая из последовательностей поступала на вход алгоритму, который
делал ее предобработку перед использованием в качестве обучающего мно­
жества для нейросети. Каждый символ получал свой набор признаков: явля­
ется ли он заглавной/строчной буквой, буквой/цифрой/знаком препинания,
предыдущая перед текущим символом буква, следующая за текущим сим­
волом буква. Для другого варианта алгоритма расстановки ударений, осно-



                                 "Конкорданс"


                                                +



                       Охо\77 плачу
                             акцентор

                                 Рис.1.




ванного на проставлении ударения не для целого текста, а для одного слова,
использовался другой способ представления данных. Здесь на вход подается




                                   445
                                                    о   о
                                                    х   о
                                                    о   1
                                                    т   о
                                                    н   о
                   Охо+тно ца+нь ему+ п:1ачу+   �   о   о
                                                        о
                                                    д   о
                                                    а   1
                                                    н   о
                                                    ь   о

                                    Рис.2.



цепочка символов слова, а также его морфологическая характеристика, что
позволяет автоматически разрешать неодзнозначность в омографах.
     При обучении второго алгоритма использовался метод переноса обуче­
ния ( transfer learning), поэтому для первичного обучения также был исполь­
зован корпус прозаических текстов, в которых были расставлены ударения.
Количество уникальных слов в обучающей выборке составило более 800 ты­
сяч.
     Дообучение проводилось с помощью второго массива данных - набора
слов из [2,3].
     Морфологическая информация о каждом слове генерировалась автома­
тически на основе словарного метода с использованием библиотеки pymorphy2
[6]. Омография на этапе подготовки корпуса разрешалась вручную.


3     Алгоритм
3.1   Базовый метод: условные случайные поля
Обработанные описанным в разделе 2 способом последовательности посту­
пали на вход алгоритма, использующего метод условных случайных полей
(Conditional random fields, CRF), который является разновидностью метода
Марковских случайных полей [5]. Принцип работы CRF схож с логистиче­
ской регрессией, этим объясняется быстрое обучение моделей такого рода,
однако она предназначена для предсказания последовательностей и способ­
на использовать, в отличие от логистической регрессии, контекст в качестве
признаков. Метод условных случайных полей часто применяется для задач
определения частей речи, распознавания именованных сущностей, определе­
ния элементов последовательностей изображений, поэтому должен хорошо
себя показывать и в задаче предсказания ударения.
   Для обучения алгоритма акцентуации мы использовали имплементацию
CRF в библиотеке sklearn-crfsuite [8] из библиотеки sklearn [7] для подбора
оптимального алгоритма обучения, а также коэффициента регуляризации.




                                      446
447


447
и вентиль g Е {О, l} d , тогда s' вычисляется через произведение Адамара g
и х и его суммированием с тем же произведением (1 - g) на s.
   Таким образом мы можем контролировать запоминание отдельных эле­
ментов, однако для встраивания подобного вектора необходимо, чтобы мы
могли дифференцировать функцию, которая выдавала бы нам 1 или О. Для
этих целей используется вектор g' Е Rn , который затем передается в сигмо­
идную функцию для получения нужных 1 или О.
   Первой архитектурой, использующей преобразование такого рода, была
рекуррентная нейронная сеть типа LSTM [10], однако требуется долгое вре­
мя для приобретения этой сетью обобщающей способности, поэтому нами
была использована рекуррентная нейронная сеть типа GRU.
   Рекуррентный слой при обработке нового элемента последовательности
получает на вход не только входной вектор признаков, но и вектор состоя­
ния слоя в предыдущий момент времени, поэтому было решено передавать
информацию о морфологической характеристике слова вместо вектора со­
стояния слоя в предыдущий момент времени, так как простая конкатена­
ция слова и его морфологической характеристики значительно увеличивает
размерность вектора признаков и, как следствие, экспоненциально растёт
число обучаемых параметров нейронной сети, что может привести к её пе­
реобучению, т.е. потере обобщающей способности. Обычно в первый момент
времени (при обработке первого элемента последовательности) вектор со­
стояния считается нулевым. Мы же будем инициализировать вектор состо­
яния для первого элемента последовательности не нулями, а признаковым
описанием морфологической характеристики слова. Сама морфологическая
характеристика слова прндварительно получается с помощью основанного
на нейросети морфоанализатора RNNMorph [6]. Для обучения данной ней­
ронной сети был применён метод переноса обучения (transfer learning). Сна­
чала нейросеть была обучена расставлять ударения в словах, полученных из
обычных прозаических текстов, по правилам современного русского языка.
Затем сеть была дообучена на словах из [2,3].


4   Результаты
Тестирование алгоритма проводилось на 25% от полученных наборов дан­
ных.
   В результате экспериментов было показано, что вариант алгоритма на
основе рекуррентных нейронных сетей типа GRU, инициализируемых со­
стоянием на основе векторного представления морфохарактеристик слова,
показывает 5,6% ошибок в расстановке ударений. Базовый алгоритм, осно­
ванный на условных случайных полях с использованием признаков симво­
лов, дает 15% ошибок на тестовом множестве (табл. 1).
   Алгоритм, основанный на рекуррентных нейронных сетях, показывает
лучшее качество по сравнению с условными случайными полями, в связи
со своей способностью улавливать более тонкие закономерности в подавае­
мых ему на вход последовательностях. Однако, если необходимо получить




                                   448
                              Таблица 1. Результаты

              Алгоритм                                % ошибок
              Условные случайные поля (базовый метод) 15
              Рекуррентная нейронная сеть             5,6




алгоритм, который способен быстро обучаться, выбор будет отдан (хоть и с
некоторой потерей качества) в пользу CRF.


5    Заключение

В данной статье мы описали построение корпуса для обучения алгоритма
автоматической расстановки ударения, базовый алгоритм, основанный на
условных случайных полях, и алгоритм, использующий рекуррентную ней­
ронную сеть и морфологические характеристики слова в качестве скрытого
состояния. Эксперименты показали, что последний алгоритм выполняет за­
дачу акцентуации на 10% лучше, чем базовый метод.

Благодарности. Эта работа выполнена под руководством Ивана Юрьеви­
ча Бондаренко в рамках работы над грантом РНФ № 19-18-00466 <<Разра­
ботка и реализация информационной системы многоуровнего исследования
стихотворных текстов>>.


Список литературы

1. Пушкин, А. С., Данилова, А. М.: Собрание сочинений в десяти томах. Вагриус,
   Москва (2005)
2. Шоу, Дж. Т.: Конкорданс к стихам А. С. Пушкина. Т. 1. Языки русской куль­
   туры, Москва (2000)
3. Шоу, Дж. Т.: Конкорданс к стихам А. С. Пушкина. Т. 2. Языки русской куль­
   туры, Москва (2000)
4. Yakovenko, О., et al.: Algorithms for automatic accentuation and transcription of
   russian texts in speech recognition systems. In: In proceedings of the International
   Conference оп Speech and Computer. рр. 768-777. Springer, Cham (2018)
5. Sutton, Ch., McCallum, А. An introduction to conditional random fields. In:
   Foundations and Тrends@ in Machine Learning. рр. 267-373. Now PuЫishers Inc.,
   Hanover (2012)
6. Anastasyev D. G., Gusev I. О., Indenbom Е. М.: Improving Part-of-speech Tagging
   Via Multi-task Learning and Character-level Word Representations. In: Proceedings
   of the International Conference "Dialogue 2018". рр. 14-27. Moscow (2018)
7. Pedregosa F. et а!.: Scikit-learn: Machine learning in Python. In: T he Journal of
   machine Learning research. рр. 2825-2830. (2011)
8. Okazaki N.: Crfsuite: а fast implementation of conditional random fields (crfs).
   (2007)




                                         449
9. Werbos Р. J.: Backpropagation through time: what it does and how to do it. In:
   Proceedings of the IEEE. рр. 1550-1560. (1990)
10. Hochreiter S., Schmidhuber J.: Long short-term memory. In: Neural computation.
   рр. 1735-1780. (1997)




                                      450