Сравнительный анализ методов автоматической классификации поэтических текстов на основе лексических признаков © В.Б. Барахнин © О.Ю. Кожемякина © И.С. Пастушков Институт вычислительных технологий СО РАН, Новосибирский государственный университет, Новосибирск, Россия bar@ict.nsc.ru olgakozhemyakina@mail.ru pas2shkov.ilya@gmail.com Аннотация. Проанализированы принципы формирования обучающих выборок для алгоритмов определения стилей и жанровых типов. Проведены вычислительные эксперименты с использованием корпуса текстов лицейской лирики А.С. Пушкина по выбору наиболее точного алгоритма классификации поэтических текстов, в том числе с использованием наиболее известных приемов ансамблирования базовых алгоритмов в композиции, таких, как взвешенное голосование, бустинг и стекинг, причем в качестве характеристических признаков стихотворений использовались одиночные слов, биграммы и триграммы. Рассмотренные алгоритмы показали свою работоспособность и могут быть использованы для автоматизации комплексного анализа русских поэтических текстов, существенно облегчая работу эксперта при определении их стилей и жанров путем предоставления соответствующих рекомендаций. Ключевые слова: автоматический анализ поэтических текстов, определение жанров и стилей, алгоритмы классификации. Comparative Analysis of Methods of Automated Classification of Poetic Texts Based on Lexical Signs © V.B. Barakhnin © O.Yu. Kozhemyakina © I.S. Pastushkov Institute of Computational Technologies of SB RAS, Novosibirsk, Russia Novosibirsk State University, Novosibirsk, Russia bar@ict.nsc.ru olgakozhemyakina@mail.ru pas2shkov.ilya@gmail.com Abstract. In this paper we analyze the principles of formation of the training samples for the algorithms of the definition of styles and genre types. The computational experiments with a corpus of texts of Lyceum lyrics of A. S. Pushkin at the choice of the most accurate algorithm of classification of poetic texts were conducted, including the usage of the best-known methods of assembling of the basic algorithms in the composition, such as weighted voting, boosting and stacking, and as a characteristic feature of the poems the single words, bigrams and trigrams were used. The considered algorithms showed their efficiency and can be used to automate the complex analysis of Russian poetic texts, significantly facilitating the work of the expert in determining of their styles and genres by providing the appropriate recommendations. Keywords: automated analysis of poetic texts, the definition of genres and styles, classification algorithms. классификации по жанрам и стилям, которые 1 Введение являются важными атрибутами, используемыми при В задачах автоматизированного анализа текстов определении влияния низших уровней стиха на на естественном языке возникает проблема их высшие (см., например, [1]). Исследования в области автоматизированного Труды XIX Международной конференции определения жанрового типа текстов начаты недавно «Аналитика и управление данными в областях с – в начале 2010-х годов. Так, в работе [2] интенсивным использованием данных» предложены алгоритмы определения жанров оды, (DAMDID/ RCDL’2017), Москва, Россия, 10–13 октября 2017 года 252 песни, послания, элегии и эпитафии на материале Таким образом, в статье проведен сравнительный английских поэтов–сентименталистов XVIII века: анализ целого ряда методов автоматизированной поскольку «несмотря на то, что в XVIII–XIX веках классификации поэтических текстов, включая жанровые признаки стихотворных текстов наиболее известные приемы ансамблирования постепенно начинают теряться ..., в английской базовых алгоритмов в композиции: взвешенное литературе начала XVIII века жанры оды, песни, голосование, бустинг и стекинг. послания, элегии и эпитафии по соотношению своих формальных признаков еще достаточно хорошо 2 Построение обучающей выборки разграничиваются». Наиболее эффективным подходом к В [3] изложен метод классификации текстов (по автоматизации определения жанровых типов и определенным жанрам и по авторам) на основе стилистических характеристик является анализа статистических закономерностей буквенных использование алгоритмов с обучением. Однако распределений, т. е. вероятностей встречаемости формирование обучающей выборки является отнюдь букв и буквосочетаний, при этом подчеркнуто, что не банальной задачей. Наша попытка использовать в решение найдено без «вторжения в область качестве обучающей выборки пушкинскую лирику литературы, т. е. без анализа синтаксиса, зрелого периода (1828–1831 гг.) потерпела неудачу литературных приемов и схем взаимодействий уже на раннем этапе работы, поскольку жанровое персонажей». Однако в работе [4] сами авторы разнообразие пушкинского творчества этого строят оригинальный контрпример к периода, соотносясь со стилевыми особенностями статистическому методу идентификации, что произведений в особой пушкинской манере, не показывает необходимость использования, по следует общепринятым законам. На данную черту крайней мере, методов морфологического анализа. указывал ране В.А. Грехнев: «Жанры и стиль не Что же касается автоматизации определения противостоят друг другу как враждебные, стилистических характеристик текстов, то нам взаимоотрицающие начала, но между ними всегда неизвестны исследования в этой области, по крайней существует внутреннее напряжение. Напряжение это мере, для текстов на русском языке. возрастает там, где возрастают мощь и размах В работе [5] нами показано, что метод опорных писательской индивидуальности» [7. C. 234]. векторов (support vector machine, SVM) [6] позволил Отсюда возникают жанрово-стилистические получить хорошие результаты при определении разновидности и варианты, во «внутреннем стилистической окраски поэтических текстов и напряжении» между стилем и жанром берут начало удовлетворительные – при определении жанров. неканонические жанры, и именно для обучающей В настоящей работе мы расширили используемые выборки это становится критичным, поскольку подходы, в частности, учитывая при построении возникают особенности, не попадающие в систему, характеристического вектора используемых в следовательно, противоречащие по своей сути стихотворении лексем количество их вхождений, а материалу для построения жанрово-стилевой также проводя эксперименты с характеристическими системы. Вследствие этого мы решили остановиться векторами биграмм и триграмм. Кроме того, нами на лицейской лирике (1814–1817 гг.), поскольку в был проведен сравнительный анализ целого ряда ней наблюдаются использование наиболее строгих алгоритмов классификации поэтических текстов, в жанровых форм, стилистическое единство, а также том числе с использованием наиболее известных следование правилам грамматик своего времени: приемов ансамблирования, т. е. построения «Почти вся лицейская лирика относится к композиций алгоритмов, в которых ошибки возвышенному стилю, исключение – всего несколько отдельных алгоритмов взаимно компенсируются. стихотворений. Даже многие сатирические стихи При ансамблировании рассматриваются алгоритмы, написаны вполне в возвышенном стиле. Можно в которых функция, называемая алгоритмическим утверждать, что в ранних стихах Пушкина оператором, устанавливает соответствие между чувствуется влияние жестких правил «Грамматики» множеством объектов и пространством оценок, а его лицейского учителя Н.Ф. Кошанского» [8. C. 24]. функция, называемая решающим правилом, В свою очередь, использование именно устанавливает соответствие между пространством лицейской лирики, как материала для создания оценок и множеством значений целевой функции. обучающей выборки, оправдано и стилевым Таким образом, рассматриваемые алгоритмы имеют аспектом, поскольку стилевая дифференциация вид суперпозиции алгоритмического оператора и лексем – этап разработки классификатора. Для решающего правила. Многие алгоритмы текстов на русском языке принято восходящее к классификации имеют именно такую структуру: трудам М.В. Ломоносова [9] деление текстов сначала вычисляются оценки принадлежности (прежде всего, художественных) на относящиеся к объекта классам, затем решающее правило высокому, среднему и низкому стилям. Исторически переводит эти оценки в номер класса. Значением каждый из них характеризуется специфическим оценки может быть вероятность принадлежности соотношением использования старославянских объекта классу, расстояние от объекта до (церковнославянских) и собственно русских слов разделяющей поверхности, степень уверенности (при этом отдельно рассматривается группа слов, классификации и т. п. 253 общих для старославянского и русского языков), «сниженных» (но не обсценных!) слов, к долей архаизмов, а также употреблением сниженному стилю. Следует отметить, что определенных синтаксических конструкций. специфика стиля проявляется на лексическом уровне Для реализации поставленной задачи мы идем от в гораздо большей степени, чем жанр. практики, делая выборку произведений Пушкина В нашей выборке в силу ее специфических задач лицейского периода, с 1813 по 1817 гг., как произведения, написанные в жанре притчи, материала, на котором вероятно построение отнесены: одно («Наездники») – к высокому стилю, наиболее точной теоретической модели жанрово- второе («Истина») – к среднему, хотя, как известно, стилистических зависимостей, что, несомненно, притча, будучи жанром, наиболее близким к басне, делает конечный результат анализа наиболее точным предполагает возможность написания ее в разных и позволяет разработать наиболее адекватный стилях, о чем свидетельствует, в частности, притча классификатор, относящийся к стилевому аспекту. Пушкина «Сапожник», которую можно отнести, Так как мы решили ограничиться анализом жанров скорее, к низкому («разговорному») стилю. только малых стихотворных форм, то из анализа Таблица 1 Статистика по жанрово-стилевому исключены поэмы, сказки, переводы, Dubia, и далее соответствию делаем список, включающий в себя стихотворения, как соответствующие системе жанров, приведенной Высок. Средн. Низк. в монографии Д.М. Магомедовой [10], так и не Ода 4 - - входящие в эту систему. В итоге рассмотрения Притча 1 1 - списка произведений, взятого нами для анализа, мы Мадригал 4 - - выделяем следующие группы жанров. Канонические: ода – 4 произведения, элегия – 27 Послание - 55 5 произведений (в том числе одна историческая элегия Идиллия - 2 - – «Наполеон на Эльбе»), идиллия – 2 произведения, Элегия - 37 - послание – 55 произведений, баллада – 3 Романс - 1 - произведения, неканонические, выделенные Д.М. Баллада - 3 - Магомедовой (фрагмент, рассказ в стихах) – их нет. Также мы добавляем жанры, которых нет в Эпиграмма - - 18 разработанной Д.М. Магомедовой системе Анекдот - - 1 канонических–неканонических: эпиграмма – 18 произведений, мадригал – 4 произведения, сонет – 1 3 О возможности создания словаря произведение, романс – 1 произведение, анекдот – 1 стилистически дифференцированных произведение, притча – 2 произведения. Кроме этого, лексем стихотворение «Безверие» (1817) определяется как элегия и философская ода [11]. Но для анализа мы Прежде, чем приступить к выбору алгоритмов определяем его как философскую оду. Жанровые определения стилистических и жанровых типы этих произведений легли в основу характеристик поэтических текстов, необходимо классификатора (см. табл. 1): по одной оси мы решить вопрос: возможно ли использовать для разместили жанровые типы – в порядке возрастания решения этой задачи априори составленные словари «возвышенности»: ода, элегия, идиллия, послание и лексем, имеющих ту или иную стилистическую или т. д., а по другой оси – традиционные стили. жанровую окраску? На данном эмпирическом материале Большое внимание вопросам стилистической просматривается очевидная корреляция между дифференциации слов уделено в монографии жанровыми и стилистическими характеристиками О.С. Ахмановой «Очерки по общей и русской текстов: ода, элегия и идиллия обычно написаны лексикологии» [12]. Приведены списки слов высоким стилем, в них не используется лексика, «разговорных», со «сниженной» стилевой соответствующая низкому стилю, а для эпиграмм, характеристикой и с «повышенной» стилевой напротив, характерно использование элементов характеристикой. Однако эти списки далеко не лексики низкого стиля. Вообще говоря, стиль текста полны и носят, скорее, иллюстративный характер, определяется по наиболее «низким» его лексемам, более того, автор признаёт, что «далеко не все из что особенно характерно для эпиграмм: наличие включенных в них слов будут одинаково высокой лексики, употребляемой нередко в убедительными (многие, несомненно, покажутся ироническом ключе, не должно вводить в спорными)», и, наконец, стилистическая окраска заблуждение, ибо употребление одного–двух слов некоторых лексем менялась со временем, т. е. эта разговорной или откровенно обсценной лексики характеристика, взятая из монографии [12], могла сразу характеризует авторский замысел. Тем не быть иной как для языка XIX века, так и для менее, для жанров, традиционно предполагающих современного. Поэтому для соотнесения слова с тем возвышенную форму, прежде всего, мадригала, мы или иным стилем в той же монографии предложено не считаем целесообразным относить использовать анализ их структурно-семантической принадлежащие к ним стихотворения, в которых с формы. Так, существительные с суффиксом -к-а в ироническим целями употреблено несколько разнообразных структурно-семантических 254 вариантах, а также с различными суффиксами со для экспериментов. Каждый текст кодировался значением «лица» относятся к «разговорной» или последовательностью цифр, соответствующей «сниженной» лексике; для «разговорной», в отличие количеству вхождений в него слов из словаря: 0 от «сниженной», лексики характерно большое число ставился, если слова нет в тексте, 1 – если слово наречий; для «книжной» лексики характерны встречается 1 раз, 2 – если 2 и т.д. Помимо заимствованные слова, а для «возвышенной» – лексических признаков, первоначально славянские со сложной структурой, а также предполагалось использование стихотворных архаизмы и т. п. характеристик (рифма, размер, стопность и т. п.), но Однако все эти наблюдения носят весьма частный это привело к серьёзному ухудшению качества характер. Так, слова с суффиксом -к-а пытка, речка, классификации, поэтому было решено от них шутка и т. д. встречаются в стихах Пушкина, отказаться. относящихся отнюдь не к «низкому» или Также были собраны словари n-грамм (n=2, 3), «разговорному» стилю, то же самое относится к которые не содержали имён собственных, причем n- словам бочка, кружка, пушка и т. д., в которых –к граммы были не упорядоченными внутри себя, является частью корня, но установление этого факта поскольку в поэзии очень часто встречается требует нетривиального этимологического анализа, обратный порядок слов. плохо поддающегося автоматизации. Далее опишем применявшиеся нами приемы Заимствованные слова с течением времени ансамблирования, то есть комбинирования становятся достоянием всех стилей, и это касается не алгоритмов, взаимно улучшающего их свойства. только «древних» заимствований вроде лошадь или собака, но и новых: велосипед, танк и т. п. Во-первых, это – два варианта взвешенного Славянизмы, в том числе со сложной структурой, голосования с использованием нескольких могли использоваться, в том числе, для придания классификаторов, в случае hard-голосования стихотворению иронического оттенка (например, решение о классификации того или иного объекта «Ода его сиятельству графу Д.И. Хвостову» принимается на основании заключения большинства Пушкина и многочисленные сатирические стихи используемых классификаторов, в случае soft- А.К. Толстого). голосования результат определяется, исходя из Ситуация осложняется еще и тем, что нередко аргумента максимизации вероятности отнесения «разговорным» или «сниженным» является не все классифицируемого объекта к некоторому классу. слово в целом, а лишь один из его лексико- Во-вторых, это – бустинг, идея которого состоит семантических вариантов, а также обретением состоит в жадном выборе очередного алгоритма для словом той или иной окраски лишь при вхождении в добавления в композицию так, чтобы он лучшим состав фразеологизма. образом компенсировал имеющиеся на этом шаге Таким образом, вхождение в текст отдельных ошибки. Две основные эвристики бустинга – это лексем не может служить достаточно надежным фиксация 𝑎1 𝑏1(𝑥), … , 𝑎𝑡−1 𝑏𝑡−1 (𝑥) при добавлении критерием отнесения текста к определенному 1−𝑝 𝑎𝑡 𝑏𝑡 (𝑥), где 𝑎𝑡 = ln 𝑝 𝑡 , 𝑡 = 1, … , 𝑇, ⁡𝑝𝑡 – частота стилистическому типу. 𝑡 Тем более, четкое выделение жанровой ошибки базового алгоритма 𝑏𝑡, и гладкая принадлежности отдельных слов представляется аппроксимация пороговой функции потерь. совершенно бесперспективной задачей, и нам Нами были применены наиболее известные неизвестны сколько-нибудь удовлетворительные примеры бустинга – AdaBoost [13], использующий попытки ее разрешения хотя бы на теоретическом экспоненциальную аппроксимацию функции потерь, уровне. и градиентный бустинг (Gradient boosting) [14]. Именно поэтому нам представляется наиболее Среди прочих нами был применён метод опорных целесообразным определять стилистические и векторов (Support Vectors Machine, SVM) [6], жанровые характеристики поэтических текстов на усиленный AdaBoost. основании вхождения в них совокупности лексем Наконец, в-третьих, это – стекинг [15], который (включая n-граммы), определяемых на базе основан на применении базовых классификаторов обучающей выборки. для получения предсказаний (метапризнаков) и 4 Описание численного эксперимента использовании их как признаков низшего ранга для Для эксперимента использовался описанный некоторого «обобщающего» алгоритма (мета- выше корпус текстов лицейской лирики Пушкина, алгоритма). Иными словами, основной идеей состоящий из 121 стихотворения, размеченных стекинга является преобразование исходного экспертом по жанрам и стилям. пространства признаков задачи в новое При обучении была проведена лемматизация всех пространство, точками которого являются уникальных слов, встречающихся в текстах, и создан предсказания базовых алгоритмов. В данном словарь их исходных форм. Отдельно был составлен исследовании в качестве мета-алгоритма была взята словарь имен собственных, которые удалялись из логистическая регрессия над SVM, градиентным словаря всех слов, поскольку гипотезы, подобные бустингом, многослойным персептроном и той, что имена из древнегреческого пантеона голосованиями. присущи только высокому стилю, были Отметим, что в процессе решения опровергнуты, в частности, при подготовке данных рассматриваемой задачи нам пришлось столкнуться 255 с проблемой миноритарных классов, которые ясно Многосл. перс. 0.93 0.95 0.91 обозначены в таблице 1. Для решения этой проблемы Голосование, hard 0.92 0.95 0.88 были применены случайное дублирование элементов миноритарных классов, а также стратегия SMOTE Голосование, soft 0.92 0.96 0.88 [16], которая основана на идее генерации некоторого Стекинг 0.90 0.93 0.87 количества искусственных примеров, которые были бы «похожи» на имеющиеся в миноритарном классе, Таблица 4 Биграммы + SMOTE для определения но при этом не дублировали их. Для создания новой стиля записи вычисляют разность 𝑑 = 𝑋𝑏 − 𝑋𝑎 , где 𝑋𝑎 , 𝑋𝑏 – Классификатор Средн. Max Min векторы признаков «соседних» примеров 𝑎 и 𝑏 из SVM AdaBoost 0.95 0.98 0.92 миноритарного класса, которые находят, используя XGBoost 0.92 0.97 0.88 алгоритм ближайшего соседа [17]. В данном случае необходимо и достаточно для примера 𝑏 получить Многосл. перс. 0.96 0.98 0.93 набор из 𝑘 соседей, из которого в дальнейшем будет Голосование, hard 0.95 0.98 0.91 выбрана запись 𝑏. Остальные шаги алгоритма Голосование, soft 0.94 0.97 0.88 ближайшего соседа не требуются. Далее из 𝑑 путем Стекинг 0.95 0.98 0.90 умножения каждого его элемента на случайное число в интервале (0, 1) получают 𝑑̂. Вектор Таблица 5 Биграммы + случайное дублирование признаков нового примера вычисляется путем миноритарных классов для определения жанра сложения 𝑋𝑎 и 𝑑̂. Алгоритм SMOTE позволяет Классификатор Средн. Max Min задавать количество записей, которое необходимо SVM AdaBoost 0.94 0.96 0.90 искусственно сгенерировать. Степень сходства XGBoost 0.97 1.00 0.93 примеров 𝑎 и 𝑏 можно регулировать путем изменения значения 𝑘 (числа ближайших соседей). Многосл. перс. 0.97 0.99 0.94 Программное приложение для классификации Голосование, hard 0.94 1.00 0.88 поэтических текстов реализовано на языке Python с Голосование, soft 0.93 1.00 0.88 использованием библиотек sklearn (реализация алгоритмов, их композиций и кросс-валидации), Стекинг 0.96 1.00 0.89 imblearn (реализация SMOTE), xgboost (наиболее Таблица 6 Триграммы + SMOTE для определения эффективная реализация градиентного бустинга) и pymorphy2 [18] для приведения слов к стиля нормализованному виду, а также для отсечения имен Классификатор Средн. Max Min собственных. SVM AdaBoost 0.83 0.98 0.88 В таблицах 2–7 приведены результаты работы XGBoost 0.90 0.94 0.87 классификаторов и их композиций, полученные при трехэтапной кросс-валидации (трехкратное Многосл. перс. 0.95 0.99 0.93 разбиение корпуса на обучающее и тестовое Голосование, hard 0.93 0.98 0.89 множества, каждый раз классификатор обучался на Голосование, soft 0.91 0.98 0.88 обучаемом и оценивался на тестовом множестве). Из Стекинг 0.94 0.99 0.89 таблицы результатов был исключен рекомендуемый при работе со SMOTE метод ближайших соседей, так Таблица 7 Триграммы + случайное дублирование как он показывал очень низкую точность. миноритарных классов для определения жанра Таблица 2 Лексические признаки + SMOTE для Классификатор Средн. Max Min определения стиля SVM AdaBoost 0.95 1.00 0.86 Классификатор Средн. Max Min XGBoost 0.94 1.00 0.84 SVM AdaBoost 0.88 0.91 0.84 Многосл. перс. 0.97 0.99 0.95 XGBoost 0.83 0.9 0.81 Голосование, hard 0.96 1.00 0.91 Многосл. перс. 0.85 0.95 0.67 Голосование, soft 0.96 1.00 0.91 Голосование, hard 0.94 0.95 0.92 Стекинг 0.96 1.00 0.88 Голосование, soft 0.94 0.95 0.92 Стекинг 0.94 0.97 0.92 Из полученных данных можно сделать следующие выводы: Таблица 3 Лексические признаки + случайное • стекинг не всегда даёт наилучшее (т. е. наиболее дублирование миноритарных классов для соответствующее экспертной оценке) решение (табл. определения жанра 3); Классификатор Средн. Max Min • при увеличении контекста признаков (от одного SVM AdaBoost 0.88 0.89 0.86 слова к би- и триграммам) XGBoost становится более XGBoost 0.90 0.92 0.89 точным, чем многослойный персептрон; 256 • увеличение ширины контекста приводит к статистическими методами. Прикладная улучшению качества, но только до определённого информатика, 26 (2), сс. 95-108 (2010) момента (использование тетраграмм дало заметное [4] Орлов, Ю.Н., Осминин, К.П.: Методы ухудшение результатов). Отметим, что применение статистического анализа литературных текстов. популярной концепции word2vec [19] дало очень Эдиториал УРСС, Москва (2012) слабый результат (0.83–0.85), и при этом время [5] Barakhnin, V., Kozhemyakina, O., Pastushkov, I.: подсчёта увеличилось в несколько раз; Automated Determination of the Type of Genre and Stylistic Coloring of Russian Texts. ITM Web of • на основе лексических признаков или n-грамм Conferences 10, 02001, 4 p. (2017). doi: можно получить хороший результат даже с помощью 10.1051/itmconf/20171002001 простых классификаторов; [6] Vapnik,V.N.: The Nature of Statistical Learning • исходя из критерия максимизации минимальной Theory. Springer-Verlag (1995) точности, следует использовать многослойный [7] Грехнев, В.А.: Лирика Пушкина. О поэтике персептрон, а в качестве лексических характеристик жанров. Горький: Волго-Вятское книжное стихотворений – триграммы. издательство (1985) [8] Барахнин, В.Б., Кожемякина, О.Ю.: К проблеме 5 Заключение аутентичности фонетического анализа в связи с В работе проанализированы принципы возможными особенностями авторской формирования обучающих выборок для алгоритмов орфографии (на примере чередования окончаний определения стилей и жанровых типов. Проведены -ой/-ый в лирике А.С. Пушкина). Вестник вычислительные эксперименты с использованием Томского государственного университета. корпуса текстов лицейской лирики А.С. Пушкина по Филология, 13 (2), сс. 5-28 (2016) [9] Ломоносов, М.В.: Предисловие о пользе книг выбору наиболее точного алгоритма классификации церковных в российском языке. Ломоносов, М. В. поэтических текстов, в том числе с использованием Полн. собр. соч. 7, сс. 585-592. М.–Л.: Изд-во АН наиболее известных приемов ансамблирования СССР (1952) базовых алгоритмов в композиции, таких, как [10] Магомедова, Д.М.: Филологический анализ взвешенное голосование, бустинг и стекинг, причем лирического стихотворения. М.: Издательский в качестве характеристических признаков центр «Академия» (2004) стихотворений использовались одиночные слов, [11] Свободина, C.Ф.: К вопросу о философской биграммы и триграммы. Рассмотренные алгоритмы направленности и жанровых особенностях показали свою работоспособность (при этом, исходя стихотворения А.С. Пушкина «Безверие». из критерия максимизации минимальной точности, Пушкинский музеум: альманах, 6, сс. 261-270. следует использовать многослойный персептрон, а в Всероссийский музей А.С. Пушкина, Санкт- качестве лексических характеристик стихотворений Петербург (2014) – триграммы) и могут быть использованы для [12] Ахманова, О.С.: Очерки по общей и русской автоматизации комплексного анализа русских лексикологии. М.: Учпедгиз (1957) поэтических текстов, существенно облегчая работу [13] Freund, Y., Schapire, R.E.: A Short Introduction to эксперта при определении их стилей и жанров путем Boosting. J. of Japanese Society for Artificial предоставления соответствующих рекомендаций. Intelligence, 14 (5), pp. 771-780 (1999) [14] Friedman, J.H.: Stochastic Gradient Boosting. Поддержка Computational Statistics and Data Analysis, 38 (4), pp. 367-378 (2002) Работа выполнена при частичной поддержке [15] Wolpert, D.H.: Stacked Generalization. Neural Президиума РАН (проект 2016-PRAS-0015) и Networks, 5 (2), pp. 241-259 (1992) Президентской программы «Ведущие научные [16] Chawla, N.V.: Data Mining for Imbalanced Datasets: школы РФ» (грант 7214.2016.9). An Overview. Data Mining and Knowledge Discovery Handbook, pp. 875-886. Springer-Verlag Литература (2010) [1] Барахнин, В.Б., Кожемякина, О.Ю. Об [17] Cover, T.M., Hart, P.E.: Nearest Neighbor Pattern автоматизации комплексного анализа русского Classification. IEEE Transactions on Information поэтического текста. CEUR Workshop Theory, 13, pp. 21-27 (1967) Proceedings, 934, сс. 167-171 (2012) [18] Korobov, M.: Morphological Analyzer and [2] Лесцова, М.А.: Определение ядра и периферии Generator for Russian and Ukrainian Languages. жанров оды, песни, послания, элегии и эпитафии Analysis of Images, Social Networks and Texts. на материале английских поэтов- Communications in Computer and Information сентименталистов XVIII века. Вестник Science, 542, pp. 320-332 (2015) Челябинского государственного пед. [19] Mikolov, T., Kai, Chen, Corrado, G., Dean, J.: университета, 4, cc. 196-205 (2014) Efficient Estimation of Word Representations in [3] Орлов, Ю.Н., Осминин, К.П.: Определение жанра Vector Space. Computation and Language, 12 p., и автора литературного произведения (2013). https://arxiv.org/pdf/1301.3781.pdf 257