Об автоматизации комплексного анализа русского поэтического текста © В. Б. Барахнин © О. Ю. Кожемякина Институт вычислительных технологий СО РАН, Новосибирский государственный университет, Новосибирск bar@ict.nsc.ru olgakozhemyakina@mail.ru далеко не всегда влияют на верхние уровни. Так, Аннотация для сообщения научного жанра практически не наблюдается зависимости понимания значения, Целью настоящей работы является выра- действия и результата действия сообщения от языка, ботка подходов и технологий для автомати- зации комплексного анализа русского на котором написано сообщение. поэтического текста. Результаты такого Однако для некоторых типов сообщения такая анализа позволят существенно расширить зависимость весьма велика. Это относится, возможности филологов, в том числе например, к сообщениям (текстам) художественного уменьшить зависимость качества сравни- жанра, прежде всего, – к поэтическим текстам. тельного анализа от личной эрудиции Достаточно вспомнить известную книгу Ю.М. исследователя, а также применять различ- Лотмана [6], в которой утверждается, что «явление ные методы интеллектуального анализа структуры в стихе всегда в конечном итоге данных. оказывается явлением смысла». Уровни структуры стиха, подобно уровням Работа выполнена при частичной поддержке структуры произвольного сообщения, также РФФИ (проекты 10-07-00302, 11-07-00561, 12- представляют собой определенную иерархию (см., 07-00472), президентской программы «Ведущие например, [8]): являются метр, ритм, фонетика, научные школы РФ» (грант НШ 6293.2012.9) и лексика, грамматика, речевой жанр (компози- интеграционных проектов СО РАН. ционно-речвое целое), тематика, литературный жанр. При этом процесс анализа стиха преду- 1 Постановка задачи сматривает первоначальное рассмотрение каждого уровня как самостоятельной смысловой единицы с Современный подход к исследованию текстовых последующим связыванием этих наблюдений с сообщений предполагает использование многоуров- другими элементами структуры. невой модели информации, изложенной, например, в работе германского исследователя В. Гитта [1]. Нетрудно заметить, что между уровнями структуры Структура модели представлена на рис. 1. произвольного сообщения и стиха наблюдается определенная корреляция: к синтаксическому Анализируя эту модель, нетрудно видеть, что ее уровню соответствуют метр, ритм и фонетика нижний уровень соответствует шенноновскому (согласно В.Гитту, система символов сообщения значению термина «информация», три последую- относится к именно синтаксическому уровню щих – семиотической триаде (синтактика – семан- информации), к семантическому – лексика и тика – прагматика), а верхний уровень носит, грамматика. Что же касается тематики, то примени- скорее, философский характер. При этом наличие в тельно к анализу стихов она относится не только (и некотором сообщении информации высокого уровня во многом даже не столько) к семантическому, но и влечет за собой наличие информации всех низших прагматическому уровню, поскольку при анализе высоких уровней, но, разумеется, не наоборот (еще лирического стихотворения анализ тематики раз напомним: объем информации зависит, в том нередко включает исследование эмоционального числе, от характеристик адресата, причем это воздействия на читателя. Наконец анализ жанров касается всех уровней информации). (речевого и литературного предполагает исследо- Вполне очевидно, что два нижних уровня сооб- вание сообщений внутри стихотворного текста: щения (статистика и синтаксис), непосредственно ибо, согласно в [8], речевой жанр подразумевает не связанные с кодировкой и языком сообщения, только определенный тип речевого субъекта, но и столь же определенный тип речевого адресата, Труды 14-й Всероссийской научной конференции взаимодействие речевого субъекта и речевого адре- «Электронные библиотеки: перспективные методы и сата и создает специфику того или иного литератур- технологии, электронные коллекции» — RCDL-2012, ного жанра. На данном этапе исследования задачи Переславль-Залесский, Россия, 15-18 октября 2012 г. 167 ИНФОРМАЦИЯ Источник информации Результат Действие Понимание Понимание Принятие действия значения кода сигнала Цель информации АПОБЕТИКА Действие информации ПРАГМАТИКА Содержание информации СЕМАНТИКА Изложение информации СИНТАКСИС Концепция информации СТАТИСТИКА Отпра- Адресат витель Сообщение Рис. 1. Пятиуровневая модель информации В.Гитта. жанрового анализа не рассматриваются. Систематические исследования в этом Хотя отдельные работы в области исследо- направлении были продолжены М. Л. Гаспа- вания влияния нижних уровней структуры стиха ровым, который, в частности, показал [4], что на высшие появились еще в первой половине XX «число метров в стиховой культуре обычно века (например, в книге К.И.Чуковского [16] бывает сравнительно невелико, число типичных среди прочего обсуждается вопрос о влиянии построений содержания – во много раз больше, гласных звуков в стихах А.А.Блока на их поэтому один и тот же метр может служить эмоциональные характеристики), систематическое знаком нескольких и даже многих тематических изучение такого влияния началось, по-видимому, рядов. <...> В таких случаях, когда мы приступаем с работ американского филолога К. Тарановского, к стихотворению, то, воспринимая метр, выступившего в 1963 году на Пятом съезде угадываем сразу некоторый набор обычных в нем славистов с докладом «О взаимодействии тематических ожиданий, а воспринимая лексику, стихотворного ритма и тематики», в котором на устанавливаем, какой вариант из этого набора основе анализа нескольких десятков русских избран автором. <...> Лексика формирует для нас стихотворных текстов было исследовано прежде всего семантику данного конкретного взаимодействие ритмических особенностей и стихотворения, метрика – общий фон семан- жанрового применения пятистопного хорея. Было тической традиции, на котором оно воспри- показано, что во многих стихах, написанных этим нимается». размером (начиная с «Выхожу один я на дорогу... Итак, исследование исследования влияния М.Ю.Лермонтова), «динамический мотив пути нижних уровней структуры стиха на высшие противопоставляется статическому мотиву является весьма актуальной проблемой русской жизни» (см. [15]). В указанной работе была филологии. Одной из основных трудностей при ее предложена методика определения семантики решении является необходимость анализа того или иного стихотворного размера, корпусов поэтических текстов большого объема. заключающаяся в исследовании не его единичные Задача эта чрезвычайно трудоемкая, поэтому употребления, а по традицию его жанрового и зачастую в поле зрения исследователя попадает тематического использования [8], что лишь сравнительно небольшой круг стихов предполагает анализ корпусов поэтических поэтов-классиков, что, без сомнения, значительно текстов. снижает полноту анализируемого материала и, 168 следовательно, достоверность полученных дением А. А. Ляпунова [7]: «информация всегда результатов. Таким образом, возникает задача относительна, она зависит от того, какой автоматизации анализа различных уровней информационной системой она воспринимается», структуры стиха, что позволит освободить на основании которого фонетические харак- исследователей от рутинной работы и при этом теристики текста вполне могут быть отнесены к резко расширить круг анализируемых авторов. его синтаксическому уровню. Описанная выше корреляция между уровнями Анализ метра и ритма предполагает исследо- структуры произвольного сообщения и стиха вание чередования так называемых сильных и показывает, что многие технологии и матема- слабых звуков (несколько упрощенно – ударных и тические методы, применяемые в информатике, безударных слогов), при этом метр – «идеальная вполне могут быть использованы в процессе схема» чередования, а ритм – их реальное автоматизации анализа стихов. чередование, несколько отличающееся от идеаль- Разумеется, простейшие математические ного ввиду взаимодействия естественных свойств подходы применяются в филологическом анализе речевого материала и метрического закона [8]. русских стихотворений довольно давно. Широко Для такого анализа используются фонети- известны частотные словари языка поэтов- ческие словари. Наиболее полным из известных классиков. Проводились многочисленные иссле- нам сетевых фонетических словарей открытого дования статистики типов русской рифмы (в том доступа – «Словарь полного фонетического числе, и применительно ко временнóй динамике), разбора» [12]. обобщенные в [11]. Однако зачастую сбор Однако использование этого словаря для статистической информации до сих пор ведется анализа фонетически характеристик стиха ослож- практически вручную (исключение составляет няется тем, что в нем приведены только лишь контент-анализ). Отдельные исследования, начальные формы слов, поэтому необходима описывающие комплексный подход к автома- генерация фонетической записи словоформ (сами тизации характеристик русских поэтических тек- словоформы содержатся в том или ином стов (см. например, [9]), затрагивают, как пра- морфологическом словаре, например, сопровож- вило, весьма специфические жанры поэзии – дающем свободно распространяемый продукт например, фольклорные стихи, структурные Ispell [13]). Автоматизация этого процесса не характеристики которых, например метрика, тема- совсем тривиальна, поскольку не существует тика и т.д., значительно отличаются от соответ- строгих закономерностей расположения ударения ствующих структур «литературного» стиха. в словоформах в зависимости от места его Отметим, что исследования зарубежных авторов в расположения в начальной форме слова. рассматриваемой области нам неизвестны. При автоматическом анализе метра и ритма Целью настоящей статьи является выработка следует учитывать возможность использовать подходов и технологий для автоматизации поэтом «нестандартных» ударений. Такая комплексного анализа русского поэтического ситуация выявляется апостериори, посредством текста. сравнения соответствующей строки (использо- вание в которой «правильного» ударения 2 Подходы и технологии нарушает общий ритм) с соседними строками. автоматизации анализа поэтических Фонетический анализ стиха включает исследо- текстов вание звуковых повторов и рифм (их типов, а также строфического строения стиха, составление 2.1 Метр, ритм, фонетика словарей рифм и т.п.). Поскольку историческое Анализ данного уровня стихов имеет весьма развитие русской рифмы характеризуется сниже- специфический характер, поскольку требует нием ее точности, постольку при автоматизи- исследования фонетических характеристик рованном анализе рифмы необходимо учитывать лексем, каковое при анализе обычных сообщений свойства фонем. Так, согласные фонемы различа- почти никогда не проводится. ются по месту образования, по способу обра- зования по участию голоса и шума, по твердости Сразу ответим на естественный вопрос: и мягкости, по глухоте и звонкости (подробнее поскольку непосредственно в письменном см., например, [11]). Некоторые из этих свойств сообщении его фонетические характеристики для каждой фонемы каждого слова непосред- отсутствуют, можно ли отнести их к изложенной ственно указаны в словаре [12]. выше семиотической модели? Действительно, воспринять фонетические характеристики текста Разумеется, для анализа метрических и может лишь адресат информации: человек или строфических характеристик стиха необходимы запрограммированная на решение такой задачи «эталонные» базы даны типичных размеров и информационная система, но ведь то же самое строф. можно сказать и про семантические характе- ристики текста, например, смысл лексем. Здесь следует руководствоваться известным утверж- 169 2.2 Лексика и грамматика «Вопрос о том, связан ли метроритмический уровень текста с его тематикой, до сих пор Лексический анализ стихотворения является дискуссионным… предусматривает [8] создание его лексического словаря, который используется, в частности, для Методика выявления смысловой окраски выявления доминирующих частей речи, темати- ритма до сегодняшнего дня разработана ческих (семантических) полей и поэтической недостаточно… фразеологии (прежде всего, употребляемых Вопрос этот [о тематических, образных и метафор). эмоциональных ассоциациях, связанных с теми Среди некоммерческих программных продук- или иными звуками – авт.] находится в стадии тов, решающих задачу составления лексического разработки, и пока мы не можем дать совершенно словаря некоторого текста, можно назвать бесспорных характеристик семантики каждого стеммер компании «Яндекс» [14]. Он позволяет звука». извлекать как слова, являющиеся заданной частью Применение методов статистического анализа речи (что автоматически решает задачу выявления больших массивов стихотворных текстов вполне доминирующих частей речи), так и словосо- может стать эффективным методом разрешения четания заданной структуры (например, (прила- этих и подобных проблем филологического гательное) + (существительное) или (существи- анализа. тельное) + (существительное в родительном Важным направлением исследований пред- падеже)}. Последняя из названных возможностей ставляется использование многофакторного способна значительно обогатить традиционные анализа семантических, эмоциональных и т.п. словари языка того или иного поэта. ассоциаций, масштабное применение которого Что же касается задач выявления тематических практически невозможно без применения методов полей и метафор, то, хотя для их решения автоматизации. необходим лексический словарь слов и Приведем пример эффективности многофак- словосочетаний, они требуют и дополнительной, торного анализа при установлении зависимости зачастую плохо формализуемой информации тематической окраски произведения от его (например, о принадлежности лексем к тому или размера. В [8] для иллюстрации неоднозначности иному тематическому полю, семантическому такой зависимости приводится следующий архетипу и т.п.), и поэтому на данном этапе пример: «Если, скажем, рассматривается стихо- работы эти задачи не рассматриваются. творение А.С.Пушкина «Бесы», то звучание Грамматический анализ текста включает четырехстопного хорея характеризуется как определение его возможной принадлежности к «зловещее», а то и «заунывное», если же именному или к глагольному стилям (соответ- «Мойдодыр» К.Чуковского – тот же размер ственно сплошные назывные предложения или становится «бодрым», «стремительным», перечисление действий), а также временнóго «динамичным», «игривым»». Однако, если учесть плана и субъектной структуры стихотворения (что сделанное в [3] наблюдение о четырехстопном требует исследования употребления категорий хорее, «одной из семантических окрасок которого времени, залога и лица). в русской поэзии является мотив бессонницы, Именной или глагольный стиль определяется утраты [курсив наш – авт.] и смерти», и путем непосредственного анализа лексического вспомнить начало «Мойдодыра»: словаря. Для определения употребления катего- Одеяло убежало, рий времени, залога и лица дополнительно требу- Улетела простыня, ется использовать довольно несложные морфоло- И подушка, как лягушка, гические правила русского языка, позволяющие Ускакала от меня установить, какая конкретно категория времени, … залога или лица употреблена. Боже, Боже, что случилось? 2.3 Тематика Отчего же всё кругом Завертелось, закружилось Непосредственное определение тематики И помчалось колесом? стихотворения – задача, весьма сложная для носящее, если представить описанную сцену автоматизированного решения, поскольку требует происходящей в действительности, вполне семантического анализа текстов на уровне, инфернальный характер, а также учесть близком к восприятию естественно-языковых несомненную близость ряда семантических полей текстов человеком. Однако исследование зависи- (например, связанных с быстрым беспорядочным мости тематики от низших уровней структуры движением) обсуждаемых произведений, то стиха – одна из наименее исследованных областей уместнее будет говорить, скорее, не о филологического анализа. В этой области имеется противопоставлении, а о сходстве задаваемых целый ряд нерешенных проблем, некоторые из четырехстопным хореем семантических окрасок них сформулированы в [8]: «Бесов» и «Мойдодыра». 170 Конечно, приведенный пример имеет В: Лингвистика и поэтика. М.: Наука, 1979. «частный» характер. При работе с большими С. 282-308. корпусами текстов целесообразно применение [5] Интернет-библиотека Алексея Комарова. методов интеллектуального анализа данных, в http:///library.ru частности, кластеризации. Современные подходы [6] .Ю. М. Лотман. Структура художественного к кластеризации текстовых документов с текста. М.: Искусство, 1970. использованием нескольких шкал сходства [7] А. А. Ляпунов. О соотношении понятий изложены, например, в монографии [17]. материя, энергия и информация // 2.4 Об электронных библиотеках поэзии А.А.Ляпунов. Проблемы теоретической и прикладной кибернетики. Новосибирск: Наконец, скажем несколько слов об Наука, 1980. С. 320-323. электронных библиотеках поэтических текстов, [8] Д. М. Магомедова. Филологический анализ которые могут послужить первичным материалом лирического стихотворения. М.: Издатель- для изложенных выше исследований. Большие ский центр «Академия», 2004. подборки русской поэзии, прежде всего, [9] Н. Д. Москин. Теоретико-графовые модели классической, имеются в Библиотеке Максима структуры фольклорных текстов, алгоритмы Мошкова [2], Интернет-библиотеке Алексея поиска закономерностей и их программная Комарова [5], на сайте «Мировое искусство: реализация // Дис. ... кандидата технич. наук. живопись, литература, анимация, кино» [10]. При Петрозаводск, 2006. этом, разумеется, при использовании этих библиотек для анализа классической поэзии могут [10] Сайт «Мировое искусство: живопись, лите- возникнуть определенные проблемы, связанные, ратура, анимация, кино». например, с тем, что все тесты в них приведены в http://www.world-art.ru. современной орфографии, что способно внести [11] Д. С. Самойлов. Книга о русской рифме. известные (хотя и весьма незначительные) М.:Художественная литература, 1982. искажения в фонетический анализ текста. [12] Словарь полного фонетического разбора. http://slovonline.ru/slovar_el_fonetic/ 3 Заключение [13] Словарь русского языка для Ispell.. В настоящей работе намечены основные http://semiconductors.phys.msu.su/~swan/ortho подходы к автоматизации процесса статис- graphy.html тического анализа низших структурных уровней [14] Cтеммер компании «Яндекс». (метр, ритм, фонетика, лексика, грамматика) http://company.yandex.ru/technology/mystem/ русских поэтических текстов. Результаты такого [15] К. Тарановский. О взаимоотношении анализа позволят существенно расширить воз- стихотворного ритма и тематики // Тара- можности филологов, исследующих как указан- новский К. О поэзии и поэтике. М.: Языки ные уровни стихов, так и их семантические и Русской культуры, 2000. С. 372-403. прагматические характеристики, в том числе [16] К. Чуковский. Александр Блок как человек и избавить филологов от рутинной работы, поэт. Пг.: А.Ф.Маркс, 1924. расширить круг анализируемых произведений, [17] Ю. И. Шокин, А. М. Федотов, уменьшив зависимость качества сравнительного В. Б. Барахнин. Проблемы поиска инфор- анализа от личной эрудиции исследователя, а мации. Новосибирск: Наука, 2010. также применять различные методы интеллекту- ального анализа данных. About the automation of the complex Литература analysis of Russian poetic text [1] W. Gitt. Ordnung und Information in Technik Vladimir Barakhnin, Olga Kozhemyakina und Natur // In: Gitt W. (Hrsg.): Am Anfang The purpose of this work is the development of war die Information. Graefeling: Resch KG, approaches and technologies for automation of the 1982. – S. 171-211. complex analysis of the Russian poetic text. The [2] Библиотека Максима Мошкова. results of such analysis will allow to expand the http://lib.ru possibilities of philologists, and also to reduce the [3] Винни Пух и философия обыденного языка. dependence of quality of the comparative analysis М: Гнозис, 2010. from the personal erudition of the researcher, and to apply various methods of the intellectual analysis of [4] М. Л. Гаспаров. Семантический ореол метра: data. К семантике русского трехстопного ямба // 171