Сеть естественных иерархий терминов новостных
            текстов по событиям «Евромайдана»

© Д. В. Ландэ                     © А. А. Снарский                              © Е. В. Ягунова
  Институт проблем регистрации информации НАН                                Санкт-Петербургский
                    Украины,                                                   государственный
   НТУУ «Киевский политехнический институт»,                                     университет,
                  Киев, Украина                                            Санкт-Петербург, Россия
dwlande@gmail.com              asnarskii@gmail.com                        iagounova.elena@gmail.com


                                                          определенные временные периоды, а также
                  Аннотация                               формирование на основании некоторых принципов
   Описывается методика построения сетей                  языковой    сети    из    отобранных    терминов.
   иерархий терминов на основе тематических               Соответствие       терминологии        отдельного
                                                          событийного сюжета и общей тематической
   массивов новостных сообщений. Построены
   и исследованы такие сети, сформированные               терминологии     (или    терминологии     цепочки
   на основе автоматической обработки                     связанных событий) можно рассматривать как
                                                          формальный критерий релевантности данного
   полных текстов сообщений о событиях,
   связанных с «Евромайданом» в Киеве.                    события и рассматриваемой тематики (цепочки
                                                          событий).
1 Постановка проблемы                                        Предварительные этапы формирования языковой
                                                          сети, связанной с цепочкой взаимосвязанных
   Построение большой тематической онтологии –            событий, включают такие шаги:
сложная и затратная проблема. Определенным
                                                             1. Нахождение       релевантных       тематике
этапом разработки общих онтологий является
                                                          сообщений – формирование корпуса тематических
формирование        словарных         номенклатур,
                                                          новостных сообщений.
терминологических     онтологий.     Эффективный
автоматический отбор отдельных терминов для                  2. Определение      динамики      тематических
таких конструкций на основании неразмеченных              сообщений.
текстовых массивов – не решенная окончательно                3. Определение критических точек (дат) в
задача     [5, 6].  Проблема      автоматического         динамике тематических сообщений.
установления связей, построения сетей из таких               4. Определение       объектов      мониторинга
терминов также до сих пор остается открытой.              (терминов).
   Другой важной задачей является формальная                 Рассмотрим их более подробно.
оценка всплеска новых тем в информационных
потоках,       и,   соответственно,      терминов,        2 Формирование корпуса тематических
маркирующих эти темы. Сегодня лингвист,
работающий с новостными текстами, не может не             новостных сообщений
заинтересоваться спецификой разных современных                На первом этапе выбирается исходный
сегментов (срезов) по данным СМИ, потоков                 текстовый    корпус,    в   качестве     которого
новостных сообщений [4, 8]. В частном случае, по          рассматриваются новостные сообщения по тематике
терминам-маркерам можно понимать соответствие             противостояний в Киеве в 2013–2014 гг., связанных
отдельных новостных сюжетов тематикам целых               с так называемым «Евромайданом». Для отбора и
информационных потоков, оценивая используемую             последующего анализа тематических сообщений
в них лексику.                                            была использована система контент-мониторинга
   Ниже описаны подходы к формированию                    InfoStream [3]. Для нахождения релевантных
терминологической основы цепочки событий,                 тематике новостных сообщений был составлен
отражаемых в сообщениях электронных СМИ, а                запрос:
также отдельных сюжетов тематических новостей за             (майдан|евромайдан)&(избиен|разгон|штурм|
                                                              беркут|молотов|титушк|погиб)&lang.RUS,
Труды 16-й Всероссийской научной конференции              по которому в период с ноября 2013 г. по март
«Электронные библиотеки: перспективные методы и           2014 г. было найдено свыше 200 тысяч новостных
технологии, электронные коллекции» — RCDL-2014,           сообщений на веб-сайтах РуНета (рис. 1).
Дубна, Россия, 13–16 октября 2014 г.


                                                     66
                            Рис. 1. Поисковый интерфейс системы InfoStream


                           Рис. 2. Динамика количества публикаций по запросу

                                                           определить, например, визуально по графику,
3 Определение динамики тематических                        представленному на рис. 3. Вместе с тем,
сообщений                                                  существуют     несколько     научно-обоснованных
                                                           методик, одна из которых базируется на вейвлет-
   Режим «Динамика событий» системы контент-               анализе [2]. В работе [3] показано, что вейвлет
мониторинга позволяет получить данные о                    «мексиканская шляпа» наиболее точно отражает
количестве публикаций по заданному запросу за              динамику информационных операций, результаты
указанный промежуток времени. Эти данные                   применения этого вейвлета приведены на рис. 4,
отображаются в виде графика (рис. 2).                      благодаря чему выбраны три даты (2013.11.30,
   После этого данные временной динамики за каждые         2014.01.22,     2014.02.19),     соответствующие
сутки нормируются, т.е. формируется временной ряд,         критическим точкам исследуемого процесса.
содержащий     относительные     значения,  равные
отношению количества тематических сообщений к              5 Выбор объектов мониторинга
общему потоку сообщений за сутки (рис. 3). Это, в
частности, позволяет избавиться от недельной                  После определения критических точек во
периодичности в количестве тематических публикаций.        временном ряду с помощью системы контент-
Затем происходит переход к процедуре определения           мониторинга выполняется построение основных
критических точек в данном временном ряду.                 сюжетных цепочек из сообщений, соответствующих
                                                           запросу за выбранные даты, которые определяют
4 Определение критических точек                            основные события за указанные даты (рис. 5).
                                                              Для последующего анализа отбирается три
в динамике сообщений
                                                           массива    сообщений,    соответствующие     трем
   Критические точки как локальные максимумы               выбранным датам, особенности лексического
временного ряда динамики публикаций можно                  состава которых являются объектами мониторинга.


                                                      67
Рис. 3. Нормированная динамика тематических публикаций


Рис. 4. Вейвлет-спектограммы исследуемого временного ряда


  Рис. 5. Основные сюжетные цепочки за выбранные даты


                           68
   Предварительная     обработка    отобранных          весовых значений слов, биграмм и триграмм, а
текстовых массивов предусматривает выделение            также непосредственное построение СЕИТ
фрагментов текстов (отдельных сообщений,                (соединение узлов связями «включения») и ее
абзацев, предложений, слов, биграмм, триграмм),         отображение [11].
исключение нетекстовых символов, отсечение                  Для последовательностей терминов и их
флективных окончаний – стемминг.                        весовых       значений      по    TFIDF      строятся
   Далее каждому отдельному терму из текста             компактифицированные графы горизонтальной
(слову, биграмме или триграмме) ставится в              видимости (CHVG) и выполняется повторное
соответствие оценка его «дискриминантная сила»,         определение весовых значений слов уже по этому
а именно TFIDF, которая в каноническом виде             алгоритму [10]. Данная процедура позволяет
равна произведению частоты соответствующего             учитывать в дальнейшем кроме терминов с
термина (Term Frequency) в фрагменте текста на          большой        дискриминантной        силой     также
двоичный логарифм от величины, обратной к               высокочастотные термины, которые имеют
количеству фрагментов текста, в которых этот            большое       значение     для    общей     тематики
терм встретился (Inverse Document Frequency)            текстового корпуса. Сеть слов с использованием
[14].                                                   алгоритма горизонтальной видимости строится в
                                                        три этапа. На первом на горизонтальной оси
6 Сеть естественных иерархий                            отмечается ряд узлов, каждый из которых
терминов                                                соответствует словам в порядке появления в
                                                        тексте, а по вертикальной оси откладываются
   Сеть естественной иерархии терминов (СЕИТ)           весовые численные оценки (TFIDF). На втором
базируется на разработанной ранее авторами              этапе       строится        традиционный         граф
данного     доклада   методологии     выявления         горизонтальной видимости [13]. Для этого между
информационно-значимых элементов текста,                узлами существует связь, если они находятся в
опорных словах и словосочетаний [10, 12].               «прямой видимости», т.е. если их можно
Использование таких элементов позволяет                 соединить        горизонтальной        линией,     не
формировать сетевые информационные портреты,            пересекающей никакую другую вертикальную
охватывать отдельные области знаний. Опорные            линию. На третьем, заключительном этапе, сеть
слова и словосочетания как правило выбираются с         компактифицируется. Все узлы с одним и тем же
учетом такого их свойства, как дискриминантная          словом объединяются в один узел. Все связи
сила. Вместе с тем, одного этого свойства часто         таких узлов также объединяются. Важно
оказывается недостаточно для построения                 отметить, что между любыми двумя узлами при
терминологических онтологий. Иногда слова с             этом остается не более одной связи – кратные
низкой дискриминантной силой, в частности,              связи изымаются. В качестве весовых оценок
наиболее частотные слова из выбранной                   отдельных слов в дальнейшем используются
предметной области (например, слова «Украина»,          степени соответствующих им узлов в CHVG.
«Майдан», «Протест» в корпусе новостных                 После этого все термины текста сортируются по
сообщений о событиях, связанных с так                   убыванию рассчитанных весовых значений
называемым      «Евромайданом»      в     Киеве)        соответствующих узлов CHVG. Дальнейшему
оказываются важнейшими для задач, которые               анализу не подлежат термины из так называемого
рассматривается ниже.                                   стоп-словаря,       являющиеся      важными       для
   Формирование сети естественных иерархий              связности текста, но не несущие информационной
терминов базируется на контенте текстовых               нагрузки. Это, как правило, фиксированный набор
корпусов выбранной для анализа направленности.          служебных слов. Используемый в рамках данной
«Естественность» в этом случае понимается как           работы стоп-словарь был построен на основе
отказ при формировании сети от специальных              различных стоп-словарей, представленных в
методов смыслового анализа, в том числе, разбора        доступном виде на веб-ресурсах:
предложений по частям речи. Все связи в такой           https://code.google.com/p/stop-words/downloads/list;
сети определяются естественным взаимным                 http://www.ranks.nl/stopwords/;
расположением слов и словосочетаний, которые
                                                        http://www.textfixer.com/resources/common-english-
экстрагируются     из   текстов   статистически
                                                        words.txt.
значимых объемов. Сеть естественных иерархий
терминов, создаваемая полностью автоматически,              Экспертным          методом         определяется
может     рассматриваться    как   основа    для        необходимый размер СЕИТ (число N), после чего
дальнейшего автоматизированного формирования            выбирается         соответствующее        количество
терминологической онтологии с участием                  единичных слов, биграмм и триграмм (всего
экспертов.    Методика     формирования     сети        N+N+N элементов) с наибольшими весовыми
естественных иерархий терминов, которая                 значениями по CHVG. Из отобранных терминов
рассматривается в этой работе, предусматривает          строятся сети естественных иерархий терминов, в
формирование компактифицированного графа                которых как узлы рассматриваются сами
горизонтальной видимости (CHVG), расчет новых           термины, а связи соответствуют вхождением
                                                        одних      терминов      в    другие.    На     рис. 6


                                                   69
проиллюстрирован принцип построения связей                 500+500+500) составляет от 2,1 до 2,3 (рис. 9), что
СЕИТ. Следует отметить, что ранее этот алгоритм            вполне соответствует сетям языка (Language
применялся к другим видам документов, в                    Networks) [1].
частности, докладам тематических конференций и
реферативным базам данных [15].


  Рис. 6. Формирование связей в трехуровневой                    Рис. 7. Вид СЕИТ размером 20+20+20
      сети естественной иерархии терминов                     Очевидно, что в соответствии с предложенным
                                                           алгоритмом, максимальное количество входных
    Различные геометрические фигуры на этой                связей для узлов данной сети составляет 5: для
иллюстрации соответствуют различным словам.                узлов из одного слова – 0 входящих связей, для
Первой       колонке     соответствует    выбранное        узлов из 2 слов – максимально 2 связи, для узлов
множество единичных слов, второй – множество               из 3 слов – максимально 5 связей – три связи от
биграмм, а третьей – множество триграмм. Если              отдельных слов и две от пар слов. Топ-20 узлов с
единичное слово входит в биграмму или                      максимальной входной степенью для СЕИТ
триграмму, или биграмма входит в триграмму,                размером 200+200+200 приведен в таблице 2.
образуется связь, которая обозначается стрелкой.
                                                              Наиболее интересными с семантической точки
Множество узлов, которым соответствуют
                                                           зрения в рассматриваемой СЕИТ оказались узлы с
термины, и связи образуют трехуровневую сеть
                                                           максимальным количеством входных связей,
естественной иерархии терминов [11].
                                                           среди    которых      можно   выделить     такие
    После формирования СЕИТ осуществляется ее              словосочетания:       «УЧАСТНИКИ        АКЦИИ
отображение программными средствами анализа                ПРОТЕСТА»; «УЛИЦА ГРУШЕВСКОГО КИЕВ»;
и визуализации графов. Для загрузки сетей                  «СИЛОВОЙ         РАЗГОН      ЕВРОМАЙДАНА»;
естественных иерархий терминов в базы данным               «МИРНАЯ АКЦИЯ ПРОТЕСТА»; «БОЙЦЫ
формируется            матрица        инцидентности        СПЕЦПОДРАЗДЕЛЕНИЯ БЕРКУТ».
общепринятого формата csv.
                                                              По отдельным сюжетам также были
    В таблице 1 приведены списки 20 наиболее               рассчитаны значения CHVG для слов, биграмм и
весомых терминов (слов, биграмм и триграмм) из             триграмм, построены сети естественных иерархий
новостных         сообщений,       соответствующих         терминов. В качестве примера, отражающего
сюжетной цепочке.                                          направленность сюжетной цепочки, на рис. 10
    На рис. 7 представлена небольшая сеть                  приведена визуализация СЕИТ для трех
естественной иерархии терминов размером                    выбранных массивов. Взаимосвязь терминов из
20+20+20, которая визуализирована средствами               новостей, входящих в состав выбранных сюжетов,
системы Gephi (https://gephi.org/).                        приведена на рис. 11.
    На рис. 8 приведен фрагмент более крупной
сети естественной иерархии терминов размером               7 Релевантность отдельных сюжетов
200+200+200.                                               сюжетным цепочкам
    Для      построенных      сетей    естественных           На рис. 11 можно видеть, что каждому массиву
иерархий терминов различных размеров по                    (узлы,       идентифициорованные        датами)
выбранному         тексту       было     определено        соответствуют термины. При этом в центральной
распределение исходящих степеней узлов,                    части сети располагаются термины, общие для
которое оказалось близким к степенному                     нескольких дат (О-зона), а «гребешки» на
( p(k )  Ck  ),   т.е.    эти    сети    являются        периферии       соответствуют      специальным
безмасштабными. Оказалось, что коэффициент                терминам, отражающим специфику конкретных
для сетей различных размеров (от 20+20+20 до               сюжетов (С-зоны).


                                                      70
                               Таблица 1. ТОП-20 по значениям CHVG терминов
№                Слова              Биграммы                            Триграммы
1         УКРАИНА            ВИКТОР ЯНУКОВИЧ               ПРЕЗИДЕНТ ВИКТОР ЯНУКОВИЧ
2         КИЕВ               ЦЕНТР КИЕВА                   СОТРУДНИКИ ПРАВООХРАНИТЕЛЬНЫХ ОРГАНОВ
3         ВЛАСТЬ             ВЕРХОВНАЯ РАДА                ВВЕДЕНИЕ ЧРЕЗВЫЧАЙНОГО ПОЛОЖЕНИЯ
4         СТРАНА             УЛИЦА ГРУШЕВСКОГО             БАТЬКИВЩИНА АРСЕНИЙ ЯЦЕНЮК
5         ЯНУКОВИЧ           ПРЕЗИДЕНТ УКРАИНЫ             ОЛИМПИЙСКИЕ ИГРЫ СОЧИ
6         МАЙДАН             МАЙДАН НЕЗАВИСИМОСТИ          ГЛАВА АДМИНИСТРАЦИИ ПРЕЗИДЕНТА
7         ЛЮДИ               ПАРТИЯ РЕГИОНОВ               ФРАКЦИЯ ПАРТИИ РЕГИОНОВ
8         МИЛИЦИЯ            ПРЕСС-СЛУЖБА                  ШТАБ НАЦИОНАЛЬНОГО СОПРОТИВЛЕНИЯ
9         БЕРКУТ             АРСЕНИЙ ЯЦЕНЮК                ДЕЙСТВИЕ БЛАГОДАТИ ПРЕСВЯТОЙ
10        ОППОЗИЦИЯ          МИХАЙЛОВСКАЯ ПЛОЩАДЬ          МАЙДАН НЕЗАЛЕЖНОСТИ КИЕВ
11        ПРЕЗИДЕНТ          ЛИДЕРЫ ОППОЗИЦИИ              СТРАНИЦЫ СОЦИАЛЬНЫХ СЕТЕЙ
12        ЯЦЕНЮК             РАЗГОН ЕВРОМАЙДАНА            УДАР ВИТАЛИЙ КЛИЧКО
13        УКРАИНСКИЙ         ОБЪЯВЛЕНИЕ ПЕРЕМИРИЯ          ГЕРМАНИЯ ФРАНЦИЯ ВЕЛИКОБРИТАНИЯ
14        ЕВРОМАЙДАН         ВИТАЛИЙ КЛИЧКО                УЛИЦА ГРУШЕВСКОГО КИЕВ
15        ШТУРМ              МАЙДАН НЕЗАЛЕЖНОСТИ           ОФИС ПАРТИИ РЕГИОНОВ
16        АКЦИЯ              АКЦИЯ ПРОТЕСТА                МИХАЙЛОВСКАЯ ПЛОЩАДЬ КИЕВ
14        ЗДАНИЕ             ПРАВЫЙ СЕКТОР                 СИЛОВОЙ РАЗГОН ЕВРОМАЙДАНА
15        АКТИВИСТ           ОГНЕСТРЕЛЬНОЕ ОРУЖИЕ          БЕРКУТ ВНУТРЕННИЕ ВОЙСКА
                             ПРАВООХРАНИТЕЛЬНЫЕ
16        МВД                                              ПРЕМЬЕР НИКОЛАЙ АЗАРОВ
                             ОРГАНЫ
17        ПЛОЩАДЬ            ШТУРМ ЗАЧИСТКА                МИРНАЯ АКЦИЯ ПРОТЕСТА
18        УЛИЦА              ШТУРМ МАЙДАНА                 ЗДАНИЕ ВЕРХОВНОЙ РАДЫ
19        ГРУШЕВСКОГО        ВНУТРЕННИЕ ВОЙСКА             ЗАКОННАЯ ВЛАСТЬ УКРАИНЫ
20        ЛИДЕР              ПРИМЕНЕНИЕ СИЛЫ               ЛИДЕР ПАРТИИ УДАР


                          Таблица 2. Топ-20 узлов с максимальной входной степенью
     №             Выходная степень                                   Узел
     1                   5                  УЧАСТНИКИ АКЦИИ ПРОТЕСТА
     2                   5                  УЛИЦА ГРУШЕВСКОГО КИЕВ
     3                   5                  (ПРЕЗИДЕНТ) УКРАИНЫ ВИКТОР ЯНУКОВИЧ
     4                   5                  СИЛОВОЙ РАЗГОН ЕВРОМАЙДАНА
     5                   5                  МИРНАЯ АКЦИЯ ПРОТЕСТА
     6                   5                  ГЛАВА АДМИНИСТРАЦИИ ПРЕЗИДЕНТА
     7                   5                  ФРАКЦИЯ ПАРТИИ РЕГИОНОВ
     8                   5                  БОЙЦЫ СПЕЦПОДРАЗДЕЛЕНИЯ БЕРКУТ
     9                   5                  БАТЬКИВЩИНА АРСЕНИЙ ЯЦЕНЮК
     10                  4                  АДМИНИСТРАЦИЯ ПРЕЗИДЕНТА УКРАИНЫ
     11                  4                  ЗДАНИЕ ВЕРХОВНОЙ РАДЫ
     12                  4                  ЗДАНИЯ ЦЕНТРА КИЕВА
     13                  4                  ВЕРХОВНАЯ РАДА УКРАИНЫ
     14                  4                  УДАР ВИТАЛИЙ КЛИЧКО
     15                  4                  СОТРУДНИКИ СПЕЦПОДРАЗДЕЛЕНИЯ БЕРКУТ
     16                  4                  СОТРУДНИКИ ПРАВООХРАНИТЕЛЬНЫХ ОРГАНОВ
     17                  4                  СИЛОВОЙ РАЗГОН МИТИНГУЮЩИХ
     18                  4                  ПОЛИТИЧЕСКИЙ КРИЗИС УКРАИНА
     19                  4                  ПРИМЕНЕНИЕ СИЛЫ СТОРОНАМИ
     20                  4                  ПРЕСС-СЛУЖБА МВД


                                                      71
                         Рис. 8. Фрагмент СЕИТ (визуализация средствами Gephi)


                 Рис. 9. Ранговое распределение степеней узлов в логарифмической шкале
                 (по оси абсцисс – порядковый номер узла, по оси ординат – степень узла)


                а                                   б                                      в
       Рис. 10. СЕИТ размером 20+20+20 по массивам (а – 2013.11.30, б – 2014.01.22, в – 2014.02.19)

   О-зона не обязательно включает термины из всех        вписывается в тематику всей сюжетной цепочки,
сюжетов,      достаточно,     чтобы     термины          тем он точнее попадает в ее тренд. В данном случае
соответствовали лишь их определенной части               (рис. 11) именно сюжет 22 января наиболее точно
(порогу). Чем в сообщениях сюжета больше                 соответствует тематическому направлению всей
терминов, попадающих О-зону, тем он лучше                сюжетной цепочки.


                                                    72
                                        Рис. 11. Сеть связи терминов выбранных событий


   Таким образом, можно предложить такой                           и триграмм, характеризующих общий сюжет,
лингвистический критерий релевантности сюжета                      совпало с данными табл. 1 на 65, 50 и 45 %,
общей сюжетной цепочке: чем большая часть лексики                  соответственно.   Вместе    с   тем,   качество
из него попадает в О-зону, тем он более релевантен.                предложенной        терминологической      сети
Формально значение этого критерия ki , N для сюжета                исследовалось лишь на уровне экспертных оценок,
i сюжетной цепочки s может быть записано:                          сравнение СЕИТ с другими подобными сетями
                                                                   остается открытым вопросом.
                               Ti , N  Ts , N
                    ki , N       ,                                Выводы
                           3N
где N – параметр СЕИТ (количество слов, биграмм                       Таким образом, в результате проведенных
и триграмм), Ti , N – множество значимых терминов                  исследований:
сюжета i , Ts , N – множество значимых терминов                        Описан алгоритм построения СЕИТ на основе
                                                                   анализа текстов новостных сообщений.
всей сюжетной цепочки.
                                                                       При построении СЕИТ для новостных
Представления об информационной значимости                         сообщений был учтен ряд особенностей, связанных
наборов терминов для построения СЕИТ, степени их                   с предварительным анализом потока новостей,
важности для отражения смысла сюжетной цепочки                     предложен подход к выбору репрезентативных
были подтверждены в ходе экспериментов с                           сюжетов.
информантами. Так, для всех сюжетов были
                                                                       На основании предложенного алгоритма
проведены эксперименты с вариантами стандартной
                                                                   построена    СЕИТ     (как   показала    практика,
инструкции «Вспомните сюжет. Подумайте над его
                                                                   минимальный        объем      для      построения
содержанием. Выпишите 10-15 слов, наиболее
                                                                   репрезентативной сети составляет около 20 КБ).
важных для его содержания» (более 20 информантов
для каждого сюжета) [7, 8 1 ]. При этом количество                     Сеть естественных иерархий терминов
предложенных экспертами отдельных слов, биграмм                    оказалась скейл-фри по исходящим связям.
                                                                       Выбраны          программные        средства,
1                                                                  позволяющие решать задачу визуализации СЕИТ.
  Ср. основную инструкцию сходного эксперимента: «Как
можно детальнее вспомните события сравнительно                     При этом задача выбора лучшего алгоритма
недавнего периода, примерно от 4 декабря 2011 г. до 4 марта        визуализации не ставилась.
2012 г. (от выборов в Государственную Думу до подведения               Предложен критерий релевантности сюжета
итогов по выборам президента). Напишите 10-15 слов или             общей сюжетной цепочке.
словосочетаний, относящихся к этим событиям».


                                                              73
   Сеть    языка,   построенную    с   помощью             [9] Е.В. Ягунова, А.В. Антонов. Методика работы
предложенной методики, можно использовать в                    с коллекциями текстовой информации через
качестве базы для построения общей онтологии по                анализ информационных портретов // Труды
выбранной тематике, готового к применению                      12-й Всероссийской научной конференции
средства навигации в базах данных, а также для                 «Электронные библиотеки: перспективные
организации контекстных подсказок пользователям                методы и технологии, электронные коллекции»
информационно-поисковых систем.                                – RCDL’2010, Казань, Россия, 2010.
                                                          [10] D.V. Lande, A.A. Snarskii. Compactified HVG
Литература                                                     for the Language Network // International
 [1] Автоматическая обработка текстов на
                                                               Conference on Intelligent Information Systems:
     естественном языке и компьютерная                         The Conference is dedicated to the 50th
     лингвистика: учеб. пособие / Е.И. Большакова,             anniversary of the Institute of Mathematics and
     Э.С. Клышинский , Д.В. Ландэ , А.А. Носков,               Computer Science, 20–23 aug. 2013, Chisinau,
     О.В. Пескова, Е.В. Ягунова. – М.: МИЭМ,                   Moldova: Proceedings IIS / Institute of
     2011. – 272 с.                                            Mathematics and Computer Science, 2013. –
                                                               P. 108–113.
 [2] А.А. Давыдов. Системная социология. – М.:
                                                          [11] D.V. Lande. Building of Networks of Natural
     Издательство ЛКИ, 2008. – 192 с.
                                                               Hierarchies of Terms Based on Analysis of Texts
 [3] А.Г. Додонов, Д.В. Ландэ. Моделирование и
                                                               Corpora // E-preprint arXiv 1405.6068.
     анализ тематических информационных
                                                          [12] D.V. Lande, A.A. Snarskii, E.V. Yagunova, E.V.
     потоков // Информационное противодействие
     угрозам терроризма, 2013. – № 20. – C. 52–59.             Pronoza. The Use of Horizontal Visibility Graphs
                                                               to Identify the Words that Define the
 [4] И.В. Крылова, Л.М. Пивоварова, А.В. Савина,
                                                               Informational Structure of a Text // 12th Mexican
     Е.В. Ягунова. Исследование новостных                      International Conference on Artificial Intelligence,
     сегментов российской «снежной революции»:                 2013. – P. 209–215.
     вычислительный эксперимент и интуиция
                                                          [13] В. Luque, L. Lacasa, F. Ballesteros, J. Luque.
     лингвистов // Понимание в коммуникации:
     Человек в информационном пространстве: сб.                Horizontal visibility graphs: Exact results for
     научных трудов: в 3 т. – Яр.-М.: Изд-во ЯГПУ,             random time series // Phys. Review E, 2009. –
     2012. – Т. 1. – С. 377–382.                               P. 046103-1–046103-11.
                                                          [14] G. Salton, M.J. McGill. Introduction to Modern
 [5] Н.В. Лукашевич, Б.В. Добров, Д.С. Чуйко.
     Отбор словосочетаний для словаря системы                  Information Retrieval. – New York : McGraw-
     автоматической обработки текстов //                       Hill, 1983. – 448 p.
     Компьютерная лингвистика и                           [15] E. Yagunova, D. Lande. Dynamic Frequency
     интеллектуальные технологии: Труды                        Features as the Basis for the Structural Description
     международной конференции «Диалог–2008».                  of Diverse Linguistic Objects // CEUR Workshop
     – М., 2008. – С. 339–344.                                 Proceedings. Proceedings of the 14th All-Russian
 [6] Ю.Н. Филиппович, А.В. Прохоров. Семантика
                                                               Scientific Conference “Digital libraries: Advanced
     информационных технологий: Опыты                          Methods and Technologies, Digital Collections” –
     словарно-тезаурусного описания. – М.: МГУП,               Pereslavl-Zalessky, Russia, 2012. – P. 150–159.
     2002. – 368 с.
                                                           Network of Natural Hierarchies of Terms
 [7] Е.В. Ягунова. Эксперимент и вычисления в
     анализе ключевых слов художественного
                                                                      of News Messages
     текста // Сборник научных трудов кафедры                   on the “Euromaydan” Events
     иностранных языков и философии ПНЦ УрО
     РАН. Философия языка. Лингвистика.                            Dmitri V. Lande, Andrew A. Snarskii,
     Лингводидактика. – Пермь, 2010. – Вып. 1. –                              Elena V. Jagunova
     С. 85–91.                                                The technique of building of networks of hierarchies
 [8] Е.В. Ягунова, И.В. Крылова, О.Е. Макарова,           of terms based on the analysis of scientific texts is
     Л.М. Пивоварова. "Снежная революция в                offered. The technique is based on the methodology of
     России": значимые номинации, события,                horizontal visibility graphs for the terms – of individual
     оценки (оценка событий информантами и                words, bigrams and trigrams, as well as of an inclusion
     данные СМИ) // "Мы не немы!": творчество             relationships between the terms. The network formed on
     протестующей улицы. – М., 2014.                      the basis of news texts on the “Euromaydan” events has
                                                          been designed and investigated.


                                                     74