<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Метод прогнозирования развития ситуаций на основе обнаружения событий в потоке текстовых документов</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>arkandreev@gmail.com</string-name>
          <email>arkandreev@gmail.com</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>© Ark Andreev</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>© Dmitry Berezkin</string-name>
          <email>berezkind@bmstu.ru</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Bauman Moscow State Technical University</institution>
          ,
          <addr-line>Moscow</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Ilya Kozlov</institution>
        </aff>
      </contrib-group>
      <fpage>367</fpage>
      <lpage>374</lpage>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>В настоящий момент большое количество
данных, обрабатываемых современными
информационными системами (ИС), имеет форму
информационных потоков: новые информационные
сообщения постоянно поступают из источников и
должны обрабатываться ИС с минимальной
задержкой. Как правило, информация в потоке
представлена в неструктурированном виде, в
Труды XIX Международной конференции
«Аналитика и управление данными в областях с
интенсивным использованием данных»
(DAMDID/ RCDL’2017), Москва, Россия, 10–13
октября 2017 года
частности, в форме текста. Так, форму текстовых
потоков имеют сообщения пользователей в
социальных сетях, новости СМИ, официальные
заявления органов власти.</p>
      <p>Динамический характер текстовых потоков
делает их важным средством информационной
поддержки для людей, которым требуется принимать
управленческие решения в режиме реального
времени в условиях меняющейся обстановки. Задачи
своевременного обнаружения проблемной ситуации,
отслеживания её развития и оперативного принятия
решений по управлению развитием ситуации
возникают в различных сферах – политической,
социальной, военной, экономической.
т. е.</p>
      <p>или
Анализ
,   , 


,   ,  
,   ,</p>
      <p>,   ).
содержание</p>
      <p>документа</p>
      <p>= ( 1,  2, … ,    ),
каждый элемент которого   отражает значимость
kго терма в контексте документа и рассчитывается с
помощью</p>
      <p>метода TF-IDF. Каждое событие также
описано многокритериальной моделью, компоненты
формируются
на основе
документов,
течением
времени
ситуации.</p>
      <p>потенциально
принадлежащих</p>
      <p>одной
На основе формирования
таких</p>
      <p>пар
выполняется построение ситуационного графа  =
( ,  ). В этом графе узлы 
событиям, а ребра 
= {  } – выделенным парам
= { } соответствуют</p>
      <p>(каждое
ребро
,    , 
,    ).</p>
      <p>событию:

 =
Объединение
группы</p>
      <p>выполняется с помощью
события, а
описаны в [5].
алгоритма инкрементальной кластеризации, в основе
которого
каждого
лежит
документа
покомпонентное</p>
      <p>сопоставление
с
ранее</p>
      <p>обнаруженными
событиями. Более подробно модели документа и</p>
      <p>также метод обнаружения событий
Метод</p>
      <p>позволяет работать с документами на
произвольном языке при наличии подготовленных
экспертами тематических запросов, а также словарей
имен
персон,
названий
организаций</p>
      <p>и
географических наименований на соответствующем
языке.</p>
      <p>Многие работы используют принцип аналогии –
прогнозирование дальнейшего развития ситуации и
формирование предложений по управляющим
действиям основано на поиске аналогичных
ситуаций, имевших место в прошлом. В работах,
базирующихся на принципе аналогии, используются
различные подходы к представлению ситуаций.</p>
      <p>В [10] ситуация представляется фрагментом
семантической сети, содержащим объекты и их
отношения в рамках ситуации. Получить такое
представление автоматически возможно лишь для
определенных предметных областей, поэтому такой
подход нельзя использовать для прогнозирования
развития произвольных ситуаций.</p>
      <p>
        В ряде работ предложено описание ситуаций в
виде набора или вектора параметров с
определенными значениями [
        <xref ref-type="bibr" rid="ref1">1, 12</xref>
        ]. Для сравнения
ситуаций с целью определения аналогии
используются евклидово расстояние, манхэттенская
метрика, расстояние Чебышева, мера Хэмминга,
косинусная мера и другие меры близости.
Недостаток данных подходов заключается в
статическом описании ситуаций – при определении
близости между ситуациями не учитывается
сходство динамики их развития.
      </p>
      <p>
        Для учета динамики можно использовать
описание эталонной ситуации в виде графа или
автомата [
        <xref ref-type="bibr" rid="ref3">3, 9, 11, 15, 18</xref>
        ], пути в котором отражают
различные варианты развития ситуации. Все эти
подходы позволяют применять лишь принцип
строгой аналогии: анализируемая текущая ситуация
должна точно соответствовать некоторому пути в
графе, построенном экспертом. Однако цепочка
событий, автоматически построенная при анализе
текстового потока, не всегда точно соответствует
эталону – в ней могут содержаться дополнительные
события или, напротив, отсутствовать какие-либо
события из графа.
      </p>
      <p>Подход на основе нестрогой аналогии предложен
в [8]. Ситуации представляются цепочками событий,
близость между ними определяется с помощью
модифицированного расстояния Левенштейна. Но
этот подход требует выделения для каждого события
объекта и субъекта, что не может быть сделано
автоматически для произвольных текстовых
сообщений. Кроме того, результат определения
аналогов текущей ситуации в названной работе
используется лишь для отнесения этой ситуации к
одному из заданных классов.
4 Предлагаемый метод прогнозирования
развития ситуаций</p>
      <p>Обнаружение для текущей последовательности  
цепочки-аналога   позволяет не только определить
вероятный итог развития ситуации (как предлагается
в [8]), но и объяснить, какие события могут привести
к этому итогу. Такой прогноз можно получить, если
обнаружено сходство всей текущей
последовательности с начальной частью  (  ,   )
цепочки-аналога. В этом случае можно
предположить, что в будущем наступят события,
аналогичные тем, которые составляют
заключительную часть цепочки-аналога  (  ,   ).
Таким образом, эту заключительную часть можно
рассматривать как возможный сценарий
дальнейшего развития текущей ситуации.</p>
      <p>Для выполнения сопоставления необходимо
наличие базы ситуаций-эталонов   = {   }. Такие
эталоны отбираются экспертами в зависимости от
задачи,
для
1.</p>
      <p>неотрицательные
значения, причем</p>
      <p>(  ,   )= 0, если события   и  
описывают
полностью
идентичные</p>
      <p>изменения,
произошедшие в рамках соответствующих ситуаций.
Если расстояние 
( ,     ) меньше порогового</p>
      <p>событие   аналогично эталону     .
значения  ℎ , делается вывод о том, что текущее
При
определении
аналогичности
учитываются их названия, текстовые описания и
тематический состав. Текстовое описание события  
задается вектором 
количество
различных


= ( 1,  2, … ,     ), где   –
слов,</p>
      <p>встречающихся в
описаниях событий,   – вес -го слова в описании 
го события, который находится методом TF-IDF.</p>
      <p>Для того чтобы
наиболее важную</p>
      <p>роль при
определении
аналогичности
играли</p>
      <p>термы,
характерные для конкретного события, а не ситуации
в целом, было решено умножать вес каждого терма
в 

на
коэффициент
  ,</p>
      <p>отражающий
соотношение значимости терма для события и для
ситуации  , к которой относится это событие:   =
( )⁄   
∑
   , где</p>
      <p>( )– количество событий в

 ′ = ( 1

1,  
2
 2, … ,    
   ).</p>
      <p>Расстояние между событиями с точки зрения
текста рассчитывается на основе косинусной меры:</p>
      <p>, = 1 − 
названия события 
cos(  ′

,    ′).</p>
      <p>Представление</p>
      <p>слов
 ′ и расчёт расстояния между

событиями с точки зрения названий   , выполняется
аналогично.</p>
      <p>Тематический</p>
      <p>состав события характеризует
вектор 
 = ( 1,  2, … ,  

анализируемых тем, а</p>
      <p>), где   – количество
 – значение, отражающее
релевантность -го события  -ой теме. Темы задаются
экспертами в виде</p>
      <p>
        формализованных поисковых
запросов, а значения   рассчитываются на основе
модифицированного метода Okapi BM25 с помощью
поисковой машины Sphinx [
        <xref ref-type="bibr" rid="ref2">2</xref>
        ]. Расстояние между
событиями с точки зрения тематического состава   ,
также определяется на основе косинусной меры
близости векторов:   , = 1 − 
cos(


,
      </p>
      <p>).</p>
      <p>Расстояние между событиями с точки зрения
аналогичности</p>
      <p>может
взвешенная сумма
быть
представлено</p>
      <p>как
расстояний
по</p>
      <p>различным
критериям:
 (  ,   )=    
 , +</p>
      <p>, +      , .</p>
      <p>Нахождение значений коэффициентов   ,   ,  
путем</p>
      <p>решения
и порогового значения  ℎ</p>
      <p>может быть выполнено
обоих классов, подготовленный экспертами.</p>
      <p>Описанный способ обнаружения аналогов
позволяет находить для текущих событий схожие
события, происходившие в прошлом. Так, для
события «Власти вынудили Uber свернуть
онлайнвызов такси с автопилотом в Сан-Франциско» (Рис.
1) такими аналогами являются другие случаи запрета
использования тех или иных технологий органами
власти по соображениям безопасности, в частности,
событие «США официально запретили продажу
Samsung Galaxy Note 7». После обнаружения
события-аналога выполняется попытка выделения в
ситуационном графе цепочки, аналогичной
соответствующей эталонной ситуации (в данном
случае – ситуации, касающейся проблем Samsung,
связанных со смартфоном Galaxy Note 7).
4.2 Определение близости между ситуациями</p>
      <p>На формируемую текущую ситуацию
накладывается следующее ограничение: события,
аналогичные событиям из эталонной цепочки,
должны следовать друг за другом в том же порядке,
что и соответствующие события в эталонной
ситуации. Это связано с тем, что последовательность
событий в эталонной цепочке отражает их
причинноследственную связь и логику развития ситуации.
Если в текущей и эталонной последовательностях
события располагаются в разном порядке, значит,
логика их развития различна, и они не могут быть
признаны аналогами.</p>
      <p>Таким образом, при определении близости между
ситуациями необходимо учитывать, что цепочки
содержат ряд попарно аналогичных событий,
располагающихся в цепочках в одинаковом порядке
(на Рис. 2 они выделены серым цветом, пунктирной
линией соединены события-аналоги). Кроме того,
каждая из ситуаций может содержать события,
аналоги которых отсутствуют в другой цепочке. На
Рис. 2 эталонные события, аналоги которых
отсутствуют в текущей ситуации, выделены
вертикальной штриховкой, «лишние» события
текущей ситуации – горизонтальной. Также
необходимо помнить о том, что при сравнении
учитывается лишь начальная часть эталонной
ситуации  (  ,   ) – от её первого события ( 1 на
рис. 2) до последнего события, имеющего аналог в
текущей ситуации ( 6 на рис. 2). События,
составляющие заключительную часть эталонной
ситуации  (  ,   ), не влияют на значение
близости.</p>
      <p>st(se, sc )
 s2e
 s3e
 s4e
 s5e
 s6e</p>
      <p> s8e
 s1e
se
pre(se, sc )
sc</p>
      <p> s1c  s2c  s3c  s4c  s5c  s6c
Рисунок 2 Сопоставление цепочек событий
В Таблице 1 представлен пример сравнения
fin(se, sc )
 s7e
 s7c
текущей ситуации с эталонной. В данном случае
пары событий ( 11, 21), ( 12, 22) и ( 13, 23) являются
аналогами, событие  14 является «лишним» событием
текущей ситуации, а событие  24 является
заключительной частью эталонной ситуации.
Таблица 1 Сопоставление текущей и эталонной
ситуаций
Текущая ситуация Эталонная ситуация
 11: Компания Uber  21: Выпущен Samsung
запустила беспилотное Galaxy Note 7
такси в США
 12: Власти Калифорнии  22: Власти США
требуют от Uber призвали отказаться от
прекратить использования Samsung
использование Galaxy Note 7
беспилотных такси
 13: Власти вынудили  23: США официально
Uber свернуть онлайн- запретили продажу
вызов такси с Samsung Galaxy Note 7
автопилотом в
СанФранциско
 14: Uber перенесла
беспилотные такси в
Аризону
 24: Samsung объявил о
прекращении
производства Galaxy</p>
      <p>Note 7
Для измерения близости ситуаций используется
метод, представляющий собой модификацию
расстояния Левенштейна: расстояние между
цепочками определяется суммарным весом
операций, необходимых для превращения одной
цепочки в другую. Рассмотрим операции, которые
требуются для превращения начальной части
эталонной ситуации  (  ,   ) в текущую ситуацию
  , а также способы измерения веса этих операций.
• Удаление событий    , аналоги которых
отсутствуют в текущей ситуации. В качестве веса
операции   (   ) может использоваться
значимость удаляемого события – показатель,
учитывающий количество документов,
описывающих событие, и авторитетность
источников, опубликовавших эти документы.
Множество удаляемых событий обозначим   .
Суммарный вес таких операций:   =
∑        (   ).
• Добавление событий    , аналоги которых
отсутствуют в эталонной ситуации. Вес операции
  (   ) вычисляется аналогично. Множество
добавляемых событий обозначим   .
Суммарный вес операций добавления:   =
∑       (   ).
• Замена события из эталонной цепочки    на его
аналог     . Вес этой операции  
определяется расстоянием   (   ,     ) между</p>
      <p>с точки зрения аналогичности.
событиями    и   
(   ,    )
сравнений определяют приоритетность критериев
относительно
цели.</p>
      <p>Приоритетность
  〉 содержит информацию о
предприняты лицом</p>
      <p>в срок 
содействия или противодействия развитию текущей
ситуации по сценарию, сформированному на основе</p>
      <p>На Рис. 3 показаны рекомендации для ЛПР с
учетом сценариев, сформированных для ситуации с
тестированием беспилотных такси.
Значения критериев для эталонных ситуаций
определяются экспертами на этапе подготовки базы
Также на рисунке представлен наиболее вероятный
сценарий, определенный с помощью логистической
эталонов   .
Рисунок 3 Пример формирования оптимистического, наиболее вероятного и пессимистического сценариев
развития ситуации
5 Экспериментальная проверка метода</p>
      <p>На основе предложенного метода разработана
Рисунок 4 Зависимость точности (тонкая сплошная
линия), полноты (пунктирная линия) и F-меры
(жирная линия) от мощности обучающей выборки
6 Направления дальнейших
исследований</p>
      <p>Предложенный метод прогнозирования развития</p>
      <p>Выше описан эксперимент по оценке качества
обнаружения аналогичных ситуаций, однако
необходимо также оценивать качество
прогнозирования. В связи с этим в рамках
дальнейших исследований планируется выработать
критерий качества ситуационного прогноза и
выполнить оценку результатов прогноза по этому
критерию.
7 Заключение</p>
      <p>Предложен метод прогнозирования развития
ситуаций на основе обнаружения событий в потоке
текстовых документов. Прогнозирование состоит в
формировании сценариев дальнейшего развития
ситуаций по принципу исторической аналогии:
выполняется построение текущей ситуации, для
которой существует аналог в базе эталонных
ситуаций. Этот аналог считается возможным
сценарием развития текущей ситуации.
Предложенный метод формирования сценариев
учитывает динамику развития ситуаций и нестрогий
характер аналогии между ситуациями. Из множества
сформированных сценариев выделены
оптимистический и пессимистический, для этого
использован метод анализа иерархий. Также
предложен способ подготовки предложений по
действиям, которые необходимо предпринять для
способствования или препятствования развитию
ситуации по построенным сценариям.
Литература</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1]
          <string-name>
            <surname>Aggarwal</surname>
            ,
            <given-names>C.C.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Subbian</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          :
          <article-title>Event Detection in Social Streams</article-title>
          .
          <source>Proc. of the 2012 SIAM Int. Conf. on Data Mining</source>
          , pp.
          <fpage>624</fpage>
          -
          <lpage>635</lpage>
          . Society for Industrial and Applied Mathematics, Philadelphia (
          <year>2012</year>
          ).
          <source>doi: 10.1137/1.9781611972825.54</source>
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <given-names>How</given-names>
            <surname>Sphinx Relevance Ranking Works</surname>
          </string-name>
          . http://sphinxsearch.com/blog/2010/08/17/howsphinx-relevance
          <string-name>
            <surname>-</surname>
          </string-name>
          ranking-works/
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <surname>van der Aalst</surname>
            ,
            <given-names>W.M.P.</given-names>
          </string-name>
          : Process Mining: Data Science in Action. Springer, Heidelberg (
          <year>2016</year>
          ). doi:
          <volume>10</volume>
          .1007/978-3-
          <fpage>662</fpage>
          -49851-4
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [6]
          <string-name>
            <surname>Андреев</surname>
            ,
            <given-names>А.М.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Березкин</surname>
          </string-name>
          , Д.В.,
          <string-name>
            <surname>Симаков</surname>
          </string-name>
          , К.В.:
          <article-title>Обучение морфологического анализатора на большой электронной коллекции текстовых документов. Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Седьмой Всерос. науч. конф. (RCDL-</article-title>
          <year>2005</year>
          ), сс.
          <fpage>173</fpage>
          -
          <lpage>181</lpage>
          (
          <year>2005</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [7]
          <string-name>
            <surname>Андреев</surname>
            ,
            <given-names>А.М.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Березкин</surname>
          </string-name>
          , Д.В.,
          <string-name>
            <surname>Симаков</surname>
          </string-name>
          , К.В.:
          <article-title>Особенности проектирования модели и онтологии предметной области для поиска противоречий в правовых электронных библиотеках. Электронные библиотеки: перспективные методы и технологии, электронные коллекции: Труды Шестой Всерос</article-title>
          . науч. конф. RCDL, сс.
          <fpage>93</fpage>
          -
          <lpage>102</lpage>
          (
          <year>2004</year>
          )
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>