<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Формирование исторической справки по корпусу новостей с учетом структуры динамики развития новостного сюжета</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>tikhomirov.mm@gmail.com</string-name>
          <email>tikhomirov.mm@gmail.com</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Lomonosov Moscow State University</institution>
          ,
          <addr-line>Moscow</addr-line>
          ,
          <country country="RU">Russia</country>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Boris Dobrov</institution>
        </aff>
      </contrib-group>
      <fpage>165</fpage>
      <lpage>171</lpage>
      <abstract>
        <p>The paper describes the research carried out on the subject of the formation of the temporal summary. Algorithms have been developed and a software system has been implemented that allows you to automatically create a timeline summary for the body of news articles for the selected news document. A study of three new factors, taking into account the structure of the dynamics of news story development.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>В связи с взрывным ростом количества
информации в интернете возникает задача выделения
и автоматического обобщения полезной информации
в поступающем потоке данных.</p>
      <p>
        Востребованными задачами являются задачи
реферирования новостных сюжетов – множества
новостных сообщений различных источников,
посвященных описанию некоторого события. Такие
задачи часто решаются новостными агрегаторами,
например, Яндекс.Новости [
        <xref ref-type="bibr" rid="ref17">17</xref>
        ], для более полного
представления описания произошедшего события.
Типичное «время жизни» новостного сюжета (время
активного обсуждения произошедшего события)
обычно сутки–двое.
      </p>
      <p>Отметим, что некоторые новостные сюжеты
имеют «историю» в виде множества
предшествующих событий, произошедших в
различные моменты времени и в той или иной мере
связанных между собой.</p>
      <p>Для таких длительных сюжетов, где сама их
Труды XIX Международной конференции
«Аналитика и управление данными в областях с
интенсивным использованием данных»
(DAMDID/ RCDL’2017), Москва, Россия, 10–13
октября 2017 года
длительность (повторное возвращение к одной и той
же теме) в определенной мере свидетельствует об их
значимости, является актуальной задача
формирования «исторических справок».</p>
      <p>Историческая справка – это тип обзорного
реферата (обзорной аннотации), включающего
последовательное изложение существенных деталей
исследуемого сюжета. Подобная аннотация может
содержать в себе основные этапы, события и факты
исходного сюжета. Построение подобных аннотаций
представляет собой сложную работу, которую
выполняют журналисты или аналитики, и,
соответственно, автоматизация подобного процесса
является востребованной задачей.</p>
      <p>В рамках данной работы рассмотрены проблемы и
решения при автоматическом построении
исторических справок.</p>
      <p>Рассматривается ситуация, когда пользователя
новостного агрегатора заинтересовала какая-то
новость (новостное сообщение), и он хочет получить
историческую справку по сюжету, обсуждаемому в
данном новостном сообщении, т. е. результатом
должен быть упорядоченный по времени перечень
описаний произошедших ранее ключевых событий.</p>
      <p>
        Задача рассматривается как задача обзорного
реферирования (multi-document summarization) по
запросу на представительной коллекции новостных
документов. В качестве запроса рассматривается
значительно меньше по стандартным мерам сходства.
текст новостного сообщения.
Требуется
выявлять
объекты [
        <xref ref-type="bibr" rid="ref10 ref2">1, 9</xref>
        ], например, учитывая структурные
больших
лингвистических
самолета в Тайване.
русском языке за первую половину 2015 года была
разработана и реализована система, позволяющая
автоматизировать процесс построения исторической
особенности потока документов [
        <xref ref-type="bibr" rid="ref6 ref9">5, 8</xref>
        ].
3 Постановка задачи
3.1 Общее описание
Задача
построения
исторической
справки
ориентирована на запрос. В самом общем случае
пользователь в качестве запроса имеет новостной
документ,
рассматриваться
поэтому
как
данная
задача
задача
      </p>
      <p>будет
автоматического
построения аннотации описанного типа по запросу в
виде
текстового
документа.</p>
      <p>На
выходе
работы
системы должна быть аннотация из 
предложений.
Связность между предложениями не требуется.</p>
      <p>Как пример построенной исторической справки
можно
рассмотреть
аннотацию
(таблица
1),
построенную по событию, связанному с крушением
1
2
3
…
n
Таблица 1. Крушение самолета на Тайване
Самолет ATR 72 авиакомпании TransAsia
потерпел крушение 4 февраля на Тайване.
Операция по поиску жертв крушения самолёта
TransAsia Airways завершена, в результате
происшествия погибли 35 человек.
Члены экипажа самолета авиакомпании TransAsia
Airways, потерпевшего крушение в феврале на
Тайване, отключили работающий двигатель, после
того, как второй перестал работать
…
Совет по авиационной безопасности Тайваня
опубликовал отчет о крушении самолета
компании TransAsia Airways в феврале этого года,
в результате которого погибли 35 человек.</p>
      <p>В цели работы входит исследование влияния
различных
факторов
на
качество
построения
аннотации, поэтому необходим
набор эталонных
аннотаций, на которых будет оцениваться качество
работы системы.
3.1 Математическая постановка задачи</p>
      <p>Описанную выше задачу можно формализовать
следующим способом: имеются набор запросов  =
{ 1,  2, … ,   } и
4.1 Исследуемые факторы</p>
      <p>В рамках работы исследовались следующие
факторы:
• стратегия расширения запроса;
• учет временного характера новостных сюжетов.
• учет структуры новостной статьи в виде
перевернутой пирамиды.
4.2 Стратегия расширения запроса</p>
      <p>Информации, которую можно получить из
запроса-документа, может быть не достаточно, чтобы
эффективно построить историческую справку. Этот
факт является следствием того, что большинство
новостных статей является не общим описанием
события, а обсуждением какого-то частого
происшествия или факта. Чтобы избежать подобной
проблемы, был разработан алгоритм, использующий
кластер близких запросу документов. Алгоритм:
1. Для запроса-документа на основе
статистической информации по коллекции
(индекс) строится вектор наиболее весомых
по tf-idf лемм (нормализованных словоформ)
документа.
2. По построенному вектору происходит поиск
близких документов в коллекции.
3. По кластеру извлеченных документов
происходит анализ важности лемм на основе
tf-idf:
a. Для каждого документа</p>
      <p>рассматриваются лучшие t лемм.
b. Происходит ранжирование лемм на
основании частоты встречаемости в
лучших t леммах каждого документа.
c. Из сортированного списка
выбирается k наиболее весомых
лемм.
4. Повторяются пункты 2–3 (повторное
расширение запроса).
5. На выходе имеется вектор из k лемм, который
отражает семантику документа-запроса.</p>
      <p>Как пример работы модуля расширения запроса
можно рассмотреть этапы работы алгоритма на
новостной статье, посвященной теракту в Париже
(порядок в списке обратный по отношению к весу
слова):
Олланд назвал нападение на Charlie Herbo
терактом
Президент Франции Франсуа Олланд назвал
терактом нападение на сотрудников
сатирического журнала Charlie Herbo в центре
Парижа. По последним данным, в результате
стрельбы погибли 11 человек, еще четверо
находятся в критическом состоянии. ...
Первичный запрос, полученный на этапе 1:
1. Posten, Jyllands-posten, Jyllands, Herbo,</p>
      <p>Charlie, Олланд.
Единожды расширенный запрос, после этапа 3:
2. Перепечатать, Скандальная, Еженедельник,
Карикатура, Олланд, Сатирический,
Теракт, Charlie, Herbo.</p>
      <p>Как видно, последний вариант включает в себя
наиболее важные элементы.
4.3 Учет структуры новостной статьи в виде
перевернутой пирамиды.
Рисунок 1 Перевернутая пирамида «идеального»
новостного сообщения</p>
      <p>Стратегия написания качественной новостной
статьи часто опирается на структуру вида
«перевернутая пирамида», Рис. 1.</p>
      <p>В дополнительной информации часто встречается
описание произошедших ранее событий по теме
документа.</p>
      <p>Учет данной структуры происходит в 2 аспектах:
1. Построение графа из документов, близких к
запросу, где ребром является неявная ссылка между
окончанием одной статьи и началом другой статьи,
которая была опубликована ранее.</p>
      <p>2. Повышение веса предложений, которые
располагаются в верхней части новостной статьи и
нижней части. Выделение нижней части происходит
из-за того, что предложения оттуда часто
резюмируют информацию из заголовков других
статей.</p>
      <p>Алгоритм работы первого способа учета
структуры «перевернутая пирамида» выглядит
следующим образом:</p>
      <p>1. Для набора документов  происходит
построение матрицы близости между окончаниями и
началами документов.</p>
      <p>2. При превышении заданного порога
считается, что присутствует ссылка между
документами   и   .</p>
      <p>
        3. На построенном графе происходит
ранжирование документов путем использования
известного алгоритма LexRank [
        <xref ref-type="bibr" rid="ref5">4</xref>
        ]. Веса документов
нормируются.
      </p>
      <p>Итого, на выходе имеется ранжированный
список документов</p>
      <p>и набор из  новых запросов,
учет которых будет осуществлен совместно с учетом
временной структуры новостного сюжета.</p>
      <p>Второй способ учета структуры перевернутой
пирамиды
реализован
в
функции ранжирования
итоговых предложений, раздел 4.6.
ранее построенных расширенных запросов на метки
предложений из середины документа.
  из  , Рис. 3.
ранжированием
документов.
Рисунок 4 Схема работы системы
4.6 Модуль поиска релевантных документов
Поиск релевантных документов происходит путем
поиска близких документов для построенного запроса
на этапе формирования запроса, описанным в пункте
4.2. Использовалась поисковой машины NearIdx 8,
разработанная ООО «Лаборатория информационных
исследований».
4.7 Модуль отбора предложений
Данный
модуль
занимается</p>
      <p>непосредственно
предложений
из</p>
      <p>извлеченных








Ранжирование происходит модифицированной
версией
алгоритма</p>
      <p>MMR,
которая
прямо
или
косвенно учитывает все факторы, описанные в 4.1:</p>
      <p>=    − 


   ,

где    – член, описывающий положительную
составляющую
формулы,
которая
зависит
близости предложения к запросу, веса документа, из
которого взято предложение, и позиции предложения
в документе;
   = (1 + ⁡ ∗   )∗ ⁡ ∗ ⁡ ∗ 

(  ,    ),
 = 1 − 0.5 ∗ sin⁡(
 ∗⁡ ).
|  |
Параметры 
и</p>
      <p>являются настраиваемыми
параметрами алгоритма,   – вес документа  
который входит предложение под индексом  ,    –
, в
оцениваемое
предложение
под
индексом 
и с
временной меткой  ,   – запрос, отображенный на
эту временную метку,  – слагаемое, понижающее вес
Слагаемое</p>
      <p>– штрафное. Оно зависит от
близости к уже извлеченным предложениям:
   = ⁡ (1 − ⁡ )∗ max
( ,⁡   ),</p>
      <p>⁡∈⁡


из</p>
      <p>– одно из извлеченных предложений, 
множество всех уже извлеченных предложений.
Обработка множества предложений, пришедших
модуля
поиска
релевантных
документов,
происходит в хронологическом порядке, на каждом
этапе
обрабатывается
подмножество
  ⁡ ∈  ,
связанное с меткой   ⁡ ∈  . Для каждого этапа имеется
ограничение на извлечение максимум  предложений
за сутки.
(2)
от
(3)
(4)
(5)
–
Рисунок 2 Зависимость количества публикаций
новостного сюжета от времени
4.4
сюжетов
Учет
временного характера
новостных</p>
      <p>Так как любое событие зависит от времени, то
публикации и количество публикаций тоже зависят от
времени. Как пример, на Рис. 2 изображен график
зависимости публикаций по событию «Землетрясение
в Непале». Чтобы учесть данный фактор, для набора
документов</p>
      <p>происходит следующее:
1.</p>
      <p>Вся временная шкала события разбивается
по суткам с метками</p>
      <p>= { 1,  2, … ,   }.
4.8 Мера близости
составлялись исторические справки, размер которых,
в среднем, около 15 предложений.
перевернутой пирамиды;</p>
      <p>full – importance + расчет близости на этапе
(9)
построения графа происходит с помощью word2vec
Рисунок 5 Отрывок сюжета с interfax
(http://www.interfax.ru/story/151/page_3)
Итого, в
результате
построенная
тестовая
коллекция содержит в себе исторические справки по
15 событиям.
6 Результаты
Оценивались 6 конфигураций системы:</p>
      <p>baseline – простой подход к аннотированию,
без учета рассмотренных факторов, с использованием
в качестве метода ранжирования обычного MMR;
querry-ex – добавление к baseline стратегии
расширения запроса, но без повторного расширения
double-ex – querry-ex + двойное расширение
temporal – double-ex + учет временного
importance – temporal + учет структуры
  
(  ,   )= ⁡
(  ,⁡⁡⁡  ).</p>
      <p>|  |∗|  |
Для расчета близости
на этапе ранжирования
предложений для них использовалось стандартное
векторное представление, полученное из индекса, где
вес элемента – это tf-idf.
,
– сумма ROUGE-N и ее F-мера аналога
данных
для
процедуры</p>
      <p>Так как для процедуры оценки качества работы
системы необходим тестовый набор аннотаций, в
рамках исследования были вручную подготовлены
исторические</p>
      <p>Проведены исследования по тематике построения
исторических справок. Были рассмотрено три
фактора, которые могут влиять на качество
построения аннотаций. Получены количественные и
качественные результаты.</p>
      <p>По результатам проведенных исследований
оказалось, что выбор стратегии расширения запроса
оказывает наибольшее влияние на качество
построение аннотации подобного типа. Учет
временного характера сюжета совместно с учетом
структуры новостной статьи также улучшает
результаты по метрикам   и   , что говорит о
том, что данные факторы способны положительно
влиять на качество построения исторических справок.
Литература</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <article-title>Дважды расширенный запрос после этапа 5: 3</article-title>
          .
          <string-name>
            <surname>Журнал</surname>
          </string-name>
          , Мухаммед, Сатирический, Атака, Пророк, Теракт, Париж, Карикатура, Олланд, Herbo, Charlie.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [1]
          <string-name>
            <given-names>Binh</given-names>
            <surname>Tran</surname>
          </string-name>
          ,
          <string-name>
            <given-names>G.</given-names>
            ,
            <surname>Alrifai</surname>
          </string-name>
          ,
          <string-name>
            <surname>M.</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Quoc</given-names>
            <surname>Nguyen</surname>
          </string-name>
          ,
          <string-name>
            <surname>D.</surname>
          </string-name>
          :
          <article-title>Predicting Relevant News Events for Timeline Summaries</article-title>
          .
          <source>Proc. of the 22nd Int. Conf. on World Wide Web. ACM</source>
          . pp.
          <fpage>91</fpage>
          -
          <lpage>92</lpage>
          (
          <year>2013</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [2] Carbonell, J.,
          <string-name>
            <surname>Goldstein</surname>
            ,
            <given-names>J.:</given-names>
          </string-name>
          <article-title>The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries</article-title>
          .
          <source>Proc. of the 21st Annual Int. ACM SIGIR Conf. on Research and Development in Information Retrieval. ACM</source>
          . pp.
          <fpage>335</fpage>
          -
          <lpage>336</lpage>
          (
          <year>1998</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [3]
          <string-name>
            <surname>Dang</surname>
            ,
            <given-names>H.T.</given-names>
          </string-name>
          :
          <article-title>Overview of DUC 2006</article-title>
          .
          <article-title>Proc. of the document understanding Workshop</article-title>
          . Presented at HLT-NAACL
          <year>2006</year>
          (
          <year>2006</year>
          ). http://duc.nist.gov/ pubs/2006papers/duc2006.pdf
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [4]
          <string-name>
            <surname>Erkan</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Radev</surname>
            ,
            <given-names>D.R.</given-names>
          </string-name>
          : Lexrank:
          <article-title>Graph-based Lexical Centrality as Salience in Text Summarization</article-title>
          .
          <source>J. of Artificial Intelligence Research</source>
          , (
          <volume>22</volume>
          ), pp.
          <fpage>457</fpage>
          -
          <lpage>479</lpage>
          (
          <year>2004</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [5]
          <string-name>
            <surname>Hu</surname>
            ,
            <given-names>P.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Huang</surname>
            ,
            <given-names>M.L.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Zhu</surname>
            ,
            <given-names>X.Y.</given-names>
          </string-name>
          :
          <article-title>Exploring the Interactions of Storylines from Informative News Events</article-title>
          .
          <source>J. of Computer Science and Technology</source>
          ,
          <volume>29</volume>
          (
          <issue>3</issue>
          ), pp.
          <fpage>502</fpage>
          -
          <lpage>518</lpage>
          (
          <year>2014</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [6]
          <string-name>
            <surname>Radev</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Jing</surname>
            ,
            <given-names>H.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Budzikowska</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          :
          <article-title>Centroidbased Summarization of Multiple Documents: Sentence Extraction, Utility-Based Evaluation, and User Studies</article-title>
          .
          <source>Proc. of the 2000 NAACL-ANLP Workshop on Automatic summarization. Seattle</source>
          . pp.
          <fpage>21</fpage>
          -
          <lpage>30</lpage>
          (
          <year>2000</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [7]
          <string-name>
            <surname>Radev</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>McKeown</surname>
            ,
            <given-names>K.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Hovy</surname>
          </string-name>
          , E.:
          <article-title>Introduction to the Special Issue on Summarization</article-title>
          .
          <source>Computational linguistics</source>
          ,
          <volume>28</volume>
          (
          <issue>4</issue>
          ). pp.
          <fpage>399</fpage>
          -
          <lpage>408</lpage>
          (
          <year>2002</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [8]
          <string-name>
            <surname>Shahaf</surname>
            ,
            <given-names>D.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Guestrin</surname>
            ,
            <given-names>C.</given-names>
          </string-name>
          :
          <article-title>Connecting Two (or Less) dots: Discovering Structure in News Articles</article-title>
          .
          <source>ACM Transactions on Knowledge Discovery from Data (TKDD)</source>
          .
          <volume>5</volume>
          (
          <issue>4</issue>
          ), pp.
          <fpage>24</fpage>
          -
          <lpage>54</lpage>
          (
          <year>2012</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [9]
          <string-name>
            <surname>Tran</surname>
            ,
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Alrifai</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Herder</surname>
          </string-name>
          , E.:
          <article-title>Timeline Summarization from Relevant Headlines</article-title>
          . Hanbury A.,
          <string-name>
            <surname>Kazai</surname>
            <given-names>G.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Rauber</surname>
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Fuhr</surname>
            <given-names>N</given-names>
          </string-name>
          . (eds) Advances in Information Retrieval.
          <source>ECIR 2015. Lecture Notes in Computer Science</source>
          ,
          <volume>9022</volume>
          . Springer, Cham. pp.
          <fpage>245</fpage>
          -
          <lpage>256</lpage>
          (
          <year>2015</year>
          ). doi:
          <volume>10</volume>
          .1007/978-3-
          <fpage>319</fpage>
          -16354-3_
          <fpage>26</fpage>
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [10]
          <string-name>
            <surname>Yan</surname>
            ,
            <given-names>R.</given-names>
          </string-name>
          et al.:
          <article-title>Evolutionary Timeline Summarization: a Balanced Optimization Framework via Iterative Substitution</article-title>
          .
          <source>Proc. of the 34th Int. ACM SIGIR Conf. on Research and Development in Information Retrieval</source>
          . Beijing, China.
          <source>July 24- 28</source>
          ,
          <year>2011</year>
          . ACM. pp.
          <fpage>745</fpage>
          -
          <lpage>754</lpage>
          (
          <year>2011</year>
          ). doi:
          <volume>10</volume>
          .1145/2009916.2010016
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [11]
          <string-name>
            <surname>Абрамова</surname>
            ,
            <given-names>Н.Н.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Абрамов</surname>
          </string-name>
          , В.Е.:
          <article-title>Автоматическое составление обзорных рефератов новостных сюжетов. Труды 9-ой Всерос. науч</article-title>
          . конф. «
          <article-title>Электронные библиотеки: перспективные методы и технологии</article-title>
          , электронные коллекции» - RCDL'
          <year>2007</year>
          ,
          <string-name>
            <surname>Переславль-Залесский</surname>
          </string-name>
          , Россия. сс.
          <volume>131</volume>
          -
          <fpage>141</fpage>
          (
          <year>2007</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [12]
          <string-name>
            <surname>Алексеев</surname>
            ,
            <given-names>А.А.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Лукашевич</surname>
          </string-name>
          , Н.В.:
          <article-title>Автоматическое порождение обновления к аннотации новостного кластера</article-title>
          .
          <source>Труды 12й Всерос</source>
          . науч. конф. «
          <article-title>Электронные библиотеки: перспективные методы и технологии</article-title>
          , электронные коллекции» - RCDL'
          <year>2010</year>
          , Казань, Россия. сс.
          <volume>81</volume>
          -
          <fpage>91</fpage>
          (
          <year>2010</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [13]
          <string-name>
            <surname>Браславский</surname>
            <given-names>П.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Густелев</surname>
          </string-name>
          , В.:
          <article-title>Система автоматического реферирования новостных сообщений на основе машинного обучения</article-title>
          .
          <source>Труды Девятой Всерос. науч. конф</source>
          . - RCDL'
          <year>2007</year>
          ,
          <string-name>
            <surname>Переславль-Залесский</surname>
          </string-name>
          , Россия. Сс.
          <volume>142</volume>
          -
          <fpage>147</fpage>
          (
          <year>2007</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [14]
          <string-name>
            <surname>Добров</surname>
            ,
            <given-names>Б.В.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Павлов</surname>
          </string-name>
          , А.М.:
          <article-title>Исследование качества базовых методов кластеризации новостного потока в суточном временном окне</article-title>
          .
          <source>Труды</source>
          <volume>12</volume>
          -й Всерос. науч. конф. «
          <article-title>Электронные библиотеки: перспективные методы и технологии</article-title>
          , электронные коллекции» - RCDL'
          <year>2010</year>
          , Казань, Россия. сс.
          <volume>287</volume>
          -
          <fpage>295</fpage>
          (
          <year>2010</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <surname>Тарасов</surname>
          </string-name>
          , С.Д.:
          <article-title>Исследование и оптимизация параметров алгоритма Manifold Ranking на основе метрики автоматической оценки качества обзорного реферирования ROUGE-RUS. Труды XI Всерос. науч</article-title>
          . конф. «
          <article-title>Электронные библиотеки. Перспективные методы и технологии, электронные коллекции»</article-title>
          .
          <source>Петрозаводск. сс. 86-93</source>
          (
          <year>2009</year>
          )
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <surname>Шаграев</surname>
          </string-name>
          , А.:
          <article-title>Автоматическое аннотирование новостного потока</article-title>
          .
          <source>Семинар: Natural Language Processing (автоматическая обработка естественного языка)</source>
          .
          <source>Яндекс. 26.11</source>
          .
          <year>2011</year>
          (
          <year>2011</year>
          ). https://www.slideshare.net/NataliaOstapuk/ ss10380447?ref=http://nlpseminar.ru/lecture54/
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>