Формирование исторической справки по корпусу новостей с учетом структуры динамики развития новостного сюжета © М.М. Тихомиров © Б.В. Добров Московский государственный университет имени М.В. Ломоносова, Москва, Россия tikhomirov.mm@gmail.com dobrov_bv@srcc.msu.ru Аннотация. Описаны проведенные исследования по тематике формирования исторической справки. Разработаны алгоритмы и реализована программная система, позволяющая автоматически создавать историческую справку по корпусу новостных статей для выбранного новостного документа. Проведено исследование трех новых факторов, учитывающих структуру динамики развития новостного сюжета. Ключевые слова: обзорное реферирование, историческая справка, информационный поиск. Using News Corpora for Temporal Summary Formation © Mikhail Tikhomirov © Boris Dobrov Lomonosov Moscow State University, Moscow, Russia tikhomirov.mm@gmail.com dobrov_bv@srcc.msu.ru Abstract. The paper describes the research carried out on the subject of the formation of the temporal summary. Algorithms have been developed and a software system has been implemented that allows you to automatically create a timeline summary for the body of news articles for the selected news document. A study of three new factors, taking into account the structure of the dynamics of news story development. Keywords: timeline summarization, multi-document summarization, information retrieval. длительность (повторное возвращение к одной и той 1 Введение же теме) в определенной мере свидетельствует об их В связи с взрывным ростом количества значимости, является актуальной задача информации в интернете возникает задача выделения формирования «исторических справок». и автоматического обобщения полезной информации Историческая справка – это тип обзорного в поступающем потоке данных. реферата (обзорной аннотации), включающего Востребованными задачами являются задачи последовательное изложение существенных деталей реферирования новостных сюжетов – множества исследуемого сюжета. Подобная аннотация может новостных сообщений различных источников, содержать в себе основные этапы, события и факты посвященных описанию некоторого события. Такие исходного сюжета. Построение подобных аннотаций задачи часто решаются новостными агрегаторами, представляет собой сложную работу, которую например, Яндекс.Новости [17], для более полного выполняют журналисты или аналитики, и, представления описания произошедшего события. соответственно, автоматизация подобного процесса Типичное «время жизни» новостного сюжета (время является востребованной задачей. активного обсуждения произошедшего события) В рамках данной работы рассмотрены проблемы и обычно сутки–двое. решения при автоматическом построении Отметим, что некоторые новостные сюжеты исторических справок. имеют «историю» в виде множества Рассматривается ситуация, когда пользователя предшествующих событий, произошедших в новостного агрегатора заинтересовала какая-то различные моменты времени и в той или иной мере новость (новостное сообщение), и он хочет получить связанных между собой. историческую справку по сюжету, обсуждаемому в Для таких длительных сюжетов, где сама их данном новостном сообщении, т. е. результатом должен быть упорядоченный по времени перечень Труды XIX Международной конференции описаний произошедших ранее ключевых событий. «Аналитика и управление данными в областях с Задача рассматривается как задача обзорного интенсивным использованием данных» реферирования (multi-document summarization) по (DAMDID/ RCDL’2017), Москва, Россия, 10–13 запросу на представительной коллекции новостных октября 2017 года 165 документов. В качестве запроса рассматривается значительно меньше по стандартным мерам сходства. текст новостного сообщения. Требуется выявлять наиболее характерные На корпусе из 2 миллионов новостных статей на объекты [1, 9], например, учитывая структурные русском языке за первую половину 2015 года была особенности потока документов [5, 8]. разработана и реализована система, позволяющая автоматизировать процесс построения исторической 3 Постановка задачи справки. Проведено исследование трех новых 3.1 Общее описание факторов, позволяющих за счет учета структуры новостного корпуса улучшить результаты работы Задача построения исторической справки системы. Оценка производилась на 15 новостных ориентирована на запрос. В самом общем случае сюжетах, из которых для 5 эталонные аннотации пользователь в качестве запроса имеет новостной были сформированы одним из авторов, а другие 10 документ, поэтому данная задача будет взяты с сайта interfax.ru рассматриваться как задача автоматического построения аннотации описанного типа по запросу в 2 Обзор виде текстового документа. На выходе работы системы должна быть аннотация из 𝑛 предложений. 2.1 Задача обзорного аннотирования Связность между предложениями не требуется. В настоящее время предложено достаточно Как пример построенной исторической справки большое количество методов автоматического можно рассмотреть аннотацию (таблица 1), обзорного реферирования [3]. Известны методы как с построенную по событию, связанному с крушением использованием больших лингвистических самолета в Тайване. онтологий [15], в том числе автоматически пополняемых в процессе анализа [12], так и на основе Таблица 1. Крушение самолета на Тайване 1 Самолет ATR 72 авиакомпании TransAsia статистических свойств текстов [16], машинного потерпел крушение 4 февраля на Тайване. обучения [13, 17]. 2 Операция по поиску жертв крушения самолёта Существенными проблемами при составлении TransAsia Airways завершена, в результате аннотации новостного кластера являются [3, 7, 11]: происшествия погибли 35 человек. • обеспечение полноты представления информации, 3 Члены экипажа самолета авиакомпании TransAsia в том числе наиболее свежей информации; Airways, потерпевшего крушение в феврале на • снижение повторов при представлении Тайване, отключили работающий двигатель, после информации; того, как второй перестал работать • обеспечение связности и понятности … … n Совет по авиационной безопасности Тайваня представляемой информации. опубликовал отчет о крушении самолета Для определения избыточности в порождаемых компании TransAsia Airways в феврале этого года, аннотациях используются различные меры сходства в результате которого погибли 35 человек. между предложениями. Одним из распространенных подходов является предварительная кластеризация В цели работы входит исследование влияния выделение близких по содержанию кластеров различных факторов на качество построения предложений [6]. Другим подходом для уменьшения аннотации, поэтому необходим набор эталонных избыточности являются сравнение предложений- аннотаций, на которых будет оцениваться качество кандидатов с предложениями, уже попавшими в работы системы. аннотацию, и оценка новой (непохожей) информации, 3.1 Математическая постановка задачи например, подход Maximal Marginal Relevance (MMR) [2]. Описанную выше задачу можно формализовать следующим способом: имеются набор запросов 𝑄 = 2.2 Историческая справка {𝑞1 , 𝑞2 , … , 𝑞𝑚 } и ассоциированный с ним набор 𝑞 𝑞 𝑞 Задача построения исторических справок имеет эталонных аннотаций 𝐷𝑔 = {𝐷𝑔 1 , 𝐷𝑔 2 , … , 𝐷𝑔 𝑚 }. ряд отличий от стандартной задачи обзорного Система в ответ на запросы 𝑄 алгоритмом 𝐴 реферирования. генерирует набор исторических справок 𝐷𝐴 = Cначала необходимо определить документы, по 𝑞 𝑞 𝑞 {𝐷𝐴 1 , 𝐷𝐴 2 , … , 𝐷𝐴 𝑚 }. которым будет строиться аннотация. Если Тогда задача построения исторической справки стандартный новостной сюжет обычно образован сводится к задаче максимизации функционала близкими документами, посвященными одному 𝑞 𝑞 ∑𝑖=|𝑄| 𝑀(𝐷𝐴𝑖 ,𝐷𝑔 𝑖 ) событию, которые могут быть получены ⁡⁡ 𝑖=1 |𝑄| → max,⁡⁡ (1) применением одного из известных методов где 𝑀 – функция близости между аннотациями. кластеризации [10, 14]. Максимизация происходит по выбору алгоритма 𝐴 и Для больших коллекций применение методов по всем параметрам выбранного алгоритма. кластеризации не оправдано. Во-первых, такую задачу придется решать многократно на огромных коллекциях документов. Во-вторых, степень близости между документами, которые описывают далекие по времени, но связанные события, может быть 166 4 Предлагаемый подход 4.1 Исследуемые факторы Дважды расширенный запрос после этапа 5: 3. Журнал, Мухаммед, Сатирический, Атака, В рамках работы исследовались следующие Пророк, Теракт, Париж, Карикатура, факторы: Олланд, Herbo, Charlie. • стратегия расширения запроса; • учет временного характера новостных сюжетов. Как видно, последний вариант включает в себя наиболее важные элементы. • учет структуры новостной статьи в виде перевернутой пирамиды. 4.3 Учет структуры новостной статьи в виде перевернутой пирамиды. 4.2 Стратегия расширения запроса Информации, которую можно получить из запроса-документа, может быть не достаточно, чтобы эффективно построить историческую справку. Этот факт является следствием того, что большинство новостных статей является не общим описанием события, а обсуждением какого-то частого происшествия или факта. Чтобы избежать подобной проблемы, был разработан алгоритм, использующий кластер близких запросу документов. Алгоритм: 1. Для запроса-документа на основе статистической информации по коллекции (индекс) строится вектор наиболее весомых по tf-idf лемм (нормализованных словоформ) документа. 2. По построенному вектору происходит поиск близких документов в коллекции. 3. По кластеру извлеченных документов происходит анализ важности лемм на основе tf-idf: a. Для каждого документа Рисунок 1 Перевернутая пирамида «идеального» рассматриваются лучшие t лемм. новостного сообщения b. Происходит ранжирование лемм на основании частоты встречаемости в Стратегия написания качественной новостной лучших t леммах каждого документа. статьи часто опирается на структуру вида c. Из сортированного списка «перевернутая пирамида», Рис. 1. выбирается k наиболее весомых В дополнительной информации часто встречается лемм. описание произошедших ранее событий по теме 4. Повторяются пункты 2–3 (повторное документа. расширение запроса). Учет данной структуры происходит в 2 аспектах: 5. На выходе имеется вектор из k лемм, который 1. Построение графа из документов, близких к отражает семантику документа-запроса. запросу, где ребром является неявная ссылка между Как пример работы модуля расширения запроса окончанием одной статьи и началом другой статьи, можно рассмотреть этапы работы алгоритма на которая была опубликована ранее. новостной статье, посвященной теракту в Париже 2. Повышение веса предложений, которые (порядок в списке обратный по отношению к весу располагаются в верхней части новостной статьи и слова): нижней части. Выделение нижней части происходит Олланд назвал нападение на Charlie Herbo из-за того, что предложения оттуда часто терактом резюмируют информацию из заголовков других Президент Франции Франсуа Олланд назвал статей. терактом нападение на сотрудников Алгоритм работы первого способа учета сатирического журнала Charlie Herbo в центре структуры «перевернутая пирамида» выглядит Парижа. По последним данным, в результате следующим образом: стрельбы погибли 11 человек, еще четверо 1. Для набора документов 𝐷 происходит находятся в критическом состоянии. ... построение матрицы близости между окончаниями и началами документов. Первичный запрос, полученный на этапе 1: 2. При превышении заданного порога 1. Posten, Jyllands-posten, Jyllands, Herbo, считается, что присутствует ссылка между Charlie, Олланд. документами 𝐷𝑖 и 𝐷𝑗 . Единожды расширенный запрос, после этапа 3: 3. На построенном графе происходит ранжирование документов путем использования 2. Перепечатать, Скандальная, Еженедельник, Карикатура, Олланд, Сатирический, известного алгоритма LexRank [4]. Веса документов Теракт, Charlie, Herbo. нормируются. 167 4. Для наиболее весомых документов различных этапах работы системы. Общая схема производится описанная ранее операция построения работы представлена на Рис. 4. расширенного запроса. 5. Итого, на выходе имеется ранжированный список документов 𝐷 и набор из 𝑝 новых запросов, учет которых будет осуществлен совместно с учетом временной структуры новостного сюжета. Второй способ учета структуры перевернутой пирамиды реализован в функции ранжирования итоговых предложений, раздел 4.6. Рисунок 4 Схема работы системы 4.6 Модуль поиска релевантных документов Поиск релевантных документов происходит путем поиска близких документов для построенного запроса на этапе формирования запроса, описанным в пункте 4.2. Использовалась поисковой машины NearIdx 8, разработанная ООО «Лаборатория информационных Рисунок 2 Зависимость количества публикаций исследований». новостного сюжета от времени 4.7 Модуль отбора предложений 4.4 Учет временного характера новостных сюжетов Данный модуль занимается непосредственно ранжированием предложений из извлеченных Так как любое событие зависит от времени, то документов. публикации и количество публикаций тоже зависят от Ранжирование происходит модифицированной времени. Как пример, на Рис. 2 изображен график версией алгоритма MMR, которая прямо или зависимости публикаций по событию «Землетрясение косвенно учитывает все факторы, описанные в 4.1: в Непале». Чтобы учесть данный фактор, для набора 𝑀𝑀𝑅𝑇𝑠𝑡 = 𝐼𝑁𝐶𝑠𝑡 − 𝐷𝐸𝐶𝑠𝑡 , (2) документов 𝐷 происходит следующее: 𝑖 𝑖 𝑖 1. Вся временная шкала события разбивается где 𝐼𝑁𝐶𝑠𝑡 – член, описывающий положительную 𝑖 по суткам с метками 𝑇 = {𝑡1 , 𝑡2 , … , 𝑡𝑛 }. составляющую формулы, которая зависит от 2. На основании информации о дате близости предложения к запросу, веса документа, из публикации документа каждый документ получает которого взято предложение, и позиции предложения метку из 𝑇. в документе; 3. Происходит фильтрация дней с малым 𝐼𝑁𝐶𝑠𝑡 = (1 + ⁡𝛼 ∗ 𝐼𝑖 ) ∗ ⁡𝛾 ∗ ⁡𝜆 ∗ 𝑆𝑖𝑚(𝑄𝑡 , 𝑆𝑖𝑡 ), (3) 𝑖 количеством публикаций. Это происходит за счет 𝑖∗⁡𝜋 𝛾 = 1 − 0.5 ∗ sin⁡(|𝐷 |). (4) анализа количества публикаций для метки 𝑡𝑖 к 𝑠 максимальному количеству публикаций в любой день Параметры 𝛼 и 𝜆 являются настраиваемыми и суммарному количеству публикаций. параметрами алгоритма, 𝐼𝑖 – вес документа 𝐷𝑠 , в 4. На выходе имеется сортированный список, который входит предложение под индексом 𝑖, 𝑆𝑖𝑡 – где каждый элемент имеет метку 𝑡𝑖 из 𝑇 и набор оцениваемое предложение под индексом 𝑖 и с документов 𝐷𝑖 ⁡ ∈ 𝐷. временной меткой 𝑡, 𝑄𝑡 – запрос, отображенный на Помимо прочего, происходит отображение всех эту временную метку, 𝛾 – слагаемое, понижающее вес ранее построенных расширенных запросов на метки предложений из середины документа. 𝑡𝑖 из 𝑇, Рис. 3. Слагаемое 𝐷𝐸𝐶𝑠𝑡 – штрафное. Оно зависит от 𝑖 близости к уже извлеченным предложениям: 𝐷𝐸𝐶𝑠𝑡 = ⁡ (1 − ⁡𝜆) ∗ max 𝑆𝑖𝑚(𝑆𝑗 ,⁡𝑆𝑖𝑡 ), (5) 𝑖 𝑆𝑗 ⁡∈⁡𝑆 𝑆𝑗 – одно из извлеченных предложений, 𝑆 – множество всех уже извлеченных предложений. Обработка множества предложений, пришедших из модуля поиска релевантных документов, Рисунок 3 Отображение запросов на шкалу времени происходит в хронологическом порядке, на каждом этапе обрабатывается подмножество 𝐷𝑖 ⁡ ∈ 𝐷, 4.5 Схема работы программой системы связанное с меткой 𝑡𝑖 ⁡ ∈ 𝑇. Для каждого этапа имеется Описанные в пунктах 4.1 факторы реализуются на ограничение на извлечение максимум 𝐾 предложений за сутки. 168 4.8 Мера близости 5. На основе отобранных предложений составлялись исторические справки, размер которых, На различных этапах работы программной в среднем, около 15 предложений. системы есть ряд моментов, когда вычисляется мера близости между предложениями. В работе использовались два подхода к расчету близости, использующих косинусную меру близости: (𝑆𝑖 ,⁡⁡⁡𝑆𝑗 ) 𝑆𝑖𝑚𝑐𝑜𝑠 (𝑆𝑖 , 𝑆𝑗 ) = ⁡ |𝑆 |∗|𝑆 |. (6) 𝑖 𝑗 Для расчета близости на этапе ранжирования предложений для них использовалось стандартное векторное представление, полученное из индекса, где вес элемента – это tf-idf. Для расчета близости между окончаниями и началами новостных статей (на этапе построения Рисунок 5 Отрывок сюжета с interfax графа) использовались вектора, полученные с (http://www.interfax.ru/story/151/page_3) помощью word2vec модели, обученной на всей коллекции документов. Итого, в результате построенная тестовая коллекция содержит в себе исторические справки по 5 Оценивание 15 событиям. 5.1 Метрики оценивания 6 Результаты Оценивание работы системы происходило на Оценивались 6 конфигураций системы: нескольких метриках: ROUGE-1 и ROUGE-2, полноте 1. baseline – простой подход к аннотированию, по предложениям (8) и комбинированной метрики (9): |𝑁𝐴 ⁡∩⁡𝑁𝑔 | без учета рассмотренных факторов, с использованием 𝑅𝑂𝑈𝐺𝐸 − 𝑁 = ⁡ |𝑁𝑔 | , (7) в качестве метода ранжирования обычного MMR; где 𝑁𝐴 – множество n-грамм словоформ для 2. querry-ex – добавление к baseline стратегии построенных аннотаций, 𝑁𝑔 – для эталонных расширения запроса, но без повторного расширения запроса; аннотаций; |𝑆𝐴 ⁡≡⁡𝑆𝑔 | 3. double-ex – querry-ex + двойное расширение 𝑃 𝑠𝑒𝑛𝑡 = ⁡ , (8) запроса; |𝑆𝑔 | где 𝑆𝐴 – множество предложений из построенных 4. temporal – double-ex + учет временного аннотаций, 𝑆𝑔 – из эталонных аннотаций, а ≡ характера сюжета; понимается в том смысле, что в результирующем 5. importance – temporal + учет структуры 𝑆𝐴 ⁡ ≡ ⁡ 𝑆𝑔 остаются только те предложения из 𝑆𝐴 , перевернутой пирамиды; эквивалент которых есть в 𝑆𝑔; . 6. full – importance + расчет близости на этапе ⁡⁡⁡⁡𝑉 𝑐𝑜𝑚𝑏 = ⁡0.8 ∗ 𝑅1 + 𝑅2 + 2 ∗ 𝑃 𝑠𝑒𝑛𝑡 , (9) построения графа происходит с помощью word2vec где 𝑅𝑁 – сумма ROUGE-N и ее F-мера аналога модели. ROUGE-NF. Каждая конфигурация настраивалась для 5.2 Подготовка данных для процедуры получения максимального результата по всем оценивания внутренним параметрам системы (см. таблицу 2). Результат измерений качества конфигураций Так как для процедуры оценки качества работы можно увидеть в Таблице 3. системы необходим тестовый набор аннотаций, в рамках исследования были вручную подготовлены Таблица 2 Параметры системы исторические справки. Процедура формирования Название Описание такой коллекции происходила следующим образом: SoftOr Значение параметра soft_or_coef 1. На первом этапе происходил отбор ярких для поисковой машины. событий, которые активно освещались в прессе за KeepL Количество лемм, выбираемых период начала 2015 года. при построении первичного 2. Далее для большинства событий на запроса. информационном ресурсе interfax осуществлялся Количетсво терминов, поиск соответствующего сюжета. Пример – на Рис. 5. KeepT выбираемых при построении первичного запроса. 3. Если соответствующего сюжета на interfax Значение параметра doccnt при нет, происходили изучение материалов по теме и DocCount построении расширенного формирование исторической справки на основе запроса. прочитанных документов. Размер итогового расширенного 4. Сюжеты просматривались в QuerrySize запроса. хронологическом порядке и производился отбор Количество наиболее значимых наиболее информативных предложений. TopLemms лемм, извлекаемых в работе 169 Название Описание самолёта авиакомпании Transasia алгоритма построения Airways, который потерпел расширенного запроса. крушение 4 февраля на Тайване. Значение параметра doccnt при 01.07.2015 Экипаж разбившегося на Тайване DocCount поиске релевантных самолета Transasia Airways документов. отключил двигатели после потери Минимальный размер мощности. MinSentSize предложения. 02.07.2015 Самолет Transasia потерпел MaxSentSize Максимальный размер крушение 4 февраля на Тайване, предложения. потому что пилот по ошибке MinLinkScore Минимальное значение отключил работающий двигатель, близости окончания и заголовка когда второй двигатель заглох. документа для выявления В качестве примера итоговой аннотации можно ссылки. рассмотреть отрывок аннотации по упомянутому Power Параметр D в алгоритме ранее событию падения самолета на Тайване в MethodDFactor LexRank. Таблице 4. Power Параметр eps в алгоритме MethodEps LexRank. 7 Заключение Lambda Значение параметра λ для Проведены исследования по тематике построения 𝑀𝑀𝑅𝑇. исторических справок. Были рассмотрено три Alpha Значение параметра 𝛼 для фактора, которые могут влиять на качество 𝑀𝑀𝑅𝑇. построения аннотаций. Получены количественные и MaxDaily Максимальное количество качественные результаты. AnswerSize предложений, извлекаемых за По результатам проведенных исследований сутки. оказалось, что выбор стратегии расширения запроса Doc Порог, позволяющий отобрать оказывает наибольшее влияние на качество Boundary наиболее важные документы. построение аннотации подобного типа. Учет Init Количество лемм, которые временного характера сюжета совместно с учетом QuerrySize используются для повторного структуры новостной статьи также улучшает расширения запроса. результаты по метрикам 𝑃 𝑠𝑒𝑛𝑡 и 𝑉 𝑐𝑜𝑚𝑏 , что говорит о Таблица 3 Результаты оценивания конфигураций том, что данные факторы способны положительно Конфигурация R1 R2 𝑃 𝑠𝑒𝑛𝑡 𝑉 𝑐𝑜𝑚𝑏 влиять на качество построения исторических справок. baseline 0.499 0.136 0.205 1.153 Литература querry-ex 0.529 0.147 0.216 1.276 double-ex 0.567 0.164 0.260 1.425 [1] Binh Tran, G., Alrifai, M., Quoc Nguyen, D.: temporal 0.564 0.162 0.251 1.400 Predicting Relevant News Events for Timeline importance 0.548 0.158 0.261 1.395 Summaries. Proc. of the 22nd Int. Conf. on World full 0.566 0.162 0.262 1.433 Wide Web. ACM. pp. 91-92 (2013) [2] Carbonell, J., Goldstein, J.: The Use of MMR, Полужирным шрифтом выделены по два лучших Diversity-based Reranking for Reordering результата по каждой метрике. Documents and Producing Summaries. Proc. of the Из Таблицы 3 можно сделать выводы, что 21st Annual Int. ACM SIGIR Conf. on Research and наибольший вклад дало двойное расширение запроса. Development in Information Retrieval. ACM. pp. Факторы временной зависимости событий и 335-336 (1998) структуры новостной статьи показывают неплохие [3] Dang, H.T.: Overview of DUC 2006. Proc. of the результаты при совместном использовании. Также document understanding Workshop. Presented at важную роль играет метрика близости, которая HLT-NAACL 2006 (2006). http://duc.nist.gov/ используется на каждом этапе решения. pubs/2006papers/duc2006.pdf Таблица 4 Отрывок исторической справки на тему [4] Erkan, G., Radev, D.R.: Lexrank: Graph-based падения самолета на Тайване Lexical Centrality as Salience in Text 11.02.2015 Transasia Airways выплатит Summarization. J. of Artificial Intelligence родственникам жертв Research, (22), pp. 457-479 (2004) авиакатастрофы на Тайване по 470 [5] Hu, P., Huang, M.L., Zhu, X.Y.: Exploring the тыс. Interactions of Storylines from Informative News 11.02.2015 Трагедия на Тайване, одна пятая Events. J. of Computer Science and Technology, 29 пилотов тайваньской (3), pp. 502-518 (2014) авиакомпании Transasia не прошли [6] Radev, D., Jing, H., Budzikowska, M.: Centroid- тест на профпригодность. based Summarization of Multiple Documents: 12.02.2015 Спасатели завершили операцию Sentence Extraction, Utility-Based Evaluation, and по поиску жертв крушения User Studies. Proc. of the 2000 NAACL-ANLP 170 Workshop on Automatic summarization. Seattle. pp. [13] Браславский П., Густелев, В.: Система 21-30 (2000) автоматического реферирования новостных [7] Radev, D., McKeown, K., Hovy, E.: Introduction to сообщений на основе машинного обучения. the Special Issue on Summarization. Computational Труды Девятой Всерос. науч. конф. – linguistics, 28 (4). pp. 399-408 (2002) RCDL’2007, Переславль-Залесский, Россия. [8] Shahaf, D., Guestrin, C.: Connecting Two (or Less) Сс. 142-147 (2007) dots: Discovering Structure in News Articles. ACM [14] Добров, Б.В., Павлов, А.М.: Исследование Transactions on Knowledge Discovery from Data качества базовых методов кластеризации (TKDD). 5 (4), pp. 24-54 (2012) новостного потока в суточном временном окне. [9] Tran, G., Alrifai, M., Herder, E.: Timeline Труды 12-й Всерос. науч. конф. «Электронные Summarization from Relevant Headlines. Hanbury библиотеки: перспективные методы и A., Kazai G., Rauber A., Fuhr N. (eds) Advances in технологии, электронные коллекции» – Information Retrieval. ECIR 2015. Lecture Notes in RCDL’2010, Казань, Россия. сс. 287-295 (2010) Computer Science, 9022. Springer, Cham. pp. 245- [15] Лукашевич, Н.В., Добров, Б.В.: Автоматическое 256 (2015). doi: 10.1007/978-3-319-16354-3_26 аннотирование новостных кластеров на основе [10] Yan, R. et al.: Evolutionary Timeline тематического представления. Компьютерная Summarization: a Balanced Optimization лингвистика и интеллектуальные технологии: Framework via Iterative Substitution. Proc. of the По материалам ежегодной Межд. конф. «Диалог 34th Int. ACM SIGIR Conf. on Research and 2009» (Бекасово, 27–31 мая 2009 г.). М.: РГГУ, Development in Information Retrieval. Beijing, Вып. 8 (15), сс. 299-305 (2009) China. July 24– 28, 2011. ACM. pp. 745-754 (2011). [16] Тарасов, С.Д.: Исследование и оптимизация doi: 10.1145/2009916.2010016 параметров алгоритма Manifold Ranking на [11] Абрамова, Н.Н., Абрамов, В.Е.: Автоматическое основе метрики автоматической оценки качества составление обзорных рефератов новостных обзорного реферирования ROUGE-RUS. Труды сюжетов. Труды 9-ой Всерос. науч. конф. XI Всерос. науч. конф. «Электронные «Электронные библиотеки: перспективные библиотеки. Перспективные методы и методы и технологии, электронные коллекции» – технологии, электронные коллекции». RCDL’2007, Переславль-Залесский, Россия. Петрозаводск. сс. 86-93 (2009) сс. 131-141 (2007) [17] Шаграев, А.: Автоматическое аннотирование [12] Алексеев, А.А., Лукашевич, Н.В.: новостного потока. Семинар: Natural Language Автоматическое порождение обновления к Processing (автоматическая обработка аннотации новостного кластера. Труды 12й естественного языка). Яндекс. 26.11.2011 (2011). Всерос. науч. конф. «Электронные библиотеки: https://www.slideshare.net/NataliaOstapuk/ ss- перспективные методы и технологии, 10380447?ref=http://nlpseminar.ru/lecture54/ электронные коллекции» – RCDL’2010, Казань, Россия. сс. 81-91 (2010) 171