-

Формирование исторической справки по корпусу новостей с учетом структуры динамики развития новостного сюжета

tikhomirov.mm@gmail.com

tikhomirov.mm@gmail.com 0 1 0 Lomonosov Moscow State University , Moscow , Russia 1 Boris Dobrov

165 171

The paper describes the research carried out on the subject of the formation of the temporal summary. Algorithms have been developed and a software system has been implemented that allows you to automatically create a timeline summary for the body of news articles for the selected news document. A study of three new factors, taking into account the structure of the dynamics of news story development.

В связи с взрывным ростом количества информации в интернете возникает задача выделения и автоматического обобщения полезной информации в поступающем потоке данных.

Востребованными задачами являются задачи реферирования новостных сюжетов – множества новостных сообщений различных источников, посвященных описанию некоторого события. Такие задачи часто решаются новостными агрегаторами, например, Яндекс.Новости [ 17 ], для более полного представления описания произошедшего события. Типичное «время жизни» новостного сюжета (время активного обсуждения произошедшего события) обычно сутки–двое.

Отметим, что некоторые новостные сюжеты имеют «историю» в виде множества предшествующих событий, произошедших в различные моменты времени и в той или иной мере связанных между собой.

Для таких длительных сюжетов, где сама их Труды XIX Международной конференции «Аналитика и управление данными в областях с интенсивным использованием данных» (DAMDID/ RCDL’2017), Москва, Россия, 10–13 октября 2017 года длительность (повторное возвращение к одной и той же теме) в определенной мере свидетельствует об их значимости, является актуальной задача формирования «исторических справок».

Историческая справка – это тип обзорного реферата (обзорной аннотации), включающего последовательное изложение существенных деталей исследуемого сюжета. Подобная аннотация может содержать в себе основные этапы, события и факты исходного сюжета. Построение подобных аннотаций представляет собой сложную работу, которую выполняют журналисты или аналитики, и, соответственно, автоматизация подобного процесса является востребованной задачей.

В рамках данной работы рассмотрены проблемы и решения при автоматическом построении исторических справок.

Рассматривается ситуация, когда пользователя новостного агрегатора заинтересовала какая-то новость (новостное сообщение), и он хочет получить историческую справку по сюжету, обсуждаемому в данном новостном сообщении, т. е. результатом должен быть упорядоченный по времени перечень описаний произошедших ранее ключевых событий.

Задача рассматривается как задача обзорного реферирования (multi-document summarization) по запросу на представительной коллекции новостных документов. В качестве запроса рассматривается значительно меньше по стандартным мерам сходства. текст новостного сообщения. Требуется выявлять объекты [ 1, 9 ], например, учитывая структурные больших лингвистических самолета в Тайване. русском языке за первую половину 2015 года была разработана и реализована система, позволяющая автоматизировать процесс построения исторической особенности потока документов [ 5, 8 ]. 3 Постановка задачи 3.1 Общее описание Задача построения исторической справки ориентирована на запрос. В самом общем случае пользователь в качестве запроса имеет новостной документ, рассматриваться поэтому как данная задача задача

будет автоматического построения аннотации описанного типа по запросу в виде текстового документа.

На выходе работы системы должна быть аннотация из предложений. Связность между предложениями не требуется.

Как пример построенной исторической справки можно рассмотреть аннотацию (таблица 1), построенную по событию, связанному с крушением 1 2 3 … n Таблица 1. Крушение самолета на Тайване Самолет ATR 72 авиакомпании TransAsia потерпел крушение 4 февраля на Тайване. Операция по поиску жертв крушения самолёта TransAsia Airways завершена, в результате происшествия погибли 35 человек. Члены экипажа самолета авиакомпании TransAsia Airways, потерпевшего крушение в феврале на Тайване, отключили работающий двигатель, после того, как второй перестал работать … Совет по авиационной безопасности Тайваня опубликовал отчет о крушении самолета компании TransAsia Airways в феврале этого года, в результате которого погибли 35 человек.

В цели работы входит исследование влияния различных факторов на качество построения аннотации, поэтому необходим набор эталонных аннотаций, на которых будет оцениваться качество работы системы. 3.1 Математическая постановка задачи

Описанную выше задачу можно формализовать следующим способом: имеются набор запросов = { 1, 2, … , } и 4.1 Исследуемые факторы

В рамках работы исследовались следующие факторы: • стратегия расширения запроса; • учет временного характера новостных сюжетов. • учет структуры новостной статьи в виде перевернутой пирамиды. 4.2 Стратегия расширения запроса

Информации, которую можно получить из запроса-документа, может быть не достаточно, чтобы эффективно построить историческую справку. Этот факт является следствием того, что большинство новостных статей является не общим описанием события, а обсуждением какого-то частого происшествия или факта. Чтобы избежать подобной проблемы, был разработан алгоритм, использующий кластер близких запросу документов. Алгоритм: 1. Для запроса-документа на основе статистической информации по коллекции (индекс) строится вектор наиболее весомых по tf-idf лемм (нормализованных словоформ) документа. 2. По построенному вектору происходит поиск близких документов в коллекции. 3. По кластеру извлеченных документов происходит анализ важности лемм на основе tf-idf: a. Для каждого документа

рассматриваются лучшие t лемм. b. Происходит ранжирование лемм на основании частоты встречаемости в лучших t леммах каждого документа. c. Из сортированного списка выбирается k наиболее весомых лемм. 4. Повторяются пункты 2–3 (повторное расширение запроса). 5. На выходе имеется вектор из k лемм, который отражает семантику документа-запроса.

Как пример работы модуля расширения запроса можно рассмотреть этапы работы алгоритма на новостной статье, посвященной теракту в Париже (порядок в списке обратный по отношению к весу слова): Олланд назвал нападение на Charlie Herbo терактом Президент Франции Франсуа Олланд назвал терактом нападение на сотрудников сатирического журнала Charlie Herbo в центре Парижа. По последним данным, в результате стрельбы погибли 11 человек, еще четверо находятся в критическом состоянии. ... Первичный запрос, полученный на этапе 1: 1. Posten, Jyllands-posten, Jyllands, Herbo,

Charlie, Олланд. Единожды расширенный запрос, после этапа 3: 2. Перепечатать, Скандальная, Еженедельник, Карикатура, Олланд, Сатирический, Теракт, Charlie, Herbo.

Как видно, последний вариант включает в себя наиболее важные элементы. 4.3 Учет структуры новостной статьи в виде перевернутой пирамиды. Рисунок 1 Перевернутая пирамида «идеального» новостного сообщения

Стратегия написания качественной новостной статьи часто опирается на структуру вида «перевернутая пирамида», Рис. 1.

В дополнительной информации часто встречается описание произошедших ранее событий по теме документа.

Учет данной структуры происходит в 2 аспектах: 1. Построение графа из документов, близких к запросу, где ребром является неявная ссылка между окончанием одной статьи и началом другой статьи, которая была опубликована ранее.

2. Повышение веса предложений, которые располагаются в верхней части новостной статьи и нижней части. Выделение нижней части происходит из-за того, что предложения оттуда часто резюмируют информацию из заголовков других статей.

Алгоритм работы первого способа учета структуры «перевернутая пирамида» выглядит следующим образом:

1. Для набора документов происходит построение матрицы близости между окончаниями и началами документов.

2. При превышении заданного порога считается, что присутствует ссылка между документами и .

3. На построенном графе происходит ранжирование документов путем использования известного алгоритма LexRank [ 4 ]. Веса документов нормируются.

Итого, на выходе имеется ранжированный список документов

и набор из новых запросов, учет которых будет осуществлен совместно с учетом временной структуры новостного сюжета.

Второй способ учета структуры перевернутой пирамиды реализован в функции ранжирования итоговых предложений, раздел 4.6. ранее построенных расширенных запросов на метки предложений из середины документа. из , Рис. 3. ранжированием документов. Рисунок 4 Схема работы системы 4.6 Модуль поиска релевантных документов Поиск релевантных документов происходит путем поиска близких документов для построенного запроса на этапе формирования запроса, описанным в пункте 4.2. Использовалась поисковой машины NearIdx 8, разработанная ООО «Лаборатория информационных исследований». 4.7 Модуль отбора предложений Данный модуль занимается

непосредственно предложений из

извлеченных Ранжирование происходит модифицированной версией алгоритма

MMR, которая прямо или косвенно учитывает все факторы, описанные в 4.1:

= − , где – член, описывающий положительную составляющую формулы, которая зависит близости предложения к запросу, веса документа, из которого взято предложение, и позиции предложения в документе; = (1 + ⁡ ∗ )∗ ⁡ ∗ ⁡ ∗ ( , ), = 1 − 0.5 ∗ sin⁡( ∗⁡ ). | | Параметры и

являются настраиваемыми параметрами алгоритма, – вес документа который входит предложение под индексом , – , в оцениваемое предложение под индексом и с временной меткой , – запрос, отображенный на эту временную метку, – слагаемое, понижающее вес Слагаемое

– штрафное. Оно зависит от близости к уже извлеченным предложениям: = ⁡ (1 − ⁡ )∗ max ( ,⁡ ),

⁡∈⁡ из

– одно из извлеченных предложений, множество всех уже извлеченных предложений. Обработка множества предложений, пришедших модуля поиска релевантных документов, происходит в хронологическом порядке, на каждом этапе обрабатывается подмножество ⁡ ∈ , связанное с меткой ⁡ ∈ . Для каждого этапа имеется ограничение на извлечение максимум предложений за сутки. (2) от (3) (4) (5) – Рисунок 2 Зависимость количества публикаций новостного сюжета от времени 4.4 сюжетов Учет временного характера новостных

Так как любое событие зависит от времени, то публикации и количество публикаций тоже зависят от времени. Как пример, на Рис. 2 изображен график зависимости публикаций по событию «Землетрясение в Непале». Чтобы учесть данный фактор, для набора документов

происходит следующее: 1.

Вся временная шкала события разбивается по суткам с метками

= { 1, 2, … , }. 4.8 Мера близости составлялись исторические справки, размер которых, в среднем, около 15 предложений. перевернутой пирамиды;

full – importance + расчет близости на этапе (9) построения графа происходит с помощью word2vec Рисунок 5 Отрывок сюжета с interfax (http://www.interfax.ru/story/151/page_3) Итого, в результате построенная тестовая коллекция содержит в себе исторические справки по 15 событиям. 6 Результаты Оценивались 6 конфигураций системы:

baseline – простой подход к аннотированию, без учета рассмотренных факторов, с использованием в качестве метода ранжирования обычного MMR; querry-ex – добавление к baseline стратегии расширения запроса, но без повторного расширения double-ex – querry-ex + двойное расширение temporal – double-ex + учет временного importance – temporal + учет структуры ( , )= ⁡ ( ,⁡⁡⁡ ).

| |∗| | Для расчета близости на этапе ранжирования предложений для них использовалось стандартное векторное представление, полученное из индекса, где вес элемента – это tf-idf. , – сумма ROUGE-N и ее F-мера аналога данных для процедуры

Так как для процедуры оценки качества работы системы необходим тестовый набор аннотаций, в рамках исследования были вручную подготовлены исторические

Проведены исследования по тематике построения исторических справок. Были рассмотрено три фактора, которые могут влиять на качество построения аннотаций. Получены количественные и качественные результаты.

По результатам проведенных исследований оказалось, что выбор стратегии расширения запроса оказывает наибольшее влияние на качество построение аннотации подобного типа. Учет временного характера сюжета совместно с учетом структуры новостной статьи также улучшает результаты по метрикам и , что говорит о том, что данные факторы способны положительно влиять на качество построения исторических справок. Литература

Дважды расширенный запрос после этапа 5: 3 . Журнал , Мухаммед, Сатирический, Атака, Пророк, Теракт, Париж, Карикатура, Олланд, Herbo, Charlie.

[1]

Binh

Tran , G. , Alrifai , M. ,

Quoc

Nguyen , D. : Predicting Relevant News Events for Timeline Summaries . Proc. of the 22nd Int. Conf. on World Wide Web. ACM . pp. 91 - 92 ( 2013 )

[2] Carbonell, J., Goldstein , J.: The Use of MMR, Diversity-based Reranking for Reordering Documents and Producing Summaries . Proc. of the 21st Annual Int. ACM SIGIR Conf. on Research and Development in Information Retrieval. ACM . pp. 335 - 336 ( 1998 )

[3] Dang , H.T. : Overview of DUC 2006 . Proc. of the document understanding Workshop . Presented at HLT-NAACL 2006 ( 2006 ). http://duc.nist.gov/ pubs/2006papers/duc2006.pdf

[4] Erkan , G. , Radev , D.R. : Lexrank: Graph-based Lexical Centrality as Salience in Text Summarization . J. of Artificial Intelligence Research , ( 22 ), pp. 457 - 479 ( 2004 )

[5] Hu , P. , Huang , M.L. , Zhu , X.Y. : Exploring the Interactions of Storylines from Informative News Events . J. of Computer Science and Technology , 29 ( 3 ), pp. 502 - 518 ( 2014 )

[6] Radev , D. , Jing , H. , Budzikowska , M. : Centroidbased Summarization of Multiple Documents: Sentence Extraction, Utility-Based Evaluation, and User Studies . Proc. of the 2000 NAACL-ANLP Workshop on Automatic summarization. Seattle . pp. 21 - 30 ( 2000 )

[7] Radev , D. , McKeown , K. , Hovy , E.: Introduction to the Special Issue on Summarization . Computational linguistics , 28 ( 4 ). pp. 399 - 408 ( 2002 )

[8] Shahaf , D. , Guestrin , C. : Connecting Two (or Less) dots: Discovering Structure in News Articles . ACM Transactions on Knowledge Discovery from Data (TKDD) . 5 ( 4 ), pp. 24 - 54 ( 2012 )

[9] Tran , G. , Alrifai , M. , Herder , E.: Timeline Summarization from Relevant Headlines . Hanbury A., Kazai

, Rauber

, Fuhr

. (eds) Advances in Information Retrieval. ECIR 2015. Lecture Notes in Computer Science , 9022 . Springer, Cham. pp. 245 - 256 ( 2015 ). doi: 10 .1007/978-3- 319 -16354-3_ 26

[10] Yan , R. et al.: Evolutionary Timeline Summarization: a Balanced Optimization Framework via Iterative Substitution . Proc. of the 34th Int. ACM SIGIR Conf. on Research and Development in Information Retrieval . Beijing, China. July 24- 28 , 2011 . ACM. pp. 745 - 754 ( 2011 ). doi: 10 .1145/2009916.2010016

[11] Абрамова , Н.Н. , Абрамов , В.Е.: Автоматическое составление обзорных рефератов новостных сюжетов. Труды 9-ой Всерос. науч . конф. « Электронные библиотеки: перспективные методы и технологии , электронные коллекции» - RCDL' 2007 , Переславль-Залесский , Россия. сс. 131 - 141 ( 2007 )

[12] Алексеев , А.А. , Лукашевич , Н.В.: Автоматическое порождение обновления к аннотации новостного кластера . Труды 12й Всерос . науч. конф. « Электронные библиотеки: перспективные методы и технологии , электронные коллекции» - RCDL' 2010 , Казань, Россия. сс. 81 - 91 ( 2010 )

[13] Браславский

П.

, Густелев , В.: Система автоматического реферирования новостных сообщений на основе машинного обучения . Труды Девятой Всерос. науч. конф . - RCDL' 2007 , Переславль-Залесский , Россия. Сс. 142 - 147 ( 2007 )

[14] Добров , Б.В. , Павлов , А.М.: Исследование качества базовых методов кластеризации новостного потока в суточном временном окне . Труды 12 -й Всерос. науч. конф. « Электронные библиотеки: перспективные методы и технологии , электронные коллекции» - RCDL' 2010 , Казань, Россия. сс. 287 - 295 ( 2010 )

[16] Тарасов , С.Д.: Исследование и оптимизация параметров алгоритма Manifold Ranking на основе метрики автоматической оценки качества обзорного реферирования ROUGE-RUS. Труды XI Всерос. науч . конф. « Электронные библиотеки. Перспективные методы и технологии, электронные коллекции» . Петрозаводск. сс. 86-93 ( 2009 )

[17] Шаграев , А.: Автоматическое аннотирование новостного потока . Семинар: Natural Language Processing (автоматическая обработка естественного языка) . Яндекс. 26.11 . 2011 ( 2011 ). https://www.slideshare.net/NataliaOstapuk/ ss10380447?ref=http://nlpseminar.ru/lecture54/