-

Поиск референциальных отношений между информационными объектами в процессе автоматического анализа документов

160 166

Предлагается подход к установлению референциальных связей между информационными объектами, получаемыми в результате автоматической обработки текстов абстрактным анализатором. Рассматриваются меры сходства, зависимые от класса объектов, набора определенных ключевых и второстепенных атрибутов, связей с другими объектами и расстоянием между объектами в тексте.

Одной из актуальных задач, стоящих перед компьютерной лингвистикой, является выделение в текстовых документах упоминаний о различных сущностях: персонах, организациях, событиях, местах и пр., а также существующих между ними связей. Перечень таких сущностей, информация о которых извлекается из текста, зависит от предметной области (ПО). Извлекаемые данные унифицируются в виде сети формальных описаний, так называемых информационных объектов (ИО), с целью дальнейшего хранения в базе данных (БД). Каждый информационный объект соответствует некоторому понятию/отношению предметной области и имеет заданную структуру. В дальнейшем будем полагать, что обработка текста производится в рамках некоторой информационной системы, предметная область которой ограничена и явно описана на определенном формальном языке. Важными элементами автоматической обработки текста (АОТ) Труды 14-й Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2012, Переславль-Залесский, Россия, 15-18 октября 2012 г.

Разрешение анафоры – довольно серьезная задача, в решение которой вовлечено множество исследователей, придерживающихся различных точек зрения на проблему и использующих различные подходы: как традиционные (синтаксические и семантические), так и альтернативные (статистические), дающие лишь приблизительный результат [1,3]. Задача отождествления различных наименований одного и того же объекта является более общей, поскольку подобные наименования могут не ссылаться друг на друга, как в случае анафоры, но, тем не менее, также являться кореферентными1.

Для достижения больших полноты и точности результата разработчики систем АОТ стараются использовать дополнительные источники информации о терминах, такие как словари и базы знаний. На сегодняшний день существует множество подобных ресурсов, большую часть которых составляют англоязычные ресурсы. Так, подход к разрешению кореференции, разработанный исследовательской группой Стэнфордского университета, предполагает использование Википедии для выявления этнохоронимов [4]. Сам подход основан на совместном применении нескольких простых фильтров. Система, разработанная на основе этого подхода, на данный момент уже расширена новыми фильтрами [2]. Два из пяти новых фильтров, предложенных в [2], используют внешние ресурсы, такие как WordNet [8], Wikipedia и Freebase [5]. Проекты подобные WordNet и Freebase лучше всего развиты для английского языка, что существенно влияет на исследования в области обработки англоязычных текстов. Тем не менее, несмотря на декларируемую важность и актуальность упомянутых выше задач для процесса АОТ, в силу своей сложности вообще и для русскоязычных текстов в частности, они не всегда решаются целиком. Так, например, схема, описанная в [6] охватывает упоминания персон и организаций, а задача разрешения анафоры, Рис. 1 Схема процедуры идентификации объектов решаемая в местоимениями.

[9] и [11],

ограничивается Не охваченные в процессе АОТ случаи могут послужить причиной появления информационных объектов, собранных на основе кореферентных выражений. Такие информационные объекты мы по аналогии будем называть кореферентными или тождественными; в данном случае это будет означать, что два (или более) объекта содержат различные части информации о некоей внеязыковой сущности ПО.

В статье предлагается подход к установлению кореферентности уже не языковых выражений, а информационных объектов, собранных на их основе. Информационные объекты воспринимаются как гипотезы о реальном объекте заданной ПО.

Предлагаемый подход позволяет абстрагироваться от технологии обработки текста, налагая некоторые требования лишь на формат самих ИО, определяемые способом описания онтологии ПО [7] (такие как разделение атрибутов на ключевые и второстепенные; наличие только бинарных отношений между объектами и др.) 2 Поиск и идентификация информационных объектов

Задача установления референциальных отношений между ИО рассматривается здесь в контексте другой более объемной задачи идентификации объектов – разрешения контекстной омонимии, являющейся одним из побочных эффектов АОТ. Контекстная омонимия проявляется в наличии двух и более вариантов отождествления полученных из текста информационных объектов с объектами базы данных информационной системы. Проблема идентификации объектов и метод ее решения описаны в [10]. На рис. 1 приведена общая схема метода.

Кратко, процесс идентификации ИО состоит из следующих этапов:  Первичный анализ. Извлеченные из документа ИО попадают в компонент первичного анализа, где проходят проверки на наличие кореференции и на совпадение по кортежу ключевых атрибутов с объектами БД. Те ИО, для которых удалось установить совпадение с единственным объектом БД или для которых набор ключевых атрибутов полностью определен, считаются идентифицированными.  Идентификация. Оставшиеся ИО попадают в компонент идентификации, где коллекции наиболее близких к ним объектов БД, при необходимости расширяемые по иерархии классов онтологии и/или другими отношениями онтологии, подвергаются фильтрации.  Расчет достоверности. Разрешение противоречий при наполнении БД между старыми и новыми данными, посредством вычисления специального параметра, количественно выражающего достоверность того или иного атрибута или связи. 3 Разрешение кореференции на уровне объектов

Процесс разрешение кореференции является частью процедуры идентификации объектов, сосредоточенной в компоненте первичного анализа. Алгоритм установления кореференции или референциального тождества объектов включает в себя установление степени сходства объектов, построение множества гипотетических эквивалентов для каждого объекта и объединение действительно кореферентных объектов. 3.1 Степень сходства информационных объектов

Чтобы сделать выводы о наличии или отсутствии референциального тождества между теми или иными объектами, необходимо каким-то образом сопоставить их друг другу, сравнить их атрибуты и связи. Необходима мера, выражающая степень сходства двух объектов. Введем такую меру и назовем ее коэффициентом сходства информационных объектов (similarity index), где q1 и q2 – объекты, которые нужно сравнить.

Величина коэффициента сходства зависит от аргументов и параметра и вычисляется по следующей формуле: ( 1 )

Согласно принятой ранее договоренности, предметная область описывается некоторой онтологией , а информационные объекты и их отношения являются экземплярами классов ее понятий. Одно из ограничений, налагаемых на ИО, заключается в том, что объект (отношение) может быть экземпляром единственного класса. Значение подвыражения характеризует зависимость величины от онтологии, а именно – взаимного расположения классов понятий, экземплярами которых являются объекты q1 и q2, в ее иерархическом древе. Можно сказать, что – это степень сходства онтологических классов объектов q1 и q2: если и – классы объектов q1 и q2 соответственно, то Аналогично, можно назвать степенью сходства кортежей атрибутов и связей q1 и q2. Коэффициент k регулирует уровень влияния онтологических и атрибутивно-реляционных факторов на итоговую величину . Его значение определяется экспериментальным путем и может изменяться в зависимости от задачи.

Рассмотрим подробнее каждое из подвыражений формулы ( 1 ). ( 2 ) ( 3 )

Здесь – класс онтологии , экземпляром которого является объект q, – бинарное отношение на множестве классов, такое что является предком и, таким образом, – это множество классов, лежащих в иерархическом древе онтологии выше класса , плюс сам класс . Последнее гарантирует непустоту множеств и, как следствие, ненулевое значение знаменателя в формуле ( 2 ). Выражение , в свою очередь, раскладывается на два подвыражения и , характеризующие зависимость соответственно от атрибутов и связей объектов.

Из формулы ( 3 ) можно видеть, что атрибуты и связи объектов в одинаковой степени влияют на значение . ( 4 ) ( 5 ) (6) (7)

Здесь и – множества связей объектов q1 и q2 соответственно,

. Другими словами, – это множество пар отношений из и , связывающих q1 и q2 с одним и тем же объектом q, онтологические классы которых тождественны.

Атрибуты объектов поделены на ключевые и второстепенные. Кортеж ключевых атрибутов однозначно идентифицирует объект в информационном пространстве системы. Значение ключевого атриибута не может быть неопределенным или множественным (это тоже одно из ограничений на формат ИО). На второстепенные атрибуты это не распространяется. Будет естественным предположить, что влияние ключевых атрибутов на величину коэффициента близости должно отличаться от влияния второстепенных. Поэтому выражение можно разложить еще на подвыражения и , для ключевых и второстепенных атрибутов соответственно. Коэффициент f, аналогично коэффициенту k из формулы ( 1 ), получен из эксперимента и регулирует степень участия различных типов атрибутов.

Формулы (6) и (7) аналогичны ( 4 ): , , – соответственно множества ключевых атрибутов объектов , и множество атрибутов из , , значения и типы которых совпадают. , , – аналогично для второстепенных атрибутов. 3.2 Вычисление множества гипотетических эквивалентов

Из формул ( 4 ), (6) и (7) очевидно следует, что операция вычисления в общем виде коммутативной не является, поэтому правильнее будет говорить, что вычисляет степень сходства объекта q2 с объектом q1. Объект q1 при этом называется эталоном, а q2 – кандидатом. Таким образом, выражение ( 1 ) сопоставляет объекткандидат объекту-эталону и вычисляет степень их сходства.

Перейдем непосредственно к описанию процесса установления референциального тождества информационных объектов. Каждый объект необходимо проверить на наличие эквивалента – ближайшего кореферентного ему объекта. Объект, соответствующий самому первому упоминанию, будем называть G-эквивалентом (от global, т.к. G-эквивалент является вершиной референциальной цепочки объектов).

Чтобы найти референциальные связи объекта, либо убедиться в том, что их не существует, следует построить и проанализировать множество гипотетических эквивалентов. Это множество определяется следующим образом: ( 8 )

, где – это контекст объекта q, а – положительное число, задающее нижнюю границу значений коэффициента близости, при которых может считаться вероятным эквивалентом объекта q. Значение параметра зависит от характеристик q. Множество содержит все объекты из некоторого контекста объекта q, степень сходства с которыми у объекта q больше некоторого положительного числа. Размер контекста зависит от того, словарные единицы какого типа участвовали в сборке объекта q: имена собственные, имена нарицательные, личные местоимения и т.п.

Разрешая кореференцию «извне», мы не имеем доступа к источнику порождения того или иного объекта, однако можем судить о нем по ряду косвенных признаков, определенных в результате экспериментальных исследований. Например, если можно считать, что объект был порожден упоминанием имени собственного, то в качестве контекста необходимо охватить всю предшествующую этому упоминанию часть документа, представленную коллекцией извлеченных из нее фактов. Когда источником послужило имя нарицательное либо местоимение, контекст ограничивается несколькими ближайшими объектами, такими, что их онтологические классы расположены в той же ветви иерархического древа, что и . В тех случаях, когда контекст q включает объекты по обе стороны от него, гипотетический эквивалент может как линейно предшествовать q, так и следовать за ним. В лингвистике отношение между выражениями, аналогичное второму случаю, называется катафорой и его исследование выходит за рамки данной работы. Следовательно, для установления эквивалента объекта q необходимо убедиться, что не существует эквивалента справа. Эквивалентом объекта q считается ближайший к нему объект из множества

с максимальным либо близким к максимальному значением . Если таковой отсутствует или не является предшествующим объекту q, то говорим, что объект q был упомянут в тексте впервые. В противном случае, существует объект , предшествующий и кореферентный ему. Объект помечается как эквивалентный объекту . Если в дальнейшем будет обнаружен некий объект , для которого эквивалентом является , он должен быть помечен как эквивалентный объекту . Подобная разметка организует цепочку объектов, где каждый следующий элемент референциально тождественен предыдущему – референциальную цепочку. 3.3 Объединение информационных объектов

В результате список объектов размечается в соответствии с выявленными связями как показано на рис. 2. Рис. 2 Разметка множества объектов

Пусть – бинарное отношение на множестве информационных объектов, и – объекты, и пусть и признаны референциально тождественными. Очевидно, отношение является отношением эквивалентности и, следовательно, оно разбивает множество на непересекающиеся подмножества-кластеры. Классы эквивалентности по отношению совпадают с компонентами связности графа на рис.2. Вся информация, содержащаяся в элементах кластера, объединяется в одном объекте, называемом узловым объектом или узлом. Узловым считается G-эквивалент цепочки объектов. Очевидно, что таковой всегда найдется (рис.3). Рис. 3 Узловые объекты

Объединяя объекты в соответствии со связями, показанными на рис. 3, мы добиваемся того, что мощность множества объектов становится равной мощности множества классов эквивалентности по отношению . Ясно, что . 3.4 Пример

Для иллюстрации рассмотрим предметную область компьютерной лингвистики, формально описанную с помощью онтологии, представленной в [7]. Для практических испытаний нашего метода и получения первых приблизительных значений k и f был разработан редактор объектов со встроенными механизмами вычисления коэффициента сходства любых двух выбранных объектов и разрешения референциальных связей в заданном множестве ИО. Для эксперимента были выбраны краткие новостные сообщения и информационные письма с конференций. Рассмотрим в качестве примера фрагмент информационного сообщения с сайта ИАиПУ ДВО РАН, посвященного конференции «Философия, математика, лингвистика: аспекты взаимодействия-2009» (http://www.iacp.dvo.ru/is/events.php?eid=226). Выбранный фрагмент, объемом 409 слов, содержит все референциально тождественные объекты. Объем всего текста составляет 632 слова, число извлеченных объектов – 40. Объекты, не вошедшие в данный фрагмент, не оказывают принципиального влияния на результат разрешения референциальных связей. Были извлечены экземпляры онтологических классов: Географическое место, интернет-ресурс, Научное Мероприятие, Организация и Персона. Всего из фрагмента получено 12 объектов, из них три объекта класса Научное Мероприятие и два объекта класса Организация референциально тождественны. Рис. 4 Главное окно редактора объектов

На (Рис. 4) представлен начальный список объектов в окне редактора в порядке их встречаемости в тексте. Известно, что референциально тождественными являются семейства (0, 4, 10: научные мероприятия) и (3, 5: организации). Класс Научное Мероприятие имеет 4 атрибута: дата основания, статус, частота проведения и язык и еще 4 атрибута наследуются от родительского класса Событие: дата начала события, дата окончания события, название события и описание события. Класс Организация имеет 9 атрибутов: email, аббревиатура, адрес, дата основания, название организации, описание организации, телефон, тип организации, факс. Как видно из (Рис. 4) у объекта q4 не определен ни один из атрибутов, при этом имеются 5 связей. Согласно пункту 3.2 из этого следует, что эквивалент данного объекта существует и его следует искать среди нескольких ближайших объектов того же типа. Этому условию в полной мере отвечает объект q0. Очевидно, что

, так как оба объекта являются экземплярами класса Научное Мероприятие, следовательно объект q0 является эквивалентом объекта q4. Рассмотрим теперь объекты q3 и q5. Из (Рис. 5) можно видеть, что у них обоих определен ключевой атрибут название организации и значения совпадают. Также, объекты q3 и q5 связаны отношением Организация-Участник-События с объектами q0 и q4 соответственно. Так как список объектов анализируется сверху вниз на момент встречи объекта q5мы уже знаем, что q0 и q4 референциально тождественны. Таким образом и очевидно, что они референциально тождественны. Рис. 5 Сравнение свойств объектов q3 и q5

В заключение заметим, что референциальное тождество объектов q0 и q10 так и не было установлено. При текущих значениях коэффициентов k и f

. В то же время у объекта q10 определены два значения атрибута язык, что не позволяет сделать однозначного вывода о языковых выражениях, явившихся его источником. В таких условиях имеющегося значения недостаточно для того, чтобы считать объект q0 эквивалентом q 10 (объект q4 не может считаться эквивалентом, так как он не имеет атрибутов). В итоге информация о том, что официальные языки конференции русский и английский, оказалась недоступна рис. 6. Рис. 6 Результат разрешения референциальных связей 5 Заключение Основной целью поиска референциально тождественных объектов является сокращение числа ИО, представляющих одну сущность, в идеале до одного, что, в свою очередь, повышает вероятность их успешной идентификации. Однако ошибочное объединение объектов заметно снижает итоговую эффективность процедуры идентификации и даже может послужить причиной некорректного отождествления с объектом базы данных. По этой причине во главу угла выведена точность, и объединение объектов производится лишь в самых очевидных случаях зависимости. Имеющиеся на данный момент результаты позволяют считать, что подобный подход достаточно эффективен для документов рассматриваемой нами тематики (информационные письма, новостные сообщения о школах и конференциях, краткие статьи по компьютерной лингвистике). Более общие случаи нуждаются в дополнительных экспериментальных проверках. Заметим, что на полноту результата имеет возможность повлиять эксперт: для этого в описанном редакторе доступны функции корректировки объектов и их объединения «вручную». В дальнейшем планируется осуществить интеграцию модуля разрешения кореференции непосредственно в технологию анализа текста. Это позволило бы иметь доступ к структуре предложений и абзацев, а также к конкретным лексическим единицам, участвующим в сборках ИО. Анализируя объекты на стадии сборки, можно повысить полноту за счет расширения списка рассматриваемых случаев ее применения. Однако, в общем виде подобное вряд ли возможно. Тем не менее, подобную интеграцию теоретически реально осуществить для конкретной системы АОТ. Литература Searching referential relationships between the information objects during the automatic document processing

Alexey Seryj, Elena Sidorova This article describes a way to establish a referential identity (or coreference) of the information objects extracted from natural-language documents.

Information objects are taken as hypothesis about the real object that lies in a given subject area and put together with vocabulary units found in the text during the analysis. The proposed approach allows to abstract from the text processing technologies. There are several certain requirements imposed only on the information objects format and they are specified by the ontology description. Coreference establishing process consists of three stages: similarity degree calculation and analysis; construction of the set of hypothetical equivalents for each object; coreferential objects unification. We introduced a new quantity called similarity index that is used for estimating the objects similarity degree.

Referentially identical objects are merged into one. 1Кореферентность (референциональное тождество) – отношение между компонентами высказывания (обычно именными группами), которые обозначают один и тот же внеязыковой объект или ситуацию, т.е. имеют один и тот же референт.

[1] Caroline

Gasperin

Statistical anaphora resolution in biomedical texts . Technical report , University of Cambridge Computer Laboratory. 2009 . ISSN 1476- 2986

[2]

Heeyoung

Lee , Yves Peirsman,

Angel

Chang , Nathanael Chambers, Mihai Surdeanu, and

Dan

Jurafsky . 2011 . Stanford's Multi-Pass Sieve Coreference Resolution System at the CoNLL2011 Shared Task . In Proceedings of the CoNLL2011 Shared Task.

[3] Mitkov , R. Anaphora resolution: the state of the art , Working paper, (Based on the COLING'98/ACL'98 tutorial on anaphora resolution) , University of Wolverhampton, Wolverhampton, 1999 .

[4]

Karthik

Raghunathan ,

Heeyoung

Lee , Sudarshan Rangarajan, Nathanael Chambers, Mihai Surdeanu, Dan Jurafsky, and

Christopher

Manning . 2010 . A Multi-Pass Sieve for Coreference Resolution . In Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing (EMNLP 2010 ).

[5] Главная

страница проекта Freebase.

[Электронный ресурс] - Режим доступа http://www.freebase.com/(дата последнего обращения: 16 . 08 . 2012 )

[8] Официальный сайт Принстонского универси- тета . [Электронный ресурс]. Главная страница проекта WordNet . - Режим доступа http://wordnet.princeton.edu (дата последнего обращения 16.08 . 2012 ).