=Paper=
{{Paper
|id=None
|storemode=property
|title=Поиск референциальных отношений между информационными объектами в процессе автоматического анализа документов
(Searching Referential Relationships between the Information Objects During the Automatic Document Processing)
|pdfUrl=https://ceur-ws.org/Vol-934/paper26.pdf
|volume=Vol-934
|dblpUrl=https://dblp.org/rec/conf/rcdl/SeryjS12
}}
==Поиск референциальных отношений между информационными объектами в процессе автоматического анализа документов
(Searching Referential Relationships between the Information Objects During the Automatic Document Processing)
==
Поиск референциальных отношений между информационными объектами в процессе автоматического анализа документов © А. С. Серый © Е. А. Сидорова Институт систем информатики им. А.П. Ершова СО РАН, Новосибирск Alexey.Seryj@iis.nsk.su lena@iis.nsk.su являются установление анафорических связей и Аннотация отождествление различных наименований одного и того же объекта, например многократных упомина- Предлагается подход к установлению рефе- ний какой-либо персоны в том или ином контексте. ренциальных связей между информаци- онными объектами, получаемыми в резуль- Разрешение анафоры – довольно серьезная тате автоматической обработки текстов задача, в решение которой вовлечено множество абстрактным анализатором. Рассматрива- исследователей, придерживающихся различных ются меры сходства, зависимые от класса точек зрения на проблему и использующих различ- объектов, набора определенных ключевых и ные подходы: как традиционные (синтаксические и второстепенных атрибутов, связей с други- семантические), так и альтернативные (статисти- ми объектами и расстоянием между ческие), дающие лишь приблизительный результат объектами в тексте. [1,3]. Задача отождествления различных наименова- Работа выполняется при финансовой ний одного и того же объекта является более общей, поддержке Президиума РАН (интеграционный поскольку подобные наименования могут не проект СО РАН № 15/10 «Математические и ссылаться друг на друга, как в случае анафоры, но, методологические аспекты интеллектуальных тем не менее, также являться кореферентными1. информационных систем») и РФФИ (грант Для достижения больших полноты и точности №12-07-31216). результата разработчики систем АОТ стараются использовать дополнительные источники информа- 1 Введение ции о терминах, такие как словари и базы знаний. Одной из актуальных задач, стоящих перед На сегодняшний день существует множество подоб- компьютерной лингвистикой, является выделение в ных ресурсов, большую часть которых составляют текстовых документах упоминаний о различных англоязычные ресурсы. Так, подход к разрешению сущностях: персонах, организациях, событиях, кореференции, разработанный исследовательской местах и пр., а также существующих между ними группой Стэнфордского университета, предполагает связей. Перечень таких сущностей, информация о использование Википедии для выявления этнохо- которых извлекается из текста, зависит от ронимов [4]. Сам подход основан на совместном предметной области (ПО). Извлекаемые данные применении нескольких простых фильтров. Сис- унифицируются в виде сети формальных описаний, тема, разработанная на основе этого подхода, на так называемых информационных объектов (ИО), с данный момент уже расширена новыми фильтрами целью дальнейшего хранения в базе данных (БД). [2]. Два из пяти новых фильтров, предложенных в Каждый информационный объект соответствует [2], используют внешние ресурсы, такие как некоторому понятию/отношению предметной облас- WordNet [8], Wikipedia и Freebase [5]. Проекты ти и имеет заданную структуру. В дальнейшем бу- подобные WordNet и Freebase лучше всего развиты дем полагать, что обработка текста производится в для английского языка, что существенно влияет на рамках некоторой информационной системы, пред- исследования в области обработки англоязычных метная область которой ограничена и явно описана текстов. на определенном формальном языке. Важными Тем не менее, несмотря на декларируемую важность элементами автоматической обработки текста (АОТ) и актуальность упомянутых выше задач для процесса АОТ, в силу своей сложности вообще и для русскоязычных текстов в частности, они не Труды 14-й Всероссийской научной конференции всегда решаются целиком. Так, например, схема, «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» — RCDL-2012, описанная в [6] охватывает упоминания персон и Переславль-Залесский, Россия, 15-18 октября 2012 г. организаций, а задача разрешения анафоры, 160 Рис. 1 Схема процедуры идентификации объектов решаемая в [9] и [11], ограничивается Кратко, процесс идентификации ИО состоит из местоимениями. следующих этапов: Не охваченные в процессе АОТ случаи могут Первичный анализ. Извлеченные из документа послужить причиной появления информационных ИО попадают в компонент первичного анализа, объектов, собранных на основе кореферентных где проходят проверки на наличие кореференции выражений. Такие информационные объекты мы по и на совпадение по кортежу ключевых атрибутов аналогии будем называть кореферентными или с объектами БД. Те ИО, для которых удалось тождественными; в данном случае это будет озна- установить совпадение с единственным чать, что два (или более) объекта содержат объектом БД или для которых набор ключевых различные части информации о некоей внеязыковой атрибутов полностью определен, считаются сущности ПО. идентифицированными. В статье предлагается подход к установлению Идентификация. Оставшиеся ИО попадают в кореферентности уже не языковых выражений, а компонент идентификации, где коллекции информационных объектов, собранных на их осно- наиболее близких к ним объектов БД, при ве. Информационные объекты воспринимаются как необходимости расширяемые по иерархии гипотезы о реальном объекте заданной ПО. классов онтологии и/или другими отношениями онтологии, подвергаются фильтрации. Предлагаемый подход позволяет абстрагиро- Расчет достоверности. Разрешение противоречий ваться от технологии обработки текста, налагая при наполнении БД между старыми и новыми некоторые требования лишь на формат самих ИО, данными, посредством вычисления специального определяемые способом описания онтологии ПО [7] параметра, количественно выражающего досто- (такие как разделение атрибутов на ключевые и верность того или иного атрибута или связи. второстепенные; наличие только бинарных отноше- ний между объектами и др.) 3 Разрешение кореференции на уровне 2 Поиск и идентификация объектов информационных объектов Процесс разрешение кореференции является частью процедуры идентификации объектов, сосре- Задача установления референциальных отноше- доточенной в компоненте первичного анализа. ний между ИО рассматривается здесь в контексте Алгоритм установления кореференции или референ- другой более объемной задачи идентификации циального тождества объектов включает в себя объектов – разрешения контекстной омонимии, установление степени сходства объектов, построе- являющейся одним из побочных эффектов АОТ. ние множества гипотетических эквивалентов для Контекстная омонимия проявляется в наличии двух каждого объекта и объединение действительно и более вариантов отождествления полученных из кореферентных объектов. текста информационных объектов с объектами базы данных информационной системы. Проблема 3.1 Степень сходства информационных объектов идентификации объектов и метод ее решения описаны в [10]. На рис. 1 приведена общая схема Чтобы сделать выводы о наличии или отсутствии метода. референциального тождества между теми или иными объектами, необходимо каким-то образом 161 сопоставить их друг другу, сравнить их атрибуты и связи. Необходима мера, выражающая степень (4) сходства двух объектов. Введем такую меру и назовем ее коэффициентом сходства информа- ционных объектов (similarity index), где q1 Здесь и – множества связей объектов q1 и 2 и q – объекты, которые нужно сравнить. 2 q соответственно, Величина коэффициента сходства зависит от аргументов и параметра и вычисляется по . Другими словами, – следующей формуле: это множество пар отношений из и , связывающих q1 и q2 с одним и тем же объектом q, (1) онтологические классы которых тождественны. Согласно принятой ранее договоренности, (5) предметная область описывается некоторой онтологией , а информационные объекты и их Атрибуты объектов поделены на ключевые и отношения являются экземплярами классов ее второстепенные. Кортеж ключевых атрибутов одно- понятий. Одно из ограничений, налагаемых на ИО, значно идентифицирует объект в информационном заключается в том, что объект (отношение) может пространстве системы. Значение ключевого атрии- быть экземпляром единственного класса. Значение бута не может быть неопределенным или множест- подвыражения характеризует зави- венным (это тоже одно из ограничений на формат симость величины от онтологии, а именно ИО). На второстепенные атрибуты это не распро- – взаимного расположения классов понятий, страняется. Будет естественным предположить, что экземплярами которых являются объекты q1 и q2, в влияние ключевых атрибутов на величину коэф- ее иерархическом древе. Можно сказать, что – фициента близости должно отличаться от влияния это степень сходства онтологических классов объек- второстепенных. Поэтому выражение можно тов q1 и q2: если и – классы объектов q1 2 разложить еще на подвыражения и , для и q соответственно, то ключевых и второстепенных атрибутов соответ- Аналогично, можно назвать сте- ственно. Коэффициент f, аналогично коэффициенту пенью сходства кортежей атрибутов и связей q1 и q2. k из формулы (1), получен из эксперимента и Коэффициент k регулирует уровень влияния онтоло- регулирует степень участия различных типов гических и атрибутивно-реляционных факторов на атрибутов. итоговую величину . Его значение определяется экспериментальным путем и может изменяться в зависимости от задачи. (6) Рассмотрим подробнее каждое из подвыражений формулы (1). (2) (7) Здесь – класс онтологии , экземпляром Формулы (6) и (7) аналогичны (4): , , – которого является объект q, – бинарное отно- соответственно множества ключевых атрибутов шение на множестве классов, такое что объектов , и множество атрибутов из , , является предком и, таким образом, – это значения и типы которых совпадают. , , – множество классов, лежащих в иерархическом древе аналогично для второстепенных атрибутов. онтологии выше класса , плюс сам класс . Последнее гарантирует непустоту множеств и, 3.2 Вычисление множества гипотетических как следствие, ненулевое значение знаменателя в эквивалентов формуле (2). Выражение , в свою очередь, рас- Из формул (4), (6) и (7) очевидно следует, что кладывается на два подвыражения и , операция вычисления в общем виде характеризующие зависимость соответственно от коммутативной не является, поэтому правильнее атрибутов и связей объектов. будет говорить, что вычисляет степень (3) сходства объекта q2 с объектом q1. Объект q1 при этом называется эталоном, а q2 – кандидатом. Таким Из формулы (3) можно видеть, что атрибуты и образом, выражение (1) сопоставляет объект- связи объектов в одинаковой степени влияют на кандидат объекту-эталону и вычисляет степень их значение . сходства. Перейдем непосредственно к описанию процесса установления референциального тождества инфор- 162 мационных объектов. Каждый объект необходимо разметка организует цепочку объектов, где каждый проверить на наличие эквивалента – ближайшего следующий элемент референциально тождественен кореферентного ему объекта. Объект, соответству- предыдущему – референциальную цепочку. ющий самому первому упоминанию, будем назы- вать G-эквивалентом (от global, т.к. G-эквивалент 3.3 Объединение информационных объектов является вершиной референциальной цепочки В результате список объектов размечается в объектов). соответствии с выявленными связями как показано Чтобы найти референциальные связи объекта, на рис. 2. либо убедиться в том, что их не существует, следует построить и проанализировать множество гипоте- тических эквивалентов. Это множество определяется следующим образом: (8) , где – это контекст объекта q, а – положительное число, задающее нижнюю границу значений коэффициента близости, при которых может считаться вероятным эквивалентом объекта q. Значение параметра зависит от характеристик q. Множество содержит все объекты из некоторого контекста объекта q, степень сходства с которыми у объекта q больше некоторого положительного числа. Размер контекста зависит от того, словарные единицы какого типа участвовали в сборке объекта q: имена собственные, имена нарицательные, личные местоимения и т.п. Рис. 2 Разметка множества объектов Разрешая кореференцию «извне», мы не имеем Пусть – бинарное отношение на множестве доступа к источнику порождения того или иного информационных объектов, и – объекты, и объекта, однако можем судить о нем по ряду пусть и признаны референциально косвенных признаков, определенных в результате тождественными. Очевидно, отношение является экспериментальных исследований. Например, если отношением эквивалентности и, следовательно, оно можно считать, что объект был порожден упоми- разбивает множество на непересекающиеся под- нанием имени собственного, то в качестве контекста множества-кластеры. Классы эквивалентности по необходимо охватить всю предшествующую этому отношению совпадают с компонентами связности упоминанию часть документа, представленную графа на рис.2. Вся информация, содержащаяся в коллекцией извлеченных из нее фактов. Когда элементах кластера, объединяется в одном объекте, источником послужило имя нарицательное либо называемом узловым объектом или узлом. Узловым местоимение, контекст ограничивается несколькими считается G-эквивалент цепочки объектов. Очевид- ближайшими объектами, такими, что их но, что таковой всегда найдется (рис.3). онтологические классы расположены в той же ветви иерархического древа, что и . В тех случаях, когда контекст q включает объекты по обе стороны от него, гипотетический эквивалент может как линейно предшествовать q, так и следовать за ним. В лингвистике отношение между выражениями, ана- логичное второму случаю, называется катафорой и его исследование выходит за рамки данной работы. Следовательно, для установления эквивалента объекта q необходимо убедиться, что не существует эквивалента справа. Эквивалентом объекта q счита- ется ближайший к нему объект из множества с максимальным либо близким к максималь- ному значением . Если таковой отсутствует или не является предшествующим объекту q, то говорим, что объект q был упомянут в тексте впервые. В противном случае, существует объект , Рис. 3 Узловые объекты предшествующий и кореферентный ему. Объект помечается как эквивалентный объекту . Если в Объединяя объекты в соответствии со связями, дальнейшем будет обнаружен некий объект , для показанными на рис. 3, мы добиваемся того, что которого эквивалентом является , он должен быть мощность множества объектов становится равной помечен как эквивалентный объекту . Подобная 163 мощности множества классов эквивалентности по сайта ИАиПУ ДВО РАН, посвященного отношению . Ясно, что . конференции «Философия, математика, лингвистика: аспекты взаимодействия-2009» 3.4 Пример (http://www.iacp.dvo.ru/is/events.php?eid=226). Выбранный фрагмент, объемом 409 слов, содержит Для иллюстрации рассмотрим предметную все референциально тождественные объекты. Объем область компьютерной лингвистики, формально всего текста составляет 632 слова, число описанную с помощью онтологии, представленной в извлеченных объектов – 40. Объекты, не вошедшие [7]. Для практических испытаний нашего метода и в данный фрагмент, не оказывают принципиального получения первых приблизительных значений k и f влияния на результат разрешения референциальных был разработан редактор объектов со встроенными связей. Были извлечены экземпляры онтологических механизмами вычисления коэффициента сходства классов: Географическое место, интернет-ресурс, любых двух выбранных объектов и Научное Мероприятие, Организация и Персона. разрешения референциальных связей в заданном Всего из фрагмента получено 12 объектов, из них множестве ИО. Для эксперимента были выбраны три объекта класса Научное Мероприятие и два краткие новостные сообщения и информационные объекта класса Организация референциально письма с конференций. Рассмотрим в качестве тождественны. примера фрагмент информационного сообщения с Рис. 4 Главное окно редактора объектов На (Рис. 4) представлен начальный список тип организации, факс. Как видно из (Рис. 4) у объектов в окне редактора в порядке их встреча- объекта q4 не определен ни один из атрибутов, при емости в тексте. Известно, что референциально этом имеются 5 связей. Согласно пункту 3.2 из этого тождественными являются семейства (0, 4, 10: следует, что эквивалент данного объекта существует научные мероприятия) и (3, 5: организации). Класс и его следует искать среди нескольких ближайших Научное Мероприятие имеет 4 атрибута: дата объектов того же типа. Этому условию в полной основания, статус, частота проведения и язык и мере отвечает объект q0. Очевидно, что еще 4 атрибута наследуются от родительского , так как оба объекта являются экземплярами класса Событие: дата начала события, дата класса Научное Мероприятие, следовательно окончания события, название события и описание объект q0 является эквивалентом объекта q4. события. Класс Организация имеет 9 атрибутов: e- Рассмотрим теперь объекты q3 и q5. Из (Рис. 5) mail, аббревиатура, адрес, дата основания, назва- можно видеть, что у них обоих определен ключевой ние организации, описание организации, телефон, 164 атрибут название организации и значения совпа- анализируется сверху вниз на момент встречи дают. Также, объекты q3 и q5 связаны отношением объекта q5мы уже знаем, что q0 и q4 референциально Организация-Участник-События с объектами q0 и тождественны. Таким образом и q4 соответственно. Так как список объектов очевидно, что они референциально тождественны. Рис. 5 Сравнение свойств объектов q3 и q5 В заключение заметим, что референциальное условиях имеющегося значения недоста- тождество объектов q0 и q10 так и не было установ- точно для того, чтобы считать объект q0 эквивален- лено. При текущих значениях коэффициентов k и f том q 10 (объект q4 не может считаться эквивалентом, . В то же время у объекта q10 так как он не имеет атрибутов). В итоге информация определены два значения атрибута язык, что не о том, что официальные языки конференции позволяет сделать однозначного вывода о языковых русский и английский, оказалась недоступна рис. 6. выражениях, явившихся его источником. В таких Рис. 6 Результат разрешения референциальных связей данный момент результаты позволяют считать, что 5 Заключение подобный подход достаточно эффективен для Основной целью поиска референциально документов рассматриваемой нами тематики тождественных объектов является сокращение (информационные письма, новостные сообщения о числа ИО, представляющих одну сущность, в идеале школах и конференциях, краткие статьи по до одного, что, в свою очередь, повышает вероят- компьютерной лингвистике). Более общие случаи ность их успешной идентификации. Однако оши- нуждаются в дополнительных экспериментальных бочное объединение объектов заметно снижает проверках. Заметим, что на полноту результата итоговую эффективность процедуры идентифика- имеет возможность повлиять эксперт: для этого в ции и даже может послужить причиной некоррект- описанном редакторе доступны функции коррек- ного отождествления с объектом базы данных. По тировки объектов и их объединения «вручную». В этой причине во главу угла выведена точность, и дальнейшем планируется осуществить интеграцию объединение объектов производится лишь в самых модуля разрешения кореференции непосредственно очевидных случаях зависимости. Имеющиеся на в технологию анализа текста. Это позволило бы 165 иметь доступ к структуре предложений и абзацев, а Труды международной конференции «Диалог также к конкретным лексическим единицам, 2006». М.: РГГУ, 2006. участвующим в сборках ИО. Анализируя объекты [8] Официальный сайт Принстонского универси- на стадии сборки, можно повысить полноту за счет тета. [Электронный ресурс]. Главная страница расширения списка рассматриваемых случаев ее проекта WordNet. – Режим доступа применения. Однако, в общем виде подобное вряд http://wordnet.princeton.edu (дата последнего ли возможно. Тем не менее, подобную интеграцию обращения 16.08.2012). теоретически реально осуществить для конкретной [9] Поцепня В.Н. Разрешение местоименной системы АОТ. анафоры в многоязычных информационных системах. // Искусственный интеллект-2006 Литература №4 С.619-626. [1] Caroline V. Gasperin Statistical anaphora [10] Серый А.С., Сидорова Е.А. Идентификация resolution in biomedical texts. Technical report, объектов в задаче автоматической обработки University of Cambridge Computer Laboratory. документов. // Компьютерная лингвистика и 2009. ISSN 1476–2986 интеллектуальные технологии: Труды между- [2] Heeyoung Lee, Yves Peirsman, Angel Chang, народной конференции «Диалог 2011». М.: Nathanael Chambers, Mihai Surdeanu, and Dan РГГУ, 2011. С. 580-591. Jurafsky. 2011. Stanford's Multi-Pass Sieve [11] Толпегин П.В., Ветров Д.П., Кропотов Д.А. Coreference Resolution System at the CoNLL- Алгоритм автоматизированного разрешения 2011 Shared Task. In Proceedings of the CoNLL- анафоры местоимений третьего лица на основе 2011 Shared Task. методов машинного обучения. Компьютерная [3] Mitkov, R. Anaphora resolution: the state of the лингвистика и интеллектуальные технологии: art, Working paper, (Based on the Труды международной конференции «Диалог COLING'98/ACL'98 tutorial on anaphora resolu- 2006» // Под ред. Н.И. Лауфер, А.С. Наринь- tion), University of Wolverhampton, Wolver- яни, В.П. Селегея. – М.:РГГУ, 2006 hampton, 1999. [4] Karthik Raghunathan, Heeyoung Lee, Sudarshan Searching referential relationships between Rangarajan, Nathanael Chambers, Mihai Sur- the information objects during the deanu, Dan Jurafsky, and Christopher Manning. automatic document processing 2010. A Multi-Pass Sieve for Coreference Resolution. In Proceedings of the 2010 Confe- Alexey Seryj, Elena Sidorova rence on Empirical Methods in Natural Language This article describes a way to establish a referential Processing (EMNLP 2010). identity (or coreference) of the information objects [5] Главная страница проекта Freebase. extracted from natural-language documents. [Электронный ресурс] – Режим доступа Information objects are taken as hypothesis about the http://www.freebase.com/(дата последнего real object that lies in a given subject area and put обращения: 16.08.2012) together with vocabulary units found in the text during [6] Ермаков А.Е. Референция обозначений персон the analysis. The proposed approach allows to abstract и организаций в русскоязычных текстах СМИ: from the text processing technologies. There are several эмпирические закономерности для компьютер- certain requirements imposed only on the information ного анализа. // Компьютерная лингвистика и objects format and they are specified by the ontology интеллектуальные технологии: Труды между- description. Coreference establishing process consists of народной конференции «Диалог 2005». М.: three stages: similarity degree calculation and analysis; Наука, 2005. construction of the set of hypothetical equivalents for [7] Загорулько Ю.А., Боровикова О.И., Кононенко each object; coreferential objects unification. We И.С., Сидорова Е.А. Подход к построению introduced a new quantity called similarity index that is предметной онтологии для портала знаний по used for estimating the objects similarity degree. компьютерной лингвистике. // Компьютерная Referentially identical objects are merged into one. лингвистика и интеллектуальные технологии: 1 Кореферентность (референциональное тождество) – отношение между компонентами высказывания (обычно именными группами), которые обозначают один и тот же внеязыковой объект или ситуацию, т.е. имеют один и тот же референт. 166