Подход к автоматическому извлечению информации о назначениях и отставках лиц (на материале новостных сообщений). © Н.А.Власова Институт Программных Систем РАН имени А.К.Айламазяна, г.Переславль-Залесский nathalie.vlassova@gmail.com современных системах извлечения информации из Аннотация текста[4],[10]. Следующий шаг – извлечение из тек- ста сложных структур, более сложных, чем просто Настоящая работа посвящена описанию объекты. То есть необходимо связать извлеченные подхода к извлечению структурированной уже на первом этапе анализа объекты отношениями, информации из новостных текстов в рамках информация о которых тоже должна быть извлечена проекта извлечения информации из текстов ИСИДА-Т, разрабатываемого в ИЦИИ ИПС из текста. Например, сбор информации об органи- имени А.К.Айламазяна РАН. В предлагае- зациях и учреждениях — кто возглавляет, где нахо- мом подходе к извлечению фактов в каче- дятся филиалы, когда они были открыты, кто ими стве основы используются результаты обра- заведует, информация об изданных указах и распо- ботки текста в программной системе ряжениях, о принятых законах, результатах выборов ИСИДА-Т — морфологический, частично и референдумов и т.п. В настоящей работе описыва- синтаксический анализ текста, извлеченные ется подход к извлечению ситуаций из новостных именованные сущности (имена людей, гео- текстов на примере ситуаций назначения, увольне- графические названия, организации, адреса, ния, пребывания и смены в должности. Такие ситуа- названия должностей и званий), а также ции представляют интерес с нескольких точек зре- отношения, которые могут быть установ- ния. Во-первых, участниками этих ситуаций являют- лены между ними на уровне анализа связей ся объекты, которые чаще всего извлекаются из в именной группе. Извлечение фактов осно- текста, — это имена людей, названия должностей и вано на выделении целевых слов, описыва- организаций. Во-вторых, участники ситуации могут ющих ситуации, с последующим нахожде- быть выражены однотипными именными группами нием именных групп-участников, располо- — например, в ситуации назначения первый и женных непосредственно рядом с целевыми второй участник (кто назначил и кого назначил) словами. могут быть выражены именными группами, обозна- чающими имя лица, что усложняет задачу и, соот- 1 Введение ветственно, представляет больший интерес для ис- следователя. В-третьих, такие ситуации часто встре- Большинство современных систем извлечения чаются в новостных текстах, что позволяет легко информации из текстов построены для решения собирать тексты для тестовых коллекций. определенных задач, сформулированных заранее. Нет системы, которая была бы рассчитана на 2 Способы извлечения фактов из максимальное решение задачи извлечения — пол- ный синтаксический и семантический анализ произ- неструктурированного текста. вольного текста и на получение всей информации, Постановка задачи которая содержится в этом тексте. Любая задача для системы извлечения данных из текста может быть В настоящей работе речь будет идти только о сформулирована в диапазоне от минимальной до методах извлечения информации, основанных на максимальной.. Задача-минимум — извлечь из текс- правилах. Методы, использующие машинное обуче- та именованные сущности (географические назва- ние и статистические методы, не рассматриваются. ния, имена людей, должности, звания, названия Правилами на формальном языке обычно задаются организаций и т.д.). шаблоны. Далее в тексте происходит поиск фраг- ментов, соответствующих шаблону. Достоинства и Задача-минимум успешно решается во многих недостатки метода шаблонов очевидны. К достоин- Труды 14-й Всероссийской научной конференции ствам можно отнести точность настройки на «Электронные библиотеки: перспективные методы и конкретную задачу, обозримость и ясность правил, технологии, электронные коллекции» — RCDL-2012, отсутствие необходимости создавать большой раз- Переславль-Залесский, Россия, 15-18 октября 2012 г. меченный корпус текстов для обучающего мно- жества. Недостатки – скорость работы системы 313 часто бывает неоправданно низкой, правил текст. Далее с помощью модуля правил на специи- получается достаточно много, перенастроить сис- альном формальном языке производится синтак- тему на другую задачу практически невозможно, сический анализ (не всего предложения, а именных приходится переписывать всю систему правил. групп, включая предложные). Результаты морфоло- Кроме того, метод шаблонов больше подходит для гического и синтаксического анализа сохраняются в языков с фиксированным порядком слов (таких, как аннотациях — специальных структурах, которые большинство западноевропейских языков), а для сопоставляются фрагментам текста (при морфоло- русского, например, этот метод получается неоправ- гическом анализе этот фрагмент соответствует данно “дорогим”. слову, а при синтаксическом - словосочетанию). При этом специальными аннотациями помечаются В настоящей работе в рамках метода извлечения группы, главные слова в которых — имена людей, информации, основанного на правилах (система названия должностей или званий, названия орга- ИСИДА-Т), предлагается подход, который учитыва- низаций, географические названия. ет недостатки метода шаблонов и позволяет уско- рить и оптимизировать работу. Основная идея – Рассмотрим алгоритм извлечения фактов из произ- опора не на шаблон целиком, а на ключевое слово, вольного неструктурированного текста (новостно- описывающее ситуацию (главное слово группы – го) на простом примере ситуации назначения. глагол, отглагольное существительное или причас- Первый этап — поиск предложений, содержащих тие, деепричастие). Вокруг ключевого слова с ключевые слова, описывающие ситуацию назначе- помощью правил собираются именные группы – ния. В данном примере найдено предложение: участники ситуации. Следующий шаг – приписы- вание ролей найденным участникам в зависимости Президент России Дмитрий Медведев назначил от синтаксических характеристик главных слов полковника полиции Николая Васильева минист- найденных именных групп ром внутренних дел по Карачаево-Черкесской Республике. Что же будет пониматься под фактом, подлежа- щим извлечению? Факт может быть задан в тексте 4 Исходные данные для анализа по-разному. Границы факта могут быть в пределах именной группы (например, директор предприятия В ресурсе знаний системы ИСИДА-Т [8],[ 9] есть Виктор Петров, действующий президент), в преде- элемент знаний @назначение. В словаре ему соот- лах глагольной группы (Иван Петров назначен ветствует словарная статья, в которую входят слова, директором), а также вообще в нескольких предло- описывающие в тексте ситуацию назначения — жениях или даже целиком в тексте. Например, факт назначить, поставить, назначение, переназна- назначения Вероники Скворцовой министром чить. У элемента знаний в ресурсе есть атрибуты по задаётся текстом: числу участников ситуации: 1-ый участник, 2-ой участник, 3-ий участник. В значениях атрибутов Владимир Путин, вступив в должность президента записаны значения ролей участников. В данном Российской Федерации, произвел ряд кадровых пере- случае с ситуацией @назначение это кто_назначил, становок. Новый министр здравоохранения Веро- кого_назначил, кем_назначил. ника Скворцова, по его мнению, сможет справить- ся с накопившимися проблемами. В результате первичной обработки текста имен- Факт назначения Вероники Скворцовой на ным группам, входящим в состав рассматриваемого должность министра здравоохранения автомати- предложения, сопоставлены аннотации, связыва- чески извлечь из такого текста пока не представля- ющие главное и зависимые слова в группе. Кроме ется возможным. того, в атрибутах этих аннотаций уже прописаны отношения, связывающие главное и зависимое сло- Итак, под фактом, подлежащим извлечению, мы во. Так, в данном предложении 3 большие именные будем понимать факт, который задаётся в рамках группы: глагольной группы (глагол и зависимые от него именные группы). Президент России Дмитрий Медведев (между группами президент России и Дмитрий Медведев 3 Пример реализации предлагаемого установлено отношение $роль-лицо), подхода в системе ИСИДА-Т Полковника полиции Николая Васильева (между Рассмотрим реализацию описываемого подхода группами полковник полиции и Николай Васильев на примере ситуаций назначения, увольнения и установлено отношение $звание-лицо), пребывания в должности. Исходные данные для извлечения фактов — результаты обработки текста в Министром внутренних дел по Карачаево- системе ИСИДА-Т [1], [6], [7]. Извлечение инфор- Черкесской Республике (между группой министром мации из текстов в системе ИСИДА-Т основано на и группой внутренних дел установлено отношение предварительной лингвистической обработке текста. $ограничение, между группой министром и груп- Результатом первичной обработки является полный пой по Карачаево-Черкесской республике — также морфологический разбор всех слов, входящих в $ограничение). 314 На следующем этапе работы алгоритма создают- падеже. Так, в рассматриваемом примере в ся аннотации для именных групп — потенциальных аннотацию при глаголе назначил будет добавлено участников ситуации. С помощью правил на три атрибута — Part_I (участник в именительном формальном языке PSL (Pattern Specification Lang- падеже, значение – ссылка на именную группу uage) задается область сопоставления справа и слева президент Дмитрий Медведев), Part_V (участник в от слова, помеченного аннотацией со ссылкой на винительном падеже, значение — ссылка на имен- ситуацию. Таким образом, создаются аннотации ную группу полковника полиции Николая Василь- сначала для групп, расположенных непосредственно ева) и Part_T (участник в творительном падеже, справа и слева от слова назначил. Следующий этап значение – ссылка на именную группу министром поиска — проверка более удаленных позиций, рас- внутренних дел по Карачаево-Черкесской респуб- положенных непосредственно рядом с уже найден- лике). ными именными группами. Так, в рассматриваемом примере на первом этапе будут отмечены группы Завершающая стадия работы алгоритма — (Президент Дмитрий Медведев) (назначил) приписывание ролей найденным участникам. На этом этапе создаются специальные аннотации, (назначил) (полковника полиции Николая посредством которых моделируется синтактико- Васильева), семантическая связь между предикатом и его актантом, так как именно на этой стадии работы а на втором этапе поиска - группа алгоритма происходит интерпретация синтакси- (назначил) (полковника полиции Николая Васильева ческой связи в семантическое отношение, прописан- министром внутренних дел по Карачаево- ное в ресурсе знаний у соответствующего элемента. Черкесской республике) У вновь образующихся аннотаций строятся следую- щие атрибуты: В каждой группе выделено главное слово. Следует обратить внимание на то, что более удаленная имен- Атрибут Master — ссылка на главное слово (в ная группа (министром внутренних дел по Карача- нашем примере - назначил), ево-Черкесской Республике) помечается аннотаци- ей, которая содержит и более близко расположен- Атрибут Slave — ссылка на зависимое слово ную группу: полковника полиции Николая Василье- (главное слово зависимой именной группы), ва. Таким образом, в результате разметки предложе- ния три именные группы оказались отмеченными Атрибут DomRel — название отношения, которое как потенциальные участники ситуации назначения, связывает Master и Slave. и аннотации, которыми они помечены, расположены непосредственно рядом с аннотацией, которой отме- Как же происходит интерпретация? Здесь чено слово-ситуация. Как можно увидеть из описа- учитывается сразу несколько факторов: ния алгоритма, предполагается, что именные групп- пы, расположенные непосредственно справа и слева  Морфологические характеристики слова, от слова, обозначающего ситуацию, относятся имен- называющего ситуацию; но к этой ситуации и между ними не может оказать- ся группы, относящейся к другому глаголу (отгла-  Наличие других найденных и зафиксиро- гольному существительному, причастию, деепри- ванных участников и их морфологических частию). При поиске таких именных групп между характеристик; словом-ситуацией и группой потенциального участ- ника допускается наличие наречий, частиц, указа-  Прописанные в ресурсе знаний значения ний на время (временные указатели собираются на отношений между словом, называющим более ранней стадии анализа текста). Для каждой ситуацию, и именной группой-участником. именной группы-участника создается столько анно- В рассматриваемом примере глагол назначил таций, сколько значений падежа может быть у стоит в личной форме, поэтому участник в главного слова группы. В рассматриваемом примере именительном падеже однозначно интерпретируется две аннотации будет только у группы полковника как 1-ый участник ситуации, участник в винитель- полиции Николая Васильева (соответственно роди- ном падеже — как 2-ой участник, а участник в тельный и винительный падеж). творительном падеже — как 3-ий участник Следующий этап анализа — запись информации (согласно значению атрибутов у элемента знаний об именных группах, найденных вокруг слова- @назначение — кто_назначил — президент России ситуации, в аннотацию, соответствующую названию Дмитрий Медведев, кого_назначил — полковника ситуации. Информация об участниках записывается полиции Николая Васильева, кем_назначил — посредством создания в аннотации-ситуации министром внутренних дел по Карачаево- атрибутов, которые называются значениями падежа Черкесской Республике). Особенностью предлагае- главного слова именной группы, а значением мого подхода является возможность унифицирован- атрибута является ссылка на аннотацию, соответ- ного описания синтаксических конструкций. Припи- ствующую группе с главным словом в данном 315 сывание ролей (1-ый участник, 2-ой участник, 3-ий демонстрирует большую гибкость нового подхода, участник) именным группам происходит только в легкость дополнения и настраивания под новые зависимости от морфологических характеристик задачи. Результаты анализа сохраняются в удобной слова, называющего ситуацию, а конкретную форме, их можно использовать как основу для смысловую интерпретацию этого отношения можно дальнейшей обработки текста. установить по ссылке на элемент знаний, соответ- ствующий анализируемой ситуации. Это делает Литература систему гибкой, легко перенастраиваемой на анализ других ситуаций. Достаточно внести в ресурс [1] Александровский Д.А., Кормалев Д.А., Корма- знаний элементы, описывающие нужные ситуации и лева М.С., Куршев Е.П., Сулейманова Е.А., заполнить у этих элементов атрибуты, с помощью Трофимов И.В. Развитие средств аналитичес- которых будут интерпретироваться отношения меж- кой обработки текста в системе ИСИДА-Т // ду словом-ситуацией и именной группой, — анализ Тр. Десятой нац. конф. по искусственному будет производиться точно так же, как и для ранее интеллекту с междунар. участием КИИ-2006, введенных в рассмотрение ситуаций. Обнинск, 25-28 сентября 2006 г.: В 3 т. — М.: Физматлит, 2006. — Т. 2. — С. 555—563. Помимо этого, при подобном устройстве системы [2] Гершензон Л. М., Ножов И. М., Панкратов Д. извлечения фактов появляется возможность перед В. Система извлечения и поиска структуриро- приписыванием ролей и окончательным оформле- ванной информации из больших текстовых нием результата извлечения провести сопоставление массивов СМИ. Архитектурные и лингвисти- найденных участников и, возможно, в некоторых ческие особенности. Компьютерная лингвис- случаях, отказаться от построения аннотаций, тика и интеллектуальные технологии: Труды интерпретирующих синтаксическую связь в отноше- международной конференции «Диалог’2005» ние, которое будет записано в итоговый результат (Звенигород, 1–6 июня, 2005 г.)/ Под ред. И. М. анализа. Так, например, в предложении: Кобозевой,А. С. Нариньяни, В. П. Селегея. — М.: Наука, 2005. На сегодняшнем совещании речь шла о назначе- [3] Ермаков А.Е. Автоматическое извлечение ниях губернаторов, фактов из текстов досье: опыт установления анафорических связей. Компьютерная лингвис- у слова, описывающего ситуацию назначения, тика и интеллектуальные технологии: труды обнаруживается только один потенциальный участ- Международной конференции "Диалог 2007". ник — именная группа губернаторов. В данном – Москва, Наука, 2007 случае речь не идет о конкретной ситуации назначе- [4] Ермаков А.Е. Извлечение знаний из текста и их ния, другие участники не определены, поэтому из обработка: состояние и перспективы. Инфор- данного предложения факт назначения извлечен не мационные технологии 2009, № 7 будет. Построение аннотации, соответствующей [5] Киселев С.Л., Ермаков А.Е., Плешко В.В. построению связи между словом-ситуацией и имен- Поиск фактов в тексте естественного языка на ной группой, будет запрещено на уровне правил. В основе сетевых описаний. Компьютерная линг- общем случае, если один из участников ситуации вистика и интеллектуальные технологии: выражен местоимением или если это эллиптическая труды Международной конференции конструкция, будет помечено слово-ситуация, обо- Диалог’2004. — М.: Наука, 2004. значены потенциальные участники, но аннотации, которые строят отношения между словом-ситуацией [6] Кормалев Д.А., Куршев Е.П., Сулейманова и именной группой, построены не будут. Зато эти Е.А., Трофимов И.В. Архитектура инструмен- предварительные результаты можно будет тальных средств систем извлечения информа- использовать при дальнейшем анализе текста, отож- ции из текстов. Труды международной конфе- дествлении объектов и ситуаций, извлеченных на ренции "Программные системы: теория и более ранних стадиях анализа. приложения", Переславль-Залесский, М.: Физматлит, 2004, т.2, с.49—70 5 Заключение [7] Кормалев Д.А., Куршев Е.П., Сулейманова Е.А., Трофимов И.В. Извлечение данных из Предлагаемый подход извлечения фактов из текста. Анализ ситуаций ньюсмейкинга. Труды текстов основывается на частичном синтаксическом Восьмой национальной конференции по искус- анализе выделенных фрагментов текста под контро- ственному интеллекту с международным учас- лем ресурса знаний. Тестирование предлагаемого тием КИИ-2002. Москва, Физматлит, 2002, с. алгоритма извлечения фактов из неструктурирован- 199-206 ного текста показало значительное ускорение рабо- [8] Кормалев Д.А., Куршев Е.П., Сулейманова ты программы по сравнению с подходом, где Е.А., Трофимов И.В.. Технология извлечения извлечение было основано на поиске фрагментов информации, из текстов, основанная на текста, удовлетворяющих записанным на языке знаниях. Программные продукты и системы, правил шаблонным конструкциям. Кроме того, 2009, №2 процесс разработки и отладки алгоритма 316 [9] Куршев Е.П., Сулейманова Е.А. Ресурсы An approach to the automatic fact extraction предметных знаний в системах интеллек- from news texts туального анализа текста // Тр. междунар. on appointments and dismissals in texts конф. «Программные системы: теория и приложения», ИПС РАН, Переславль- Natalia Vlasova Залесский, октябрь 2006 г.: В 2 т. — М.: Физматлит, 2006. — Т.1. — С. 379—390. This work proposes an approach to the fact extraction in [10] http://www.mlg.ru/ the rule-based system of information extraction ISIDA- T. The main idea is a search of “keywords” that describe the fact with the subsequent gathering of suitable noun groups around the founded “keywords”. 317