=Paper= {{Paper |id=None |storemode=property |title=Итерационное извлечение шаблонов описания событий по новостным кластерам (Iterative Pattern Extraction Using News Clusters) |pdfUrl=https://ceur-ws.org/Vol-934/paper45.pdf |volume=Vol-934 |dblpUrl=https://dblp.org/rec/conf/rcdl/KotelnikovL12 }} ==Итерационное извлечение шаблонов описания событий по новостным кластерам (Iterative Pattern Extraction Using News Clusters) == https://ceur-ws.org/Vol-934/paper45.pdf
 Итерационное извлечение шаблонов описания событий
              по новостным кластерам

            © Д. С. Котельников                                   © Н. В. Лукашевич
 Московский государственный университет                          Научно-исследовательский
         имени М.В. Ломоносова                                  вычислительный центр МГУ
                                                                  имени М.В. Ломоносова
                                                Москва
                   info@dmitriu.com                                 louk@mail.cir.ru
                                                        трудно предусмотреть все способы описания
                  Аннотация                             некоторого события в тексте.
    В статье описывается метод итерационного               Использование итерационного метода извлече-
    формирования шаблонов описания событий              ния шаблонов [2] позволяет обойти основной
    по новостным кластерам. Небольшое коли-             недостаток инженерного подхода — необходимость
    чество размеченных примеров используется            участия человека в процессе написания новых
    для построения базовых шаблонов, которые            шаблонов. Идея метода состоит в повторении двух
    обогащаются за счет вариативности описа-            итераций:
    ния события в новостных сообщениях                      1. поиск документов, которые содержат
    близкой тематики. Проведены экспери-                        участников уже установленных фактов и
    менты, в которых показана возможность                       формирование новых шаблонов;
    формирования шаблонов для различных                     2. извлечение новых фактов, использующих
    типов отношений.                                            шаблоны, полученные на первой итерации.
1 Введение                                                 Для обучения алгоритму достаточно нескольких
                                                        размеченных примеров. В предыдущих работах
   В связи с ростом объемов информации и                [1, 2] применимость метода исследовалась для
развитием сети Интернет, задача автоматической          извлечения бинарных отношений, но особенно
обработки текста на естественном языке и извле-         сложной задачей для систем извлечения информа-
чения структурированной информации приобретает          ции из текста является выделение ситуаций, в
все большую актуальность. Подобные системы              которых задействовано несколько участников.
обрабатывают огромное количество текстов, состав-          Таким образом, актуальной является задача
ляя различные базы знаний.                              автоматического формирования шаблонов описания
   Традиционными подзадачами систем извлечения          для произвольного события с использованием
информации из текста являются:                          небольшого количества размеченных примеров.
    1. выделение именованных сущностей, напри-             В работе описывается итерационный подход к
        мер названий организаций, людей, геогра-        автоматическому формированию шаблонов извлече-
        фических объектов, временные и денежные         ния фактов с использованием нескольких близких
        обозначения и др.;                              по смыслу новостных сообщений, объединенных в
    2. нахождение различных обозначений одного          кластер. В новостном кластере часто оказывается
        и того же объекта в тексте;                     достаточное количество предложений, в которых
                                                        некоторое событие распознано вполне успешно, так
    3. извлечение фактов или отношений между
                                                        и предложения, в которых содержатся те же
        несколькими сущностями.
                                                        участники, но событие не распознано вовсе. Именно
   Разработано большое количество систем                эту вторую группу предложений можно использо-
выделения фактов из текстов на русском языке [8, 9,     вать для получения новых шаблонов описания
10, 11, 12], которые используют так называемый          событий.
инженерный подход, когда шаблоны для извлечения
                                                           Небольшое количество новостных кластеров с
информации описываются вручную экспертами. Для
                                                        указанием фактов, которые в них содержатся,
такого рода систем характерна высокая трудоем-
                                                        используются для формирования базовых шаблонов.
кость создания и низкая полнота извлекаемой
                                                        Получившиеся шаблоны применяются на всей
информации. Проблема состоит в том, что эксперту
                                                        коллекции для извлечения новых фактов, которые
                                                        опять используются для формирования шаблонов.
Труды 14-й Всероссийской научной конференции            Таким образом, несколько новостных кластеров,
«Электронные библиотеки: перспективные методы и         описывающих различные случаи упоминания одно-
технологии, электронные коллекции» — RCDL-2012,         типного события, позволяют обнаружить дополни-
Переславль-Залесский, Россия, 15-18 октября 2012 г.     тельную лексическую информацию для отражения в


                                                  292
шаблонах описания события. Повторение несколько        используются для классификации географических
итераций позволяет достичь наилучшего результата.      объектов по типам. Алгоритмы классификации
   Оценка качества предложенного метода исследо-       строятся с помощью дискреционных процедур
валась на размеченной коллекции для нескольких         распознавания по прецедентам.
видов событий. Приводится сравнение полученных
результатов с результатами системы, основанной на      3 Выделение сущностей
инженерном подходе.                                       Одной из важных подзадач извлечения
   Дальнейшее изложение статьи организовано            информации из текста является выделение кон-
следующим образом: в разделе 2 приводится обзор        кретных сущностей, упомянутых в тексте. Под
ключевых исследований итерационного метода и           термином сущность мы будем понимать объект
применения новостных кластеров для извлечения          определенного типа, имеющий имя; обозначения
информации из текста, в разделе 3 описывается          даты или времени; числовые выражения.
метод выделения сущностей, в разделе 4 описан наш         Тексты новостей предварительно обрабатыва-
итерационный подход к автоматическому построе-         ются морфологическим анализатором. Морфологи-
нию шаблонов, в разделе 5 представлены результа-       ческая омонимия частично снимается за счет
ты экспериментов и оценка предложенного подхода.       согласования прилагательного и существительного,
                                                       который к нему относится. Омонимия на падеж
2 Обзор работ по исследуемой тематике                  существительного частично разрешается предлогом.
   Впервые итерационный метод формирования
                                                       3.1 Описание метода выделения сущностей
шаблонов для извлечения отношений (книга, автор)
из частично структурированных HTML документов             Для выделения даты используется небольшой
описан в статье [2]. Обучение начинается с             словарь, содержащий названия месяцев, дней недели
небольшого количества фактов, составленных чело-       и времен года, а так же шаблоны, которые
веком. Для извлечения шаблонов система исполь-         позволяют выделять дату из нескольких подряд
зует контексты в виде трех подстрок (левый, правый     идущих чисел с разделителями или комбинаций
и средний) около упоминаний сущностей.                 чисел и слов из словаря. Например, «05.07.1988», «5
Поисковая система используется для нахождения          августа 2006 года».
сайтов, на страницах которых содержатся                   Числовые       выражения      начинаются       с
соответствия книги и её автора.                        числительного или числа (нескольких чисел,
   Развитием этого подхода для текстов на              разделенных точкой или запятой) и включают
естественном языке является работа [1], в которой      стоящие после него существительные. Например,
шаблоны представлены тремя векторами лемм с            «5,5 миллиардов долларов», «10 млрд. долл.»,
весами, отражающими левый, средний и правый            «пятьдесят процентов»
контексты между извлекаемыми сущностями. На               Для выделения именованных сущностей мы
каждой итерации производится оценка качества           использовали упрощенный алгоритм, в котором
получившихся шаблонов.                                 написание слов с заглавной буквы является одним
   В работе [5] используются кластеры близких по       из основных маркеров имени сущности. Выделение
мере PMI слов [4], полученные на коллекции из          именованных сущностей производится в два этапа.
миллиона новостных сообщений:                             На первом этапе из предложений выделяются
                            T ( w, w0 )                последовательности [P] из одного или нескольких
   PMI ( w0 , w)   log                  ,            идущих подряд слов, которые могут содержать одну
                           T ( w)T ( w0 )              или несколько именованных сущностей, по
   Шаблоны      учитывают    порядок   слов   в        следующему алгоритму:
предложении. Кластеры близких по смыслу слов              1. Производится поиск слова S написанного с
используются для обогащения конкретных значений               заглавной буквы или аббревиатуры, S
лемм в шаблонах, а так же для проверки                        добавляется в [P];
получившихся фактов.                                      2. Если перед словом S стоит существительное,
   Использование новостных кластеров для                      то оно так же включается в [P], вместе с
формирования шаблонов описано в статьях [6, 7].               прилагательными, которые к нему относятся.
Для каждого кластера формируются граф                     3. В [P] включаются все аббревиатуры и слова,
участников некоторого события, после чего                     написанные с заглавной буквы, которые
конкретные значения обобщаются до понятий с                   следуют непосредственно за S.
помощью тезауруса WordNet [3]. В получившихся
                                                          4. Если последовательность [P] заканчивается
графах производится поиск общих поддеревьев,
                                                              прилагательным, например «Международ-
которые образуют шаблоны для извлечения
                                                              ный», то в [P] также включается и существи-
информации из текста.
                                                              тельное, к которому оно относится.
   В статье [15] приводится формальное описание
                                                          При формировании последовательностей учиты-
правил извлечения фрагментов текста и метод
                                                       ваются разделители, кроме одинарных и двойных
автоматического построения правил, которые
                                                       кавычек.


                                                 293
   Например, из предложения «Россия готова             контексты через глагол. В тексте производится
участвовать в кредите ЕС Киеву на энергоцели -         поиск глаголов, и выделяется пара сущностей
Путин», будут извлечены следующие последова-           расположенная непосредственно по разные стороны
тельности: «Россия», «ЕС Киеву», «Путин». Из           от глагола. Если по одну сторону от глагола в двух
примера видно, что могут получаться последова-         предложениях стоят одинаковые сущности, то
тельности, содержащие сразу несколько именован-        сущности, расположенные по другую сторону от
ных сущностей, например, «ЕС Киеву».                   глагола, так же считаются синонимичными. При
   На     втором    этапе    производится   анализ     этом предлоги, которые расположены рядом с
совместной         встречаемости        нескольких     сущностями, так же должны совпадать. Например,
последовательностей в        одном предложении,        для предложений:
которые полностью содержатся в некоторой другой            1. Президент Дмитрий Медведев поручил
последовательности.                                            правительству Российской Федерации не
   Для этого в кластере производится поиск                     выполнять протокол до тех пор, пока в нем
нескольких сущностей из одного предложения, не                 не будут сняты противоречия.
граничащих друг с другом, объединение которых              2. Президент России Дмитрий Медведев
дает другую полную последовательность. При                     поручил правительству Российской Феде-
разделении последовательности на несколько                     рации не выполнять протокол до тех пор,
именованных сущностей делаются дополнительные                  пока в нем не будут сняты противоречия.
проверки на корректность получившихся сущ-                будет установлена синонимичность следующих
ностей.                                                сущностей: «Президент Дмитрий Медведев»,
   Так в кластере, содержащем предложения:             «Президент России Дмитрий Медведев».
   1. Россия готова участвовать в кредите ЕС
                                                       3.3 Значимые слова
        Киеву на энергоцели - заявил Путин;
   2. В ответ на жесткую позицию России, кото-            Предыдущее исследование различных описаний
        рая заявила, что не будет выполнять подпи-     событий [13] показало, что присутствие некоторых
        санный Киевом протокол по транзиту газа        лемм в предложении может указывать на наличие в
        из-за внесенных в него оговорок, ЕС и          нем извлекаемого события. В данной работе
        Украина говорят, что согласны рассмотреть      экспертом задается одно значимое слово, после чего
        претензии Москвы»                              значимые слова обогащаются за счет нахождения
   Последовательность «ЕС Киеву» будет разбита         синонимичных слов. Например, для факта покупки
на две именованные сущности «ЕС» и «Киев».             значимыми являются слова: «купить», «приобрести»
                                                       и др.
3.2 Поиск синонимичных сущностей
                                                       4 Описание работы системы
   В тексте новостного кластера один и тот же
объект может описываться различными выражении-            В качестве исходных данных для работы
ями. Например, в новостном кластере про получе-        системы использовалось значимое слово и
ние кредита Белоруссией от Международного              новостной кластер, в котором указаны основные
валютного фонда, встречаются следующие обозна-         участники и их роль в извлекаемом событии. Для
чения кредитора: «МВФ», «Совет директоров              всех фактов достаточно указать только один вариант
МВФ», «Исполнительный совет Международного             названия именованной сущности.
валютного фонда», «Международный валютный                 Новостной архив Google используется для
фонд» и др.                                            поиска кластеров, которые потенциально могут
   Для поиска различных вариантов названий одной       содержать извлекаемое событие. В качестве ключе-
сущности используются контексты. Если для двух         вого слова при поиске используются значимые
сущностей полностью совпадают контексты длины          слова. Из новостного архива извлекаются ссылки на
два по обе стороны, то две сущности считаются          документы с полным описанием новости и с сайтов
синонимами. Например, для предложений:                 новостных изданий скачиваются HTML страницы, и
                                                       извлекаются тексты, которые в них содержатся.
    1. Заместитель главы Газпрома Александр
       Медведев заявил, что поставки российского          Размеченный новостной кластер обрабатывается
       газа в Евросоюз через территорию Украины        морфологическим анализатором и модулем выде-
       могут быть возобновлены.                        ления сущностей. Среди получившихся именован-
                                                       ных сущностей производится поиск полных совпа-
    2. Поставки российского газа в Европу через
                                                       дений со слотами фрейма, и извлекаются шаблоны.
       территорию Украины могут быть возобнов-
       лены.                                           4.1 Шаблоны описания событий
   Получаются синонимичные сущности: «Евросо-
юз» и «Европа», которые используются только в             Для извлечения информации из текста исполь-
рамках одного кластера.                                зуются шаблоны, которые учитывают порядок слов
                                                       в предложении и могут содержать сразу несколько
   Второй вид контекстов, который используется         участников события. При формировании и сопостав-
для поиска различных названий одного объекта —


                                                 294
лении шаблонов не учитываются обозначения даты             Наилучший результат в среднем достигается
и времени.                                              после 5-6 циклов. На каждой итерации происходит
   В шаблонах используются следующие конструк-          обогащение шаблонов новыми вариантами описания
ции, которые позволяют обобщить конкретные              события.
значения слотов или некоторых сущностей в
предложении:                                            5 Эксперименты
   1. [Number] – соответствует произвольному               Экспериментальные исследования проводились
         числовому выражению;                           на коллекциях новостных кластеров, собранных из
   2. [Entity:Debtor: [Дт, Рд]] – именованная           архива Google [14]. Рассматривались события
         сущность, соответствующая участнику собы-      выдачи кредита и покупки, которые различаются по
         тия, на которую накладывается ограничение      способу описания.
         по падежу (дательный или родительный).            Факт получения кредита является уточнением
         Если некоторое предложение сопоставится с      более общего факта передачи некоторого объекта от
         шаблоном, то именованной сущности будет        одного участника другому, поэтому в предложении
         присвоена роль «Debtor».                       обязательно должно присутствовать значимое слово
   Шаблоны строятся для предложений, в которых          — существительное, которое уточняет объект
найдено не менее двух участников, следующим             передачи и условия. Например, «кредит», «транш»,
образом:                                                «займ», «кредитная линия» и другие.
   1. слоты целевого фрейма в предложении,                 В факте покупки нет жестких ограничений на
         заменяются на конструкцию [Entity:Роль] и      объект, который участвует в событии, а ограничение
         добавляется ограничение на падеж;              накладывается только на совершаемое действие,
                                                        поэтому значимое слово является глаголом.
   2. для построения          шаблона    выделяется
         непустая подстрока лемм из исходного              Исходные данные для работы программы
         предложения между двумя разными слотами        приведены в таблице 1. Из новостного архива было
         или глаголом и одним из слотов;                собрано несколько тысяч новостных кластеров для
                                                        каждого из фактов.
   3. шаблон обязательно должен содержать
         глагол и значимое слово.                                                                 Таблица 1
   Например, из предложения:                                        Исходная информация для работы системы

   «МВФ предоставит Белоруссии кредит на                 Факт          Покупка              Кредит
сумму $2,46 млрд»                                        Значимое      «Купить»             «Кредит»
   будет извлечен следующий шаблон:                      слово
   [Entity:Creditor:[Им]]       <ПРЕДОСТАВИТЬ>           Факт          Buyer:«Microsoft»    Debtor:
[Entity: Debtor:[Дт]] {КРЕДИТ} [Number:Amount].                        Goods: «Yahoo»       «Белоруссия»
   так как лемма «кредит» — значимое слово, а                          Amount: «44,6»       Creditor:
«предоставит» — глагол.                                                                     «МВФ»
   Получившиеся шаблоны используются для                                                    Amount: 4
построения конечного автомата, который исполь-
зуется для сопоставления шаблонов с предложе-              Оценка качества работы системы проводилась на
ниями и извлечения значений слотов из текста.           коллекции из 84 кластеров, которые были
                                                        размечены экспертом. Для каждого кластера эксперт
   Для построения шаблонов описания событий
                                                        выделил факты, которые в нем содержатся, а так же
используется следующая схема работы итерацион-
                                                        список возможных значений для каждого слота.
ного метода:
                                                        Пример ручной разметки для некоторого кластера
   1. {E} ← Базовые примеры                             содержащего сразу два факта получения кредита:
   2. {O} ← FindOccurences({E}, {D})
                                                        Creditor:      «ВЭБа»,      «Внешэкономбанка»,
         Поиск предложений, в которых входят            «Внешэкономбанка ВЭБ», «ВЭБ»;
         значения слотов {E} фреймов в новостные
                                                        Amount: «10,2 млрд рублей»;
         документы {D}
   3. {P} ← GeneratePatterns({O})                       Debtor: «ОАО Альфа-Банк Москва», «Альфа-Банк»
                                                        Creditor: «акционеры Альфа-Банка»
         Построение шаблонов {P} из предложений, в
         которых удалось найти несколько фактов         Amount: «370 млн долл»;
   4. {E} ← ApplyPatterns({P}, D)                          Для    оценки   качества    работы   системы
         Извлечение новых фактов {E} из новостных       использовалась перекрёстная проверка. Множество
         документов с использованием шаблонов           размеченных примеров разбивалось на 4 блока,
                                                        обучение    производилось    на    ¾   выборки,
   5. Если количество уникальных шаблонов
                                                        тестирование на ¼.
         увеличилось, переходим на шаг 2, иначе
         останавливаемся.


                                                  295
    Факт считался правильно извлеченным, если                    Примеры наиболее частотных шаблонов для
извлеченное значение для каждого слота содержит-              факта получения кредита:
ся в значениях, указанных экспертом и неправильно                1. [Entity:Creditor:[Им]] <ПРЕДОСТАВИТЬ>
извлеченным, если хотя бы одно значение слота                        [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ}
извлечено неправильно. Учитывались только уни-
                                                                 2. [Entity:Creditor:[Вн, Им]] <ВЫДЕЛИТЬ>
кальные в пределах одного кластера факты.
                                                                     [Entity:Debtor:[Им, Рд]] {КРЕДИТ}
В таблице 2 приведены результаты работы метода
                                                                 3. [Entity:Debtor:[Им]]             <ПОЛУЧИТЬ>
на различных разбиениях размеченной выборки.
                                                                     {КРЕДИТ} НА [Number:Amount]
                                            Таблица 2            4. [Entity:Creditor:[Им]]           <ВЫДЕЛИТЬ>
                             Результаты оценки метода
                                                                     [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ} В
     №         Точность      Полнота          F-мера                 [Number:Amount]
     1         0,97          0,41             0,57               5. [Entity:Creditor:[Им]] <ПРЕДОСТАВИТЬ>
     2         0,95          0,55             0,69                   [Entity:Debtor:[Рд, Дт]] {КРЕДИТ} В
                                                                     [Number:Amount]
     3         0,98          0,35             0,51
                                                                 6. [Entity:Creditor:[Им]]                  <ДАТЬ>
     4         0,92          0,71             0,8                    [Entity:Debtor:[Рд, Дт, Пр]] {КРЕДИТ}
     Среднее   0,95          0,5              0,65               7. [Entity:Creditor:[Им]]           <ОДОБРИТЬ>
   В таблице 3 приведены результаты оценки                           ВЫДЕЛЕНИЕ [Entity:Debtor:[Рд, Дт, Пр]]
извлеченных фактов для каждой итерации при                           {КРЕДИТ}
обучении на всей размеченной коллекции. После 5                  8. [Entity:Creditor:[Им]]               <ВЫДАТЬ>
итерации новые шаблоны больше не формируются.                        {КРЕДИТ} [Entity:Debtor:[Рд]]
В таблице 4 приведены результаты оценки                          9. [Entity:Creditor:[Им,           Вн,          Пр]]
отдельных предложений из обучающей выборки, в                        <ПРЕДОСТАВИТЬ> [Entity:Debtor:[Дт, Рд]]
которых был извлечен факт. Если из двух                              {КРЕДИТ} В РАЗМЕР [Number:Amount]
предложений извлекался один и тот же факт, то оба                10. [Entity:Debtor:[Им,                         Вн]]
предложения учитывались в результирующей                             <ПОЛУЧИТЬ>{КРЕДИТ}                           ОТ
оценке.                                                              [Entity:Creditor:[Рд]]
   В конце таблицы приведены результаты работы                и для факта покупки:
одной из систем извлечения информации из текстов
на русском языке, основанной на инженерном                        1. [Entity:Buyer:[Им]]                  {КУПИТЬ}
подходе (ИП). Шаблоны для выделения фактов                            [Entity:Goods:[Рд]]
получения кредита и покупки уже были описаны в                    2. [Entity:Buyer:[IM]]             {ПОКУПАТЬ}
данной системе.                                                       [Entity:Goods:[Рд]]
                                           Таблица 3              3. [Entity:Buyer:[Им]] <ХОТЕТЬ> {КУПИТЬ}
Результаты оценки фактов для кластеров по итерациям                   [Entity:Goods:[Рд]]
                                                                  4. [Entity:Buyer:[Им]] <МОЧЬ> {КУПИТЬ}
 №       Шаблонов     Точность      Полнота    F-мера
                                                                      [Entity: Goods:[Вн, Рд]]
 1       12           1             0,07       0,13               5. [Entity:Goods:[Им]] <РЕШИТЬ> {КУПИТЬ}
 2       183          0,97          0,34       0,5                    [Entity:Buyer:[Им, Вн, Рд]]
 3       316          0,94          0,65       0,78               6. [Entity:Buyer:[Им]] {КУПИТЬ} АКЦИЯ
                                                                      [Entity:Goods:[Им, Вн, Рд]]
 4       325          0,94          0,65       0,78
                                                                  7. <РАЗРЕШИТЬ>                  [Entity:Buyer:[Рд]]
 5       330          0,94          0.65       0,78
                                                                      {КУПИТЬ} [Entity:Goods:[Им]]
 ИП      20           0,95          0,24       0,38               8. [Entity:Buyer:[Им,      Дт]]    <НАМЕРИТЬ>
                                                                      {ПРИОБРЕСТИ} [Entity:Goods:[Рд]]
                                              Таблица 4
                             Результаты оценки фактов             9. [Entity:Buyer:[Рд]]        <СОГЛАСИТЬСЯ>
                          для предложений по итерациям                {КУПИТЬ} [Entity:Goods:[Им, Вн, Рд]]
         Количество предложений       Количество                  10. [Entity:Buyer:[Им]] {ПРИОБРЕСТИ} {Date}
 №                                                                    [Entity:Goods:[Рд]]
         с фактами                    ошибок
 2       278                          3                          В таблице 5 приведены получившиеся синонимы
                                                              для значимых слов.
 3       643                          16
 4       802                          18
 5       817                          18
 6       819                          18
 ИП      178                          5



                                                        296
                                         Таблица 5     формирования шаблонов           системы     извлечения
               Результаты нахождения значимых слов     информации из текста.
 Факт получения кредита    Факт покупки
                                                       Литература
 АВТОКРЕДИТ                ВЫКУПИТЬ
                                                        [1] Agichtein E., Gravano L. Snowball: extracting
 БРИДЖ-КРЕДИТ              ДОКУПИТЬ                         relations from large plain-text collections. Procee-
 ГОСКРЕДИТ                 ЗАКУПИТЬ                         dings of the Fifth ACM Int. Conference on Digital
                                                            Libraries, p. 85-94, New York, 2000.
 КРЕДИТ                    КУПИТЬ                       [2] Brin S. Extracting patterns and relations from the
 МИКРОКРЕДИТ               НАКУПИТЬ                         World Wide Web. Proceedings of the 1998 Int.
                                                            Workshop on the Web and Databases, p. 172–183,
 СТАБКРЕДИТ                НАПОКУПАТЬ                       New York, 1998
 ТРАНШ                     ПЕРЕКУПИТЬ                   [3] G. Miller. Wordnet: A lexical database for
                                                            English. CACM, 38(11), p. 39–41, 1995.
 ЭКСПРЕСС-КРЕДИТ           ПЕРЕПРОДАТЬ
                                                        [4] Lin D. Automatic retrieval and clustering of simi-
                           ПОДКУПИТЬ                        lar words. In Proceedings of the 17th International
                                                            Conference on Computational Linguistics and the
                           ПОКУПАТЬ
                                                            36th Annual Meeting of the Association for
                           ПОНАПОКУПАТЬ                     Computational Linguistics (COLING-ACL-98), p.
                                                            768–774, 1998.
                           ПОПОКУПАТЬ
                                                        [5] Pasca M., Lin D., Bigham J., Lifchits A., Jain A.
                           ПОСТАВИТЬ                        NamesAnd Similarities On The Web: Fact Extrac-
                                                            tion In The Fast Lane. Proceedings of the 21st
                           ПРИКУПИТЬ
                                                            International Conference on Computational
                           ПРИОБРЕСТИ                       Linguistics and the 44th annual meeting of the
                                                            Association for Computational Linguistics, p.
                           ПРОДАТЬ
                                                            809–816, 2006.
                           РАСКУПИТЬ                    [6] Trampus M., Mladenić D. Constructing Event
                           РАСПРОДАТЬ                       Templates from Written News. Web Intelligence
                                                            and Intelligent Agent Technologies, p. 507–510,
                           СКУПИТЬ                          Milan, 2009.
                                                        [7] Trampus M., Mladenić D. Learning Event Patterns
   Таким     образом,     итерационный      метод           from Text. Informatica, Volume 35, Number 1,
автоматического построения шаблонов позволяет               March 2011.
значительно улучшить полноту извлекаемой                [8] Ермаков А.Е. Извлечение знаний из текста и их
информации без значимого снижения точности.                 обработка: состояние и перспективы. Инфор-
Экспериментальные исследования предложенного
                                                            мационные технологии № 7, с. 50 – 55, М:
подхода показали, что обучение даже на небольшом
количестве размеченных примеров, позволяет                  Вид, 2009.
превзойти результаты работы системы, основанной         [9] Ефименко И., Леонтьева Н., Хорошевский В.
на инженерном подходе.                                      Семантическое аннотирование под управле-
                                                            нием предметных онтологий в проекте
6 Заключение                                                OntosMiner. Труды 9-й Конференции по
                                                            Искусственному        Интеллекту,        КИИ-2004,
   В данной работе описан итерационный метод                Тверь, 2004.
извлечения шаблонов описания событий по новост-        [10] Ефименко И.В., Жалыбин П.П., Минор С.А.,
ным кластерам. Новостные кластеры используются              Старостин А.С., Хорошевский В.Ф. Проект
как источник разнообразных описаний событий.                OntosMiner: воспоминания о будущем. Труды
Метод основан на нахождении в новостном кластере            12-й Конференции по Искусственному
нескольких предложений с одинаковыми участ-                 Интеллекту, КИИ-2010, Тверь, М.: 2010.
никами, в одном из которых удалось обнаружить
                                                       [11] Киселев С.Л., Ермаков А.Е., Плешко В.В.
извлекаемое событие. Итерационный метод позво-
                                                            Поиск фактов в тексте естественного языка на
ляет существенно сократить количество обучающих
                                                            основе сетевых описаний. Труды международ-
примеров и необходимость участия человека в
                                                            ной конференции «Диалог 2004»: Компьютер-
процессе получения новых шаблонов описания
                                                            ная лингвистика и интеллектуальные техноло-
событий.
                                                            гии, с. 282-285, 2004.
   Оценка предложенного подхода производилась
                                                       [12] Кормалев Д.А., Куршев Е.П., Сулейманова
на двух фактах получения кредита и покупки
                                                            Е.А., Трофимов И.В. Извлечение информации
методом перекрестной проверки. Эксперименты                 из текста в системе ИСИДА-Т. Труды 11-й
показали применимость метода для автоматического
                                                            всероссийской научной конференции «Элек-


                                                 297
     тронные библиотеки: перспективные методы и             библиотеки: перспективные методы и техноло-
     технологии,      электронные      коллекции»,          гии, электронные коллекции» RCDL’2011,
     RCDL’2009, c. 247–253, Петрозаводск, 2009.             Воронеж, 2011
[13] Котельников Д.С., Лукашевич Н.В. Автомати-
     зированное пополнение шаблонов для системы          Iterative Pattern Extraction Using News
     извлечения информации из текста. Труды 12-й                         Clusters
     всероссийской научной конференции «Элек-
     тронные библиотеки: перспективные методы и               Dmitry Kotelnikov, Natalia Loukachevitch
     технологии,      электронные      коллекции»,
                                                       In this article, we describe an iterative pattern extraction
     RCDL’2010, с. 101–107, Казань, 2010.
                                                       approach. The extraction starts from a few original facts
[14] Сайт новостного архива Google. http://news.       and improves the coverage by using duplicate informa-
     google.ru/news/advanced_news_search?as_drrb=a     tion concerning the same event from news clusters.
[15] Прокофьев П.А., Васильев В. Г., Извлечение        Experiments show that our approach can be used to
     информации из текста с автоматическим             extract various types of facts.
     построением правил. Труды 13-й Всерос-
     сийской научной конференции «Электронные




                                                 298