<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Извлечение информации о ситуациях отставок-назначений в новостных текстах. Опыт разметки коллекции. Результаты тестирования.</article-title>
      </title-group>
      <fpage>42</fpage>
      <lpage>51</lpage>
      <abstract>
        <p>В настоящей работе описан эксперимент по разметке коллекции новостных текстов с целью оценить эффективность подхода к извлечению информации о ситуациях отставки-назначения в системе ИСИДА-Т. Система ИСИДА-Т разрабатывается в ИПС РАН в течение нескольких лет и реализует инженерный подход к извлечению информации из текстов. В данной статье описывается попытка реализации подхода, описание тестовой коллекции, а также приводятся полученные рузультаты.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        В ИЦИИ ИПС РАН в рамках проекта
ИСИДАТ[1],[6],[7] ведѐтся работа по извлечению из
новостных текстов информации о ситуациях
назначения-отставки. На RCDL-2012 был
представлен доклад о концепции извлечения
информации о ситуациях отставки-назначения в
рамках инженерного подхода, реализуемого в
системе ИСИДА-Т [
        <xref ref-type="bibr" rid="ref2">11</xref>
        ]. Для экспериментальной
оценки эффективности данной разработки была
размечена коллекция из 231 документа (новостные
сообщения), в которых встречается 868 ситуаций
отставки-назначения. Была проведена настройка
системы правил, более детально проработаны
контексты, описывающие целевые ситуации, и
отлажено программное обеспечение. Были
получены первые числовые данные, позволяющие
судить об эффективности работы системы при
извлечении ситуаций. При написании статьи были
учтены вопросы и замечания, полученные автором
на RCDL-2012.
2 Понятие текстовой ситуации и
принципы разметки текстов. Исходные
данные для анализа ситуаций
Труды 15-й Всероссийской научной конференции
«Электронные библиотеки: перспективные методы и
технологии, электронные коллекции» — RCDL-2013,
Ярославль, Россия, 14-17 октября 2013 г.
кто уволил (Правительство России) – 1-й участник,
кого уволил (Александра Киселѐва) – 2-й участник,
с какой должности (руководителя ―Почты России‖)
– 3-й участник.
Вне текста наше знание о ситуации базируется на
информации о еѐ участниках и отношениях между
ними. В текстах об этом событии может быть
рассказано по-разному:
1. Решение об отставке руководителя "Почты
России" правительством принято.
2. Правительство России приняло
об отставке главы "Почты России"
Киселѐва
решение
Александра
3. Бывший глава «Почты России» Александр
Киселев получит после отставки с должности
более 3 миллионов рублей,
4. На фоне коллапса, возникшего в работе «Почты
России», правительство отправило в отставку
генерального директора предприятия Александра
Киселѐва
5. Александр Киселев, об отставке которого с
поста генерального директора «Почты России»
стало известно 19 апреля, получит
увольнения чуть более трех миллионов рублей.
после
6. Отставку Александра Киселева спровоцировал
«посылочный коллапс» в аэропортах московского
авиаузла.
7. Александр Киселев в ближайшее время может
покинуть пост главы «Почты России»
8. За что увольняют директора ―Почты России‖
Александра Киселѐва?
9. Александр Киселев, уволенный с поста
генерального директора "Почты России", после
ухода в отставку получит золотой парашют на 3
млн рублей.
10. Уволен глава ―Почты России‖
(все примеры взяты с новостных порталов в сети
Интернет)
      </p>
      <p>Легко заметить, что в новостных текстах далеко
не всегда упоминаются все три участника ситуации.
Чаще всего попадаются контексты с 2 участниками.
И почти никогда не упоминается дата события.
Кроме того, ситуация может быть описана не одним
предложением, а несколькими (см. пример 2). То
есть в тексте может не содержаться исчерпывающая
информация о ситуации. А в отдельном
предложении это вообще встречается редко. Таким
образом, построить полную картину,
ограничившись рамками одного предложения,
практически невозможно. Более того, в тексте
может говориться о возможной ситуации
ситуации, которая не произошла в
действительности, и, возможно, не произойдѐт
(например: на заседании речь шла о возможной
отставке министра образования).</p>
      <p>При разметке ситуаций назначения-отставки в
текстах коллекции для экспериментальной работы
необходимо чѐтко представлять, что будет считаться
ситуацией. Под текстовой ситуацией мы будем
понимать ситуацию, описанную в одном
предложении (возможно, не произошедшую в
действительности, но просто упомянутую в тексте)
и выраженную с помощью целевого слова-маркера
ситуации (слова, называющего ситуацию, – уволил,
назначил, отставка, назначив и т.п.) и именных
групп, описывающих участников ситуации. При
этом мы исходим из предположения, что участники
расположены контактно справа и слева от маркера
ситуации (между участником и словом-ситуацией
допускаются наречия, указания на время, частицы).
Наша задача – максимально полно и точно
извлечь информацию из текстовых ситуаций, то есть
определить слово-ситуацию, собрать всех
участников и правильно распределить роли. В
дальнейшем, располагая информацией о текстовых
ситуациях в разных предложениях текста и зная их
последовательность, мы сможем приблизиться к
полной информации о внетекстовой ситуации.</p>
      <p>В силу особенностей работы всех модулей
системы ИСИДА-Т не размечаются и не
включаются в общую группу ситуации:
- если хотя бы один из участников выражен именной
группой с главным словом во множественном числе,
- если хотя бы один из участников выражается
несколькими синтаксически однородными
именными группами (уволил Иванова и Петрова),
- в случае эллипсиса (Иванова назначили
директором, а Петрова – его заместителем),
- при наличии отрицания у целевого слова.
Конструкции с модальными глаголами с учѐтом
определения текстовой ситуации учитываются и
размечаются.
Итогом извлечения информации о текстовой
ситуации должен стать набор отношений,
связывающих ситуацию, обозначенную в тексте
словом-маркером, и еѐ участников, выраженных в
тексте именными группами. Рассмотрим пример:
Президент Украины Виктор Янукович отправил в
отставку премьер-министра Николая Азарова.
В результате работы модуля
информации о ситуации должен
следующий набор отношений (см. рис. 1)
извлечения
получиться
Рис.1. Представление информации, полученное в
результате работы модуля анализа ситуаций
Какой уже извлечѐнной информацией мы можем
располагать перед началом работы модуля
извлечения ситуаций? Про каждое слово в
предложении известна его морфологические
характеристики, с помощью ресурса знаний системы
ИСИДА-Т[6],[8] и специального модуля извлечения
имѐн построены специальные аннотации для имѐн
людей (включая разбиение на имя, отчество и
фамилию), названий должностей, организаций,
геополитических единиц. Отдельными аннотациями
помечаются временные указатели (включая
составные – например, вчера вечером, в следующем
году и т.п.). Возможности синтаксического
анализатора системы ИСИДА-Т ограничиваются
анализом именных групп с зависимыми
прилагательными или существительными в
родительном падеже, а также с приложениями,
включая предложные группы, в которые могут
входить более простые именные группы. Для
каждого слово известны его графематические
характеристики (написано с большой или маленькой
буквы, латинский или русский шрифт – вся
информация о написании слова в тексте.)</p>
      <p>Основная идея описываемого подхода – извлечь
всѐ, что возможно извлечь из текста средствами
локального микросинтаксиса и информацией об
извлечѐнных сущностях.</p>
      <p>
        Есть ―ядерные‖ вещи, которые можно
классифицировать и систематизировать, а есть
словарно-текстовые, которые надо будет задать
списком. Конечно, есть контексты с текстовыми
ситуациями, которые средствами системы
ИСИДАТ не могут быть обработаны. Например, такие:
1. им стал долгое время проработавший
руководителем клиники, в Москве,
заведующий кафедры ортопедической
стоматологии факультета
последипломного образования Московского
государственного
медико-стоматологического университета им.
А.И.Евдокимова, доктор медицинских наук,
профессор, человек, который знает
дагестанскую и современную мировую
медицину — Танка Ибрагимов – анализ
именной группы, которая называет
участника ситуации получения должности,
выходит за рамки возможностей
синтаксического анализатора системы
ИСИДА-Т.
2. Президент Украины Виктор Янукович сменил
главу Центрального управления Службы
безопасности страны, назначив на этот
пост человека, якобы близкого к своему
сыну – в данном примере участник отделѐн
от слова-ситуации НАЗНАЧИВ
синтаксическими группами, которые не
являются участниками ситуации.
В разметке участвовали следующие ситуации:
Аннотация разметки, атрибуты которой
сравниваются с результатами, полученными в ходе
обработки текста, содержит следующие атрибуты:
1. Situation – название ситуации
2. first – первый участник (при разметке сюда
записывается главное слово именной
группы, соответствующей по значению
данному участнику ситуации);
3. second – второй участник;
4. third – третий участник.
Если в текстовой ситуации нет информации о
каком-либо из участников, соответствующий
атрибут остаѐтся незаполненным.
См. на рисунке 2 пример аннотации разметки:
Рис.2. Пример аннотации разметки.
Одной из основных задач при разметке и
тестировании коллекции текстов было оценить,
какой результат мы сможем получить при
существующих возможностях системы для
текстовых ситуаций. Принципы разметки ситуаций
для тестирования примерно соотвествуют
принципам разметки событий ACE [
        <xref ref-type="bibr" rid="ref4">13</xref>
        ] в том, что
помечаются ключевые слова и они могут быть
выражены не только глаголом в личной форме, но и
отглагольным существительным, причастием,
деепричастием, помечаются целиком участники.
Отличия же заключаются в том, что не размечаются
ситуации, обозначенные местоимением (например,
она (отставка) произошла сегодня утром).
3 Классификация слов-маркеров
ситуации
Ниже приводятся слова, которые маркируют
ситуации, участвующие в разметке и тестировании:
Уход_в_отставку
покинуть, покидать
оставить, оставлять
лишиться, лишаться
подать, подавать (в
отставку)
сложить, складывать
(полномочия)
Ситуация
В следующей таблице приведена классификация
контекстов со словом-маркером ситуации в
зависимости от формы этого слова:
Форма целевого слова
Образец (на
примере глагола
увольнять)
Глагол в личной форме
(в единственном числе)
Уволил, увольняет и
т.п.
Возвратный глагол
Уволился
Глагол в 3 лице мн.числа
Уволили, увольняют
Глагол в инфинитиве
Причастие
действительное
Причастие
страдательное
Отглагольное
существительное
Деепричастие
Относительное
предложение
Уволить (например,
в приказе или с
модальным
глаголом)
Уволивший,
увольняющий (оч.
редко)
Уволенный,
увольняемый
увольнение
Уволив, увольняя
Иванов, который
уволил
4 Классификация участников ситуации
Прежде всего, нужно определить, какие
именные группы будут считаться участниками
ситуации. Помимо именных групп, которые задают
непосредственно участников ситуаций, - это
именные группы, которые могут находиться между
целевым словом и именной группой основного
участника. В свою очередь такие группы делятся на
вспомогательные (они нужны для того, чтобы
целевое слово указывало на ситуацию, например,
глагол уйти обозначает ситуацию
@уход_в_отставку только при наличии зависимой
именной группы с главным словом ОТСТАВКА) и
дополнительные (например, указание на время,
место, организацию – такая информация не
относится к основным участникам, но при этом
такие именные группы могут отделять группу
основного участника от целевого слова). Кроме
того, основные участники делятся на атомарные и
неатомарные группы. Атомарные именные группы
указывают на одного основного участника
ситуации, а неатомарные – на двух. Например:
1. Директор предприятия Виктор Сергеев
уволил своего заместителя Романа
Николаева.
2. Сегодня был уволен заместитель директора
Роман Николаев.
В рассматриваемых примерах 2-й (кого уволили) и
3-й (с какой должности) участники выражены в
одной именной группе.
Итак, ниже приводится классификация участников
ситуаций отставки-назначения:
      </p>
      <p>I. Основные. Атомарные
1.Именные группы с главным словом ПОСТ,
ДОЛЖНОСТЬ, КРЕСЛО, МЕСТО +
название должности или + местоимение
ЕГО, ЕЁ, СВОЙ, ЭТОТ;
2.Именная группа – имя человека;
3.Именная группа – название должности
4.Именные группы, устроенные особым образом
и выражающие первого участника
(решением президента, по распоряжению
правительства и т.п.)
II. Основные. Неатомарные
1. Имя + должность (могут называть 2-го и 3-го
участников), при этом должность может
называть прежнее место работы
III. Вспомогательные. Именные группы –
фиксированные выражения при
ситуациях назначения-отставки
(задаются списком) – по собственному
желанию, по собственной инициативе
и т.п.</p>
      <p>IV. Дополнительные
1. Именные группы – указание на время
2. Именные предложные группы с</p>
      <p>указанием на организацию
Кроме общей классификации, отдельными
пометами снабжаются такие слова в именных
группах, которые помогают правильно
распределить участников ситуации. Это,
например, прилагательные - бывший, новый,
экс-, действующий.</p>
      <p>В следующих двух таблицах представлены
слова-маркеры ситуаций и участники, наличие
которых обязательно для формирования
контекста ситуации (обязательные участники).
Отбор таких слов проводился эмпирически на
основе анализа текстов об отставках и
назначениях на новостных порталах в сети
Интернет. Конечно, такой список не может
описывать всѐ языковое многообразие
конструкций, описывающих целевые ситуации,
но, безусловно, включает в себя самые
частотные и типичные языковые выражения.
Ситуации с тремя участниками - @назначение,
@увольнение
которых в следующих
фазах будет
записываться
информация об
участниках. Эти
аннотации также
играют роль маркера
для фаз, в которых
происходит поиск
потенциальных
участников ситуации
Построение аннотаций
для потенциальных
участников,
выраженных
нестандартными
конструкциями
Построение аннотаций
для ключевых слов –
2-й этап</p>
      <p>AVerb – аннотация,
маркирующая
ситуацию
Построение аннотаций
для участников
ситуаций,
расположенных
непосредственно
справа и слева от
целевого слова
Построение аннотаций AALink – аннотации
для участников для именных групп –
ситуаций, потенциальных
расположенных справа участников ситуации,
или слева от которые выделяются
участников, справа и слева от
определѐнных в фазе 4 аннотаций AALink,
построенных
правилами фазы 4
(эти аннотации
включают в себя
аннотации AALink,
построенные ранее)
Построение аннотаций
для участников
ситуаций,</p>
      <p>AALink – аннотации
для именных групп –
потенциальных
расположенных справа участников ситуации,
или слева от которые выделяются
участников, справа и слева от
определѐнных в фазе 5 аннотаций AALink,
построенных
правилами фазы 5
(эти аннотации
включают в себя
аннотации AALink,
построенные ранее)
7
8
9
Добавление в
аннотации AVerb
атрибутов,
соответствующих
найденным
потенциальным
участникам
(обязательные
участники)
Добавление в
аннотацию AVerb
атрибутов,
соответствующих
найденным
потенциальным
участникам (только
для тех целевых слов,
у которых на
предыдущем этапе
был опознан
обязательный
участник или
обязательный
участник не нужен)
Определение
отношений между
целевым словом и
найденным
участником ситуации
(первый участник,
второй участник,
третий участник)
Аннотация AVerb
получает новые
атрибуты
Аннотация AVerb
получает новые
атрибуты
ALink – аннотации,
которые задают
отношение между
словом,
маркирующим
ситуацию, и
участником, –
приписывание
номера участнику
ситуации
Рассмотрим работу алгоритма на примере
Советником Шойгу стала телеведущая Мария
Китаева.
Эталон разметки выглядит так:
Рис. 3 Эталон разметки для разбираемой ситуации.
Результат работы фазы 1:
Рис.4. Построение аннотации AVerb,
соответствующей слову-маркеру ситуации.
Построена аннотация AVerb, в атрибутах которой
есть ссылка на ситуацию, которую маркирует эта
аннотация ( в данном примере - @получение
должности), есть атрибут, по ссылке из которого
можно попасть в аннотацию, где хранится
информация обо всех морфологических
характеристиках слова.
Следующий рисунок – результат работы фазы 4 (
правила фаз 2 и 3 в данном контексте не работают)
Рис.5. Построение аннотаций AALink,
соответствующих именным группам участников
ситуации.
В результате работы правил 4-й фазы построились
две аннотации класса AALink – соответственно
слева и справа от слова-маркера ситуации. Эти
аннотации соотносятся с именными группами
―Советником Шойгу‖ и ―телеведущая Мария
Китаева‖.
Рис.6. Добавление атрибутов в аннотацию AVerb.
Рисунок 6 иллюстрирует результат работы правил
фаз 7 и 8, когда в аннотацию слова-маркера
ситуации добавляются атрибуты-ссылки на
найденные именные группы потенциальных
участников. При этом названия атрибутов отражают
падеж и некоторые другие важные для дальнейшей
работы характеристики. В разбираемом примере
это Part_I (―телеведущая‖), Part_I_name (―Мария
Китаева‖), Part_T(―Советником‖).</p>
      <p>На следующих двух рисунках показаны
аннотации ALink, которые построены правилами
последней, 9-й, фазы и соответствуют отношениям
между словом-маркером ситуации и словом из
именной группы, указывающим непосредственно на
участника ситуации. Атрибут DomRel показывает
номер участника ситуации, атрибут Situation –
название ситуации, атрибуты Master и Slave – это
ссылки на слово-маркер ситуации и на слово,
обозначающее участника.
Рис.7. Построение аннотации ALink, моделирующей
отношение между словом-маркером ситуации и еѐ
2-м участником.
Рис.8. Построение аннотации ALink, моделирующей
отношение между словом-маркером ситуации и еѐ
3-м участником.
Наконец, на рисунке 9 приведѐн результат работы
алгоритма извлечения информации о ситуации:
Точность
Полнота
F-мера
0,76
0,72
0,74
Рис.9. Графическое представление результатов
извлечения.
6 Результаты тестирования работы
алгоритма на размеченной коллекции.</p>
      <p>Для проверки эффективности работы системы
была размечена тестовая коллекция из 231 текста
(тексты взяты на новостных порталах в сети
Интернет). В текстах встретились и были размечены
описанным выше способом 868 ситуаций
отставкиназначения. Результаты тестирования приведены в
таблице ниже:</p>
      <p>При оценке результатов необходимо иметь в
виду, что данные по всем трѐм оценкам приводятся
по ситуациям, у которых при анализе атрибуты
полностью совпали с атрибутами эталона.</p>
      <p>По всей видимости, данные результаты отражают
технологический предел возможностей системы
ИСИДА-Т на данном этапе разработки. На результат
анализа ситуаций оказывают влияние
эффективность работы алгоритма выявления имѐн
(F-мера – 0,95), а также особенности синтаксических
конструкций, задающих ситуации.
Заключение</p>
      <p>Extracting information on appointments
and dismissals from news texts. An
experience in developing an annotated
corpus. Testing results.</p>
      <p>Natalia Vlasova
The paper describes an experiment on annotating a
collection of Russian-language news texts for an
information extraction task. The objective was to
evaluate the efficiency of an approach to solving the
appointment-dismissal task, which is implemented in
the ISIDA-T software. ISIDA-T has been developed
during the past decade in the Program Systems Institute,
RAS. It is based on a knowledge-engineering approach
to information extraction. The paper describes the
implementation of information extraction method, the
annotation principles, the test collection, and presents
some evaluation results.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>[10] http://www.mlg.ru/</mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [11]
          <string-name>
            <surname>Власова</surname>
            <given-names>Н.А.</given-names>
          </string-name>
          <article-title>Подход к автоматическому извлечению информации о назначениях и отставках лиц (на материале новостных сообщений) // Электронные библиотеки: перспективные методы и технологии, электронные коллекции. XIV Всероссийская научная конференция RCDL-2012</article-title>
          . Труды конференции.
          <source>- Переславль-Залесский : Университет города Переславля</source>
          ,
          <year>2012</year>
          . -
          <fpage>С</fpage>
          .
          <fpage>374</fpage>
          -
          <lpage>378</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [12]
          <string-name>
            <surname>Котельников</surname>
            <given-names>Д.С.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Лукашевич</surname>
            <given-names>Н</given-names>
          </string-name>
          .В.
          <article-title>Итерационное извлечение шаблонов описания событий по новостным кластерам Электронные библиотеки: перспективные методы и технологии, электронные коллекции. XIV Всероссийская научная конференция RCDL-2012</article-title>
          . Труды конференции.
          <source>- Переславль-Залесский : Университет города Переславля</source>
          ,
          <year>2012</year>
          . -
          <fpage>С</fpage>
          .
          <fpage>362</fpage>
          -
          <lpage>373</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [13] http://projects.ldc.upenn.edu/ace/docs/ - электронный документ - принципы
          <source>разметки ACE</source>
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>