Синтаксические и семантические модели и алгоритмы в
         задаче вопросно-ответного поиска

                                           © А.А. Соловьёв
                                       МГТУ им.Н.Э.Баумана
                                        a-soloviev@mail.ru


                  Аннотация                                 Сегодня системы ограничиваются поиском текста
                                                            ответа и не занимаются логическим выводом
    Вопросно-ответный поиск – особый вид                    неявной информации.
    информационного поиска, результатом                        Типичной архитектурой вопросно-ответной
    которого является не документ, а краткий и              системы является архитектура метапоисковой
    лаконичный       ответ     на      вопрос,              системы, т.е. система надстраивается поверх
    сформулированный на естественном языке.                 классической системы поиска по ключевым словам
    Рассматривается задача проверки ответов.                (Рис. 1). Выделяют 4 подзадачи: анализ вопроса
    После анализа литературы был сделан                     (А1), поиск фрагментов текста (А2), выделение
    вывод: некоторые алгоритмы обработки                    ответов-кандидатов (А3) и проверка ответов (А4)
    семантических структур применимы к                      [11]. На Рис. 2 изображена функциональная схема
    синтаксическим структурам, и наоборот.                  системы, построенной в рамках диссертационного
    Планируется     провести     недостающие                исследования.
    эксперименты      на    основе      таблиц
    релевантности РОМИП, полученных после
    участия в прошлом году.


1. Введение


    Вопросно-ответный поиск – это особый вид
задачи      информационного      поиска,    активно
использующий методы компьютерной лингвистики.                  Рис. 1 Архитектура метапоисковой системы[20]
В отличие от классического поиска по ключевым
словам, результатом поиска является не документ, а
краткий и лаконичный фрагмент текста – ответ на
вопрос, сформулированный пользователем на
естественном языке[10]. Ответ ищется в коллекции
документов.     В    качестве    коллекции    часто
используется Интернет, обычно опосредованно
через некоторую классическую поисковую систему.
Предметно-специализированные системы могут
использовать      свою     закрытую      коллекцию
тематических документов.
    Вопросно-ответная        система       способна
обрабатывать некоторые предопределённые классы
вопросов. Наиболее успешно решается задача
ответа на вопросы об определениях (англ.:
definitional) и фактографические (англ.: factoid).


Труды 13й Всероссийской научной конференции
«Электронные библиотеки: перспективные методы и               Рис. 2 Подзадачи вопросно-ответного поиска[20]
технологии, электронные коллекции» - RCDL’2011,
Воронеж, Россия, 2011.


                                                      201
   Для       решения    лингвистических      задач         третьего раздела. В пятом разделе обсуждается
используются     разные    методы:    символьные,          применимость существующих алгоритмов к
вероятностные, основанные на правилах или                  синтаксической модели представления текста.
больших словарях. В работе [3] подробно
обсуждается вероятностный подход для решения
задач А1, А2, А3, а в [21] рассмотрена реализация
модуля анализа вопроса, разработанного в данном            2. Задача проверки ответа
диссертационном исследовании.
   В последующих разделах обсуждается только
последняя подзадача типового конвейера – проверка
ответа (А4).                                                  При     оценке    вопросно-ответной        системы
   Оценку вопросно-ответных систем выполняют               возникает серьёзная проблема: невозможность
на традиционных конференциях по оценке методов             использовать      полученные       ранее      таблицы
информационного поиска: TREC, CLEF, ROMIP – в              релевантности в новых экспериментах. Результатом
каждой из этих конференций есть дорожка                    каждого задания является не просто краткий ответ,
вопросно-ответного      поиска.      Организаторы          но и фрагмент текста из конкретного документа,
предоставляют коллекцию документов и набор                 явно     подтверждающий       этот     ответ.   Таких
заданий – вопросов. Участники выполняют прогоны            фрагментов может быть в коллекции много, и
своих систем в разных конфигурациях и отправляют           система может сделать вывод на основании какого-
результаты всех заданий. Далее асессоры проверяют          то одного из них или даже в условии избыточности
правильность ответов, и рассчитываются общие               [6] – нескольких разных фрагментов в разных
метрики качества для всех участников. Таким                документах, содержащих один и тот же ответ. При
образом, экспериментально сравнивают методы,               этом в таблице релевантности, в отличие от
реализованные разными участниками, а также                 классического поиска, окажется не только
разные конфигурации системы одного участника. В            идентификатор документа, но и фрагмент текста
[20] опубликован отчёт об участия в РОМИП 2010             (сниппет) и краткий ответ из этого фрагмента. Эта
системы Умба, разработанной автором. В таблице             запись подтверждена асессором. В следующий же
ниже перечислены несколько вопросов из заданий             раз, когда исследователь захочет измерить качество
РОМИП.                                                     модифицированной системы (вне ежегодной
                                                           кампании), он не будет иметь доступа к тем же
       Таблица 1 Примеры заданий РОМИП                     асессорам, но будет иметь таблицу релевантности
           (орфография оригинальная)                       прошлого года. Однако модифицированная система
                                                           может найти новый фрагмент нового документа с
№               Вопрос, жирным шрифтом                     тем же или даже новым вариантом ответа, который
                    выделен фокус                          не встречался в предыдущих результатах. И это не
nqa2009_6368    как отключить перехват                     означает, что система ошиблась. Подобная ситуация
                клавиатуры?                                (новый неоценённый ранее документ) возможна и в
nqa2009_7185    сколько стоит поченить гнездо у            классическом поиске, однако в случае вопросно-
                телефона сони эрикссон?                    ответного поиска она гораздо более вероятна.
nqa2009_6425    в каких религиях как                          Подзадача проверки вопроса лишена этой
                рассматривается карма?                     проблемы. Модуль проверки должен для каждого
nqa2009_3123    отечественная война кто с кем ?            кортежа <вопрос, документ, фрагмент, ответ>
nqa2009_8557    являются ли чердаки                        принять решение: да или нет. В такой
                пожароопасными помещениями?                формулировке       таблица       релевантности      с
nqa2009_7801    какое колличество циклов                   позитивными и негативными примерами может
                чтения/записи предусмотренно               быть успешно использована. Примером такого
                компанией fujifilm для картриджей          подхода к оценке является семинар CLEF Answer
                стандарта lto 4?                           Validation Exercise [12], организаторы которого в
nqa2009_856     где собирают меганы?                       свою очередь заимствовал многое из более общей
nqa2009_2256    кто использовал стволовые                  задачи компьютерной лингвистики Recognizing
                клетки?                                    Textual Entailment [15]. Такой подход к оценке
                                                           использовался в работах [9], [2] и [1].
   Далее статья организована следующим образом.               Для оценки методов проверки вопросов мы
Во втором разделе обсуждается подзадача проверки           будем использовать таблицу релевантности,
ответа, отличия в методе оценки её результатов от          построенную на основе результатов вопросно-
оценки системы в целом. В третьем разделе                  ответной дорожки РОМИП 2010.
обсуждаются существующие синтаксические и
семантические модели представления текста. В
четвёртом    разделе   рассмотрены     алгоритмы
проверки ответов, работающие на моделях из


                                                     202
3. Модели представления текста в задаче                     считается переходом от синтаксического к
валидации ответов                                           семантическому уровню представления. В [9]
                                                            дерево тоже строится по выходу Collins’ Parser.
                                                               Для русского языка грамматические зависимости
                                                            могут быть построены с помощью системы RCO
   В основе любого метода обработки информации              [11]. Например, результат анализа предложения
лежит модель представления этой информации.                 “Отдел новостроек желает арендовать у нашего
Рассмотрим существующие модели представления                комбината малую строительную и погрузочную
текста в задаче проверки ответов.                           технику” описывается такой структурой:

3.1 Набор слов
   Успешная в традиционном поиске модель
набора слов (англ: bag of words) часто применяется
в базовом (англ: baseline) прогоне системы. Пусть Q
- множество слов в вопросе, а T – множество слов во
фрагменте     подтверждающего       текста.   Тогда
отношение E = Q ∩ T     Q может является мерой
«подтверждения» ответа на вопрос Q текстом T.

3.2 Символьные шаблоны
   Для проверки некоторых типов ответов можно
использовать заранее подготовленные регулярные
выражения. Например, для вопроса «В каком городе
родился X», хорошим шаблоном подтверждающего
текста может быть «X родился в городе А», где А –
ответ.

3.3 Дерево синтаксического разбора граматики
составляющих
   Следующий       естественной     структурой                  Рис. 4 Деревья грамматических зависимостей
представления текста является его дерево
синтаксического разбора. Для русского языка                 Отдел (существительное):
синтаксический разбор предложения можно                         • генитивное отношение с “новостроек”;
выполнить, например, с помощью библиотеки АОТ                   • Новостроек (существительное);
(см. Рис. 3).                                               Желает (глагол):
                                                                • предикативное отношение с “отдел” в
                                                                    роли “Субъект действия”;
                                                                • предикативное отношение второго
                                                                    порядка с “арендовать”;
                                                            Арендовать (глагол):
                                                                • предикативное отношение с “комбината”
    Рис. 3 Синтаксический разбор предложения,                       в роли “Источник”;
       выполненный библиотекой АОТ [17]                         • предикативное отношение с “технику” в
                                                                    роли “Объект действия”;
3.4 Дерево грамматических зависимостей                          • Нашего (местоименное прилагательное);
   Другой вид представления синтаксической                  Комбината (существительное):
структуры предложения предлагает грамматика                     • Атрибутивное отношение с “нашего”;
зависимостей (англ.: dependency grammars [4]). В                • Малую (прилагательное);
работе [9] используется дерево грамматических                   • Строительную (прилагательное);
зависимостей (англ.: dependency tree). На Рис. 4                • Погрузочную (прилагательное);
представлены синтаксические деревья для вопроса             Технику (существительное):
и двух утверждений.                                             • Атрибутивное отношение с однородным
   Отметим, существуют простой алгоритм для                         членом “погрузочную”;
построения дерева грамматических зависимостей по                • Атрибутивное отношение с однородным
дереву синтаксического разбора предложения: для                     членом “строительную”;
английского языка [4], для русского языка в [19]                • Атрибутивное отношение с “малую”;
(досемантический анализ). Такое преобразование не


                                                      203
3.5 Разбор
         р на основе грамматики
                     г          связей                            reprresentative_NN
                                                                                  NN(x17) & to_TO(e2, x21) &
                                                                  Afghhanistan_NN(x(x18)   &             N(x19)
                                                                                                  opium_NN         &
   Третьейй популярн  ной формой   й представлления
                                                                  farm
                                                                     mer_NN(x20) & nn_NN     NC(x21, x19,, x20) &
синтаксичееский отношений в предлложении являяется
                                                                  buy__VB(e3, x117, x22) & large_JJJ(x22) &
грамматикка связей (англ.:
                       (       link grammar) [13].
                                                                  amoount_NN(x22) & of_IN(x222, x23) & opiu
                                                                                                          um_NN(x23)
Грамматикка связей сосстоит из словв, которые им
                                               меют
                                                                  & probably_RB(
                                                                       p            (e4) & raise_VB(e4, x22, x24) &
ограничени ия по связяям. Последоввательность слов
                                                                  fund
                                                                     ds_NN(x24) & for_IN(x24,, x27) & al_ _NN(x25) &
является предложением  м языка если::
                                                                  Qaeeda_NN( x26) & nn_NNC(xx27, x25, x26)..
1. Связи между собоой не переесекаются (ссвязи
                                                                      Используя
                                                                      И           в качестве прравил выводаа аксиомы,
   рисуюттся графическки над словам ми).
                                                                  посттроенные на базе лексичееского словар
                                                                                                          ря WordNet,
2. Отсутсттвуют     изоолированныее      слова   или
                                                                  можжно доказы   ывать вывод  димость уттверждения
   несвязаанные группы ы слов.
                                                                  вопррос-ответ из текста.
3. Выполн нены все ограничения
                        о             на связи для
   каждогго слова.                                                3.7 Семантичес
                                                                      С         кие узлы и оотношения
   В работте [18] предлложена граммматика связей
                                               й для
русского языка.
          я       Сообщщается, что скорость рабботы                   Существует
                                                                       С                много мооделей семантических
синтаксичееского анали изатора краййне мала – одно
                                               о                  отно ошений, ноо все он         ни с точкки зрения
предложенние в секунд   ду при потрреблении паммяти               матеематическогоо аппарата оочень похож        жи друг на
200 Мб. Однако
         О        при неограниченн
                       н            ном объёме ОЗУ                другга. В отличи ие от логичесских форм, существует
                                                                                                                  с
автор доопускает возможность
                       в               разбора 100                ограаниченный набор отношеений, возмож        жных между
предложенний в секун   нду. На Ри  ис. 5 изобраажён               словвами. Поиск этих отношеений неразры        ывно связан
пример раззбора предлоожения руссккого языка.                     с раазрешением смысловой
                                                                                   с             нееоднозначноссти.
                                                                      Англоязычно
                                                                       А           ой       литераатуре       эта     техника
                                                                  назыывается Semaantic Role Labeling [4]. Так, среди
                                                                  семаантических отношений
                                                                                    о              (рролей), исполльзуемых в
                                                                  [14],    есть     T
                                                                                    TARGET,          ARG1,      ARRGM_LOC,
                                                                  ARG GM_TMP. Прример из тогоо же источни        ика:
                                                                      The
                                                                       T CMU cam   mpus at the US west coast was  w founded
  Рис. 5 Гр
          рамматика связей для руссского языка [118]              in th
                                                                      he year 2002.
                                                                      TARGET:
                                                                       T         fouunded
   Отметиим, что реззультатом разбора
                                 р        являяется
                                                                      ARG1:
                                                                       A      The CMU
                                                                                  C        campus
неориентированный грраф с возмож жными циклам ми, а
                                                                      ARGM_LOC
                                                                       A            : at the US weest coast
не дерево, как в случае грамматики зависимостеей.
                                                                      ARGM_TMP
                                                                       A             : in the year 22002
3.6 Логичееские формы
                    ы                                                 Для
                                                                       Д     русскоого языка аналогичны          ый разбор
                                                                  выпполняется си  истемой АОТ      Т[17]. Легко о заметить,
   Логичееские форм     мы (англ.: Logic Foorms)                  что набор отнош  шений легко визуализироввать в виде
используюются во многих   м           вопросно-ответтных          семаантического графа. На Р       Рис. 6 изобр  ражён граф
системах.      Такое       представлен  ние    позвооляет         семаантических отношений для предло             ожения из
применятьь математи      ических ап    ппарат лям  мбда-          колл лекции     РООМИП         «У Ученые      исспользовали
выражений  й и автооматическое доказателььство                    мезеенхимные стволовые
                                                                                    с                 клетки, извлеченные
                                                                                                                 и
теорем.                                                           из образцов
                                                                     о         косттного мозга м    мужчин-добр   ровольцев.»
   Простейшим прим       мером являю    ются тернаррные
выраженияя в системее STAR [5] (T-Expressiions).
Выражени  ия имели вид <субъ           ъект отнош шение
объект>, гдде каждый эллемент замещ    щается некотоорой
лексемой. Сами выражения транзиттивны:
   Wilson presented Jooe with a gift.
   <<Wilsson present Joe>
                        J      with giftt>
   Wilson presented a giftg to Joe.
   <<Wilsson present gift>
                        g      to Joe>
   Исполььзуя ряд лексических правил моожно
выводить эквивалентн     ность этих вы  ыражений.
   Рассмоттрим более сложную фоорму логичееских
форм из рааботы [8].
                                                                   Рисс. 6 Граф семаантических оттношений, построенный
   Текст: Bin
            B Laden repportedly sent representativves to
                                                                                     системой АООТ [19]
Afghanistann opium farm  mers to buy large amounts of
opium, probbably to raisee funds for al-Q
                                        Qaeda.                       Следует
                                                                     С        отм
                                                                                метить, чтоо для одно    ого языка
   Логичееская        форма:         Binn_NN(x14)      &          сущ
                                                                    ществует моодели семан   нтических отношений,
                                                                                                         о
Laden_NN((x15) & nn_NNC(x16,
                         n                 x14, x15)) &           разр
                                                                     работанные разными учёными-ли       ингвистами
reportedly__RB(e2) & send_VB(e2,, x16, x17)) &                    (Н.Н
                                                                     Н.Леонтьевой
                                                                                й в [17] и Г.А
                                                                                             А.Золотовой в [22]).


                                                            204
4. Алгоритмы сравнения семантических                                                                 W1 ∩ W2 ,       где W1 и W2 –
                                                              SimTerm (t1 , t2 ) := J (W1 , W2 ) =
структур вопроса и подтверждающего                                                                   W1 ∪ W2

текста                                                    множества контекстных слов из описания значения
                                                          терма в словаре WordNet. Схожесть же всех
                                                          аргументов предиката вопроса pq и предиката ответа
                                                          pa вычисляется следующим образом:
   Рассмотрим      существующие      алгоритмы,
используемые для проверки ответа в вопросно-                                                   ∑ max(Sim          ExpTerm   (t , t ))
                                                                                                                             a   q

                                                          SimArgs ( pa , pq ) :=
                                                                                                        t q ∈Tq
                                                                                              t a ∈Ta
ответной системе, на основе вычисления схожести
структуры вопроса от текста, из которого                                           Tq + ⎧⎨ta ∈ Ta max(SimExpTerm (ta , tq )) = 0⎫⎬
извлекается ответ.                                                                       ⎩        t q ∈Tq                        ⎭
                                                              А мера схожести всего предиката определяется
4.1 Подсчёт пересечения множеств отношений                как     произведение    схожести     аргументов,
                                                          вычисленной выше, и схожести глаголов:
   По аналогии с формулой из раздела 3.1 многие
                                                                                      Ч       晦
исследователи рассматривают текст как множество
                                                              Данный    алгоритм    позволяет    нестрогое
несвязанных отношений – будь то представление в
                                                          совпадение слов, семантически схожих на
логической форме, синтаксический разбор или
                                                          основании лексической онтологии WordNet.
семантические роли. Рассмотрим граф на Рис. 6.
Каждая дуга графа – семантическое отношение               4.3 Расстояние редактирования для дерева
между соседними узлами R(N1,N2), или записывая в
виде кортежа <N1,R,N2>. Пусть Q – множество                  В работе [9] рассматривается задача вычисления
таких кортежей-отношений в вопросе, а A –                 схожести деревьев грамматических зависимостей
множество     кортежей-отношений     в    ответе.         между словами двух предложений: вопросительного
Воспользовавшись той же формулой из 3.1                   и повествовательного. В отличие от формул выше,
                                                          деревья сравниваются в целом, а не в контексте
получаем E = Q ∩ T    Q.                                  отдельных отношений/предикатов. Авторы [9]
   Из двух разных фрагментов текста A1 и A2,              применили естественную метрику схожести
содержащих ответ (м.б. два разных ответа) на один         деревьев:    минимальное       число     операций
вопрос Q, более правдоподобным ответом будет              редактирования, необходимых для трансформации
считаться тот, у которого мера E больше. Модуль           одного графа в другой.
валидации ответа, построенный на этой формуле,               Доступные операции редактирования: удаление
может либо выбирать из кандидатов ответ с                 вершины, вставка, замена – представлены на Рис. 7.
наибольшим числом E, либо установить некоторое
пороговое значение Eпор для признания ответа
верным. В работе [16] этот метод используется в
качестве «запасной стратегии» – в случае, когда
более сложный алгоритм применить не удаётся по
тем или иным причинам.
   Заметим, что одну и ту же формулу можно
применять для четырёх моделей представления
текста из раздела 3: набора слов, грамматических
зависимостей в предложении, семантических
отношений и даже логических форм. Так, в той же
работе [16] используются две запасные стратегии,
обе на основе формулы выше: первая запасная
стратегия использует наборы семантических
триплетов, а вторая – наборы слов.

4.2 Сопоставление предикатов
   В работе [14] используется усложнённая                     Рис. 7 Элементарные операции редактирования
модификация формулы из предыдущего раздела –                                   дерева [9]
Predicate Matching. Рассматриваются не триплеты
из двух вершин графа, а все отношения                         Разным операциям приписан разный вес:
семантического     узла    (т.н.   предикативные
отношения) во главе с глаголом. Сравнивается
предикат    вопроса    (со   всеми   зависимыми
аргументами) с предикатом в тексте ответа. На
основе словаря WordNet и формулы Жаккарта
вводится мера схожести двух термов:


                                                    205
                                                              Такая матрица M несомненно полезна для
                                                           сопоставления параллельных переводов текстов.
                                                           Однако для задачи проверки лексической
    Также     алгоритм    поиска    предписания            выводимости авторы предложили использовать в
редактирования модифицирован таким образом,                качестве меры схожести двух текстов один
чтобы     удаление    лишних    поддеревьев   в            единственный элемент этой матрицы – лучшее
подтверждающем тексте не штрафовалось, т.к.                найденное    соответствие корневой  вершины
текст с ответом почти всегда содержит                      гипотезы (обычно глагол).
дополнительные грамматические конструкции, не
относящиеся к вопросу.                                     4.5 Неточное совпадение поиском вглубину
                ,       min д , \                             В     диссертационной       работе    предложен
                                                           оригинальный     метод      неточного     сравнения
      д    ,   \    min г              \
                                                           семантических графов поиском в глубину[20].
   Где F(T) – множество всех возможных                     Предложенный метод основан на вычислении
поддеревьев, а S множество всех возможных                  схожести семантических графов вопроса и
последовательностей операций редактирования г.             фрагмента, содержащего ответ. Для вопроса и
   Отметим, что оригинальный алгоритм работает с           фрагмента строятся семантические графы, с
синтаксическим представлением текста (деревом              использование библиотеки AOT[17].
грамматических зависимостей). Однако его можно                Рассмотрим пример семантического графа для
перенести и на семантическое представление,                вопроса nqa2009_2256 «кто использовал стволовые
применяя меры схожести термов, описанные в 4.2.            клетки?» и фрагмента из документа 419883
                                                           «Ученые использовали мезенхимные стволовые
4.4 Совмещение деревьев зависимостей                       клетки, извлеченные из образцов костного мозга
   В работе [7] предлагается сравнивать два дерева         мужчин-добровольцев» (Рис. 8). Граф построен
зависимостей в задаче лексического вывода,                 библиотекой AOT.Seman.
используя алгоритмы, применяемые для обработки                В основе метода лежит интуиция, что если у
параллельных двуязычных текстов. Для двух                  простого вопроса «кто?» или «где?» заменить
деревьев D и D’ строится матрица соответствия              вопросительное слово (фокус) кратким ответом, мы
элементов M размера NxN’, где N – число элементов          получим семантически верное утверждение. Мы не
в дереве D, а N’ – число элементов в дереве D’.            рассматриваем        проблему       синтаксической
Каждый элемент S(v,v’) в матрице вычисляется               корректности полученного предложения. На Рис. 8
алгоритмом динамического программирования,                 подграф     УЧЕНЫЕ-ИСПОЛЬЗОВАЛИ-КЛЕТКИ-
используя следующие рекурсивные формулы:                   СТВОЛОВЫЕ во фрагменте очевидным образом
                                                           соответствует       графу        вопроса      КТО-
                                                           ИСПОЛЬЗОВАЛИ-КЛЕТКИ-СТВОЛОВЫЕ, если
                                                           заменить КТО на УЧЕНЫЕ. Любой строгий
                                                           алгоритм     поиска     изоморфизма      подграфов
                                                           обнаружит это равенство подграфов.
                                                              Однако, более часты случаи с менее строгим
                                                           совпадением     подграфов.     Например,     вопрос
                                                           nqa2009_856: «где собирают меганы?» и фрагмент
                                                           из документа 477114: «Может это от части
                                                           потому, что часть Сцеников, как и Меганов,
                                                           собиралась в Турции» (Рис. 9).
                                                              Здесь присутствуют узлы-связки однородных
                                                           членов. Стоит заметить, что дерево фрагмента в
                                                           данном примере также содержит ошибку: алгоритм
                                                           неправильно обработал оборот «как и».


                                                     206
   Алгори  итм вычислен  ния меры схоожести подграафов
выглядит следующим
           с              о
                          образом:
1. Найти  и вершину с фокусом
                         ф         в воппросе.
2. Найти  и вершину с ответом
                         о        во фррагменте.
3. Выполлняя операц      ции, аналоги  ичные поискку в
    глубин ну, продвигаеемся одноврееменно по об      боим
    графам м от исход    дных вершин    н по рёбраам и
    верши инам с совпадающими меетками (меткка из
    графа вопроса доллжна совпад      дать с меткой из
    графа фрагмента).
4. При каждом совпадении  с               ребра/верш шины
    сумми ируем в общий   о         наккопитель бааллы
    совпад дения:
    4.1. Совпадение
          С              рёбер.
         4.1.1. Рёбрам       разного       типа     моожно
                 присваиввать свой вес.в      Интуитиивно,              Рис. 9 Семан
                                                                                   нтические граафы для вопрооса «где
                 метки AUTHOR, LOK, NA                AME            со
                                                                      обирают мегааны?» и фрагм мента текста с ответом.
                 AGENT должны имееть больший вес,
                 но    в окончателььных          проггонах             В отличие алгоритмоов, рассмоттренных в
                 использоовался вес 1 для всех этих                разд
                                                                      делах 4.2 и 4.4,
                                                                                    4 алгоритм м сразу начин нает работу
                 типов рёбер.                                      от известных
                                                                      и           емму пар сопосттавленных веершин – от
         4.1.2. Некоторы  ые    рёбра       и    вершшины          словва-ответа в подтвержд    дающем текксте и от
                 разрешаеется «сокращ щать»: пропусскать           вопрросительногоо слова в вопросе. Алгоритм
                 при прод движении в глубину
                                        г         в оддном         сопооставления       предикатоов    же      вынужден
                 графе, нен продвигааясь в друугом.                расссмотреть всее пары преедикатов (гл    лаголов), а
                 Напримеер: ACT, F-ACT, S-A          ACT,          алго
                                                                      оритм сопосттавления верш  шин вообще перебирает
                 MUA.                                              все возможны     ые пары вершин. Не       Н      стоит
    4.2. Совпадение
          С              веершин:                                  расссматривать данное сввойство каак способ
         4.22.1. Точное посимвольн     ное совпад    дение         эконномии процессорного вреемени. Алгор  ритмы 4.2 и
                 слов – 1 балл                                     4.2 были заим   мствованы и  из другой прикладной
                                                                                                             п
         4.22.2. Совпаден ние лемм – 0.5 балла.                    задаачи -     маашинного пееревода – когда как
         4.22.3. Лемма одной верш      шины входи    ит в          преддложенный алгоритм с самого начала
                 лемму другую
                         д        как подстрока – 0.5              осноовывается        на     сппецифике        простых
                 балла.                                            факттографически  их вопросов и ответов: паара вершин
5. Накоп  пленная сумма баллов прибавляетсся к                     для старта алгорритмов сравн  нения уже известна,
                                                                                                            и          её
    баллу,         простаавленному          предыдущ щими          не надо
                                                                      н     искать.
    фильтррами.         Зааметим,        что      никкакой
    нормаллизации балллов здесь не      н используется,
    т.к. поо построению ю, шкала схож  жести с задан нным
    вопроссом ограничеена размерам     ми графа воп  проса
                                                                   5. Подмена
                                                                      П       м
                                                                              модели для
                                                                                       я некоторы
                                                                                                ых
    и не заависит от фраагмента.                                   алггоритмов


                                                                       Рассмотренны
                                                                       Р            ые      вышее      алгориитмы       в
                                                                   ориггинальных работах исполльзовались на н одной из
                                                                   модделей:         синтаксичесской        (гграмматика
                                                                   зави
                                                                      исимостей) или
                                                                                   и     семантичческой. В эттой работе
                                                                   преддлагается расссмотреть воозможность применения
                                                                                                            п
                                                                   алгооритма    на     другой    модели:      подменить
                                                                   семаантические      отношени ия     синтакксическими
                                                                   отноошениями, и наоборотт. В табл        лице ниже
                                                                   приведено сооттветствие аллгоритмов и моделей,
                                                                   найдденное в литературе. Пусстые позиции и A, B, C, D,
                                                                   E яввляются облаастью интересса в данной работе.
                                                                                                            р

    Рис. 8 Семантически
           С            ие графы для вопроса «ктоо
    использзовал стволоввые клетки?» и фрагмента с
                        о
                        ответом


                                                             207
   Таблица 2 Соответствие алгоритмов и моделей                                     стволовые клетки?», «Ученые использовали
                                                                                   мезенхимные стволовые клетки, извлеченные
                                                                                   из образцов костного мозга мужчин-добровольцев»,


                               Грамматические


                                                Семантические
                                                                                   «Учёные», «да»>. Модуль анализа вопроса выделит


                               зависимости
                                                                                   фокус «кто» и семантический тэг PERSON.


                                                                Логические
                  Набор слов


                                                отношения
                                                                                   A. Пересечение множеств грамматических


                                                                формы
                                                                                      зависимостей
                                                                                      Каждая грамматическая зависимость будет
Пересечение        [16]      A      [16]                                           представлена упорядоченной парой слов – главное и
множеств                                                                           зависимое. Тогда множество зависимостей вопроса:
Сопоставление                B      [14]                                               1. использовал->кто
предикатов                                                                             2. использовал->клетки
Сопоставление               [7]       C                                                3. клетки->стволовые
вершин                                                                                Множество      грамматических     зависимостей
Расстояние                  [9]      D                                             фрагмента:
редактирования                                                                         1. использовали->учёные
Совпадение в                 E      [20]                                               2. использовали->клетки
                                                                                       3. клетки->стволовые
глубину
                                                                                       4. клетки->мезенхимные
Автоматическое                               [1]                                       5. клетки->извлечённые
доказательство                                                                         6. извлечённые->из образцов
теорем                                                                                 7. образцов->мозга
   Вот некоторые общие для всех экспериментов                                          8. мозга->костного
шаги:                                                                                  9. мозга->мужчин
1. Подготовить коллекцию из нескольких десятков                                        10. мозга->добровольцев
    русскоязычных кортежей <вопрос, фрагмент,                                         Зависимости        «использовал->кто»        и
    ответ, да/нет>. Вопросы взять из заданий                                       «использовали->учёные»       будут       признаны
    РОМИП (вопросы что/где), фрагменты либо из                                     совпадающими т.к. а) сравниваются леммы слов, б)
    результатов прогонов участников и из                                           разрешено равенство фокуса ответу.
    поисковой выдачи Яндекса. Выбирать как                                            Используя формулу из раздела 3.1 получаем:
    правильные, так и неправильные ответы.
    Ответы выделить вручную.
                                                                                      E = Q ∩T Q = 3/3 =1
2. До проверки с помощью существующего                                                Ответ будет признан верным, если E больше
    модуля анализа вопросов [21] в вопросе будет                                   некоторого порогового значения Et (0<Et<1).
    выделен т.н. фокус и определён ожидаемый
    семантический тэг: PERSON или LOCATION.                                        B. Сопоставление предикативных
3. Дерево синтаксических зависимостей строить в                                       грамматических зависимостей
    два этапа:                                                                        В синтаксического разбора, не выделяющего
    3.1. Синтаксический     разбор    на   основе                                  предикаты в явном виде, предикатом будем считать
         грамматики составляющих.                                                  глагольную фразу, причастный оборот или
    3.2. Построение дерева зависимостей на основе                                  деепричастный оборот. В случае нашего примера
         полученного разбора на составляющие (см.                                  будут      сравниваться      предикат    вопроса
         Досемантический анализ в [19]).                                           «использовал» с предикатом фрагмента текста
4. Граф семантических отношений выделять с                                         «использовали». Аргументами предикатов будем
    помощью системы RCO Entity Extractor. К                                        считать все транзитивно зависимые от глагола
    сожалению, на момент написания статьи                                          слова. Т.е. в вопросе это будут: кто, стволовые,
    компоненты семантического анализа AOT уже                                      клетки, стволовые. В фрагменте: учёные, клетки,
    не были доступны.                                                              стволовые, мезенхимные. Слова же «из образцов
5. Во всех случаях будем игнорировать разметку                                     костного мозга мужчин-добровольцев» зависят от
    графов именами зависимостей. Практически во                                    другого предиката: извлечённые.
    всех работах отмечается, что использование                                                            Ч
    названий зависимостей (синтаксических или                                                       использовал, использовали
    семантических) только ухудшает результаты.
                                                                                                           клетки, клетки
6. Результаты работы оценивать с помощью
    метрики «ошибка» – отношение числа                                                                 стволовые, стволовые
                                                                                        1Ч
    неправильно принятых решений к общему                                                       4 |учёные, меземхимные|
    числу решений.                                                                             3
                                                                                          1Ч         0,5
   Далее рассмотрим интересующие методы                                                      4 2
подробнее на примере кортежа <«Кто использовал


                                                                             208
C. Сопосттавление вер
                    ршин семанттических                          В итоге получ
                                                                             чаем стоимоссть редактирования:
   зависимостей
   Следуяя опубликован нным в [7] результатам,
                                   р
будем испоользовать наббор параметрров алгоритмма
для дорожкки RTE2.QA: SP=0,9 PW=    =0,2 TH=0,6..
   Матриц ца сопоставлеения вершин будет выгляядеть              Для
                                                                 Д     фильтррования неп подходящих вопросов
следующим образом:                                            след
                                                                 дует нормирровать эту м метрику (нап
                                                                                                    пример, на
                Кто использовал сттволовые клеетки            длин
                                                                 ну вопроса)) и экспери  иментально подобрать
                                                              неко
                                                                 оторое порогговое значени
                                                                                         ие.
Учёные           1        0,1            0        0
использовали 1             1             0        1           E. Сопоставлен
                                                                 С         ние деревьев
                                                                                      в грамматич
                                                                                                ческих
мезенхимн ные 0            0             0      0
                                                0.0              зависимосте
                                                                 з         ей в глубину
стволовыее       0         0             1    0,1
                                                1429
                                                                 Семантическ
                                                                 С            кий граф н   на Рис. 8 полностью
клетки           0        0,1         0,1429      1
                                                              повтторяет струкктуру грамматтических заввисимостей,
извлечённые 0              0             0        0           за исключением   м, м.б. словвосочетания «мужчин-
из образцоов     0         0             0        0           добрровольцев», однако алгоритм игнор    рирует эти
костного         0         0             0        0           словва. Так что для простооты в данном примере
мозга            0         0             0        0           заим
                                                                 мствуем илллюстрацию семантического графа.
мужчин‐          0         0             0        0           Следуя алгоритм  му 4.5, начииная с вершиин «кто» и
доброволььцев                                                 «учёёные» обхоодом в глуубину будетт найдено
   0,1429 – это схожеесть слов «sttem» и «cellss» на          совп
                                                                 падение след дующих рёберр и вершин:
основе Wordnet
        W          (мераа схожести по Lin). 0,1 –             1. вершина ктоо==учёные. 1 балл.
остаток поосле штрафа SP за разрешённый проопуск              2. ребро. 1 баллл.
слова в вопросе. Маатрица неси      имметрична, т.к.          3. вершина        использовалл    ~=   использовали
штрафы заа пропуск слова
                      с       в вопрросе и ответте не              (совпадение лемм). 0,5 баалла.
совпадаютт: 0,9 и 0.                                          4. ребро. 1 баллл.
   Мерой схожести буудет максимаальный элемеент в             5. клетки==клеетки. 1 балл.
столбце «ииспользовал»» - 1. Это знначение больш ше с         6. ребро. 1 баллл.
TH, что подтверждаает выводим        мость гипоотезы          7. стволовые==   =стволовые. 1 балл.
(вопроса с фокусом, заменённым       м на ответ)) из               В итоге? наккопленная суумма баллов: 6,5.
текста.                                                          Отметим,
                                                                 О           чтто в отличчие от ори   игинального
                                                              метоода [20] в данном сллучае мы игнорируем
                                                                                                       и
         яние редакттирования сеемантическоого
D. Расстоя                                                    подпписи рёбер.
   графа
   Дерево ответа преввращается в дерево воппроса              6. Заключени
                                                                 З       ие
следующими операциями:                                            Рассмотрена
                                                                   Р              подзадача проверки ответов в
        ние поддереваа F1 «мезенхи
1. Удален                        имные».                      вопр росно-ответнном поиске. Обзор литтературы с
2. Удален
        ние поддереева F2 «и     извлечённые из               посл ледующей       классификаацией     мо
                                                                                                       оделей      и
   образцоов     костн
                     ного      моззга    муж
                                           жчин-              алгооритмов выяявил пробеллы: есть пр    рактическая
   добровоольцев».                                            возмможность пррименить аллгоритмы, ор     ригинально
3. Замена учёные→кто.                                         реаллизованные для семанттических сттруктур, к
4. Замена использовалии→использоввал.                         синттаксическим структурам, и наоборот.
                                                                  Чтобы
                                                                   Ч        иссследовать ввклад вычислительно
                                                              слож жного семанттического анализа в задачче проверки
                                                              отвеета, планируеется поставиить 11 экспер
                                                                                                       риментов (в
                                            F2                перввую очередь «набор слов» и синтакси  ические - A,
                                                              B, E) на воп      просах «кто? где?» из    и таблиц
                                                              релеевантности РОМИП 20010. Пять из них –
                                                              восппроизведениее эксперимен нтов других авторов,
                                                                                                         а        но
     F1
                                                              на русскоязычн  ных заданияхх, один – повторение
                                                                                                         п
                                                              нашшего эксперим мента РОМИ  ИП 2010 [20]. Остальные
                                                              5 эккспериментовв (A, B, C, D, E) проводятсся впервые.

                                                              Литература
                                                              [1] Akhmatova, E. Textual E   Entailment Resolution via
                                                                  Atomic Propoositions // Prooceedings of th
                                                                                                           he PASCAL
   Рис. 10 Операции
           О        ред
                      дактирования
                                 я дерева ответта                 Challenges Workshop
                                                                               W             oon Recognising Textual
                                                                  Entailment, Southampton,
                                                                              S                UK (2005) 611–64.


                                                        209
[2] Ferrґandez и др. Deep vs. Shallow Semantic                  [15]TAC 2011 Recognizing Textual Entailment Track
    Analysis Applied to Textual Entailment                          (RTE-7)        [Электронный      ресурс].    URL:
    Recognition // Advances in Natural Language                     http://www.nist.gov/tac/2011/RTE/
    Processing 5th International Conference on NLP,             [16]Wang, Neumann. Using Recognizing Textual
    FinTAL 2006 Turku, Finland, August 23-25, 2006                  Entailment as a Core Engine for Answer Validation
    Proceedings.                                                    // Working Notes for the CLEF 2008 Workshop.
[3] Ittycheriah, Abraham. A Statistical Approach for            [17]Автоматическая            Обработка         Текста
    Open Domain Question Answering // Advances in                   [Электронный ресурс]. URL: http://aot.ru
    Open Domain Question Answering. Springer                    [18]Протасов С. В. Преимущества грамматики
    Netherlands, 2006. Part 1. Vol.32.                              связей для русского языка // Международная
[4] Jurafsky, D. & Martin, James H. Speech and                      конференция Диалог 2005.
    language processing: an introduction to natural             [19]Сокирко А. В. Семантические словари в
    language processing, computational linguistics, and             автоматической        обработке      текста    (по
    speech recognition. – 2nd ed.: Upper Saddle River               материалам системы ДИАЛИНГ) // Диссертация
    2009.                                                           на соискание ученой степени кандидата
[5] Katz, B., Borchardt, G., and Felshin, S. Natural                технических наук: М. 2001.
    Language Annotations for Question Answering //              [20]Соловьев А.А. Кто виноват и где собака зарыта?
    Proceedings of the 19th International FLAIRS                    Метод валидации ответов на основе неточного
    Conference (FLAIRS 2006), May 2006, Melbourne                   сравнения семантических графов в вопросно-
    Beach, FL.                                                      ответной системе. // Российский семинар по
[6] Magnini, B., Negri, M., Prevete, R. and Tanev, H.               Оценке Методов Информационного Поиска.
    Is It the Right Answer? Exploiting Web                          Труды РОМИП 2010: Казань, 2010.
    Redundancy for Answer Validation // Proceedings             [21]Соловьёв А.А., Пескова О.В. Построение
    of the 40th Annual Meeting of the Association for               вопросно-ответной системы для русского языка:
    Computational        Linguistics      (ACL-2002),               модуль        анализа    вопросов      //   Новые
    Philadelphia, PA                                                информационные               технологии          в
[7] Marsi, E. and Krahmer, E. and Bosma, W.E. and                   автоматизированных системах: материалы 13
    Theune, M. (2006) Normalized Alignment of                       научно-практического семинара.- Моск. гос. ин-
    Dependency Trees for Detecting Textual                          т электроники и математики.- 2010.- с.41-49.
    Entailment. In: Second PASCAL Recognising                       URL:
    Textual Entailment Challenge, 10-12 April 2006,                 http://nps.itas.miem.edu.ru/2010/sbornik13.pdf
    Venice, Italy.                                              [22]Тихомиров И. А. Вопросно-ответный поиск в
[8] Moldovan, D., Pasca, M., Surdeanu, M. Some                      интеллектуальной поисковой системе Exactus //
    Advanced Features of LCC's Poweranswer //                       Российский семинар по Оценке Методов
    Advances in Open Domain Question Answering.                     Информационного Поиска. Труды четвертого
    Text, Speech and Language Technology, 2006,                     российского семинара РОМИП'2006: Спб. 2006.
    Volume 32, Part 1, 3-34.
[9] Panyakanok, V., Roth, D. and Yih, W. Natural                     Syntactic and Semantic Models and
    language interface via dependency tree mapping:                  Algorithms in Question Answering
    An application to question answering // AI and
    Math.- January 2004.                                                          © Alexander Solovyev
[10]Prager, John. Open-Domain Question-Answering //
    Foundation and Trends in Information Retrieval,                 Question Answering is a specific task of information
    vol 1, no 2, pp 91-231, 2006.                               retrieval, which results not in a document, but in a short
[11]RCO – Russian Context Optimizer. Технологии                 neat answer to the question posed in natural language.
    анализа и        поиска текстовой информации                An Answer Validation task is considered. Literature
    [Электронный ресурс]. – URL: http://rco.ru/                 study concluded with a notice about practical
[12]Rodrigo, Б., Peсas, A., and Verdejo, F. 2009.               applicability of some algorithms to syntactic structures
    Overview of the answer validation exercise 2008.            despite they were originally applied to semantics, and
    In Proceedings of the 9th Cross-Language                    vice versa. Running of additional experiments is
    Evaluation Forum Conference on Evaluating                   planned to base on relevance tables derived after
    Systems For Multilingual and Multimodal                     participation in the ROMIP seminar last year.
    information Access (Aarhus, Denmark, September
    17 - 19, 2008). Lecture Notes In Computer Science.
    Springer-Verlag, Berlin, Heidelberg, 296-313.
[13]Sleator D. Temperley D. Parsing English with Link
    Grammar // Carnegie Mellon University Computer
    Science technical report CMU-CS-91-196, 1991.
[14]Schlaefer, Nico. A Semantic Approach to Question
    Answering: Saarbrьcken 2007.


                                                          210