=Paper= {{Paper |id=Vol-2022/paper60 |storemode=property |title= Статистическая модель для распознавания смыслов в текстах иностранного языка с обучением на примерах из параллельных текстов (Statistical Model for Recognition of Senses in Foreign Language Texts Trained by Examples from Parallel Texts) |pdfUrl=https://ceur-ws.org/Vol-2022/paper60.pdf |volume=Vol-2022 |authors=Alexander Ermakov,Pavel Polyakov |dblpUrl=https://dblp.org/rec/conf/rcdl/ErmakovP17 }} == Статистическая модель для распознавания смыслов в текстах иностранного языка с обучением на примерах из параллельных текстов (Statistical Model for Recognition of Senses in Foreign Language Texts Trained by Examples from Parallel Texts) == https://ceur-ws.org/Vol-2022/paper60.pdf
  Статистическая модель для распознавания смыслов в
 текстах иностранного языка с обучением на примерах из
                 параллельных текстов
                        © А.Е. Ермаков                                     © П.Ю. Поляков
                                                 ООО «ЭР СИ О»,
                                                  Москва, Россия
                         ermakov@rco.ru                                        pavel@rco.ru
          Аннотация. Распознавание смыслов (упоминаний целевых ситуаций, событий и фактов) в
    текстах иностранного языка в идеале требует разработки синтаксического анализатора этого языка и
    ряда сопутствующих лингвистических компонентов. В работе предложен альтернативный подход к
    построению распознавателя смыслов, не требующий глубокого машинного анализа языка текста.
    Подход строит статистическую модель распознавателя смысла в форме n-ок совместно
    встречающихся слов, с возможностью вставки не более заданного количества посторонних слов
    между словами n-ок. Для обучения модели использованы корпус параллельных текстов и
    русскоязычный лингвистический анализатор, который выделяет целевые смыслы из русских текстов,
    отбирая фрагменты, релевантные смыслам, в параллельных текстах иностранного языка. Описаны
    результаты экспериментов по распознаванию смыслов на корпусе квазипараллельных русско-
    армянских новостных текстов, в том числе процедура предварительного выравнивания текстов по
    параллельным фрагментам.
          Ключевые слова: машинный анализ текстов на иностранных языках, кросс-языковой
    информационный поиск, распознавание смысла в тексте, извлечение событий и фактов,
    статистическое машинное обучение на параллельных текстах, выравнивание параллельных текстов.

     Statistical Model for Recognition of Senses in Foreign
   Language Texts Trained by Examples from Parallel Texts
                   © Alexander Ermakov                                          © Pavel Polyakov
                                                    RCO Llc,
                                                  Moscow, Russia
                         ermakov@rco.ru                                        pavel@rco.ru
           Abstract. Recognition of senses (mentioning of target situations, events and facts) in foreign language
    texts needs developing of a syntactic analyzer and some linguistic components for this language. The
    alternative approach to construct a senses recognizer that does not need complex machine analysis of the
    language of a text is proposed in the report. This approach builds a statistical model of a senses recognizer in
    a form of n-tuples of words that stand together in the text, permitting insertion of a few other words between
    them. To train the model, a corpus of parallel texts and a Russian linguistic analyzer are applied. The linguistic
    analyzer is used to extract target senses from Russian texts, selecting the fragments that are relevant to these
    senses in parallel texts in a foreign language. The results of experiments in senses recognition in the corpus
    of quasi-parallel Russian-Armenian news texts are described, as well as a preliminary procedure of parallel
    text fragments alignment.
           Keywords: machine analysis of foreign language texts, cross-language information retrieval,
    recognition of sense in text, events and facts extraction, statistical machine training using parallel texts,
    parallel texts alignment.
                                                                 исследования уже с 1990-х годов [2]. Основные
 1 Введение                                                      результаты      и    направления    современных
    Вопросы    межязыкового           информационного            исследований отражены в работах [3–5, 7]. В центре
 поиска   стали   предметом           систематического           их внимания оказались статистический машинный
                                                                 перевод, автоматическое построение словарей
                                                                 перевода слов, терминов и именованных сущностей,
Труды XIX Международной конференции
«Аналитика и управление данными в областях с                     перевод и расширение поисковых запросов, а также
                                                                 формирование      и    выравнивание       корпусов
интенсивным       использованием    данных»
                                                                 параллельных текстов-переводов как источников,
(DAMDID/ RCDL’2017), Москва, Россия, 10–13
октября 2017 года

                                                           397
необходимых для обучения всех статистических                  считаются релевантными смыслам и используются
алгоритмов.                                                   для     последующей     настройки     параметров
    В основе предлагаемого нами подхода лежат                 статистической модели. Такой подход требует для
идеи,     имеющие       аналогии     с     таковыми,          настройки распознавателя на каждый новый язык: а)
используемыми в статистическом машинном                       соответствующего      параллельного      корпуса,
переводе, наиболее полная информация по которому              представительного в плане присутствия разных
представлена на веб-ресурсе [7]. Тем не менее,                способов выражения целевых смыслов; б)
предложенная модель и исследования, посвященные               простейшего лингвоанализатора, способного строить
ей, нам не встречались.                                       варианты нормальных форм для словоформ
    Под присутствием заданного смысла в тексте                иностранного языка; в) для некоторых видов
будем понимать описание или упоминание в этом                 распознаваемых смыслов от лингвоанализатора
тексте:                                                       может потребоваться умение выделять именованные
• фактов и ситуаций определенного класса,                     сущности.
    например: владение акциями предприятий,
    заключение договоров между организациями,                 2 Модель статистического
    встречи персон;                                           распознавателя смыслов
• определенных событий, например: война в Сирии,                  Будем называть смысло-текстом текстовый
    санкции против России;                                    фрагмент, содержащий такую конфигурацию
• определенных тем, например: образ России в                  синтаксически связанных слов, появление которой в
    зарубежных СМИ, политика Дональда Трампа.                 произвольном тексте говорит о присутствии в нем
Тогда задачу информационного поиска в общем виде              заданного смысла. Идеальным смысло-текстом
можно представить как задачу распознавания                    является такой фрагмент, в котором отсутствуют
присутствия заданного смысла в анализируемых                  лишние слова, появление которых не является
текстах    и    выделения      фрагментов     текста,         обязательным для идентификации присутствия
релевантных искомому смыслу.                                  смысла, например: Берлага заключил договор с
    Для распознавания смыслов в русскоязычном                 Корейко; договор Берлаги и Корейко (для смысла
тексте можно использовать разработанный нами                  «договора между персонами»); усиление влияния
лингвистический анализатор RCO Fact Extractor [8],            России на Ближнем Востоке; Газпром использует
который извлекает структурированные описания                  свое      монопольное     положение     на    рынке
ситуаций, событий и фактов, выраженные в тексте               энергоносителей      (смысл    «образ    России в
заданными       конфигурациями         синтаксически          зарубежных СМИ»).
связанных слов [9].                                               Определим      статистический    распознаватель
    Адаптация русскоязычного лингвистического                 смыслов (СРС) как механизм, который для данного
анализатора к новому языку представляет собой                 текста d определяет, присутствует ли в нем заданный
нетривиальную ресурсоемкую задачу, требующую                  смысл Se: формирует реакцию Re(Se,d)=1, если
построения синтаксического анализатора этого                  смысл присутствует, и Re(Se,d)=0, если отсутствует.
языка и ряда сопутствующих лингвистических                        Построим модель СРС в следующем виде.
компонентов. В настоящей работе предложен                     Распознаватель считает, что смысл Se присутствует в
альтернативный       подход       к      построению           тексте d (реакция Re(Se,d)=1), если текст содержит
распознавателя смыслов на иностранном языке, не               хотя бы одну n-ку из множества S=Ug,n sgn, g=0..G,
требующий глубокого машинного анализа этого                   n=1..N, где sgn={(w1,w2,…,wn,g)} – подмножество n-
языка. Подход строит модель статистического                   ок, каждая из которых содержит n определенных
распознавателя смысла на новом языке в форме n-ок             слов wi , допуская между ними вставку произвольных
совместно встречающихся слов, с возможностью                  слов в количестве, не превышающем g. Далее будем
вставки не более заданного количества посторонних             обозначать профиль СРС как S={s1,s2,…,sJ}, где J –
слов между словами n-ок. Появление всех слов                  количество n-ок в профиле, нумеруя подряд n-ки в
какой-либо из n-ок в пределах текстового окна                 профиле и опуская обозначения n и g в них.
ограниченной длины интерпретируется как наличие               Множество n-ок S будем называть профилем смысла
целевого смысла. На практике поиск смысла,                    Se. В зависимости от степени свободы порядка слов
описанного в такой форме, может быть эффективно               в языке к словам n-ок либо следует применять
реализован     средствами     поисковой     машины,           требование сохранения их порядка в окне (пр.,
поддерживающей поиск заданных слов в пределах                 армянский, казахский), либо нет (сербский,
окна заданной длины с сохранением заданного                   белорусский). С практической точки зрения
порядка слов или без такового.                                достаточными представляются значения N=4, что
    Для обучения распознавателя использованы                  соответствует, например, упоминанию целевого
корпус параллельных текстов и русскоязычный                   объекта с тремя дополнительными словами,
лингвистический анализатор, который выделяет                  достаточно точно идентифицирующими искомую
целевые смыслы и содержащие их фрагменты из                   ситуацию с объектом.
русских     текстов     на    основе     синтактико-              Обучение СРC смыслу Se представляет собой
семантических шаблонов [9]. Параллельные им                   процедуру поиска такого профиля S, который
фрагменты из текстов иностранного языка также                 обеспечит наилучшее качество работы СРС на




                                                        398
текстах обучающего корпуса D.                                      пропускается, и делается попытка добавления к
   За оценку правдоподобия профиля S возьмем                       профилю следующей n-ки st+1 – итерация t+1.
совокупную оценку ожидаемых от него полноты P и                    Расширение      профиля     прекращается     при
точности R распознавания смысла (т. н. F1-мера в                   прохождении всех n-ок-кандидатов или при
теории информационного поиска):                                    достижении порога по допустимому количеству n-ок
                                                                   в профиле. Тогда производится возвращение на шаг
       q(S,D)=2P(S,D)R(S,D)/(P(S,D)+R(S,D)),          (1)
                                                                   назад к профилю без добавления последней n-ки,
где P(S,D)=|D*1(S)|/|D1(S)|, R(S,D)=|D*1(S)|/|D(Se)|,              делается попытка добавить следующую за ней n-ку
D(Se) – множество смысло-текстов обучающего                        из числа кандидатов и т. д. Таким способом
корпуса, релевантных смыслу Se, D1(S) – множество                  обходится дерево возможных комбинаций n-ок в
всех смысло-текстов, распознанных профилем S,                      профиле, и наилучший полученный профиль S*
D*1(S) – множество смысло-текстов, правильно                       запоминается. При включении n-ок в порядке
распознанных профилем S. Тогда наилучший                           убывания их q(sj) можно ожидать, что лучшие
профиль S*,      обеспечивающий максимальное                       варианты профиля будут получены на более ранних
качество СРС, определится как:                                     шагах алгоритма.
                       S*=arg maxS q(S,D)             (2)          3 Выравнивание параллельных текстов
   Для ускорения поиска максимума q(S,D) в                            Для обучения СРС необходимо сформировать
пространстве S комбинаций n-ок определим                           обучающее множество смысло-текстов D(Se)={di},
правдоподобие вхождения отдельной n-ки sj в S* как                 релевантных смыслу Se. В качестве таковых
            q(sj)=(1–1/|D*1(sj)|D*1(sj)|/|D1(sj)|,    (3)          отбираются смысло-тексты иностранного языка,
                                                                   параллельные тем русскоязычным смысло-текстам, в
где     множитель      |D*1(sj)|/|D1(sj)|
                                        характеризует              которых лингвистическим анализатором выделен
ожидаемую точность, а множитель 1–1/|D*1(sj)|                      смысл Se. Источниками параллельных смысло-
повышает вероятность включения в профиль n-ок с                    текстов,        достаточно       объемными       и
большей частотой встречаемости в релевантных                       представительными        в    плане   разнообразия
смысло-текстах D*1(sj), поскольку от таковых                       содержания, являются корпуса переводов новостных
ожидается большая полнота распознавания смысла.                    сообщений. Такие корпуса в общем случае не
Тогда наилучший профиль S* в соответствии с (2)                    содержат строго параллельных текстов, в которых
можно построить, применив следующий жадный                         предложения       с    одинаковыми    порядковыми
алгоритм поиска в пространстве состояний.                          номерами в последовательности могли бы выступать
    Вначале алгоритм собирает все уникальные n-ки                  в роли параллельных смысло-текстов. Более того,
sj, для которых значение q(sj) в соответствии с (3)                переводы новостных сообщений часто содержат
выше определенного порогового значения –                           иную разбивку на предложения, чем их оригиналы, в
кандидатов на включение в профиль. Каждой n-ке-                    том числе нередко опускают оригинальные
кандидату соответствует массив идентификаторов                     предложения и вставляют новые. Аналогично,
содержащих ее смысло-текстов di.                                   перевод       предложения      может     содержать
    Далее n-ки сортируются по убыванию значений                    пропуски/вставки ряда значимых слов в описании
q(sj), и первая n-ка включается в профиль на шаге 1:               ситуации – переводчики новостей нередко опускают
S1={s1}, чем начинается выполнение итерационного                   детали или добавляют собственные интерпретации.
алгоритма расширения профиля новыми n-ми, идя по                      Вследствие этого обучение профилей СРС
убыванию значений q(sj). Обозначим St-1 профиль,                   требует      проведения     машинной    процедуры
полученный на итерации t–1, а st-1 – последнюю                     предварительного выравнивания квазипараллельных
обработанную n-ку, включенную или не включенную                    текстов, которая устанавливает соответствие между
в профиль. На следующей итерации t производится                    предложениями на двух языках по принципу «одно к
попытка добавить к профилю очередную n-ку st.                      одному», «одно к нескольким» или «несколько к
Вычисляются оценки качества нового получаемого                     одному», а также отбрасывает предложения, перевод
профиля P(St,D), R(St,D), q(St,D), и новый профиль St              которых является излишне «вольным».
признается лучше старого при одновременном                            Обычно методы выравнивания предложений
соблюдении следующих условий:                                      используют           алгоритм        динамического
                                                                   программирования,          который       позволяет
 q(St,D)>q(St-1,D) и RG(st|St-1,D)/TG(st|St-1,D)>Pmin, (4)         вычислительно эффективно определить такую
                                                                   последовательность пар сопоставленных друг другу
где Pmin – минимальная допустимая точность
                                                                   предложений, для которой сумма расстояний между
профиля (мы использовали Pmin=0.7), RG(st|St-1,D) –                предложениями в каждой паре будет минимальна.
прирост количества релевантных смысло-текстов,                     При этом сущность используемого метода
распознаваемых профилем St-1 после добавления к                    заключается в способе определения сходства между
нему n-ки st, TG(st|St-1,D) – прирост количества всех              парой предложений двух языков. В качестве
смысло-текстов, распознаваемых профилем St-1 после                 русскоязычной точки входа в методы выравнивания
добавления к нему n-ки st.                                         можно указать работу отечественных исследователей
   При выполнении обоих условий n-ка добавляется                   [11]. Наиболее полная информация с зарубежной
к профилю St-1, и формируется новый профиль St,                    библиографией по данной теме доступна на веб-
который принимается за S*; в противном случае n-ка                 ресурсе [6].



                                                             399
    Реализованный нами метод требует наличия                  (местных), а также для организаций, напротив,
словаря переводных соответствий слов двух языков,             общеизвестных (международных).
желательно с вариантами синонимичных переводов,                   Заметим, что величина Eq(ei|dj) и вычисляемая
а также лингвистических анализаторов обоих                    наоборот величина Eq(dj|ei ) в общем случае будут
языков, способных разделять текст на предложения,             иметь различные значения в силу возможных
а предложения – на сущности, которым                          повторений слов или вариантов их переводов в
приписываются варианты их перевода. В качестве                одном предложении, а также в силу использования
сущностей анализаторы должны выделять слова и,                «нечеткого» сравнения строк.
желательно,        словосочетания,     обозначающие               Мера прямого сходства переводов определяется
различные        классы    именованных      (персоны,         как Tr(ei|dj)= Eq(ei|dj)/K, а мера обратного сходства –
организации,        географические     объекты)     и         как Tr(dj|ei)=Eq(dj|ei )/P.
специальных (даты, периоды времени, денежные                      Обозначим (i(t), j(t)), t=1...T, последовательность
суммы) объектов. Именованные и специальные                    номеров пар предложений ei и dj из параллельных
сущности в новостных текстах являются опорными                текстов E={ei}, i=1..I, и D={dj}, j=1..J, где j(1)≥1,
точками        для     выравнивания     параллельных          i(1)≥1, j(T)≤J, i(T)≥I. Здесь t – переменная, введенная
предложений. Сущности приписывается набор                     для установления возможного соответствия между
альтернативных вариантов перевода (если это                   номерами предложений i(t) и j(t). Тогда (i(t),j(t))
удается), а в некоторых случаях, например, для                представляет собой возможную последовательность
именованных        персон,   –    еще    и    вариант         выравнивания предложений при условии, что
транскрибирования.                                            i(t)≤i(t+1) и j(t)≤j(t+1).
    Будем называть количеством сопоставлений                      В ходе поиска наилучшей последовательности
переводов Eq(ei|dj) количество сущностей из                   выравнивания (i(t),j(t))* методом динамического
предложения ei={eki}, k=1..K, i=1..I, сопоставленных          программирования используются два правила:
с сущностями из предложения dj={dpj}, p=1..P, j=1..J.         • пара предложений (ei(t),dj(t)) может быть
Здесь I и J – количества предложений в параллельных                включена в последовательность выравнивания
текстах E и D; K и P – количества сопоставляемых                   при одновременном выполнении двух условий:
сущностей в соответствующих предложениях i и j, из                          max{Tr(ei(t),dj(t)),Tr(dj(t)|ei(t))}>Trmax
числа которых исключены общеупотребимые слова                      и
обоих языков, вероятность совпадения переводов                             min{Tr(dj(t)|ei(t)), Tr(ei(t),dj(t))}>Trmin,
которых в паре произвольных предложений высока                     где Trmax и Trmin – эмпирически подбираемые
(прежде всего, это союзы, местоимения, предлоги).                  параметры, в нашем случае – 0.5 и 0.25
    Сущности eki и dpj считаются сопоставленными,                  соответственно. Увеличение значений Trmax и
если выполняется любое из трех условий:                            Trmin приводит к повышению точности
1. обе сущности относятся к классу специальных, и                  выравнивания, а их уменьшение – к повышению
     их тип (дата, период времени, денежная суммы)                 полноты за счет снижения точности. Чем больше
     одинаков;                                                     полнота используемого словаря переводных
2. один из вариантов имени сущности точно                          соответствий, тем более высокими могут быть
     совпадает с одним из вариантов перевода/                      выбраны значения Trmax и Trmin;
     транскрипции одного из имен другой сущности;             • последовательность выравнивания A признается
3. условие 2 выполняется не для точного, а для                     лучше другой последовательности B, если
     «нечеткого» совпадения, когда эквивалентными                  величина        ∑t(Eq(ei(t)|,dj(t))+Eq(dj(t)|    ei(t)))   –
     признаются строки, имеющие относительное                      совокупное          количество              сопоставлений
     количество совпавших триграмм символов не                     переводов – для последовательности A
     менее порогового.                                             превышает          таковую            величину           для
    Условие 1 позволяет сопоставить сущности,                      последовательноcти B.
выражаемые специальными конструкциями (пр.                        После нахождения наилучшего отображения
даты), для которых получение совпадающих                      параллельных предложений «одно к одному»
переводов маловероятно вследствие разнообразия                делается      попытка       отобразить            предложения,
используемых форматов написания в каждом из                   пропущенные в последовательности выравнивания,
языков.                                                       на те предложения, с которыми уже выровнены
    Условие 3 необходимо для сопоставления, в                 предложения, соседние с пропущенными, при
первую очередь, именованных сущностей – персон и              реализации выравнивания «одно к нескольким» для
организаций, при переводе которых человеком-                  случаев несинхронной разбивки исходного и
переводчиком часто не соблюдается исходный                    целевого текста на предложения. В контексте задачи
формат, кроме того, в силу потенциальной                      обучения СРС процедура выравнивания имеет целью
неполноты словарей перевода имен, не все части                получить смысло-текст минимального размера,
сложных имен могут иметь варианты перевода в                  поэтому разрешается объединять в один смысло-
словаре. Так, имена персон (как полные, так и                 текст не более двух предложений. В финале
краткие) обычно удается сопоставить именно по                 происходит отбрасывание тех пар смысло-текстов,
«нечеткому» совпадению транскрипций. Нередко                  для которых мера прямого или обратного сходства
такое сравнение транскрипций работает для                     переводов оказывается ниже определенного порога –
географических мест, обычно не общеизвестных



                                                        400
ожидается, что соответствующий перевод является                 armenian/dictionary-armenian-russian.htm, с весом 100,
излишне «вольным».                                              что означало отброс всех вариантов Яндекс- и Гугл-
                                                                переводов слов, встретившихся в строгом словаре.
4 Реализация и эксперименты                                     На переводы в Яндекс и Google были отправлены все
   Эксперименты по обучению СРС были                            армянские словоформы, встретившихся не менее чем
проведены на корпусе новостных текстов,                         в двух документах 230-тысячного корпуса текстов, а
полученных с армянского сайта http://news.am. Из                также именованные сущности, что составило 350
двух разделов данного сайта (http://news.am/rus/news/           тысяч единиц.
и http://news. am/arm/news/) были скачаны по 300                   С     использованием      полученного      словаря
тысяч русских и армянских текстов, из числа                     переводов алгоритм, описанный в Разделе 3, разбил
которых по формальному признаку – совпадению                    230 тысяч пар текстов на 1370 тысяч пар
идентификаторов – было получено 230 тысяч пар                   параллельных фрагментов – смысло-текстов, а для
предположительно параллельных русско-армянских                  690 тысяч русских и 585 тысяч армянских
текстов.                                                        предложений не было найдено достаточно близких
   Для анализа русских текстов был использован                  параллельных переводов. Данная процедура заняла
лингвистический анализатор RCO Fact Extractor [8],              около восьми часов работы одного процессорного
который проводил полный синтаксический анализ                   ядра.
текста, выделяя сущности разных типов с                            Программные компоненты обучения СРС
отношениями между ними, а также события и факты                 работают в три фазы.
с их участниками в соответствии с заданными                        На Фазе I обрабатывается корпус xml-файлов,
синтактико-семантическими шаблонами [9]. Для                    которые формируются двумя лингвистическими
анализа армянских текстов был разработан неполный               анализаторами и содержат описание сущностей,
лингвистический анализатор, который разбивал                    выделенных в армянских смысло-текстах, а также
текст на слова и предложения, проводил                          идентификаторы смыслов, которым релевантны
морфологический анализ и определял для каждого                  параллельные       им     русские     смысло-тексты.
слова возможные варианты его нормальной формы, а                Собираются все n-ки из нормальных форм
также распознавал на основе формальных правил и                 сущностей, упоминавшиеся в армянских смысло-
сворачивал в одну сущность особые цепочки слов –                текстах, длиной от 2 до 4, допуская встречаемость
обозначения именованных персон, организаций,                    между словами n-ок посторонних слов количеством
географических объектов, дат и обстоятельств                    от 0 до 5. Также собираются параметризованные
времени. Основой для построения армянского                      варианты n-ок, в которых конкретные именованные
морфословаря      послужил      Восточно-армянский              сущности заменяются на свои типы – персона,
национальный корпус [1], правила описания особых                организация, география. Все омонимичные варианты
сущностей были разработаны лингвистом на языке                  нормальных       форм      сущностей       порождают
Cape для компонента RCO Pattern Extractor [10].                 соответствующие варианты n-ок. Количество разных
   Армяно-русский словарь переводов содержал                    n-ок, получаемых таким образом, имеет порядок
более 100 тысяч единиц и был сформирован путем                  сотен миллионов, поэтому для хранения статистики
консолидации переводов из нескольких интернет-                  (общие частоты встречаемости n-ок в корпусе и
источников. Статистические переводчики Яндекс и                 частоты n-ок по каждому смыслу) в оперативной
Гугл могут переводить по-разному различные                      памяти применяется процедура периодического
словоформы одного и того же слова, например,                    забывания – как только количество сохраненных n-ок
разным формам армянского слова «ծառայություն»                   превышает 10 миллионов (что не превышает 2 Гбайт
соответствуют формы русских слов сервис, служба,                ОЗУ), из памяти удаляются данные по наиболее
услуга, обслуживание, а также ряд ошибочных                     редко встретившимся n-кам, имеющим низкие
переводов. Эмпирически было подобрано правило                   оценки правдоподобия вхождения в профиль какого-
определения достоверности переводов, согласно                   либо смысла в соответствии с (3). В финале для
которому признаются недостоверными те варианты,                 каждого смысла отбирается до 1,5 тысяч лучших n-
которые встречаются со взвешенной частотой,                     ок – кандидатов на последующее включение в
отношение которой к взвешенной частоте самого                   профиль,     получивших       наибольшие       оценки
частого варианта составляет менее 0.7. Взвешенная               правдоподобия вхождения в профиль q(sj) в
частота есть сумма частот встречаемости в каждом из             соответствии с (3), но не менее 0.01, и сохраняются в
источников, умноженных на вес источника, который                файле – препрофиле смысла. Время обработки 230
определяет уровень доверия к нему. На практике                  тысяч новостных текстов для 40 смыслов (см.
были использованы три источника переводов: а)                   Таблицу 1) на этой фазе занимает около 4 часов
переводы встретившихся в текстах словоформ,                     работы одного процессорного ядра.
полученные из Яндекса, с весом 1; б) переводы тех                  На Фазе II загружаются файлы препрофилей
же словоформ, полученные из Гугла, с весом 2                    смыслов, и вновь обрабатывается корпус xml-файлов
(переводы Гугла мы считали достовернее переводов                с    описаниями      сущностей,     выделенных      в
Яндекса); в) строгий словарь объемом 22 тысячи слов             параллельных смысло-текстах. В результате для
(нормальных форм), полученный из интернет-                      каждой n-ки в препрофилях подсчитываются частоты
источника                    http://www.classes.ru/all-         ее встречаемости в окнах различной длины с
                                                                количеством допустимых вставок посторонних слов



                                                          401
от 0 до 5. Одновременно для n-ки собираются                собственных, n-ки профилей включали в себя
идентифкаторы смысло-текстов, ее содержащих, по            обозначения типов именованных сущностей (O –
каждому из окон. Собранная информация                      организация, P – персона, G – географическое место),
сохраняется в полных файлах препрофилей смыслов.           которые указаны во втором столбце Таблицы 1. Знак
Время выполнения этой фазы составляет около 1              '|' разделяет возможные альтернативы. Например, для
часа.                                                      смысла владение акциями во втором столбце указано
    На Фазе III загружается файл с полной                  O|P O, что означает, что в n-ку слов, входящую в
информацией об n-ках препрофилей смыслов и                 профиль данного смысла, должны обязательно войти
выполняется алгоритм построения профиля СРС,               какая-либо именованная персона или организация
который выбирает n-ки из препрофиля в профиль,             (владелец акций) плюс именованная организация
вычисляя для каждой возможной комбинации n-ок              (эмитент акций).
оценку правдоподобия и запоминая комбинацию с                   Различия      между     цифрами      (количество
максимальной оценкой как лучший вариант профиля            релевантных смысло-текстов) в столбцах Exm и
S* в соответствии с (2). Максимальное количество           TrainExm       обусловлено     следующим.      Оценка
просматриваемых комбинаций ограничивалось 1                правдоподобия вхождения n-ки в профиль смысла
миллионом, что оказалось с избытком достаточно             q(sj) в соответствии с (3) равна 0 в случае единичной
для получения наилучшего варианта профиля –                частоты встречаемости n-ки, вследствие чего такие n-
средний номер шага процедуры перебора                      ки не могли быть включены в профиль в силу
комбинаций, на котором был получен наилучший               объективной недостаточности данных для обучения
вариант S*, по 40 профилям составил около 2 тысяч,         СРС. В результате этого многие смысло-тексты, не
а наибольшее из значений (для профиля                      содержащие ни одной n-ки с частотой более 1 и
«путешествия») не превышает 20 тысяч. Для                  относительно высоким значением q(sj)>0,01,
большинства смыслов количество всех комбинаций,            фактически не могли участвовать в обучении.
подлежащих проверке на выполнение условий (4),             Поэтому при расчете значений R в соответствии с (1)
оказалось значительно меньше миллиона вследствие           в качестве D(Se) бралось множество смысло-текстов,
относительно небольшого количества обучающих               содержащих хотя бы одну из n-ок-кандидатов на
примеров и соответствующих n-ок-кандидатов на              включение в профиль. Это позволяло оценить
включение в профиль. В итоге время выполнения              качество      алгоритма     обучения     относительно
данной фазы составило в среднем одну секунду на            независимо от качества обучающей выборки, а также
профиль.                                                   от качества лингвистического анализа армянского
    Настройка СРС проводилась на полученном                текста, которое априори было хуже качества анализа
корпусе из 1.370 тысяч пар параллельных смысло-            русского – прежде всего, экспериментальный
текстов для 40 смыслов – ситуаций, отобранных из           морфоанализатор для армянского языка не мог
более чем 200 типовых ситуаций, распознаваемых             приводить разные формы слова к одной форме с
русскоязычными лингвистическими шаблонами                  такой      же     полнотой     и    точностью,    как
RCO Fact Extractor. Названия этих смыслов-ситуаций         морфоанализатор для русского языка. Именно эти
приведены в первом столбце Таблицы 1. Именно к             фактором в первую очередь обусловлено то, что
ним обнаружено в корпусе наибольшее количество             среднее по столбцу TrainExm для армянского языка –
релевантных смысло-текстов, которое указано в              509 – оказалось вдвое меньше, чем для русского –
третьем столбце Exm.                                       1056. Соответственно, среднее количество n-грамм,
    В экспериментах было построено два отдельных           включенных в армянские профили, в столбце n-s –
СРС – профили русского СРС строились на русских            145 – оказалось меньше, чем для русского языка –
смысло-текстах и состояли из n-ок русских                  173. Кроме того, армянские переводы русских
сущностей, выделенных RCO Fact Exctractor, а               новостных текстов нередко опускают описания
профили       армянского    СРС     строились   на         деталей событий, в которых содержится целевой
параллельных армянских смысло-текстах и состояли           смысл в исходных текстах, распознаваемый русским
из n-ок армянских слов, выделенных разработанным           лингвоанализатором.
армянским лингвоанализатором. Обучение СРС «с                   С учетом сказанного средние значения полноты
русского на русский» позволяло исследовать работу          (0.61 для армянского языка против 0.71 для русского
СРС в чистом виде, без влияния факторов                    в столбце R) и точности (0.94 для армянского языка
посторонних       составляющих–      несовершенств         против 0.91 для русского) представляются нам
армянского       лингвоанализатора,      процедуры         близкими. Соответствующие значения F1-меры,
выравнивания       параллельных    фрагментов    и         балансирующей полноту и точность в соответствии с
недостатков собственно параллельных переводов.             (1), различаются еще меньше – 0.73 против 0.78.
Значения, полученные для армянского и русского             Реально ожидаемая полнота, рассчитанная с учетом
СРС, в Таблице 1 приведены вместе и разделены              всех 3587 примеров в корпусе, для русских текстов
символом '/'.                                              составляет около 0,21 (0.71 умножить на 1056/3587),
    Каждая из 40 ситуаций предполагает вовлечение          а для армянских текстов – 0,09 (0.61 умножить на
в нее одного или двух участников, представленных в         509/3587).
тексте произвольными именованными сущностями.
Поэтому, вместо конкретных слов – имен




                                                     402
Таблица 1 Данные по профилям смыслов. Имена столбцов: Sense – имя смысла; Param – типы сущностей-
параметров в n-ках; Exm – количество релевантных смысло-текстов в обучающем корпусе; TrainExm –
количество релевантных смысло-текстов, участвовавших в обучении профиля; n–s – количество n-ок,
вошедших в профиль; P, R – точность и полнота на обучающем корпусе в соответствии с (1). Символом '/'
разделены значения, полученные на армянских и русских смысло-текстах
 Sense                        Param      Exm      TrainExm       n-s       P             R
 митинги/забастовки           G          3351     1205/2119      500/500   0.95/0.87     0.62/0.67
 уход с рынка                 O          25       13/19          5/6       1.0/1.0       0.92/0.74
 поставки                     O          130      18/71          8/34      0.92/0.90     0.61/0.76
 предоставление услуг         O          70       21/43          4/18      1.0/0.88      0.33/0.65
 открытие торг. точек         O          224      26/20          11/9      1.0/0.86      0.58/0.95
 новые проекты                O          88       34/49          15/21     0.95/0.94     0.56/0.65
 проведение тендера           O          108      37/79          10/39     0.96/0.92     0.59/0.82
 отзыв продукции              O          131      50/63          23/30     0.94/0.94     0.68/0.78
 открытие филиала             O          167      79/122         33/50     0.96/0.88     0.63/0.82
 купля/продажа акций          O          437      153/252        58/83     0.98/0.86     0.64/0.88
 выпуск товаров               O          549      192/333        61/102    1.0/0.92      0.39/0.52
 создание компании            O          565      213/185        51/59     0.98/0.98     0.49/0.68
 экономические                O          3212     346/857        182/178   0.97/0.92     0.85/0.69
 показатели
 объединение                  OO         222      14/40          1/12      0.83/0.82     0.36/0.80
 партнерство                  OO         479      79/143         23/53     0.87/0.95     0.58/0.57
 рейтинги                     O|P        165      29/89          10/29     0.89/0.84     0.55/0.73
 юбилей                       O|P        90       30/69          10/26     0.89/0.84     0.53/0.86
 банкротство                  O|P        114      46/70          14/26     0.89/0.92     0.54/0.79
 купля/продажа финансов       O|P        750      100/123        36/66     0.93/0.93     0.57/0.78
 выигрыш призов               O|P        583      255/374        107/132   0.99/0.91     0.54/0.71
 благотворительность          O|P        604      257/285        112/98    0.98/0.91     0.63/0.76
 скандалы                     O|P        6895     511/1699       166/284   0.94/0.86     0.66/0.65
 суды, расследования          O|P        4657     643/2123       93/192    0.95/0.97     0.73/0.60
 конфликты                    O|P O|P    9932     647/3510       109/380   0.96/0.90     0.72/0.63
 финансовая деятельность      O|P        5939     691/1083       230/159   0.94/0.90     0.67/0.72
 успехи–неудачи               O|P        5899     1093/2141      331/355   0.89/0.90     0.63/0.72
 планы/намерения              O|P        7948     1374/2055      390/273   0.93/0.91     0.54/0.59
 мероприятия                  O|P        23698    2867/6575      500/500   0.92/0.92     0.61/0.65
 владение акциями             O|P O      365      40/95          14/42     0.91/0.99     0.53/0.71
 владение организациями       O|P O      2040     431/679        135/183   0.87/0.84     0.69/0.78
 договора                     O|P O|P    6252     595/1020       211/313   0.93/0.93     0.58/0.67
 отставка с должности         P          941      355/521        166/143   0.95/0.92     0.79/0.84
 авторство                    P          1740     383/555        150/126   0.96/0.92     0.55/0.73
 кандидат на выборах          P          2068     529/1020       217/279   0.95/0.91     0.65/0.68
 письма                       P          2951     819/1102       229/216   0.88/0.87     0.68/0.80
 назначение на должность      P          5458     1192/2449      352/417   0.88/0.90     0.72/0.61
 путешествия                  PG         13295    2564/4304      500/500   0.87/0.86     0.45/0.66
 физическое насилие           PP         292      56/142         11/47     1.0/0.95      0.68/0.73
 разговор                     PP         10216    889/2019       299/436   0.93/0.92     0.55/0.64
 встреча                      PP         20838    1494/3730      429/500   0.89/0.84     0.73/0.56
 среднее                                 3587     509/1056       145/173   0.94/0.91     0.61/0.71




                                                 403
5 Заключение                                                Литература
    Предложен и экспериментально исследован                  [1] Eastern Armenian National Corpus, http://eanc.net
подход к распознаванию смыслов (упоминаний                   [2] Grefenstette, G. (ed.): Cross-Language Information
целевых ситуаций, событий и фактов) в тексте,                    Retrieval. Springer, 177 p. (1998)
который     допускает     относительно     простую           [3] He, D., Wang, J.: Cross-Language Information
реализацию предположительно для любого языка,                    Retrieval. Information Retrieval: Searching in the
при     наличии    возможности     автоматического               21st Century, Part 11. Wiley and Sons Ltd, pp. 233-
выделения требуемых смыслов на русском языке.                    254 (2009)
Подход требует наличия корпуса квазипараллельных
                                                             [4] Nie, J-Y.: Cross-Language Information Retrieval.
текстов – переводов с русского языка на
                                                                 Synthesis Lectures on Human Language
иностранный или обратно. Также желательно
                                                                 Technologies. Morgan & Claypool Publishers, 3
наличие        простейшего        лингвистического
                                                                 (1), pp. 1-125 (2010)
анализатора,    способного     строить    варианты
нормальных форм для словоформ иностранного                   [5] Nie, J-Y., Gao, J., Cao, G.: Translingual Mining
языка, что позволяет существенно повысить полноту                from Text Data. Mining Text Data, Part X. Springer
распознавания смыслов, не требуя примеров                        US, pp. 323-359 (2012)
параллельных текстов, в которых описывающие                  [6] SMT Research Survey Wiki: A Comprehensive
смысл слова стоят во всех возможных формах. В                    Survey of Statistical Machine Translation Research
зависимости от видов распознаваемых смыслов от                   Publications.     Sentence      Alignment,     http://
лингвистического анализатора может потребоваться                 www.statmt.org/survey/Topic/SentenceAlignment
умение выделять именованные сущности.                        [7] Statistical Machine Translation, maintained by
    Описанные эксперименты показали высокую                      Philipp Koehn, http://www.statmt.org
точность распознавания смыслов для большого                  [8] RCO        Fact     Extractor    –    инструмент
количества разнообразных смыслов (40) на                         компьютерного анализа текстовой информации
обучающей выборке большого объема (230 тысяч                     компании             «ЭР           СИ           О»,
пар квазипараллельных текстов, более 1370 тысяч                  http://www.rco.ru/?page_id=3554
пар армянских и русских предложений), что, в силу            [9] Ермаков, А.Е., Плешко, В.В.: Семантическая
особенностей выбранного способа описания смысла                  интерпретация в системах компьютерного
(n-ок слов, совместно встречающихся в окне),                     анализа текста. Информационные технологии,
позволяет ожидать высокой точности распознавания                 (6), сс. 2-7 (2009)
и на других текстах. Невысокая полнота
                                                            [10] Ермаков, А.Е., Плешко, В.В., Митюнин, В.А.:
распознавания говорит о необходимости увеличить
                                                                 RCO Pattern Extractor: компонент выделения
размер корпуса параллельных новостных текстов в
                                                                 особых объектов в тексте. Информатизация и
несколько раз (с 230 тысяч пар до миллиона).
    В экспериментах не использовалась контрольная                информационная                       безопасность
                                                                 правоохранительных органов: Сборник трудов
выборка текстов, отличная от обучающей, для
                                                                 XII Межд. науч. конф., Москва, сс. 312-317
проверки полученных оценок ожидаемой точности и
полноты в силу отсутствия возможности получения                  (2003)
качественной экспертной разметки корпуса не                 [11] Потемкин, С.Б., Кедрова, Г.Е.: Выравнивание
только армянских, но и каких-либо других текстов на              неразмеченного корпуса параллельных текстов.
предмет релевантности различным смыслам. Тем не                  Компьютерная               лингвистика            и
менее,    просмотр     содержимого построенных                   интеллектуальные технологии: По материалам
профилей – русских и армянских n-ок слов – показал               ежегодной Межд. конф. «Диалог» (Бекасово, 4–
релевантность подавляющего большинства из них                    8 июня 2008 г.). Вып. 7 (14). М.: РГГУ, сс. 431-
целевым смыслам, что повышает уверенность в                      437 (2008)
эффективности подхода.




                                                      404