Статистическая модель для распознавания смыслов в текстах иностранного языка с обучением на примерах из параллельных текстов © А.Е. Ермаков © П.Ю. Поляков ООО «ЭР СИ О», Москва, Россия ermakov@rco.ru pavel@rco.ru Аннотация. Распознавание смыслов (упоминаний целевых ситуаций, событий и фактов) в текстах иностранного языка в идеале требует разработки синтаксического анализатора этого языка и ряда сопутствующих лингвистических компонентов. В работе предложен альтернативный подход к построению распознавателя смыслов, не требующий глубокого машинного анализа языка текста. Подход строит статистическую модель распознавателя смысла в форме n-ок совместно встречающихся слов, с возможностью вставки не более заданного количества посторонних слов между словами n-ок. Для обучения модели использованы корпус параллельных текстов и русскоязычный лингвистический анализатор, который выделяет целевые смыслы из русских текстов, отбирая фрагменты, релевантные смыслам, в параллельных текстах иностранного языка. Описаны результаты экспериментов по распознаванию смыслов на корпусе квазипараллельных русско- армянских новостных текстов, в том числе процедура предварительного выравнивания текстов по параллельным фрагментам. Ключевые слова: машинный анализ текстов на иностранных языках, кросс-языковой информационный поиск, распознавание смысла в тексте, извлечение событий и фактов, статистическое машинное обучение на параллельных текстах, выравнивание параллельных текстов. Statistical Model for Recognition of Senses in Foreign Language Texts Trained by Examples from Parallel Texts © Alexander Ermakov © Pavel Polyakov RCO Llc, Moscow, Russia ermakov@rco.ru pavel@rco.ru Abstract. Recognition of senses (mentioning of target situations, events and facts) in foreign language texts needs developing of a syntactic analyzer and some linguistic components for this language. The alternative approach to construct a senses recognizer that does not need complex machine analysis of the language of a text is proposed in the report. This approach builds a statistical model of a senses recognizer in a form of n-tuples of words that stand together in the text, permitting insertion of a few other words between them. To train the model, a corpus of parallel texts and a Russian linguistic analyzer are applied. The linguistic analyzer is used to extract target senses from Russian texts, selecting the fragments that are relevant to these senses in parallel texts in a foreign language. The results of experiments in senses recognition in the corpus of quasi-parallel Russian-Armenian news texts are described, as well as a preliminary procedure of parallel text fragments alignment. Keywords: machine analysis of foreign language texts, cross-language information retrieval, recognition of sense in text, events and facts extraction, statistical machine training using parallel texts, parallel texts alignment. исследования уже с 1990-х годов [2]. Основные 1 Введение результаты и направления современных Вопросы межязыкового информационного исследований отражены в работах [3–5, 7]. В центре поиска стали предметом систематического их внимания оказались статистический машинный перевод, автоматическое построение словарей перевода слов, терминов и именованных сущностей, Труды XIX Международной конференции «Аналитика и управление данными в областях с перевод и расширение поисковых запросов, а также формирование и выравнивание корпусов интенсивным использованием данных» параллельных текстов-переводов как источников, (DAMDID/ RCDL’2017), Москва, Россия, 10–13 октября 2017 года 397 необходимых для обучения всех статистических считаются релевантными смыслам и используются алгоритмов. для последующей настройки параметров В основе предлагаемого нами подхода лежат статистической модели. Такой подход требует для идеи, имеющие аналогии с таковыми, настройки распознавателя на каждый новый язык: а) используемыми в статистическом машинном соответствующего параллельного корпуса, переводе, наиболее полная информация по которому представительного в плане присутствия разных представлена на веб-ресурсе [7]. Тем не менее, способов выражения целевых смыслов; б) предложенная модель и исследования, посвященные простейшего лингвоанализатора, способного строить ей, нам не встречались. варианты нормальных форм для словоформ Под присутствием заданного смысла в тексте иностранного языка; в) для некоторых видов будем понимать описание или упоминание в этом распознаваемых смыслов от лингвоанализатора тексте: может потребоваться умение выделять именованные • фактов и ситуаций определенного класса, сущности. например: владение акциями предприятий, заключение договоров между организациями, 2 Модель статистического встречи персон; распознавателя смыслов • определенных событий, например: война в Сирии, Будем называть смысло-текстом текстовый санкции против России; фрагмент, содержащий такую конфигурацию • определенных тем, например: образ России в синтаксически связанных слов, появление которой в зарубежных СМИ, политика Дональда Трампа. произвольном тексте говорит о присутствии в нем Тогда задачу информационного поиска в общем виде заданного смысла. Идеальным смысло-текстом можно представить как задачу распознавания является такой фрагмент, в котором отсутствуют присутствия заданного смысла в анализируемых лишние слова, появление которых не является текстах и выделения фрагментов текста, обязательным для идентификации присутствия релевантных искомому смыслу. смысла, например: Берлага заключил договор с Для распознавания смыслов в русскоязычном Корейко; договор Берлаги и Корейко (для смысла тексте можно использовать разработанный нами «договора между персонами»); усиление влияния лингвистический анализатор RCO Fact Extractor [8], России на Ближнем Востоке; Газпром использует который извлекает структурированные описания свое монопольное положение на рынке ситуаций, событий и фактов, выраженные в тексте энергоносителей (смысл «образ России в заданными конфигурациями синтаксически зарубежных СМИ»). связанных слов [9]. Определим статистический распознаватель Адаптация русскоязычного лингвистического смыслов (СРС) как механизм, который для данного анализатора к новому языку представляет собой текста d определяет, присутствует ли в нем заданный нетривиальную ресурсоемкую задачу, требующую смысл Se: формирует реакцию Re(Se,d)=1, если построения синтаксического анализатора этого смысл присутствует, и Re(Se,d)=0, если отсутствует. языка и ряда сопутствующих лингвистических Построим модель СРС в следующем виде. компонентов. В настоящей работе предложен Распознаватель считает, что смысл Se присутствует в альтернативный подход к построению тексте d (реакция Re(Se,d)=1), если текст содержит распознавателя смыслов на иностранном языке, не хотя бы одну n-ку из множества S=Ug,n sgn, g=0..G, требующий глубокого машинного анализа этого n=1..N, где sgn={(w1,w2,…,wn,g)} – подмножество n- языка. Подход строит модель статистического ок, каждая из которых содержит n определенных распознавателя смысла на новом языке в форме n-ок слов wi , допуская между ними вставку произвольных совместно встречающихся слов, с возможностью слов в количестве, не превышающем g. Далее будем вставки не более заданного количества посторонних обозначать профиль СРС как S={s1,s2,…,sJ}, где J – слов между словами n-ок. Появление всех слов количество n-ок в профиле, нумеруя подряд n-ки в какой-либо из n-ок в пределах текстового окна профиле и опуская обозначения n и g в них. ограниченной длины интерпретируется как наличие Множество n-ок S будем называть профилем смысла целевого смысла. На практике поиск смысла, Se. В зависимости от степени свободы порядка слов описанного в такой форме, может быть эффективно в языке к словам n-ок либо следует применять реализован средствами поисковой машины, требование сохранения их порядка в окне (пр., поддерживающей поиск заданных слов в пределах армянский, казахский), либо нет (сербский, окна заданной длины с сохранением заданного белорусский). С практической точки зрения порядка слов или без такового. достаточными представляются значения N=4, что Для обучения распознавателя использованы соответствует, например, упоминанию целевого корпус параллельных текстов и русскоязычный объекта с тремя дополнительными словами, лингвистический анализатор, который выделяет достаточно точно идентифицирующими искомую целевые смыслы и содержащие их фрагменты из ситуацию с объектом. русских текстов на основе синтактико- Обучение СРC смыслу Se представляет собой семантических шаблонов [9]. Параллельные им процедуру поиска такого профиля S, который фрагменты из текстов иностранного языка также обеспечит наилучшее качество работы СРС на 398 текстах обучающего корпуса D. пропускается, и делается попытка добавления к За оценку правдоподобия профиля S возьмем профилю следующей n-ки st+1 – итерация t+1. совокупную оценку ожидаемых от него полноты P и Расширение профиля прекращается при точности R распознавания смысла (т. н. F1-мера в прохождении всех n-ок-кандидатов или при теории информационного поиска): достижении порога по допустимому количеству n-ок в профиле. Тогда производится возвращение на шаг q(S,D)=2P(S,D)R(S,D)/(P(S,D)+R(S,D)), (1) назад к профилю без добавления последней n-ки, где P(S,D)=|D*1(S)|/|D1(S)|, R(S,D)=|D*1(S)|/|D(Se)|, делается попытка добавить следующую за ней n-ку D(Se) – множество смысло-текстов обучающего из числа кандидатов и т. д. Таким способом корпуса, релевантных смыслу Se, D1(S) – множество обходится дерево возможных комбинаций n-ок в всех смысло-текстов, распознанных профилем S, профиле, и наилучший полученный профиль S* D*1(S) – множество смысло-текстов, правильно запоминается. При включении n-ок в порядке распознанных профилем S. Тогда наилучший убывания их q(sj) можно ожидать, что лучшие профиль S*, обеспечивающий максимальное варианты профиля будут получены на более ранних качество СРС, определится как: шагах алгоритма. S*=arg maxS q(S,D) (2) 3 Выравнивание параллельных текстов Для ускорения поиска максимума q(S,D) в Для обучения СРС необходимо сформировать пространстве S комбинаций n-ок определим обучающее множество смысло-текстов D(Se)={di}, правдоподобие вхождения отдельной n-ки sj в S* как релевантных смыслу Se. В качестве таковых q(sj)=(1–1/|D*1(sj)|D*1(sj)|/|D1(sj)|, (3) отбираются смысло-тексты иностранного языка, параллельные тем русскоязычным смысло-текстам, в где множитель |D*1(sj)|/|D1(sj)| характеризует которых лингвистическим анализатором выделен ожидаемую точность, а множитель 1–1/|D*1(sj)| смысл Se. Источниками параллельных смысло- повышает вероятность включения в профиль n-ок с текстов, достаточно объемными и большей частотой встречаемости в релевантных представительными в плане разнообразия смысло-текстах D*1(sj), поскольку от таковых содержания, являются корпуса переводов новостных ожидается большая полнота распознавания смысла. сообщений. Такие корпуса в общем случае не Тогда наилучший профиль S* в соответствии с (2) содержат строго параллельных текстов, в которых можно построить, применив следующий жадный предложения с одинаковыми порядковыми алгоритм поиска в пространстве состояний. номерами в последовательности могли бы выступать Вначале алгоритм собирает все уникальные n-ки в роли параллельных смысло-текстов. Более того, sj, для которых значение q(sj) в соответствии с (3) переводы новостных сообщений часто содержат выше определенного порогового значения – иную разбивку на предложения, чем их оригиналы, в кандидатов на включение в профиль. Каждой n-ке- том числе нередко опускают оригинальные кандидату соответствует массив идентификаторов предложения и вставляют новые. Аналогично, содержащих ее смысло-текстов di. перевод предложения может содержать Далее n-ки сортируются по убыванию значений пропуски/вставки ряда значимых слов в описании q(sj), и первая n-ка включается в профиль на шаге 1: ситуации – переводчики новостей нередко опускают S1={s1}, чем начинается выполнение итерационного детали или добавляют собственные интерпретации. алгоритма расширения профиля новыми n-ми, идя по Вследствие этого обучение профилей СРС убыванию значений q(sj). Обозначим St-1 профиль, требует проведения машинной процедуры полученный на итерации t–1, а st-1 – последнюю предварительного выравнивания квазипараллельных обработанную n-ку, включенную или не включенную текстов, которая устанавливает соответствие между в профиль. На следующей итерации t производится предложениями на двух языках по принципу «одно к попытка добавить к профилю очередную n-ку st. одному», «одно к нескольким» или «несколько к Вычисляются оценки качества нового получаемого одному», а также отбрасывает предложения, перевод профиля P(St,D), R(St,D), q(St,D), и новый профиль St которых является излишне «вольным». признается лучше старого при одновременном Обычно методы выравнивания предложений соблюдении следующих условий: используют алгоритм динамического программирования, который позволяет q(St,D)>q(St-1,D) и RG(st|St-1,D)/TG(st|St-1,D)>Pmin, (4) вычислительно эффективно определить такую последовательность пар сопоставленных друг другу где Pmin – минимальная допустимая точность предложений, для которой сумма расстояний между профиля (мы использовали Pmin=0.7), RG(st|St-1,D) – предложениями в каждой паре будет минимальна. прирост количества релевантных смысло-текстов, При этом сущность используемого метода распознаваемых профилем St-1 после добавления к заключается в способе определения сходства между нему n-ки st, TG(st|St-1,D) – прирост количества всех парой предложений двух языков. В качестве смысло-текстов, распознаваемых профилем St-1 после русскоязычной точки входа в методы выравнивания добавления к нему n-ки st. можно указать работу отечественных исследователей При выполнении обоих условий n-ка добавляется [11]. Наиболее полная информация с зарубежной к профилю St-1, и формируется новый профиль St, библиографией по данной теме доступна на веб- который принимается за S*; в противном случае n-ка ресурсе [6]. 399 Реализованный нами метод требует наличия (местных), а также для организаций, напротив, словаря переводных соответствий слов двух языков, общеизвестных (международных). желательно с вариантами синонимичных переводов, Заметим, что величина Eq(ei|dj) и вычисляемая а также лингвистических анализаторов обоих наоборот величина Eq(dj|ei ) в общем случае будут языков, способных разделять текст на предложения, иметь различные значения в силу возможных а предложения – на сущности, которым повторений слов или вариантов их переводов в приписываются варианты их перевода. В качестве одном предложении, а также в силу использования сущностей анализаторы должны выделять слова и, «нечеткого» сравнения строк. желательно, словосочетания, обозначающие Мера прямого сходства переводов определяется различные классы именованных (персоны, как Tr(ei|dj)= Eq(ei|dj)/K, а мера обратного сходства – организации, географические объекты) и как Tr(dj|ei)=Eq(dj|ei )/P. специальных (даты, периоды времени, денежные Обозначим (i(t), j(t)), t=1...T, последовательность суммы) объектов. Именованные и специальные номеров пар предложений ei и dj из параллельных сущности в новостных текстах являются опорными текстов E={ei}, i=1..I, и D={dj}, j=1..J, где j(1)≥1, точками для выравнивания параллельных i(1)≥1, j(T)≤J, i(T)≥I. Здесь t – переменная, введенная предложений. Сущности приписывается набор для установления возможного соответствия между альтернативных вариантов перевода (если это номерами предложений i(t) и j(t). Тогда (i(t),j(t)) удается), а в некоторых случаях, например, для представляет собой возможную последовательность именованных персон, – еще и вариант выравнивания предложений при условии, что транскрибирования. i(t)≤i(t+1) и j(t)≤j(t+1). Будем называть количеством сопоставлений В ходе поиска наилучшей последовательности переводов Eq(ei|dj) количество сущностей из выравнивания (i(t),j(t))* методом динамического предложения ei={eki}, k=1..K, i=1..I, сопоставленных программирования используются два правила: с сущностями из предложения dj={dpj}, p=1..P, j=1..J. • пара предложений (ei(t),dj(t)) может быть Здесь I и J – количества предложений в параллельных включена в последовательность выравнивания текстах E и D; K и P – количества сопоставляемых при одновременном выполнении двух условий: сущностей в соответствующих предложениях i и j, из max{Tr(ei(t),dj(t)),Tr(dj(t)|ei(t))}>Trmax числа которых исключены общеупотребимые слова и обоих языков, вероятность совпадения переводов min{Tr(dj(t)|ei(t)), Tr(ei(t),dj(t))}>Trmin, которых в паре произвольных предложений высока где Trmax и Trmin – эмпирически подбираемые (прежде всего, это союзы, местоимения, предлоги). параметры, в нашем случае – 0.5 и 0.25 Сущности eki и dpj считаются сопоставленными, соответственно. Увеличение значений Trmax и если выполняется любое из трех условий: Trmin приводит к повышению точности 1. обе сущности относятся к классу специальных, и выравнивания, а их уменьшение – к повышению их тип (дата, период времени, денежная суммы) полноты за счет снижения точности. Чем больше одинаков; полнота используемого словаря переводных 2. один из вариантов имени сущности точно соответствий, тем более высокими могут быть совпадает с одним из вариантов перевода/ выбраны значения Trmax и Trmin; транскрипции одного из имен другой сущности; • последовательность выравнивания A признается 3. условие 2 выполняется не для точного, а для лучше другой последовательности B, если «нечеткого» совпадения, когда эквивалентными величина ∑t(Eq(ei(t)|,dj(t))+Eq(dj(t)| ei(t))) – признаются строки, имеющие относительное совокупное количество сопоставлений количество совпавших триграмм символов не переводов – для последовательности A менее порогового. превышает таковую величину для Условие 1 позволяет сопоставить сущности, последовательноcти B. выражаемые специальными конструкциями (пр. После нахождения наилучшего отображения даты), для которых получение совпадающих параллельных предложений «одно к одному» переводов маловероятно вследствие разнообразия делается попытка отобразить предложения, используемых форматов написания в каждом из пропущенные в последовательности выравнивания, языков. на те предложения, с которыми уже выровнены Условие 3 необходимо для сопоставления, в предложения, соседние с пропущенными, при первую очередь, именованных сущностей – персон и реализации выравнивания «одно к нескольким» для организаций, при переводе которых человеком- случаев несинхронной разбивки исходного и переводчиком часто не соблюдается исходный целевого текста на предложения. В контексте задачи формат, кроме того, в силу потенциальной обучения СРС процедура выравнивания имеет целью неполноты словарей перевода имен, не все части получить смысло-текст минимального размера, сложных имен могут иметь варианты перевода в поэтому разрешается объединять в один смысло- словаре. Так, имена персон (как полные, так и текст не более двух предложений. В финале краткие) обычно удается сопоставить именно по происходит отбрасывание тех пар смысло-текстов, «нечеткому» совпадению транскрипций. Нередко для которых мера прямого или обратного сходства такое сравнение транскрипций работает для переводов оказывается ниже определенного порога – географических мест, обычно не общеизвестных 400 ожидается, что соответствующий перевод является armenian/dictionary-armenian-russian.htm, с весом 100, излишне «вольным». что означало отброс всех вариантов Яндекс- и Гугл- переводов слов, встретившихся в строгом словаре. 4 Реализация и эксперименты На переводы в Яндекс и Google были отправлены все Эксперименты по обучению СРС были армянские словоформы, встретившихся не менее чем проведены на корпусе новостных текстов, в двух документах 230-тысячного корпуса текстов, а полученных с армянского сайта http://news.am. Из также именованные сущности, что составило 350 двух разделов данного сайта (http://news.am/rus/news/ тысяч единиц. и http://news. am/arm/news/) были скачаны по 300 С использованием полученного словаря тысяч русских и армянских текстов, из числа переводов алгоритм, описанный в Разделе 3, разбил которых по формальному признаку – совпадению 230 тысяч пар текстов на 1370 тысяч пар идентификаторов – было получено 230 тысяч пар параллельных фрагментов – смысло-текстов, а для предположительно параллельных русско-армянских 690 тысяч русских и 585 тысяч армянских текстов. предложений не было найдено достаточно близких Для анализа русских текстов был использован параллельных переводов. Данная процедура заняла лингвистический анализатор RCO Fact Extractor [8], около восьми часов работы одного процессорного который проводил полный синтаксический анализ ядра. текста, выделяя сущности разных типов с Программные компоненты обучения СРС отношениями между ними, а также события и факты работают в три фазы. с их участниками в соответствии с заданными На Фазе I обрабатывается корпус xml-файлов, синтактико-семантическими шаблонами [9]. Для которые формируются двумя лингвистическими анализа армянских текстов был разработан неполный анализаторами и содержат описание сущностей, лингвистический анализатор, который разбивал выделенных в армянских смысло-текстах, а также текст на слова и предложения, проводил идентификаторы смыслов, которым релевантны морфологический анализ и определял для каждого параллельные им русские смысло-тексты. слова возможные варианты его нормальной формы, а Собираются все n-ки из нормальных форм также распознавал на основе формальных правил и сущностей, упоминавшиеся в армянских смысло- сворачивал в одну сущность особые цепочки слов – текстах, длиной от 2 до 4, допуская встречаемость обозначения именованных персон, организаций, между словами n-ок посторонних слов количеством географических объектов, дат и обстоятельств от 0 до 5. Также собираются параметризованные времени. Основой для построения армянского варианты n-ок, в которых конкретные именованные морфословаря послужил Восточно-армянский сущности заменяются на свои типы – персона, национальный корпус [1], правила описания особых организация, география. Все омонимичные варианты сущностей были разработаны лингвистом на языке нормальных форм сущностей порождают Cape для компонента RCO Pattern Extractor [10]. соответствующие варианты n-ок. Количество разных Армяно-русский словарь переводов содержал n-ок, получаемых таким образом, имеет порядок более 100 тысяч единиц и был сформирован путем сотен миллионов, поэтому для хранения статистики консолидации переводов из нескольких интернет- (общие частоты встречаемости n-ок в корпусе и источников. Статистические переводчики Яндекс и частоты n-ок по каждому смыслу) в оперативной Гугл могут переводить по-разному различные памяти применяется процедура периодического словоформы одного и того же слова, например, забывания – как только количество сохраненных n-ок разным формам армянского слова «ծառայություն» превышает 10 миллионов (что не превышает 2 Гбайт соответствуют формы русских слов сервис, служба, ОЗУ), из памяти удаляются данные по наиболее услуга, обслуживание, а также ряд ошибочных редко встретившимся n-кам, имеющим низкие переводов. Эмпирически было подобрано правило оценки правдоподобия вхождения в профиль какого- определения достоверности переводов, согласно либо смысла в соответствии с (3). В финале для которому признаются недостоверными те варианты, каждого смысла отбирается до 1,5 тысяч лучших n- которые встречаются со взвешенной частотой, ок – кандидатов на последующее включение в отношение которой к взвешенной частоте самого профиль, получивших наибольшие оценки частого варианта составляет менее 0.7. Взвешенная правдоподобия вхождения в профиль q(sj) в частота есть сумма частот встречаемости в каждом из соответствии с (3), но не менее 0.01, и сохраняются в источников, умноженных на вес источника, который файле – препрофиле смысла. Время обработки 230 определяет уровень доверия к нему. На практике тысяч новостных текстов для 40 смыслов (см. были использованы три источника переводов: а) Таблицу 1) на этой фазе занимает около 4 часов переводы встретившихся в текстах словоформ, работы одного процессорного ядра. полученные из Яндекса, с весом 1; б) переводы тех На Фазе II загружаются файлы препрофилей же словоформ, полученные из Гугла, с весом 2 смыслов, и вновь обрабатывается корпус xml-файлов (переводы Гугла мы считали достовернее переводов с описаниями сущностей, выделенных в Яндекса); в) строгий словарь объемом 22 тысячи слов параллельных смысло-текстах. В результате для (нормальных форм), полученный из интернет- каждой n-ки в препрофилях подсчитываются частоты источника http://www.classes.ru/all- ее встречаемости в окнах различной длины с количеством допустимых вставок посторонних слов 401 от 0 до 5. Одновременно для n-ки собираются собственных, n-ки профилей включали в себя идентифкаторы смысло-текстов, ее содержащих, по обозначения типов именованных сущностей (O – каждому из окон. Собранная информация организация, P – персона, G – географическое место), сохраняется в полных файлах препрофилей смыслов. которые указаны во втором столбце Таблицы 1. Знак Время выполнения этой фазы составляет около 1 '|' разделяет возможные альтернативы. Например, для часа. смысла владение акциями во втором столбце указано На Фазе III загружается файл с полной O|P O, что означает, что в n-ку слов, входящую в информацией об n-ках препрофилей смыслов и профиль данного смысла, должны обязательно войти выполняется алгоритм построения профиля СРС, какая-либо именованная персона или организация который выбирает n-ки из препрофиля в профиль, (владелец акций) плюс именованная организация вычисляя для каждой возможной комбинации n-ок (эмитент акций). оценку правдоподобия и запоминая комбинацию с Различия между цифрами (количество максимальной оценкой как лучший вариант профиля релевантных смысло-текстов) в столбцах Exm и S* в соответствии с (2). Максимальное количество TrainExm обусловлено следующим. Оценка просматриваемых комбинаций ограничивалось 1 правдоподобия вхождения n-ки в профиль смысла миллионом, что оказалось с избытком достаточно q(sj) в соответствии с (3) равна 0 в случае единичной для получения наилучшего варианта профиля – частоты встречаемости n-ки, вследствие чего такие n- средний номер шага процедуры перебора ки не могли быть включены в профиль в силу комбинаций, на котором был получен наилучший объективной недостаточности данных для обучения вариант S*, по 40 профилям составил около 2 тысяч, СРС. В результате этого многие смысло-тексты, не а наибольшее из значений (для профиля содержащие ни одной n-ки с частотой более 1 и «путешествия») не превышает 20 тысяч. Для относительно высоким значением q(sj)>0,01, большинства смыслов количество всех комбинаций, фактически не могли участвовать в обучении. подлежащих проверке на выполнение условий (4), Поэтому при расчете значений R в соответствии с (1) оказалось значительно меньше миллиона вследствие в качестве D(Se) бралось множество смысло-текстов, относительно небольшого количества обучающих содержащих хотя бы одну из n-ок-кандидатов на примеров и соответствующих n-ок-кандидатов на включение в профиль. Это позволяло оценить включение в профиль. В итоге время выполнения качество алгоритма обучения относительно данной фазы составило в среднем одну секунду на независимо от качества обучающей выборки, а также профиль. от качества лингвистического анализа армянского Настройка СРС проводилась на полученном текста, которое априори было хуже качества анализа корпусе из 1.370 тысяч пар параллельных смысло- русского – прежде всего, экспериментальный текстов для 40 смыслов – ситуаций, отобранных из морфоанализатор для армянского языка не мог более чем 200 типовых ситуаций, распознаваемых приводить разные формы слова к одной форме с русскоязычными лингвистическими шаблонами такой же полнотой и точностью, как RCO Fact Extractor. Названия этих смыслов-ситуаций морфоанализатор для русского языка. Именно эти приведены в первом столбце Таблицы 1. Именно к фактором в первую очередь обусловлено то, что ним обнаружено в корпусе наибольшее количество среднее по столбцу TrainExm для армянского языка – релевантных смысло-текстов, которое указано в 509 – оказалось вдвое меньше, чем для русского – третьем столбце Exm. 1056. Соответственно, среднее количество n-грамм, В экспериментах было построено два отдельных включенных в армянские профили, в столбце n-s – СРС – профили русского СРС строились на русских 145 – оказалось меньше, чем для русского языка – смысло-текстах и состояли из n-ок русских 173. Кроме того, армянские переводы русских сущностей, выделенных RCO Fact Exctractor, а новостных текстов нередко опускают описания профили армянского СРС строились на деталей событий, в которых содержится целевой параллельных армянских смысло-текстах и состояли смысл в исходных текстах, распознаваемый русским из n-ок армянских слов, выделенных разработанным лингвоанализатором. армянским лингвоанализатором. Обучение СРС «с С учетом сказанного средние значения полноты русского на русский» позволяло исследовать работу (0.61 для армянского языка против 0.71 для русского СРС в чистом виде, без влияния факторов в столбце R) и точности (0.94 для армянского языка посторонних составляющих– несовершенств против 0.91 для русского) представляются нам армянского лингвоанализатора, процедуры близкими. Соответствующие значения F1-меры, выравнивания параллельных фрагментов и балансирующей полноту и точность в соответствии с недостатков собственно параллельных переводов. (1), различаются еще меньше – 0.73 против 0.78. Значения, полученные для армянского и русского Реально ожидаемая полнота, рассчитанная с учетом СРС, в Таблице 1 приведены вместе и разделены всех 3587 примеров в корпусе, для русских текстов символом '/'. составляет около 0,21 (0.71 умножить на 1056/3587), Каждая из 40 ситуаций предполагает вовлечение а для армянских текстов – 0,09 (0.61 умножить на в нее одного или двух участников, представленных в 509/3587). тексте произвольными именованными сущностями. Поэтому, вместо конкретных слов – имен 402 Таблица 1 Данные по профилям смыслов. Имена столбцов: Sense – имя смысла; Param – типы сущностей- параметров в n-ках; Exm – количество релевантных смысло-текстов в обучающем корпусе; TrainExm – количество релевантных смысло-текстов, участвовавших в обучении профиля; n–s – количество n-ок, вошедших в профиль; P, R – точность и полнота на обучающем корпусе в соответствии с (1). Символом '/' разделены значения, полученные на армянских и русских смысло-текстах Sense Param Exm TrainExm n-s P R митинги/забастовки G 3351 1205/2119 500/500 0.95/0.87 0.62/0.67 уход с рынка O 25 13/19 5/6 1.0/1.0 0.92/0.74 поставки O 130 18/71 8/34 0.92/0.90 0.61/0.76 предоставление услуг O 70 21/43 4/18 1.0/0.88 0.33/0.65 открытие торг. точек O 224 26/20 11/9 1.0/0.86 0.58/0.95 новые проекты O 88 34/49 15/21 0.95/0.94 0.56/0.65 проведение тендера O 108 37/79 10/39 0.96/0.92 0.59/0.82 отзыв продукции O 131 50/63 23/30 0.94/0.94 0.68/0.78 открытие филиала O 167 79/122 33/50 0.96/0.88 0.63/0.82 купля/продажа акций O 437 153/252 58/83 0.98/0.86 0.64/0.88 выпуск товаров O 549 192/333 61/102 1.0/0.92 0.39/0.52 создание компании O 565 213/185 51/59 0.98/0.98 0.49/0.68 экономические O 3212 346/857 182/178 0.97/0.92 0.85/0.69 показатели объединение OO 222 14/40 1/12 0.83/0.82 0.36/0.80 партнерство OO 479 79/143 23/53 0.87/0.95 0.58/0.57 рейтинги O|P 165 29/89 10/29 0.89/0.84 0.55/0.73 юбилей O|P 90 30/69 10/26 0.89/0.84 0.53/0.86 банкротство O|P 114 46/70 14/26 0.89/0.92 0.54/0.79 купля/продажа финансов O|P 750 100/123 36/66 0.93/0.93 0.57/0.78 выигрыш призов O|P 583 255/374 107/132 0.99/0.91 0.54/0.71 благотворительность O|P 604 257/285 112/98 0.98/0.91 0.63/0.76 скандалы O|P 6895 511/1699 166/284 0.94/0.86 0.66/0.65 суды, расследования O|P 4657 643/2123 93/192 0.95/0.97 0.73/0.60 конфликты O|P O|P 9932 647/3510 109/380 0.96/0.90 0.72/0.63 финансовая деятельность O|P 5939 691/1083 230/159 0.94/0.90 0.67/0.72 успехи–неудачи O|P 5899 1093/2141 331/355 0.89/0.90 0.63/0.72 планы/намерения O|P 7948 1374/2055 390/273 0.93/0.91 0.54/0.59 мероприятия O|P 23698 2867/6575 500/500 0.92/0.92 0.61/0.65 владение акциями O|P O 365 40/95 14/42 0.91/0.99 0.53/0.71 владение организациями O|P O 2040 431/679 135/183 0.87/0.84 0.69/0.78 договора O|P O|P 6252 595/1020 211/313 0.93/0.93 0.58/0.67 отставка с должности P 941 355/521 166/143 0.95/0.92 0.79/0.84 авторство P 1740 383/555 150/126 0.96/0.92 0.55/0.73 кандидат на выборах P 2068 529/1020 217/279 0.95/0.91 0.65/0.68 письма P 2951 819/1102 229/216 0.88/0.87 0.68/0.80 назначение на должность P 5458 1192/2449 352/417 0.88/0.90 0.72/0.61 путешествия PG 13295 2564/4304 500/500 0.87/0.86 0.45/0.66 физическое насилие PP 292 56/142 11/47 1.0/0.95 0.68/0.73 разговор PP 10216 889/2019 299/436 0.93/0.92 0.55/0.64 встреча PP 20838 1494/3730 429/500 0.89/0.84 0.73/0.56 среднее 3587 509/1056 145/173 0.94/0.91 0.61/0.71 403 5 Заключение Литература Предложен и экспериментально исследован [1] Eastern Armenian National Corpus, http://eanc.net подход к распознаванию смыслов (упоминаний [2] Grefenstette, G. (ed.): Cross-Language Information целевых ситуаций, событий и фактов) в тексте, Retrieval. Springer, 177 p. (1998) который допускает относительно простую [3] He, D., Wang, J.: Cross-Language Information реализацию предположительно для любого языка, Retrieval. Information Retrieval: Searching in the при наличии возможности автоматического 21st Century, Part 11. Wiley and Sons Ltd, pp. 233- выделения требуемых смыслов на русском языке. 254 (2009) Подход требует наличия корпуса квазипараллельных [4] Nie, J-Y.: Cross-Language Information Retrieval. текстов – переводов с русского языка на Synthesis Lectures on Human Language иностранный или обратно. Также желательно Technologies. Morgan & Claypool Publishers, 3 наличие простейшего лингвистического (1), pp. 1-125 (2010) анализатора, способного строить варианты нормальных форм для словоформ иностранного [5] Nie, J-Y., Gao, J., Cao, G.: Translingual Mining языка, что позволяет существенно повысить полноту from Text Data. Mining Text Data, Part X. Springer распознавания смыслов, не требуя примеров US, pp. 323-359 (2012) параллельных текстов, в которых описывающие [6] SMT Research Survey Wiki: A Comprehensive смысл слова стоят во всех возможных формах. В Survey of Statistical Machine Translation Research зависимости от видов распознаваемых смыслов от Publications. Sentence Alignment, http:// лингвистического анализатора может потребоваться www.statmt.org/survey/Topic/SentenceAlignment умение выделять именованные сущности. [7] Statistical Machine Translation, maintained by Описанные эксперименты показали высокую Philipp Koehn, http://www.statmt.org точность распознавания смыслов для большого [8] RCO Fact Extractor – инструмент количества разнообразных смыслов (40) на компьютерного анализа текстовой информации обучающей выборке большого объема (230 тысяч компании «ЭР СИ О», пар квазипараллельных текстов, более 1370 тысяч http://www.rco.ru/?page_id=3554 пар армянских и русских предложений), что, в силу [9] Ермаков, А.Е., Плешко, В.В.: Семантическая особенностей выбранного способа описания смысла интерпретация в системах компьютерного (n-ок слов, совместно встречающихся в окне), анализа текста. Информационные технологии, позволяет ожидать высокой точности распознавания (6), сс. 2-7 (2009) и на других текстах. Невысокая полнота [10] Ермаков, А.Е., Плешко, В.В., Митюнин, В.А.: распознавания говорит о необходимости увеличить RCO Pattern Extractor: компонент выделения размер корпуса параллельных новостных текстов в особых объектов в тексте. Информатизация и несколько раз (с 230 тысяч пар до миллиона). В экспериментах не использовалась контрольная информационная безопасность правоохранительных органов: Сборник трудов выборка текстов, отличная от обучающей, для XII Межд. науч. конф., Москва, сс. 312-317 проверки полученных оценок ожидаемой точности и полноты в силу отсутствия возможности получения (2003) качественной экспертной разметки корпуса не [11] Потемкин, С.Б., Кедрова, Г.Е.: Выравнивание только армянских, но и каких-либо других текстов на неразмеченного корпуса параллельных текстов. предмет релевантности различным смыслам. Тем не Компьютерная лингвистика и менее, просмотр содержимого построенных интеллектуальные технологии: По материалам профилей – русских и армянских n-ок слов – показал ежегодной Межд. конф. «Диалог» (Бекасово, 4– релевантность подавляющего большинства из них 8 июня 2008 г.). Вып. 7 (14). М.: РГГУ, сс. 431- целевым смыслам, что повышает уверенность в 437 (2008) эффективности подхода. 404