Использование тематических моделей в извлечении однословных терминов c М. А. Нокель c Н. В. Лукашевич МГУ им. М. В. Ломоносова, Москва НИВЦ МГУ им. М. В. Ломоносова, Москва mnokel@gmail.com louk_nat@mail.ru Аннотация На текущий момент традиционно используе- мые для извлечения терминов статистические при- В статье представлены результаты экспе- риментов по применению тематических мо- знаки никак не отражают тот факт, что большин- делей к задаче извлечения однословных тер- ство терминов относятся к той или иной подтеме минов. В качестве текстовых коллекций бы- предметной области. Поэтому нами было сдела- ла взята подборка статей из электронных но предположение, что выделение таких подтем в коллекции текстов способно улучшить качество банковских журналов на русском языке и автоматического извлечения терминов.Для про- англоязычная часть корпуса параллельных текстов Europarl. Эксперименты показы- верки этого предположения в статье будут рас- вают, что использование тематической ин- смотрены различные методы выделения подтем в формации значительно улучшает качество коллекции текстов, которые часто в литературе называются статистическими тематическими мо- извлечения однословных терминов незави- делями [4]. симо от предметной области и используе- мого языка. Некоторые виды статистических тематических моделей могут основываться на традиционных ме- тодах автоматической кластеризации текстов [12]. Ключевые слова В последнее время предложены вероятностные ме- Тематические модели, Кластеризация, Извле- ханизмы выделения подтем в текстовых коллек- чение однословных терминов циях такие, как методы, основанные на скрытом распределении Дирихле (Latent Dirichlet allocation 1 Введение [4]), которые собственно и были названы темати- Извлечение терминов из текстов определённой ческими моделями и в настоящее время интенсив- предметной области играет значительную роль во но исследуются в рамках различных приложени- многих прикладных задачах, в первую очередь – ях автоматической обработки текстов ( [12], [29], в разработке и пополнении различных термино- [3]). логических ресурсов, таких как тезаурусы и он- Основная задача данной статьи заключается в тологии [35]. Поскольку разработка таких ресур- исследовании возможности использования тема- сов вручную достаточно трудоёмка, за последние тической информации для повышения качества годы было проведено большое количество иссле- извлечения однословных терминов. Для этой цели дований по автоматизации данного процесса. вначале в текстовой коллекции выделяются под- Большинство современных методов извлечения темы, затем к ним применяются некоторые моди- терминов основываются на использовании различ- фикации хорошо известных признаков, которые ных статистических и лингвистических призна- впоследствии используются вместе с другими ста- ков слов. Основная цель при этом заключается тистическими и лингвистическими признаками. в получении упорядоченного списка кандидатов в Для того чтобы результаты, представленные термины, в начале которого находится как мож- в статье, не зависели ни от предметной области, но больше слов, с наибольшей вероятностью яв- ни от языка, были взяты две предметные области ляющихся терминами. В некоторых работах бы- и соответствующие текстовые коллекции: банков- ло экспериментально установлено, что использо- ская предметная область и тексты банковской те- вание машинного обучения для комбинирования матики на русском языке и широкая предметная признаков значительно улучшает результаты из- область современной общественной жизни Евро- влечения терминов по сравнению с методами, ос- пы и речи с заседаний Европарламента на англий- нованными только на одном каком-то признаке, ском языке. При этом эксперименты будут стро- поскольку те или иные признаки только частич- иться следующим образом: но отражают особенности поведения терминов в 1. Вначале статистические тематические моде- текстах [17]. ли будут исследованы с точки зрения задачи 52 извлечения однословных терминов с целью 3 Статистические тематические мо- выбора наилучшей; дели 2. Затем будет осуществлено сравнение призна- Новые признаки слов-кандидатов, которые вво- ков, посчитанных для лучшей тематической дятся в данной статье, используют информацию, модели, с остальными признаками с целью получаемую статистическими тематическими мо- определения вклада, который даёт исполь- делями в исследуемых текстовых коллекциях. зование тематической модели в рассматри- Статистическая тематическая модель (да- ваемой задаче. лее – тематическая модель) коллекции текстовых документов на основе статистических методов опре- 2 Близкие работы деляет, к каким подтемам относится каждый до- кумент и какие слова образуют каждую подте- За последние годы было предложено много раз- му, представляющую собой список часто встреча- личных статистических и лингвистических при- ющихся рядом друг с другом слов, упорядочен- знаков слов, используемых для извлечения одно- ный по убыванию степени принадлежности ему словных терминов из коллекции текстов опреде- [34]. Так, в таблице 1 представлены первые десять лённой предметной области ( [6], [1], [20], [10] и слов, наиболее полно характеризующие три слу- др.). чайно выбранных подтемы, выделенных из рус- Все предложенные признаки можно разделить скоязычных текстов банковской тематики рассмат- на следующие группы: риваемой коллекции. 1. Признаки, основанные на частотности слов- Подтема 1 Подтема 2 Подтема 3 кандидатов. К этой группе относится, на- Банкнота Обучение Германия пример, признак TFRIDF, предложенный в Офшорный Студент Франция работе [6] и использующий модель Пуассона Счетчик Учебный Евро для предсказания терминологичности слов; Купюра Вуз Европейский 2. Признаки, использующие контрастную кол- Подделка Семинар Польша лекцию, т.е. коллекцию более общей темати- Обращение Образование Европа ки. Одним из наиболее характерных пред- Номинал Знание Чехия ставителей данной группы является широко Монета Специалист Италия используемый на практике признак Отно- Подлинность Слушатель Немецкий сительная частотность [1], основанный на Поддельный Учитель Французский сравнении относительных частотностей слов в рассматриваемой и в контрастной тексто- Таблица 1: Примеры подтем вой коллекциях; 3. Контекстные признаки, соединяющие в се- В тематических моделях, как правило, исполь- бе информацию о частотности слов-кандида- зуется модель мешка слов, в которой каждый до- тов с данными о контексте их употребления. кумент рассматривается как набор встречающих- Наиболее известными представителями этой ся в нём слов. При этом перед выделением подтем группы являются признаки C-Value [20] и текстовая коллекция обычно подвергается предо- NC-Value [10], учитывающие частоту встре- бработке, выделяющей только значимые слова в чаемости объемлющего словосочетания для каждом документе. В частности, в данном иссле- кандидата в термины. довании для русского языка были отобраны толь- ко существительные и прилагательные, а для ан- Однако ни один из предложенных признаков глийского – только существительные, поскольку не является определяющим [25], и фактически из они покрывают большую часть терминов. текстов извлекается довольно большой список слов- На сегодняшний день разработано достаточно кандидатов, которые затем должны быть проана- много различных тематических моделей. Для вы- лизированы и подтверждены экспертом по пред- бора моделей для исследования были проанализи- метной области. Важно поэтому дополнять спи- рованы предыдущие работы, в которых осуществ- сок используемых признаков, что позволит полу- ляется сравнение моделей с точки зрения различ- чать в начале списка как можно больше слов, с ных практических приложений. Так, в работе [29] наибольшей вероятностью являющихся термина- утверждается, что каждая тематическая модель ми. имеет свои сильные и слабые стороны. Сравнивая между собой методы NMF (неотрица- тельной матричной факторизации) и LDA (латент- ного размещения Дирихле), авторы приходят к выводу, что оба этих алгоритма дают похожее ка- 53 чество, хотя NMF и выдаёт немного больше бес- предложены различные схемы взвешивания отдель- связных подтем. В работе [12] утверждается, что ных слов, наиболее распространённой из которых традиционные тематические модели показывают является схема TFIDF [19], которая также была приемлемое качество выделения подтем, но имеют включена в данное исследование. В ней каждому множество ограничений. В частности они предпо- слову в документе ставится в соответствие вели- лагают, что каждый документ имеет только од- чина, вычисляемая по следующей формуле: ну тематику. В действительности же документы   представляют собой, как правило, смесь подтем. N − DF (w) T F IDF (w|d) = T F (w|d)∗max 0, log Кроме того, авторы отмечают, что параметры тра- DF (w) диционных моделей достаточно сложно настраи- (2) вать. В то же время в работе подчёркивается, что где N – общее число документов в коллекции, более сложные модели (такие как LDA) необяза- DF (w) – число документов в коллекции, в кото- тельно дадут лучшие результаты. рых встречается слово w. Поскольку, как следует из упомянутых выше В следующих разделах будут описаны выбран- работ, среди тематических моделей нет явного ли- ные нами методы построения традиционных тема- дера и непонятно, какое качество они покажут в тических моделей. рассматриваемой задаче извлечения однословных терминов, было решено выбрать несколько наибо- 3.1.1 K-Средних и Сферический K-Средних лее характерных представителей, которых услов- Алгоритм K-Средних [18] начинает свою ра- но можно отнести либо к вероятностным, либо боту со случайной инициализации центров масс к методам кластеризации текстов, рассматривае- каждого кластера. Далее он итеративно повторя- мых с точки зрения тематических моделей. Каж- ет следующие шаги: дая из выбранных моделей будет рассмотрена в следующих подразделах. 1. Все документы разбиваются на кластеры в соответствии с тем, какой из центров масс 3.1 Тематические модели, основанные на оказался ближе по выбранной метрике; методах кластеризации текстов 2. Для каждого полученного кластера пересчи- Традиционные тематические модели, как пра- тывается центр масс. вило, основываются на методах жёсткой класте- ризации, рассматривающих каждый документ как В качестве метрики близости между двумя до- разреженный вектор в пространстве слов боль- кументами исследовались следующие: шой размерности [28]. После окончания работы • Евклидово расстояние (K-Means) [18]: алгоритма кластеризации каждый получившийся sX кластер рассматривается как один большой доку- мент для вычисления вероятностей входящих в sim(A, B) = (Ai − Bi )2 (3) i него слов по следующей формуле: T F (w|t) • Косинусная мера близости (сферический k- P (w|t) = P (1) T F (w|t) средних – SPK-Means). При этом все векто- w ры, представляющие документы, нормали- где T F (w|t) – частотность слова w в кластере t. зуются к единичной гиперсфере [33]: В процессе кластеризации текстовых докумен- P тов можно выделить следующие общие шаги: (Ai × Bi ) i sim(A, B) = rP (4) 1. Предобработка документов (фильтрация rP Ai × Bi слов); i i 2. Преобразование документа во внутреннее представление (в вектор слов); 3.1.2 Иерархическая агломеративная кла- стеризация 3. Расчёт расстояния между документами на основе внутреннего представления; Алгоритм иерархической агломеративной кла- стеризации [14] изначально рассматривает каж- 4. Кластеризация документов на основе рассчи- дый документ как отдельный кластер. Затем он танного расстояния с помощью одного из ал- итеративно повторяет следующие шаги: горитмов. 1. Находятся и объединяются в новый кластер Для численной оценки расстояния между до- два наиболее близких кластера; кументами необходим способ определения значи- мости каждого слова в обособлении одного до- 2. Пересчитываются расстояния между новым кумента относительно другого. Для этого были кластером и всеми остальными. 54 Процесс повторяется до тех пор, пока не оста- 3.2 Вероятностные тематические модели нется заданное число кластеров. Вероятностные тематические модели представ- В качестве способов определения наиболее близ- ляют каждый документ в виде смеси подтем, в ко- ких кластеров исследовались следующие наибо- торой каждая подтема представляет собой неко- лее распространённые [14]: торое вероятностное распределение над словами. • Complete-link (“полное связывание”). Наибо- Вероятностные модели порождают слова по сле- лее близкие кластеры – это кластеры с наи- дующему правилу: меньшим максимальным парным расстояни- X P (w|d) = P (w|t)P (t|d) (7) ем между документами; t • Single-link (“одиночное связывание”). Наибо- где P (t|d) и P (w|t) – распределения подтем по до- лее близкие кластеры – это кластеры с наи- кументам и слов по подтемам, а P (w|d) – наблю- меньшим минимальным парным расстояни- даемое распределение слов по документам. ем между документами; Порождение слов происходит следующим об- разом. Для каждого документа d и для каждого • Average-link (“среднее связывание”). Это ком- слова w ∈ d выбирается тема t из распределения промисс между двумя предыдущими спосо- P (t|d), и затем генерируется слово w из распреде- бами. Наиболее близкие кластеры – это кла- ления P (w|t). стеры с наименьшим средним парным рас- Самыми известными представителями данной стоянием между документами. категории являются метод вероятностного латент- ного семантического индексирования (PLSI) и ла- 3.1.3 Неотрицательная матричная факто- тентное размещение Дирихле (LDA). ризация (NMF) Алгоритм NMF, изначально разработанный для 3.2.1 PLSI уменьшения размерности, зарекомендовал себя для Метод PLSI, также известный как PLSA, был решения задач кластеризации [32]. Данный алго- предложен в работе [13]. Данный метод модели- ритм осуществляет нечёткую кластеризацию, ко- рует матрицу V , в которой Vij обозначает число торая относит один и тот же документ к разным вхождений слова wi в документ dj , получающую- кластерам с разными вероятностями. ся из модели с k подтемами: Принимая на входе неотрицательную разрежен- k ную матрицу V , которая получается записыва- P (wi , dj ) = X P (t)P (dj |t)P (wi |t) (8) нием векторов, представляющих документы, по t=1 столбцам, алгоритм ищет такие матрицы W и H Параметры модели настраиваются с помощью меньшей размерности, что V ≈ W H по некоторой максимизации правдоподобия наблюдаемых дан- метрике. В качестве такой метрики исследовались ных из матрицы M , т.е. максимизируя следующий следующие [16]: функционал: • Евклидово расстояние (NMF Euc): X T F (wi |dj ) log P (wi , dj ) → max (9) X i,j ||A − B||2 = (Aij − Bij )2 (5) i,j Поскольку в статье [7] теоретически обоснова- но, что алгоритм NMF, минимизирующий рассто- • Расстояние Кульбака-Лейблера для неотри- яние Кульбака-Лейблера и рассмотренный в про- цательных матриц (NMF KL): шлом разделе, эквивалентен алгоритму PLSA, в данном исследовании метод PLSA не рассматри- X Aij вается отдельно. D(A||B) = (Aij log − Aij + Bij ) (6) i,j Bij 3.2.2 LDA В результате работы алгоритма в матрице W Метод латентного размещения Дирихле был получается распределение слов по кластерам, а в предложен в работе [4]. LDA расширяет модель матрице H – распределение документов по кла- PLSI, добавляя туда априорное распределение па- стерам. Нормируя соответствующие величины для раметров модели (P (w|t) и P (t|d)), считая их рас- каждого слова/документа, можно получить веро- пределёнными по закону Дирихле. ятности принадлежности этого слова/документа Для настройки параметров модели необходим кластеру. Байесовский вывод. Однако, поскольку он алго- ритмически неразрешим [4], исследовались следу- ющие два применяемых на практике приближён- ных способа Байесовского вывода: 55 • LDA VB – вариационный Байесовский вы- подтверждённые тезаурусом): вод, описанный в статье [4];    1 X 1 X • LDA Gibbs – метод Монте-Карло с марков- AvP (n) = rk ×  ri  скими цепями, использующий сэмплирова- |Dq | k 1≤k≤|Dq | 1≤i≤k ние Гиббса [27]. (10) где ri = 1, если i-е слово-кандидат ∈ Dq , и 3.3 Базовая тематическая модель ri = 0 иначе. Данная формула отражает тот факт, что чем больше терминов сосредоточено в вер- В качестве baseline была взята “тематическую” шине итогового списка слов-кандидатов, тем вы- модель, которая не выделяет никаких подтем, а ше мера средней точности. просто рассматривает каждый документ как от- Эксперименты проводились с разным числом дельно взятую подтему. Данная модель будет ис- выделяемых подтем: 50, 100 и 150 соответствен- пользоваться нами в экспериментах для сравне- но. Визуально результаты получались разными, ния с другими методами. но на качестве извлечения терминов это никак не отразилось. Поэтому все дальнейшие эксперимен- 4 Коллекции текстов для экспери- ты проводилось с числом подтем, равным 100. ментов 5 Выбор лучшей тематической мо- Во всех экспериментах, описываемых в данной статье, слова-кандидаты извлекались из двух раз- дели личных коллекций: Как уже было сказано выше, вначале будут • Коллекция банковских русскоязычных тек- представлены результаты экспериментов по опре- стов (10422 документа, примерно 15.5 млн делению наилучшей тематической модели. Для это- слов), взятых из различных электронных бан- го будут предложены и посчитаны для каждой из ковских журналов: Аудитор, Банки и Техно- рассмотренных выше тематических моделей неко- логии, РБК и др.; торые модификации известных признаков слов. • Английская часть корпуса параллельных тек- 5.1 Признаки, использующие тематическую стов Europarl [8] из заседаний Европарла- информацию мента (9673 документа, примерно 54 млн слов). Основной идеей всех признаков, использующих Для подтверждения терминологичности слов- полученную c помощью какой-либо тематической кандидатов использовались следующие “золотые модели информацию, является тот факт, что в на- стандарты”: чале списков, образующих подтемы, с большой ве- роятностью находятся термины. Для эксперимен- • Для русского языка – тезаурус, разработан- тов мы предложили некоторые модификации из- ный вручную для Центрального Банка Рос- вестных признаков (см. таблицу 2). В таблице 2 сийской Федерации и включающий в себя используются следующие обозначения: порядка 15000 терминов, относящихся к сфе- ре банковской активности, денежной поли- • T F (w) – частотность слова w тики и макроэкономики; • DF (w) – документная частотность слова w • Для английского языка – официальный мно- гопрофильный тезаурус Европейского Сою- • P (w|t) – условная вероятность принадлеж- за Eurovoc [9], предназначенный для ручно- ности слова w подтеме t го индексирования заседаний Европарламен- • k – число топиков та. Его английская версия включает в себя 15161 термин. 5.2 Результаты экспериментов При этом слово-кандидат считается термином, если оно содержится в тезаурусе. В таблицах 3 и 4 представлены результаты экс- Все признаки слов-кандидатов рассчитывались периментов для исследуемых русского и англий- для 5000 самых частотных слов. В качестве мет- ского корпуса соответственно. рики оценки качества была выбрана Средняя Точ- Как видно из приведённых выше таблиц, луч- ность (AvP) [19], определяемая для множества D шее качество независимо от языка и предметной всех слов-кандидатов и его подмножества Dq ⊆ области даёт тематическая модель NMF, мини- D, представляющего действительно термины (т.е. мизирующая расстояние Кульбака-Лейблера. Так, лучшим признаком для обоих языков является Term Score с 16% (соответственно 21%) прироста 56 Признак Формула P Модель Средняя точность Частотность (TF) P (w|t) Для русского Для английского t TFIDF T F (w) × log DFk(w) корпуса корпуса Domain Consensus (DC) [22] − P (P (w|t) × log P (w|t)) Baseline 44.9 36.2 t K-Means 36.2 33.7 Maximum TF max P (w|t) SPK-Means 38.1 33.3 Pt Term Score (TS) [3] T S(w|t) Single-link 42.1 41.4 t Complete-link 41.9 41.3 T S(w|t) = P (w|t) log QP (w|t) 1 ( P (w|t)) k Average-link 42.7 41.3 t NMF Euc 43.4 43.8 TS-IDF T S(w) × log DFk(w) NMF KL 49.5 44.5 Maximum TS (MTS) max T S(w|t) t LDA VB 46.1 36.7 LDA Gibbs 47.9 44.4 Таблица 2: Признаки, использующие тематиче- скую информацию Таблица 5: Средняя точность комбинирования признаков, использующих тематическую инфор- Модель TF TFIDF DC MTF TS TSIDF MTS K-Means 33.3 25.5 32.7 34.4 35.7 28.7 34.3 мацию SPK-Means 35.5 27.2 35 33.9 36.3 30.1 33.6 Single-link 34.8 39.9 33.6 38.9 38.4 40.5 39 Comp-link 35.6 41 34.5 39.2 38.4 41 39.5 матическая модель NMF, минимизирующая рас- Average-link 35.8 40.7 34.5 39.5 39 40.9 39.6 NMF Euc 40.8 42.5 40.3 40.8 42 43.1 41.9 стояние Кульбака-Лейблера, снова даёт наилуч- NMF KL 42.3 40.3 37.5 47.1 48.9 42.9 47.9 шее качество с 10% прироста для русского и с 23% LDA VB 35.8 42.7 32.8 42.8 42.5 45.1 46.5 прироста для английского корпусов относительно LDA Gibbs 37.7 38.4 35 46.2 42.6 42.8 47.2 Baseline 34 37.6 32.8 38.5 38.1 42 38.1 базовой тематической модели. Таким образом, наилучшей тематической мо- делью оказалась модель NMF, минимизирующая Таблица 3: Средняя точность признаков на рус- расстояние Кульбака-Лейблера. ском корпусе Model TF TFIDF DC MTF TS TSIDF MTS 6 Сравнение с другими признаками K-Means 29.3 32.3 28.9 30.3 30.1 31.8 30.4 SPK-Means 28.1 29.8 27.9 28.7 28.6 29.7 28.7 Для изучения вклада тематической информа- Single-link 30.3 38.9 29.8 37.3 36.5 38.8 39.9 Comp-link 31.1 39.6 30.4 37.2 34.6 38.9 39 ции в задачу автоматического извлечения одно- Average-link 30.5 38.9 29.9 37.1 35.4 38.3 39.3 словных терминов было решено сравнить резуль- NMF Euc 34.4 31.6 32.3 41.1 43.7 31.6 40.5 NMF KL 33.3 37.7 31.2 44.3 44.4 37.3 44.1 таты предложенных признаков, использующих те- LDA VB 32.3 30.3 30.5 37.1 36.3 30.3 38.5 матическую информацию, с остальными статисти- LDA Gibbs 35.2 41.8 33.3 42.6 37.8 43.7 43.5 ческими и лингвистическими признаками для обо- Baseline 31.5 32.8 30 36 33.6 35 36.7 их исследуемых корпусов для 5000 самых частот- ных слов. Таблица 4: Средняя точность признаков на ан- В качестве признаков, не использующих тема- глийском корпусе тическую информацию, были взяты характерные представители групп, описанных в разделе 2. качества относительно лучших признаков базовой 6.1 Признаки, основанные на частотности модели (TFIDF для русского корпуса и Maximum Term Score для английского корпуса). Признаки из данной группы опираются на пред- Помимо вычисления средней точности отдель- положение о том, что термины, как правило, встре- ных признаков было также осуществлено их ком- чаются в коллекции гораздо чаще остальных слов. бинирование для каждой исследуемой тематиче- В исследование были включены следующие при- ской модели в отдельности с помощью метода ло- знаки: Частотность, Документная частотность, гистической регрессии, реализованного в библио- TFIDF [19], TFRIDF [6], Domain Consensus [22]. теке Weka [30]. При этом проводилась четырёх- кратная кросс-проверка, означающая, что вся ис- 6.2 Признаки, использующие контрастную ходная выборка разбивалась случайным образом коллекцию на четыре равные неперескающиеся части, и каж- Для вычисления признаков этой категории по- дая часть по очереди становилась контрольной мимо целевой коллекции текстов предметной об- подвыборкой, а обучение проводилось по осталь- ласти использовалась контрастная коллекция тек- ным трём. Результаты комбинирования призна- стов более общей тематики. Для русского языка в ков для русского и английского корпусов пред- качестве таковой была взята подборка из пример- ставлены в таблице 5. но 1 миллиона новостных текстов, а для англий- Как видно из приведённых выше таблиц, те- 57 ского – n-граммные статистики из Британского Группа признаков Лучший признак AvP Основанные на TFRIDF для 38.5 Национального Корпуса [5]. частотности подлежащих Основная идея таких признаков заключается Использующие TFIDF для 34.2 в том, что частотности терминов в целевой и кон- контрастную коллекцию подлежащих трастной коллекциях существенно различаются. Контекстные C-Value 31.3 Тематические Term Score 44.5 В данном исследовании рассматривались следую- щие признаки: Относительная частотность [1], Релевантность [26], TFIDF [19] с вычислением Таблица 7: Средняя точность лучших признаков документной частотности по контрастной коллек- для английского корпуса ции, Contrastive Weight [2], Discriminative Weight [31], KF-IDF [15], Lexical Cohesion [24] и Логарифм правдоподобия [11]. индивидуальными признаками оказались темати- ческие, превзойдя остальные на 19% и 15% сред- 6.3 Контекстные признаки ней точности для русского и английского корпусов соответственно. Контекстные признаки соединяют в себе ин- Для оценки же вклада тематических призна- формацию о частотности слов-кандидатов с дан- ков в общую модель извлечения однословных тер- ными о контексте их употребления в коллекции. минов мы сравнили модель извлечения, учитыва- В данном исследовании рассматривались следую- ющую тематические признаки (7 baseline призна- щие признаки: C-Value [20], NC-Value, MNC-Value ков и 7 признаков, посчитанных для наилучшей [10], Token-LR, Token-FLR, Type-LR, Type-FLR [21], тематической модели NMF KL), и модель, не ис- Sum3, Sum10, Sum50, Insideness [17]. пользующую их. Результаты сравнения для обоих рассматриваемых корпусов приведены в табл. 8 6.4 Прочие признаки (комбинирование признаков осуществлялось с по- мощью логистической регрессии из библиотеки В качестве остальных признаков, не использу- Weka [30]). ющих тематическую информацию, рассматрива- лись номер позиции первого вхождения в доку- Корпус Средняя точность менты, типы слов-кандидатов (существительное Без тематических С тематическими или прилагательное), слова-кандидаты, начинаю- признаков признаками щиеся с заглавной буквы, и существительные в Русский 54.6 56.3 Английский 50.4 51.4 именительном падеже (“подлежащие”) и слова из контекстного окна с некоторыми самыми частот- ными предопределёнными терминами [23]. Таблица 8: Результаты сравнения моделей с тема- Кроме этого, также рассматривались и комби- тическими признаками и без них нации данных признаков с некоторыми статисти- ческими величинами (такими, как частотность в Мы считаем, что данные результаты, показан- целевом корпусе). Всего было взято 28 таких при- ные на двух разных коллекциях, подтверждают, знаков. что тематические модели действительно вносят дополнительную информацию в процесс автома- 6.5 Результаты экспериментов тического извлечения терминов. В заключение в таблице 9 представлены пер- Лучшие признаки каждой из упомянутых вы- вые 10 элементов из списков извлечённых слов- ше групп для русского и английского корпусов кандидатов, полученных с помощью моделей, учи- приведены в таблицах 6 и 7. тывающих тематические признаки (при этом тер- Группа признаков Лучший признак AvP мины выделены курсивом). Основанные на TFRIDF 41.1 частотности Использующие Логарифм 36.9 7 Заключение контрастную коллекцию правдоподобия Контекстные Sum3 37.4 В статье представлены результаты эксперимен- Тематические Term Score 48.9 тального исследования возможности применения тематических моделей для улучшения качества ав- томатического извлечения однословных терминов. Таблица 6: Средняя точность лучших признаков Были исследованы различные тематические мо- для русского корпуса дели (как вероятностные, так и традиционные ме- тоды кластеризации) и предложены несколько мо- Как видно из приведённых выше таблиц, неза- дификаций известных признаков для упорядочи- висимо от языка и предметной области лучшими вания слов-кандидатов по убыванию их термино- логичности. В качестве текстовых коллекций бы- 58 № Русский корпус Английский корпус [9] EuroVoc. Multilingual Thesaurus of the 1 Банковский Member 2 Банк Minute European Union. http://eurovoc.europa. 3 Год Amendment eu/drupal/ 4 РФ Document 5 Кредитный EU [10] K. Frantzi and S. Ananiadou. Automatic 6 Налоговый President Term Recognition Using Contextual Cues. In 7 Кредит People the Proceedings of the IJCAI Workshop on 8 Пенсионный Directive Computational Terminology, pp. 29–35, 2002. 9 Средство Year 10 Клиент Question [11] A. Gelbukh, G. Sidorov, E. Lavin-Villa, L. Chanona-Hernandez. Automatic Term Таблица 9: Примеры извлечённых слов- Extraction using Log-likelihood based кандидатов Comparison with General Reference Corpora. In the Proceedings of the Natural Language Processing and Information Systems, pp. ли взяты два различных корпуса: электронные бан- 248–255, 2010. ковские статьи на русском языке и речи с заседа- ний Европарламента на английском языке. [12] Q. He, K. Chang, E. Lim, A. Banerjee. Эксперименты показали, что независимо от Keep It Smile with Time: A Reeximanation предметной области и языка использование тема- of Probabilistic Topic Detection Models. In тической информации способно значительно улуч- the Proceedings of IEEE Transactions Pattern шить качество автоматического извлечения одно- Analysis and Machine Intelligence. Volume 32, словных терминов. Issue 10, pp. 1795–1808, 2010. [13] Thomas Hofmann. Probabilistic Latent Список литературы Semantic Indexing. In the Proceedings of the 22nd Annual International SIGIR Conference [1] K. Ahmad, L. Gillam, L. Tostevin. University on Research and Development in Information of Survey Participation in Trec8. Weirdness Retrieval, ACM New York, USA, pp. 50–57, indexing for logical document extrapolation and 1999. retrieval. In the Proceedings of TREC 1999, 1999. [14] S. C. Johnson. Hierarchical Clustering Schemes. [2] R. Basili, A. Moschitti, M. Pazienza, F. Zanzotto. Psychometrica, No 2, pp. 241–254, 1967. A Contrastive Approach to Term Extraction. In the Proceedings of the 4th Terminology and [15] D. Kurz and F. Xu. Text Mining for the Artificial Intelligence Conference, 2001. Extraction of Domain Retrieval Terms and Term Collocations. In the Proceedings of [3] D. Blei and J. Lafferty. Topic Models. the International Workshop on Computational Text Mining: Classification, Clustering and Approaches to Collocations, 2002. Applications, Chapman & Hall, pp. 71–89, 2009. [16] Daniel D. Lee and H. Sebastian Seung. [4] D. Blei, A. Ng and M. Jordan. Latent Dirichlet Algorithms for Non-negative Matrix Allocation. Journal of Machine Learning Factorization. In the Proceedings of NIPS, Research, No 3, pp. 993–1022, 2003. pp. 556–562, 2000. [5] British National Corpus. http://www.natcorp. [17] N. Loukachevitch. Automatic Term Recognition ox.ac.uk/ Needs Multiple Evidence. In the Proceedings of [6] K. Church and W. Gale. Inverse Document the 8th International Conference on LREC, 2012. Frequency IDF. A Measure of Deviation from [18] J. B. MacQueen. Some Methods for Poisson. In the Proceedings of the Third classification and Analysis of Multivariate Workshop on Very Large Corpora. MIT Press, Observations. In the Proceedings of the 5th pp. 121–130, 1995. Berkeley Symposium on Mathematical Statistics [7] Chris Ding, Tao Li, Wei Peng. On the equivalence and Probability. University of California Press, between Non-negative Matrix Factorization pp. 281–297, 1967. and Probabilistic Latent Semantic Indexing. [19] Christopher D. Manning, Prabhakar Raghavan Computational Statistics and Data Analysis, No and Hinrich Schutze. Introduction to Information 52, pp. 3913–3927, 2008. Retrieval. Cambridge University Press, 2008. [8] European Parliament Proceedings Parallel Corpus 1996–2011. http://www.statmt.org/ [20] H. Nakagawa and T. Mori. A Simple but europarl/ Powerful Automatic Term Extraction Mehod. 59 In the Proceedings of the Second International [33] Shi Zhong. Efficient Online Spherical K-means Workshop on Computational Terminology, pp. Clustering. In the Proceedings of IEEE-IJCNN, 29–35, 2002. Monreal, Canada, July 31 – August 4, pp. 3180– 3185, 2005. [21] H. Nakagawa and T. Mori. Automatic Term Recognition based on Statistics of Compound [34] К. В. Воронцов и А. А. Потапенко. Регу- Nouns and their Components. Terminology, vol. ляризация, робастность и разреженность ве- 9, no. 2, pp. 201–219, 2003. роятностных тематических моделей. Журнал “Компьютерные исследования и моделирова- [22] R. Navigli and P. Velardi. Semantic ние”, т. 4, №12, с. 693–706, 2012. Interpretation of Terminological Strings. In the Proceedings of the 6th International Conference [35] Н. В. Лукашевич. Тезаурусы в задачах ин- on Terminology and Knowledge Engineering, формационного поиска. Москва: Издательство Springer, pp. 95–100, 2002. Московского университета, 2011. [23] M. A. Nokel, E. I. Bolshakova, N. V. Loukachevitch. Combining Multiple Features for Application of Topic Models to the Single-Word Term Extraction. Компьютерная Task of Single-Word Term Extraction лингвистика и интеллектуальные технологии. По материалам конференции Диалог-2012, Бе- Michael Nokel, Natalia Loukachevitch касово, pp. 490–501. The paper describes the results of an experimental [24] Y. Park, R. J. Bird, B. Boguraev. Automatic study of statistical topic models applied to the task glossary extraction beyond terminology of single-word term extraction. The English part of identification. In the Proceedings of the 19th the Europarl corpus and the Russian articles taken International Conference on Computational from online banking magazines were used as target Linguistics, 2002. text collections. The experiments demonstrate that topic information significantly improves the quality [25] P. Pecina and P. Schlesinger. Combining of single-word term extraction, regardless of the subject Association Measures for Collocation Extraction. area and the language used. In the Proceedings of the COLING/ACL, ACL Press, pp. 651–658, 2006. [26] A. Peñas, V. Verdejo, J. Gonzalo. Corbus-based Terminology Extraction Applied to Information Access. In the Proceedings of the Corpus Linguistics 2001 Conference, pp. 458–465, 2001. [27] X.-H. Phan, C.-T. Nguyen. GibbsLDA++: A C/C++ implementation of latent Dirichlet Allocation (LDA), 2007. [28] G. Salton. Automatic text processing: the transformation, analysis, and retrieval of information by computer. Addison-Wesley, 1989. [29] K. Stevens, P. Kegelmeyer, D. Andrzejewski, D. Buttler. Exploring Topic Coherence over many models and many topics. In the Proceedings of EMNLP-CoNLL, pp. 952–961, 2012. [30] Weka 3. Data Mining Software in Java. http: //www.cs.waikato.ac.nz/ml/weka [31] W. Wong, W. Liu, M. Bennamoun. Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency. In the Proceedings of the 6th Australasian Conference on Data Mining, pp. 47–54, 2007. [32] W. Xu, X. Liu, Y. Gong. Document Clustering Based On Non-negative Matrix Factorization. In the Proceedings of SIRGIR, pp. 267–273, 2003. 60