<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Использование тематических моделей в извлечении однословных терминов</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>c М. А. Нокель</string-name>
          <email>mnokel@gmail.com</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>c Н. В. Лукашевич</string-name>
          <email>louk_nat@mail.ru</email>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Ключевые слова</string-name>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>. М. В. Ломоносова, Москва</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>. М. В. Ломоносова, Москва</institution>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>, Кластеризация, Извлечение однословных терминов</institution>
          ,
          <addr-line>1 Введение</addr-line>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2010</year>
      </pub-date>
      <volume>32</volume>
      <issue>10</issue>
      <fpage>248</fpage>
      <lpage>255</lpage>
      <abstract>
        <p>В статье представлены результаты экспериментов по применению тематических моделей к задаче извлечения однословных терминов. В качестве текстовых коллекций была взята подборка статей из электронных банковских журналов на русском языке и англоязычная часть корпуса параллельных текстов Europarl. Эксперименты показывают, что использование тематической информации значительно улучшает качество извлечения однословных терминов независимо от предметной области и используемого языка.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>
        Извлечение терминов из текстов определённой
предметной области играет значительную роль во
многих прикладных задачах, в первую очередь –
в разработке и пополнении различных
терминологических ресурсов, таких как тезаурусы и
онтологии [
        <xref ref-type="bibr" rid="ref16">35</xref>
        ]. Поскольку разработка таких
ресурсов вручную достаточно трудоёмка, за последние
годы было проведено большое количество
исследований по автоматизации данного процесса.
      </p>
      <p>Большинство современных методов извлечения
терминов основываются на использовании
различных статистических и лингвистических
признаков слов. Основная цель при этом заключается
в получении упорядоченного списка кандидатов в
термины, в начале которого находится как
можно больше слов, с наибольшей вероятностью
являющихся терминами. В некоторых работах
было экспериментально установлено, что
использование машинного обучения для комбинирования
признаков значительно улучшает результаты
извлечения терминов по сравнению с методами,
основанными только на одном каком-то признаке,
поскольку те или иные признаки только
частично отражают особенности поведения терминов в
текстах [17].</p>
      <p>На текущий момент традиционно
используемые для извлечения терминов статистические
признаки никак не отражают тот факт, что
большинство терминов относятся к той или иной подтеме
предметной области. Поэтому нами было
сделано предположение, что выделение таких подтем
в коллекции текстов способно улучшить качество
автоматического извлечения терминов.Для
проверки этого предположения в статье будут
рассмотрены различные методы выделения подтем в
коллекции текстов, которые часто в литературе
называются статистическими тематическими
моделями [4].</p>
      <p>
        Некоторые виды статистических тематических
моделей могут основываться на традиционных
методах автоматической кластеризации текстов [12].
В последнее время предложены вероятностные
механизмы выделения подтем в текстовых
коллекциях такие, как методы, основанные на скрытом
распределении Дирихле (Latent Dirichlet allocation
[4]), которые собственно и были названы
тематическими моделями и в настоящее время
интенсивно исследуются в рамках различных
приложениях автоматической обработки текстов ( [12], [
        <xref ref-type="bibr" rid="ref11">29</xref>
        ],
[3]).
      </p>
      <p>Основная задача данной статьи заключается в
исследовании возможности использования
тематической информации для повышения качества
извлечения однословных терминов. Для этой цели
вначале в текстовой коллекции выделяются
подтемы, затем к ним применяются некоторые
модификации хорошо известных признаков, которые
впоследствии используются вместе с другими
статистическими и лингвистическими признаками.</p>
      <p>Для того чтобы результаты, представленные
в статье, не зависели ни от предметной области,
ни от языка, были взяты две предметные области
и соответствующие текстовые коллекции:
банковская предметная область и тексты банковской
тематики на русском языке и широкая предметная
область современной общественной жизни
Европы и речи с заседаний Европарламента на
английском языке. При этом эксперименты будут
строиться следующим образом:
1. Вначале статистические тематические
модели будут исследованы с точки зрения задачи
извлечения однословных терминов с целью
выбора наилучшей;
2. Затем будет осуществлено сравнение
признаков, посчитанных для лучшей тематической
модели, с остальными признаками с целью
определения вклада, который даёт
использование тематической модели в
рассматриваемой задаче.
2</p>
      <p>
        Близкие работы
За последние годы было предложено много
различных статистических и лингвистических
признаков слов, используемых для извлечения
однословных терминов из коллекции текстов
определённой предметной области ( [6], [1], [20], [
        <xref ref-type="bibr" rid="ref2">10</xref>
        ] и
др.).
      </p>
      <p>
        Все предложенные признаки можно разделить
на следующие группы:
1. Признаки, основанные на частотности
словкандидатов. К этой группе относится,
например, признак TFRIDF, предложенный в
работе [6] и использующий модель Пуассона
для предсказания терминологичности слов;
2. Признаки, использующие контрастную
коллекцию, т.е. коллекцию более общей
тематики. Одним из наиболее характерных
представителей данной группы является широко
используемый на практике признак
Относительная частотность [1], основанный на
сравнении относительных частотностей слов
в рассматриваемой и в контрастной
текстовой коллекциях;
3. Контекстные признаки, соединяющие в
себе информацию о частотности
слов-кандидатов с данными о контексте их употребления.
Наиболее известными представителями этой
группы являются признаки C-Value [20] и
NC-Value [
        <xref ref-type="bibr" rid="ref2">10</xref>
        ], учитывающие частоту
встречаемости объемлющего словосочетания для
кандидата в термины.
      </p>
      <p>
        Однако ни один из предложенных признаков
не является определяющим [
        <xref ref-type="bibr" rid="ref7">25</xref>
        ], и фактически из
текстов извлекается довольно большой список
словкандидатов, которые затем должны быть
проанализированы и подтверждены экспертом по
предметной области. Важно поэтому дополнять
список используемых признаков, что позволит
получать в начале списка как можно больше слов, с
наибольшей вероятностью являющихся
терминами.
Статистические тематические
модели
Новые признаки слов-кандидатов, которые
вводятся в данной статье, используют информацию,
получаемую статистическими тематическими
моделями в исследуемых текстовых коллекциях.
      </p>
      <p>Статистическая тематическая модель
(далее – тематическая модель) коллекции текстовых
документов на основе статистических методов
определяет, к каким подтемам относится каждый
документ и какие слова образуют каждую
подтему, представляющую собой список часто
встречающихся рядом друг с другом слов,
упорядоченный по убыванию степени принадлежности ему
[34]. Так, в таблице 1 представлены первые десять
слов, наиболее полно характеризующие три
случайно выбранных подтемы, выделенных из
русскоязычных текстов банковской тематики
рассматриваемой коллекции.</p>
      <p>Подтема 1
Банкнота
Офшорный
Счетчик
Купюра
Подделка
Обращение
Номинал
Монета
Подлинность
Поддельный
Подтема 2
Обучение
Студент
Учебный</p>
      <p>Вуз
Семинар
Образование</p>
      <p>Знание
Специалист
Слушатель
Учитель
Подтема 3
Германия
Франция</p>
      <p>Евро
Европейский
Польша
Европа
Чехия
Италия
Немецкий
Французский
Таблица 1: Примеры подтем
В тематических моделях, как правило,
используется модель мешка слов, в которой каждый
документ рассматривается как набор
встречающихся в нём слов. При этом перед выделением подтем
текстовая коллекция обычно подвергается
предобработке, выделяющей только значимые слова в
каждом документе. В частности, в данном
исследовании для русского языка были отобраны
только существительные и прилагательные, а для
английского – только существительные, поскольку
они покрывают большую часть терминов.</p>
      <p>
        На сегодняшний день разработано достаточно
много различных тематических моделей. Для
выбора моделей для исследования были
проанализированы предыдущие работы, в которых
осуществляется сравнение моделей с точки зрения
различных практических приложений. Так, в работе [
        <xref ref-type="bibr" rid="ref11">29</xref>
        ]
утверждается, что каждая тематическая модель
имеет свои сильные и слабые стороны.
Сравнивая между собой методы NMF
(неотрицательной матричной факторизации) и LDA
(латентного размещения Дирихле), авторы приходят к
выводу, что оба этих алгоритма дают похожее
качество, хотя NMF и выдаёт немного больше
бессвязных подтем. В работе [12] утверждается, что
традиционные тематические модели показывают
приемлемое качество выделения подтем, но имеют
множество ограничений. В частности они
предполагают, что каждый документ имеет только
одну тематику. В действительности же документы
представляют собой, как правило, смесь подтем.
Кроме того, авторы отмечают, что параметры
традиционных моделей достаточно сложно
настраивать. В то же время в работе подчёркивается, что
более сложные модели (такие как LDA)
необязательно дадут лучшие результаты.
      </p>
      <p>
        Поскольку, как следует из упомянутых выше
работ, среди тематических моделей нет явного
лидера и непонятно, какое качество они покажут в
рассматриваемой задаче извлечения однословных
терминов, было решено выбрать несколько
наиболее характерных представителей, которых
условно можно отнести либо к вероятностным, либо
к методам кластеризации текстов,
рассматриваемых с точки зрения тематических моделей.
Каждая из выбранных моделей будет рассмотрена в
следующих подразделах.
3.1 Тематические модели, основанные на
методах кластеризации текстов
Традиционные тематические модели, как
правило, основываются на методах жёсткой
кластеризации, рассматривающих каждый документ как
разреженный вектор в пространстве слов
большой размерности [
        <xref ref-type="bibr" rid="ref10">28</xref>
        ]. После окончания работы
алгоритма кластеризации каждый получившийся
кластер рассматривается как один большой
документ для вычисления вероятностей входящих в
него слов по следующей формуле:
      </p>
      <p>T F (wjt)
P (wjt) = P T F (wjt)
w
(1)
где T F (wjt) – частотность слова w в кластере t.</p>
      <p>В процессе кластеризации текстовых
документов можно выделить следующие общие шаги:
1. Предобработка документов (фильтрация
слов);
2. Преобразование документа во внутреннее
представление (в вектор слов);
3. Расчёт расстояния между документами на
основе внутреннего представления;
4. Кластеризация документов на основе
рассчитанного расстояния с помощью одного из
алгоритмов.</p>
      <p>Для численной оценки расстояния между
документами необходим способ определения
значимости каждого слова в обособлении одного
документа относительно другого. Для этого были
предложены различные схемы взвешивания
отдельных слов, наиболее распространённой из которых
является схема TFIDF [19], которая также была
включена в данное исследование. В ней каждому
слову в документе ставится в соответствие
величина, вычисляемая по следующей формуле:
T F IDF (wjd) = T F (wjd) max 0; log
(2)
где N – общее число документов в коллекции,
DF (w) – число документов в коллекции, в
которых встречается слово w.</p>
      <p>В следующих разделах будут описаны
выбранные нами методы построения традиционных
тематических моделей.</p>
      <p>N</p>
      <p>DF (w)
DF (w)
3.1.1</p>
      <p>K-Средних и Сферический K-Средних
Алгоритм K-Средних [18] начинает свою
работу со случайной инициализации центров масс
каждого кластера. Далее он итеративно
повторяет следующие шаги:
1. Все документы разбиваются на кластеры в
соответствии с тем, какой из центров масс
оказался ближе по выбранной метрике;
2. Для каждого полученного кластера
пересчитывается центр масс.</p>
      <p>В качестве метрики близости между двумя
документами исследовались следующие:
Евклидово расстояние (K-Means) [18]:
sim(A; B) = sX(Ai</p>
      <p>Bi)2</p>
      <p>(3)
i</p>
      <p>
        i
Косинусная мера близости (сферический
kсредних – SPK-Means). При этом все
векторы, представляющие документы,
нормализуются к единичной гиперсфере [
        <xref ref-type="bibr" rid="ref15">33</xref>
        ]:
      </p>
      <p>P(Ai
i
sim(A; B) = rP Ai</p>
      <p>Bi)
rP Bi
i
(4)
3.1.2
Иерархическая агломеративная
кластеризация
Алгоритм иерархической агломеративной
кластеризации [14] изначально рассматривает
каждый документ как отдельный кластер. Затем он
итеративно повторяет следующие шаги:
1. Находятся и объединяются в новый кластер
два наиболее близких кластера;
2. Пересчитываются расстояния между новым
кластером и всеми остальными.
3.2 Вероятностные тематические модели
Вероятностные тематические модели
представляют каждый документ в виде смеси подтем, в
которой каждая подтема представляет собой
некоторое вероятностное распределение над словами.
Вероятностные модели порождают слова по
следующему правилу:</p>
      <p>P (wjd) = X P (wjt)P (tjd)
t
(7)
где P (tjd) и P (wjt) – распределения подтем по
документам и слов по подтемам, а P (wjd) –
наблюдаемое распределение слов по документам.</p>
      <p>Порождение слов происходит следующим
образом. Для каждого документа d и для каждого
слова w 2 d выбирается тема t из распределения
P (tjd), и затем генерируется слово w из
распределения P (wjt).</p>
      <p>Самыми известными представителями данной
категории являются метод вероятностного
латентного семантического индексирования (PLSI) и
латентное размещение Дирихле (LDA).
3.2.1 PLSI</p>
      <p>Метод PLSI, также известный как PLSA, был
предложен в работе [13]. Данный метод
моделирует матрицу V , в которой Vij обозначает число
вхождений слова wi в документ dj,
получающуюся из модели с k подтемами:</p>
      <p>k
P (wi; dj) = X P (t)P (djjt)P (wijt) (8)
t=1
Параметры модели настраиваются с помощью
максимизации правдоподобия наблюдаемых
данных из матрицы M , т.е. максимизируя следующий
функционал:</p>
      <p>X T F (wijdj) log P (wi; dj) ! max
i;j
(9)
Поскольку в статье [7] теоретически
обосновано, что алгоритм NMF, минимизирующий
расстояние Кульбака-Лейблера и рассмотренный в
прошлом разделе, эквивалентен алгоритму PLSA, в
данном исследовании метод PLSA не
рассматривается отдельно.
3.2.2 LDA</p>
      <p>Метод латентного размещения Дирихле был
предложен в работе [4]. LDA расширяет модель
PLSI, добавляя туда априорное распределение
параметров модели (P (wjt) и P (tjd)), считая их
распределёнными по закону Дирихле.</p>
      <p>
        Для настройки параметров модели необходим
Байесовский вывод. Однако, поскольку он
алгоритмически неразрешим [4], исследовались
следующие два применяемых на практике
приближённых способа Байесовского вывода:
LDA VB – вариационный Байесовский
вывод, описанный в статье [4];
LDA Gibbs – метод Монте-Карло с
марковскими цепями, использующий
сэмплирование Гиббса [
        <xref ref-type="bibr" rid="ref9">27</xref>
        ].
подтверждённые тезаурусом):
      </p>
      <p>AvP (n) =
1</p>
      <p>X
jDqj 1 k jDqj
0
0
1 i k</p>
      <p>11
riAA
(10)
где ri = 1, если i-е слово-кандидат 2 Dq, и
ri = 0 иначе. Данная формула отражает тот факт,
что чем больше терминов сосредоточено в
вершине итогового списка слов-кандидатов, тем
выше мера средней точности.</p>
      <p>Эксперименты проводились с разным числом
выделяемых подтем: 50, 100 и 150
соответственно. Визуально результаты получались разными,
но на качестве извлечения терминов это никак не
отразилось. Поэтому все дальнейшие
эксперименты проводилось с числом подтем, равным 100.
5
Выбор лучшей тематической
модели
Как уже было сказано выше, вначале будут
представлены результаты экспериментов по
определению наилучшей тематической модели. Для
этого будут предложены и посчитаны для каждой из
рассмотренных выше тематических моделей
некоторые модификации известных признаков слов.
5.1
Признаки, использующие тематическую
информацию
Основной идеей всех признаков, использующих
полученную c помощью какой-либо тематической
модели информацию, является тот факт, что в
начале списков, образующих подтемы, с большой
вероятностью находятся термины. Для
экспериментов мы предложили некоторые модификации
известных признаков (см. таблицу 2). В таблице 2
используются следующие обозначения:</p>
      <p>T F (w) – частотность слова w
DF (w) – документная частотность слова w
P (wjt) – условная вероятность
принадлежности слова w подтеме t
k – число топиков
5.2
В таблицах 3 и 4 представлены результаты
экспериментов для исследуемых русского и
английского корпуса соответственно.</p>
      <p>Как видно из приведённых выше таблиц,
лучшее качество независимо от языка и предметной
области даёт тематическая модель NMF,
минимизирующая расстояние Кульбака-Лейблера. Так,
лучшим признаком для обоих языков является
Term Score с 16% (соответственно 21%) прироста
Модель
Baseline
K-Means
SPK-Means</p>
      <p>Single-link
Complete-link
Average-link
NMF Euc
NMF KL
LDA VB
LDA Gibbs
Таблица 5: Средняя точность комбинирования
признаков, использующих тематическую
информацию
матическая модель NMF, минимизирующая
расстояние Кульбака-Лейблера, снова даёт
наилучшее качество с 10% прироста для русского и с 23%
прироста для английского корпусов относительно
базовой тематической модели.</p>
      <p>Таким образом, наилучшей тематической
моделью оказалась модель NMF, минимизирующая
расстояние Кульбака-Лейблера.
6 Сравнение с другими признаками
Для изучения вклада тематической
информации в задачу автоматического извлечения
однословных терминов было решено сравнить
результаты предложенных признаков, использующих
тематическую информацию, с остальными
статистическими и лингвистическими признаками для
обоих исследуемых корпусов для 5000 самых
частотных слов.</p>
      <p>В качестве признаков, не использующих
тематическую информацию, были взяты характерные
представители групп, описанных в разделе 2.
6.1</p>
      <p>
        Признаки, основанные на частотности
Признаки из данной группы опираются на
предположение о том, что термины, как правило,
встречаются в коллекции гораздо чаще остальных слов.
В исследование были включены следующие
признаки: Частотность, Документная частотность,
TFIDF [19], TFRIDF [6], Domain Consensus [
        <xref ref-type="bibr" rid="ref4">22</xref>
        ].
6.2
Признаки, использующие контрастную
коллекцию
Для вычисления признаков этой категории
помимо целевой коллекции текстов предметной
области использовалась контрастная коллекция
текстов более общей тематики. Для русского языка в
качестве таковой была взята подборка из
примерно 1 миллиона новостных текстов, а для
английского – n-граммные статистики из Британского
Национального Корпуса [5].
      </p>
      <p>
        Основная идея таких признаков заключается
в том, что частотности терминов в целевой и
контрастной коллекциях существенно различаются.
В данном исследовании рассматривались
следующие признаки: Относительная частотность [1],
Релевантность [
        <xref ref-type="bibr" rid="ref8">26</xref>
        ], TFIDF [19] с вычислением
документной частотности по контрастной
коллекции, Contrastive Weight [2],
Discriminative Weight [
        <xref ref-type="bibr" rid="ref13">31</xref>
        ], KF-IDF [15], Lexical
Cohesion [
        <xref ref-type="bibr" rid="ref6">24</xref>
        ] и Логарифм правдоподобия [11].
6.3
      </p>
      <p>
        Контекстные признаки
Контекстные признаки соединяют в себе
информацию о частотности слов-кандидатов с
данными о контексте их употребления в коллекции.
В данном исследовании рассматривались
следующие признаки: C-Value [20], NC-Value, MNC-Value
[
        <xref ref-type="bibr" rid="ref2">10</xref>
        ], Token-LR, Token-FLR, Type-LR, Type-FLR [
        <xref ref-type="bibr" rid="ref3">21</xref>
        ],
Sum3, Sum10, Sum50, Insideness [17].
6.4
      </p>
      <p>
        Прочие признаки
В качестве остальных признаков, не
использующих тематическую информацию,
рассматривались номер позиции первого вхождения в
документы, типы слов-кандидатов (существительное
или прилагательное), слова-кандидаты,
начинающиеся с заглавной буквы, и существительные в
именительном падеже (“подлежащие”) и слова из
контекстного окна с некоторыми самыми
частотными предопределёнными терминами [
        <xref ref-type="bibr" rid="ref5">23</xref>
        ].
      </p>
      <p>Кроме этого, также рассматривались и
комбинации данных признаков с некоторыми
статистическими величинами (такими, как частотность в
целевом корпусе). Всего было взято 28 таких
признаков.
6.5</p>
      <p>Результаты экспериментов
Лучшие признаки каждой из упомянутых
выше групп для русского и английского корпусов
приведены в таблицах 6 и 7.</p>
      <p>Группа признаков
Основанные на</p>
      <p>частотности
Использующие
контрастную коллекцию
Контекстные
Тематические
Лучший признак AvP</p>
      <p>TFRIDF 41.1
Логарифм
правдоподобия</p>
      <p>Sum3
Term Score
36.9
37.4
48.9
Таблица 6: Средняя точность лучших признаков
для русского корпуса</p>
      <p>Как видно из приведённых выше таблиц,
независимо от языка и предметной области лучшими
Группа признаков
Основанные на</p>
      <p>частотности
Использующие
контрастную коллекцию
Контекстные
Тематические
Таблица 7: Средняя точность лучших признаков
для английского корпуса
индивидуальными признаками оказались
тематические, превзойдя остальные на 19% и 15%
средней точности для русского и английского корпусов
соответственно.</p>
      <p>
        Для оценки же вклада тематических
признаков в общую модель извлечения однословных
терминов мы сравнили модель извлечения,
учитывающую тематические признаки (7 baseline
признаков и 7 признаков, посчитанных для наилучшей
тематической модели NMF KL), и модель, не
использующую их. Результаты сравнения для обоих
рассматриваемых корпусов приведены в табл. 8
(комбинирование признаков осуществлялось с
помощью логистической регрессии из библиотеки
Weka [
        <xref ref-type="bibr" rid="ref12">30</xref>
        ]).
      </p>
      <p>Корпус
Русский
Английский</p>
      <p>Средняя точность
Без тематических С тематическими
признаков признаками
54.6 56.3
50.4 51.4
Таблица 8: Результаты сравнения моделей с
тематическими признаками и без них</p>
      <p>Мы считаем, что данные результаты,
показанные на двух разных коллекциях, подтверждают,
что тематические модели действительно вносят
дополнительную информацию в процесс
автоматического извлечения терминов.</p>
      <p>В заключение в таблице 9 представлены
первые 10 элементов из списков извлечённых
словкандидатов, полученных с помощью моделей,
учитывающих тематические признаки (при этом
термины выделены курсивом).
7</p>
      <p>Заключение
В статье представлены результаты
экспериментального исследования возможности применения
тематических моделей для улучшения качества
автоматического извлечения однословных терминов.</p>
      <p>Были исследованы различные тематические
модели (как вероятностные, так и традиционные
методы кластеризации) и предложены несколько
модификаций известных признаков для
упорядочивания слов-кандидатов по убыванию их
терминологичности. В качестве текстовых коллекций
были взяты два различных корпуса: электронные
банковские статьи на русском языке и речи с
заседаний Европарламента на английском языке.</p>
      <p>Эксперименты показали, что независимо от
предметной области и языка использование
тематической информации способно значительно
улучшить качество автоматического извлечения
однословных терминов.
Список литературы
[1] K. Ahmad, L. Gillam, L. Tostevin. University
of Survey Participation in Trec8. Weirdness
indexing for logical document extrapolation and
retrieval. In the Proceedings of TREC 1999, 1999.
[2] R. Basili, A. Moschitti, M. Pazienza, F. Zanzotto.</p>
      <p>A Contrastive Approach to Term Extraction.
In the Proceedings of the 4th Terminology and
Artificial Intelligence Conference, 2001.
[3] D. Blei and J. Lafferty. Topic Models.</p>
      <p>Text Mining: Classification, Clustering and
Applications, Chapman &amp; Hall, pp. 71–89, 2009.
[4] D. Blei, A. Ng and M. Jordan. Latent Dirichlet
Allocation. Journal of Machine Learning
Research, No 3, pp. 993–1022, 2003.
[5] British National Corpus. http://www.natcorp.</p>
      <p>ox.ac.uk/
[6] K. Church and W. Gale. Inverse Document
Frequency IDF. A Measure of Deviation from
Poisson. In the Proceedings of the Third
Workshop on Very Large Corpora. MIT Press,
pp. 121–130, 1995.
[7] Chris Ding, Tao Li, Wei Peng. On the equivalence
between Non-negative Matrix Factorization
and Probabilistic Latent Semantic Indexing.
Computational Statistics and Data Analysis, No
52, pp. 3913–3927, 2008.
[8] European Parliament Proceedings Parallel
Corpus 1996–2011. http://www.statmt.org/
europarl/
[9] EuroVoc.</p>
      <p>European
eu/drupal/
[13] Thomas Hofmann. Probabilistic Latent
Semantic Indexing. In the Proceedings of the
22nd Annual International SIGIR Conference
on Research and Development in Information
Retrieval, ACM New York, USA, pp. 50–57,
1999.
[14] S. C. Johnson. Hierarchical Clustering Schemes.</p>
      <p>Psychometrica, No 2, pp. 241–254, 1967.
[15] D. Kurz and F. Xu. Text Mining for the
Extraction of Domain Retrieval Terms and
Term Collocations. In the Proceedings of
the International Workshop on Computational
Approaches to Collocations, 2002.
[16] Daniel D. Lee and H. Sebastian Seung.</p>
      <p>Algorithms for Non-negative Matrix
Factorization. In the Proceedings of NIPS,
pp. 556–562, 2000.
[17] N. Loukachevitch. Automatic Term Recognition
Needs Multiple Evidence. In the Proceedings of
the 8th International Conference on LREC, 2012.
[18] J. B. MacQueen. Some Methods for
classification and Analysis of Multivariate
Observations. In the Proceedings of the 5th
Berkeley Symposium on Mathematical Statistics
and Probability. University of California Press,
pp. 281–297, 1967.
[19] Christopher D. Manning, Prabhakar Raghavan
and Hinrich Schutze. Introduction to Information
Retrieval. Cambridge University Press, 2008.
[20] H. Nakagawa and T. Mori. A Simple but
Powerful Automatic Term Extraction Mehod.
In the Proceedings of the Second International
Workshop on Computational Terminology, pp.
29–35, 2002.</p>
      <p>Michael Nokel, Natalia Loukachevitch</p>
      <p>The paper describes the results of an experimental
study of statistical topic models applied to the task
of single-word term extraction. The English part of
the Europarl corpus and the Russian articles taken
from online banking magazines were used as target
text collections. The experiments demonstrate that
topic information significantly improves the quality
of single-word term extraction, regardless of the subject
area and the language used.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <source>Лучший признак AvP TFRIDF для 38.5 подлежащих TFIDF для 34</source>
          .
          <article-title>2 подлежащих C-Value 31.3 Term Score 44.5 Multilingual Thesaurus of the Union</article-title>
          . http://eurovoc.europa.
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>K.</given-names>
            <surname>Frantzi</surname>
          </string-name>
          and
          <string-name>
            <given-names>S.</given-names>
            <surname>Ananiadou</surname>
          </string-name>
          .
          <article-title>Automatic Term Recognition Using Contextual Cues</article-title>
          .
          <source>In the Proceedings of the IJCAI Workshop on Computational Terminology</source>
          , pp.
          <fpage>29</fpage>
          -
          <lpage>35</lpage>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [21]
          <string-name>
            <given-names>H.</given-names>
            <surname>Nakagawa</surname>
          </string-name>
          and
          <string-name>
            <given-names>T.</given-names>
            <surname>Mori</surname>
          </string-name>
          .
          <source>Automatic Term Recognition based on Statistics of Compound Nouns and their Components. Terminology</source>
          , vol.
          <volume>9</volume>
          , no.
          <issue>2</issue>
          , pp.
          <fpage>201</fpage>
          -
          <lpage>219</lpage>
          ,
          <year>2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [22]
          <string-name>
            <given-names>R.</given-names>
            <surname>Navigli</surname>
          </string-name>
          and
          <string-name>
            <given-names>P.</given-names>
            <surname>Velardi</surname>
          </string-name>
          .
          <article-title>Semantic Interpretation of Terminological Strings</article-title>
          .
          <source>In the Proceedings of the 6th International Conference on Terminology and Knowledge Engineering</source>
          , Springer, pp.
          <fpage>95</fpage>
          -
          <lpage>100</lpage>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [23]
          <string-name>
            <given-names>M. A.</given-names>
            <surname>Nokel</surname>
          </string-name>
          ,
          <string-name>
            <given-names>E. I.</given-names>
            <surname>Bolshakova</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N. V.</given-names>
            <surname>Loukachevitch</surname>
          </string-name>
          .
          <article-title>Combining Multiple Features for Single-Word Term Extraction</article-title>
          .
          <article-title>Компьютерная лингвистика и интеллектуальные технологии</article-title>
          .
          <source>По материалам конференции Диалог-2012</source>
          , Бе- касово, pp.
          <fpage>490</fpage>
          -
          <lpage>501</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [24]
          <string-name>
            <given-names>Y.</given-names>
            <surname>Park</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R. J.</given-names>
            <surname>Bird</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Boguraev</surname>
          </string-name>
          .
          <article-title>Automatic glossary extraction beyond terminology identification</article-title>
          .
          <source>In the Proceedings of the 19th International Conference on Computational Linguistics</source>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [25]
          <string-name>
            <given-names>P.</given-names>
            <surname>Pecina</surname>
          </string-name>
          and
          <string-name>
            <given-names>P.</given-names>
            <surname>Schlesinger</surname>
          </string-name>
          .
          <article-title>Combining Association Measures for Collocation Extraction</article-title>
          .
          <source>In the Proceedings of the COLING/ACL</source>
          , ACL Press, pp.
          <fpage>651</fpage>
          -
          <lpage>658</lpage>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [26]
          <string-name>
            <given-names>A.</given-names>
            <surname>Pen</surname>
          </string-name>
          ˜as,
          <string-name>
            <given-names>V.</given-names>
            <surname>Verdejo</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Gonzalo</surname>
          </string-name>
          .
          <article-title>Corbus-based Terminology Extraction Applied to Information Access</article-title>
          .
          <source>In the Proceedings of the Corpus Linguistics 2001 Conference</source>
          , pp.
          <fpage>458</fpage>
          -
          <lpage>465</lpage>
          ,
          <year>2001</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [27]
          <string-name>
            <given-names>X.-H.</given-names>
            <surname>Phan</surname>
          </string-name>
          , C.-T. Nguyen. GibbsLDA++:
          <string-name>
            <surname>A C/C+</surname>
          </string-name>
          <article-title>+ implementation of latent Dirichlet Allocation (LDA</article-title>
          ),
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [28]
          <string-name>
            <given-names>G.</given-names>
            <surname>Salton</surname>
          </string-name>
          .
          <article-title>Automatic text processing: the transformation, analysis, and retrieval of information by computer</article-title>
          .
          <source>Addison-Wesley</source>
          ,
          <year>1989</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [29]
          <string-name>
            <given-names>K.</given-names>
            <surname>Stevens</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Kegelmeyer</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Andrzejewski</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Buttler</surname>
          </string-name>
          .
          <article-title>Exploring Topic Coherence over many models and many topics</article-title>
          .
          <source>In the Proceedings of EMNLP-CoNLL</source>
          , pp.
          <fpage>952</fpage>
          -
          <lpage>961</lpage>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [30]
          <article-title>Weka 3. Data Mining Software in Java</article-title>
          . http: //www.cs.waikato.ac.nz/ml/weka
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [31]
          <string-name>
            <given-names>W.</given-names>
            <surname>Wong</surname>
          </string-name>
          , W. Liu,
          <string-name>
            <given-names>M.</given-names>
            <surname>Bennamoun</surname>
          </string-name>
          .
          <article-title>Determining Termhood for Learning Domain Ontologies using Domain Prevalence and Tendency</article-title>
          .
          <source>In the Proceedings of the 6th Australasian Conference on Data Mining</source>
          , pp.
          <fpage>47</fpage>
          -
          <lpage>54</lpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [32]
          <string-name>
            <given-names>W.</given-names>
            <surname>Xu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>X.</given-names>
            <surname>Liu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Y.</given-names>
            <surname>Gong</surname>
          </string-name>
          .
          <source>Document Clustering Based On Non-negative Matrix Factorization. In the Proceedings of SIRGIR</source>
          , pp.
          <fpage>267</fpage>
          -
          <lpage>273</lpage>
          ,
          <year>2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [33]
          <string-name>
            <given-names>Shi</given-names>
            <surname>Zhong. Efficient Online Spherical K-means Clustering</surname>
          </string-name>
          .
          <source>In the Proceedings of IEEE-IJCNN, Monreal, Canada, July 31 - August 4</source>
          , pp.
          <fpage>3180</fpage>
          -
          <lpage>3185</lpage>
          ,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [35]
          <string-name>
            <given-names>Н. В.</given-names>
            <surname>Лукашевич</surname>
          </string-name>
          .
          <article-title>Тезаурусы в задачах ин- формационного поиска</article-title>
          .
          <source>Москва: Издательство Московского университета</source>
          ,
          <year>2011</year>
          .
          <article-title>Application of Topic Models to the Task of Single-Word Term Extraction</article-title>
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>