<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Тематические модели: учет сходства между униграммами и биграммами</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>c М. А. Нокель МГУ им. М. В. Ломоносова</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Москва mnokel@gmail.com</string-name>
        </contrib>
      </contrib-group>
      <fpage>243</fpage>
      <lpage>252</lpage>
      <abstract>
        <p>В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный алгоритм без учителя, показывающий, как темы сами могут выбирать себе наиболее подходящие биграммы. В качестве текстовой коллекции была взята подборка статей из электронных банковских журналов на русском языке. Эксперименты показывают значительное улучшение качества тематических моделей по всем целевым метрикам. Вероятностные тематические модели (далее просто тематические модели) - одно из современных приложений машинного обучения к анализу текстов. Тематические модели предназначены для описания текстов с точки зрения их тем. Они определяют, к каким темам относится каждый документ в текстовой коллекции и какие слова образуют каждую такую тему. При этом темы представляются в виде дискретных распределений на множестве слов, а документы - в виде дискретных распределений на множестве тем [1]. Пользователям темы предоставляются, как правило, в виде некоторых списков часто встречающихся рядом друг с другом слов, упорядоченных по убыванию степени принадлежности им.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Труды 16-й Всероссийской научной
конференции “Электронные библиотеки:
перспективные методы и технологии,
электронные коллекции” – RCDL-2014,
Дубна, Россия, 13-16 октября 2014 г.</p>
      <p>
        С момента своего появления тематические
модели достигли значительных успехов в задачах
информационного поиска [
        <xref ref-type="bibr" rid="ref3">2</xref>
        ], разрешении
морфологической неоднозначности [
        <xref ref-type="bibr" rid="ref1 ref4">3</xref>
        ],
многодокументного аннотирования [4], кластеризации и
категоризации документов [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ]. Также они успешно
применяются в выявлении трендов в научных
публикациях и новостных потоках [
        <xref ref-type="bibr" rid="ref6">6</xref>
        ], обработке
аудиои видео-сигналов [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] и других задачах. Самыми
известными представителями являются латентное
размещение Дирихле (LDA) [
        <xref ref-type="bibr" rid="ref2">1</xref>
        ], использующее
априорное распределение Дирихле, и метод
вероятностного латентного семантического анализа (PLSA) [
        <xref ref-type="bibr" rid="ref8">8</xref>
        ],
не связанный ни с какими параметрическими
априорными распределениями.
      </p>
      <p>
        В работах [
        <xref ref-type="bibr" rid="ref9">9</xref>
        ] и [
        <xref ref-type="bibr" rid="ref10">10</xref>
        ] было показано, что
использование тематических моделей в задаче
извлечения однословных терминов способно
значительно улучшить качество извлечения последних из
текстов предметных областей. Поэтому
актуальной является и проблема улучшения качества
самих тематических моделей за счет использования
некоторой лингвистической информации, чему и
посвящена данная работа.
      </p>
      <p>
        Одним из главных недостатков тематических
моделей является использование модели “мешка
слов”, в которой каждый документ
рассматривается как набор встречающихся в нем слов.
Данная модель не учитывает порядок слов и
основывается на гипотезе независимости появлений слов
в документах друг от друга. На данный момент
проведено множество исследований, посвященных
изучению вопроса добавления словосочетаний,
nграмм и многословных терминов в тематические
модели. Однако часто это приводит к ухудшению
качества модели в связи с увеличением размера
словаря или к значительному усложнению
модели [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ], [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ], [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ].
      </p>
      <p>
        В статье предлагается новый подход,
позволяющий учесть взаимосвязь между похожими
словами (в частности, однокоренными) в
тематических моделях (такими, как банк – банковский –
банкир, кредит – кредитный – кредитовать –
кредитование). На основании данного метода в
статье описывается и новый подход к добавлению
биграмм в тематические модели, который
рассматривает биграммы уже не как “черные ящики”, а
На сегодняшний день разработано достаточно
много различных тематических моделей.
Исторически одними из первых появились модели,
основанные на традиционных методах кластеризации
текстов [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ]. При этом после окончания работы
алгоритма кластеризации каждый получившийся
кластер рассматривается как отдельная тема для
вычисления вероятностей входящих в него слов
по следующей формуле:
f (wjt)
P (wjt) = P f (wjt)
      </p>
      <p>w
где f (wjt) – частотность слова w в теме t.</p>
      <p>Естественным ограничением таких моделей
является отнесение каждого документа лишь к
одной теме.</p>
      <p>В последнее время появились вероятностные
механизмы нахождения тем в документах,
рассматривающие каждый документ в виде смеси тем,
а каждую тему в виде некоторого вероятностного
распределения над словами. Вероятностные
модели порождают слова по следующему правилу:
P (wjd) = X P (wjt)P (tjd)</p>
      <p>t
где P (tjd) и P (wjt) – распределение тем по
документам и слов по темам, а P (wjd) – наблюдаемое</p>
      <p>Все описанные в прошлом разделе алгоритмы
работают только со словами, основываясь на
гипотезе о независимости слов друг от друга –
модели “мешка слов”. Идея же использования
словосочетаний в тематических моделях сама по себе не
нова. На данный момент существуют 2 подхода к
решению данной проблемы: создание
унифицированной вероятностной модели и предварительное
извлечение словосочетаний и n-грамм для их
последующего добавления в тематические модели.</p>
      <p>
        Большинство исследований на данный момент
посвящено первому подходу. Так, первая
попытка выйти за пределы модели “мешка слов” была
предпринята в работе [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ], где была
представлена Биграммная Тематическая Модель. В этой
модели вероятности слов зависят от вероятностей
непосредственно предшествующих им слов.
Модель словосочетаний LDA расширяет Биграммную
Тематическую Модель за счет введения
дополнительных переменных, способных генерировать и
униграммы, и биграммы. В работе [
        <xref ref-type="bibr" rid="ref14">14</xref>
        ]
представлена Тематическая N-граммная Модель,
усложняющая предыдущие для обеспечения возможности
формирования биграмм в зависимости от
контекста. В работе [
        <xref ref-type="bibr" rid="ref16">16</xref>
        ] предложена тематическая
модель Слово-Символ, выходящая за рамки
использовавшегося ранее предположения о том, что
тема каждой n-граммы определяется в
зависимости от тем слов, составляющих данное
словосочетание. Эта модель оказалась наиболее пригодной
для китайского языка. В работе [
        <xref ref-type="bibr" rid="ref17">17</xref>
        ]
устанавливается связь между LDA и вероятностными
контекстносвободными грамматиками и предлагаются две
ноВ экспериментах, описанных в данной статье,
использовалась текстовая коллекция из 10422
статей на русском языке, взятых из некоторых
электронных банковских журналов (таких, как
Аудитор, РБК, Банковский журнал и др.). В данных
документах содержится почти 15.5 млн слов.
      </p>
      <p>На этапе предобработки был проведен
морфологический анализ документов. В экспериментах
рассматривались только существительные,
прилагательные, глаголы и наречия, поскольку
служебные слова не играют значительной роли в
определении тем. Кроме того, из рассмотрения
исключались слова, встретившиеся менее 5 раз во всей
текстовой коллекции.</p>
      <p>
        На этапе предобработки из документов также
извлекались биграммы в формах сущ. + сущ. в
родительном падеже и прил. + сущ. В
экспериментах рассматривались только такие биграммы,
поскольку темы, как правило, задаются
именными группами.
значения [
        <xref ref-type="bibr" rid="ref2">1</xref>
        ], в данной статье используется
стандартный метод вычисления контрольной
перплексии, описанный в работе [
        <xref ref-type="bibr" rid="ref24">24</xref>
        ]. Коллекция
документов изначально разбивалась на 2 части:
обучающую D, по которой строилась модель, и
контрольную D0, по которой вычислялась данная
метрика. Хотя на данный момент существует
множество исследований, утверждающих, что
перплексию нельзя применять для оценивания качества
тематических моделей [
        <xref ref-type="bibr" rid="ref23">23</xref>
        ], данная метрика
попрежнему широко используется для сравнения
различных тематических моделей.
      </p>
      <p>
        В то же время неоднократно предпринимались
попытки предложить способ автоматического
оценивания качества тематических моделей, никак
не связанного с перплексией и коррелирующего
с мнениями экспертов. Данная постановка
задачи является очень сложной, поскольку эксперты
могут достаточно сильно расходиться во
мнениях. Однако в недавних работах [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ], [
        <xref ref-type="bibr" rid="ref25">25</xref>
        ] было
показано, что возможно автоматически оценивать
согласованность тем, основываясь на семантике
слов с точностью, почти совпадающей с
экспертами. Предложенная метрика измеряет
интерпретируемость тем, основываясь на способах
оценивания экспертом [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ]. Поскольку темы, как
правило, предоставляются экспертам для проверки в
виде первых топ-N слов, согласованность тем
оценивает то, насколько данные слова
соответствуют рассматриваемой теме. Newman в работе [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ]
предложил использовать автоматический способ
вычисления данной метрики исходя из меры
взаимной информации:
      </p>
      <p>10 j 1
T C-P M I(t) = X X log
j=2 i=1</p>
      <p>P (wj; wi)
P (wj)P (wi)
где (w1; w2; : : : ; w10) – топ-10 слов в
рассматриваемой теме t, P (wi) и P (wj) – вероятности униграмм
wi и wj соответственно, а P (wj; wi) – вероятность
биграммы (wj; wi). Итоговая мера
согласованности тем вычисляется усреднением T C-P M I(t) по
всем темам t.</p>
      <p>
        Данная метрика показывает очень высокую
корреляцию с оценками экспертов [
        <xref ref-type="bibr" rid="ref15">15</xref>
        ].
Предложенная метрика рассматривает только первые топ-10
слов в каждой теме, поскольку они, как правило,
предоставляют достаточно информации для
формирования предмета темы и отличительных черт
одной темы от другой. Согласованность тем
становится все более широко используемым способом
оценивания качества тематических моделей
наряду с перплексией. Так, в работе [
        <xref ref-type="bibr" rid="ref26">26</xref>
        ] также было
показано, что данная метрика очень сильно
коррелирует с оценками экспертом. А в работе [
        <xref ref-type="bibr" rid="ref27">27</xref>
        ]
она просто используется для оценки качества
полученных тем.
      </p>
      <p>
        В соответствии с подходом, изложенным в
работе [
        <xref ref-type="bibr" rid="ref25">25</xref>
        ], в данной статье вероятности униграмм и
биграмм вычисляются путем деления количества
документов, в которых встретилась та или иная
униграмма или биграмма, на число всех
документов в коллекции. Другой вариант вычисления
меры согласованности тем на основе логарифма от
условной вероятности (T C-LCP ), предложенный
в работе [
        <xref ref-type="bibr" rid="ref25">25</xref>
        ], не рассматривается, поскольку в
работе [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ] было показано, что этот вариант
работает значительно хуже, чем T C-P M I.
4
Добавление биграмм в
тематические модели
На первом этапе экспериментов исследовалось,
может ли улучшиться качество тематической
модели путем добавления в неё биграмм в качестве
отдельных элементов словаря. Для этой цели
были извлечены все биграммы, встретившиеся в
коллекции, с частотностью не меньше 5. Для
последующего упорядочения извлечённых биграмм
применялись ассоциативные меры – математические
критерии, определяющие силу связи между
составными частями фраз, основываясь на
частотах встречаемости отдельных слов и
словосочетаний целиком. В экспериментах были
использованы следующие 15 ассоциативных мер:
Взаимная Информация (MI) [
        <xref ref-type="bibr" rid="ref28">28</xref>
        ], Дополненная
Взаимная Информация (Дополненная MI) [
        <xref ref-type="bibr" rid="ref29">29</xref>
        ],
Кубическая Взаимная Информация (Кубическая MI) [
        <xref ref-type="bibr" rid="ref30">30</xref>
        ],
Нормализованная Взаимная Информация
(Нормализованная MI) [
        <xref ref-type="bibr" rid="ref31">31</xref>
        ], Настоящая Взаимная
Информация (Настоящая MI), Коэффициент Dice
(DC) [
        <xref ref-type="bibr" rid="ref32">32</xref>
        ], Модифицированный Коэффициент Dice
(Модифицированный DC) [
        <xref ref-type="bibr" rid="ref33">33</xref>
        ], T-Score,
Симметричная Условная Вероятность [
        <xref ref-type="bibr" rid="ref34">34</xref>
        ], Коэффициент
Простого Соответствия, Коэффициент Kulczinsky,
Коэффициент Yula [
        <xref ref-type="bibr" rid="ref30">30</xref>
        ], Хи-Квадрат, Отношение
логарифмического правдоподобия [
        <xref ref-type="bibr" rid="ref35">35</xref>
        ] и
Лексическая Связность [
        <xref ref-type="bibr" rid="ref36">36</xref>
        ].
      </p>
      <p>
        В соответствии с результатами [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ] в
тематические модели добавлялись топ-1000 биграмм для
каждой ассоциативной меры. Так, в каждом
эксперименте к словарю в качестве отдельных
элементов добавлялись топ-1000 биграмм, и в
каждом документе, содержащем любые из
добавляемых словосочетаний, из частот образующих их
униграмм вычитались частоты биграмм, а сами
словосочетания добавлялись в его разреженное
представление. Отдельно следует отметить, что во всех
экспериментах число топиков фиксировалось
равным 100.
      </p>
      <p>Хотя эксперименты были проведены для всех
15 упомянутых выше ассоциативных мер, в
таблице 1 представлены только наиболее характерные
результаты добавления топ-1000 биграмм наряду
с результатом оригинального алгоритма PLSA без
добавления биграмм (значения, выделенные
полужирным шрифтом, соответствуют улучшению по
одному из критериев).</p>
      <p>
        Как видно, добавление топ-1000 биграмм,
упорядоченных по той или иной ассоциативной
мере, как правило, приводит к увеличению
размера словаря и, следовательно, ухудшению
перплексии, в то время как согласованность тем
становится лучше. Эти выводы полностью
согласуются с результатами, описанными в работе [
        <xref ref-type="bibr" rid="ref18">18</xref>
        ].
Однако, используя некоторые ассоциативные меры
(например, Взаимную Информацию), можно
получить немного лучше перплексию, но чуть хуже
согласованность тем, что обусловлено
добавлением нестандартных и низкочастотных биграмм.
5
5.1
Добавление схожих униграмм и
биграмм в тематические модели
Добавление схожих униграмм в
тематические модели
Оригинальные тематические модели (PLSA и
LDA) используют модель “мешка слов”,
предполагающую независимость слов друг от друга.
Однако в документах есть много слов, связанных
между собой по смыслу – в частности, однокоренные
слова, например: банк – банковский – банкир,
кредит – кредитный – кредитовать – кредитование
и др. Поэтому на следующем этапе экспериментов
исследовалась возможность учета в тематических
моделях подобных похожих слов – а именно, слов,
начинающихся с одних и тех же букв.
      </p>
      <p>
        Для данной цели был модифицирован
оригинальный алгоритм PLSA. При описании
проведённой модификации будет использоваться
описание алгоритма PLSA, представленное в
работе [
        <xref ref-type="bibr" rid="ref37">37</xref>
        ], и следующие обозначения:
      </p>
      <p>D – коллекция документов;
T – множество полученных тем;
W – словарь (множество уникальных слов в
коллекции документов D);</p>
      <p>= f wt = p(wjt)g – распределение слов w
по темам t;</p>
      <p>= f td = p(tjd)g – распределение тем t по
документам d;
S = fSwg – множество похожих слов, где Sw
– множество слов, похожих на w;
ndw и nds – частотности слов w и s в
документе d;
n^wt – оценка частотности слова w в теме t;
n^td – оценка частотности темы t в документе
d;
n^t – оценка частотности темы t в коллекции
документов D.</p>
      <p>Псевдокод алгоритма PLSA-SIM представлен
в Алгоритме 2. Единственная модификация
оригинального алгоритма PLSA касается строчки 6,
где в рассмотрение добавляются предварительно
вычисленные множества похожих слов (в
оригинальном алгоритме данная строчка отсутствует, а
в строчке 9 вместо fdw используется ndw). Тем
самым вес подобных слов увеличивается в каждом
документе коллекции.</p>
      <p>Algorithm 2: PLSA-SIM алгоритм: PLSA с
похожими словами</p>
      <p>Input: коллекция документов D,
количество тем jT j,
начальные приближения и ,
множества похожих слов S</p>
      <p>Output: распределения и
1 while не выполнится критерий остановки
do
for d 2 D, w 2 W , t 2 T do</p>
      <p>n^wt = 0, n^td = 0, n^t = 0
for d 2 D, w 2 W do</p>
      <p>Z = P wt td,</p>
      <p>t
fdw = ndw + P nds</p>
      <p>s2Sw
for t 2 T do
if wt td &gt; 0 then</p>
      <p>= fdw wt td=Z
n^wt = n^wt +
n^td = n^d +
n^t = n^t +
for w 2 W , t 2 T do</p>
      <p>wt = n^wt=n^t
for d 2 D, t 2 T do</p>
      <p>td = n^td=n^t
2
3</p>
      <p>Поскольку в русском языке достаточно
богатая морфология, а темы в основном задаются
именными группами, в качестве потенциальных
кандидатов в похожие слова рассматривались
только существительные и прилагательные. В
таблице 2 представлены результаты добавления
похожих слов в тематические модели наряду с
оригинальным алгоритмом PLSA (значения,
выделенные полужирным шрифтом, соответствуют
лучшим значениям по одному из критериев).
Как видно, наилучшие результаты
показывает модель, рассматривающая в качестве похожих
слова, начинающиеся с 4 одинаковых букв.
Однако в русском языке есть множество приставок
длины в 4 буквы и больше. Учитывая это, был
составлен список из 43 наиболее широко
использующихся таких приставок (анти-, гипер-,
переи др.) и введён дополнительный критерий: если
слова начинаются на одну и ту же приставку, то
они считаются похожими, если следующая буква
после приставки также совпадает. Данный
критерий позволил еще больше снизить перплексию
до 1376 и оставить согласованность тем
примерно на лучшем уровне – 2250. В дальнейших
экспериментах, описываемых в данной статье, было
решено использовать именно эти 2 критерия.</p>
      <p>Следует отметить, что в результате
добавления знаний о похожести слов в тематические
модели такие слова с большей вероятностью окажутся
в топ-10 в полученных темах. Тем самым
происходит неявная максимизация меры T C-P M I,
поскольку похожие слова склонны встречаться в
одних и тех же документах. Поэтому было
принято решение модифицировать данную метрику для
учета не всех топ-10 слов, а только топ-10
непохожих слов в темах (в дальнейшем в статье данная
метрика будет обозначаться как TC-PMI-nSIM ).
В таблице 3 подытожены результаты добавления
похожих слов в тематические модели с
использованием описанных выше критериев и введённой
новой метрики:
Как видно, модифицированная версия
алгоритма PLSA-SIM показывает результаты лучше
оригинального алгоритма PLSA по обоим целевым
метрикам. В таблице 4 представлены топ-5 слов,
взятых из двух случайно выбранных тем для
оригинального и модифицированного алгоритмов.
Добавление схожих биграмм в
тематические модели
Для применения подхода, представленного в
разделе 5.1 к топ-1000 биграммам,
упорядоченными в соответствии с различными
ассоциативными мерами, описанными в разделе 4, было
решено ввести дополнительный критерий схожести
биграмм и униграмм. Биграмма (w1; w2)
считается похожей на униграмму w3, если выполнен один
из следующих критериев:
слово w3 похоже на w1 или w2 в соответствии
с критериями, описанными в разделе 5.1;
слово w3 совпадает с w1 или w2 и длина w3
больше трех букв.</p>
      <p>Хотя эксперименты были проведены для всех
ассоциативных мер, описанных в разделе 4, в
таблице 5 представлены только наиболее
характерные результаты интеграции биграмм и
добавлению похожести униграмм и биграмм наряду с
результатами алгоритмов PLSA и PLSA-SIM
(значения, выделенные полужирным шрифтом,
соответствуют лучшим значениям по одному из
критериев).</p>
      <p>Перплексия
1694
1376
1411</p>
      <p>TC-PMI-nSIM
78.3
87.8
106.2
Алгоритм</p>
      <p>PLSA</p>
      <p>PLSA-SIM
PLSA-SIM + MI</p>
      <p>PLSA-SIM +
Настоящая MI</p>
      <p>PLSA-SIM +
Кубическая MI
PLSA-SIM + DC</p>
      <p>PLSA-SIM +
Модифицированный</p>
      <p>DC
PLSA-SIM +</p>
      <p>T-Score
PLSA-SIM +
Лексическая
связность
PLSA-SIM +
Хи-квадрат
1204
1186
1288
1163
1222
1208
1346
Таблица 5: Результаты добавления похожих
униграмм и биграмм в тематическую модель</p>
      <p>Как видно, добавление в тематическую модель
похожих униграмм и топ-1000 биграмм,
упорядоченных в соответствии с большинством
ассоциативных мер, приводит к улучшению качества
получающихся тем по сравнению с алгоритмом
PLSASIM. В таблице 6 представлены топ-5 униграмм
и биграмм, взятых из двух случайно выбранных
тем, полученных с помощью алгоритма PLSA-SIM
с добавлением топ-1000 биграмм, упорядоченных
Модифицированным Коэффициентом Dice
(Модифицированным DC), для которого достигаются
наилучшее значение перплексии.</p>
      <p>Инвестиция
Инвестор
Инвестирование
Иностранный инвестор
Иностранное инвестирование
Финансовый рынок
Финансовая система</p>
      <p>Финансовый
Финансовый институт
Финансовый ресурс
Таблица 6: Топ-5 униграмм и биграмм, взятых из
тем, полученных с помощью PLSA-SIM с
биграммами, упорядоченными Модифированным DC
6
Итеративный алгоритм для
выбора наиболее подходящих биграмм
На последнем этапе экспериментов было
сделано предположение, что темы могут сами
выбирать себе наиболее подходящие биграммы. Для
проверки данной гипотезы был предложен новый
итеративный алгоритм выбора биграмм исходя из
вида верхушек тем.</p>
      <p>При описании предлагаемого алгоритма будут
использоваться следующие дополнительные
обозначения:</p>
      <p>B – множество всех биграмм в коллекции
документов D;
BA – множество биграмм, добавленных в
тематическую модель;
SA – множество потенциальных кандидатов
на похожие слова;
(ut1; : : : ; ut10) – топ-10 униграмм в теме t;
f (ut1; ut2) – частота биграммы (ut1; ut2).</p>
      <p>Псевдокод предлагаемого алгоритма
представлен в Алгоритме 3. На каждой итерации алгоритм
добавляет в множество кандидатов в похожие
слова топ-10 униграмм из каждой темы. Также в это
же множество и в саму тематическую модель
добавляются все биграммы, которые могут быть
образованы с помощью этих топ-10 униграмм.
Было принято решение анализировать только первые
топ-10 слов в темах, поскольку одной из целевой
метрик является согласованность тем,
использующая именно это множество (см. определение
метрики в разделе 3). В соответствии с данным
алгоритмом темы могут выбирать себе только те
биграммы, которые образуются с помощью топ-10
униграмм в темах, а такие биграммы с большей
вероятностью могут оказаться наиболее
подходящими.
4
5
6
7
8
9</p>
      <p>SA = ;
for t 2 T do</p>
      <p>SA = SA [ fut1; ut2; : : : ; ut10g
for iufit(;uuittj; 2utj()u2t1;But2a;:n:d: ; ut10) do
f (uit; uj) &gt; f (utj; ut) then
t</p>
      <p>i t</p>
      <p>BA = BA [ f(uit; uj)g
SA = SA [ BA
Запуск PLSA-SIM с множеством
похожих слов SA и с множеством
биграмм BA для получения тем T
В таблице 7 представлены первые несколько
итераций предложенного итеративного алгоритма
наряду с результатами оригинального алгоритма
PLSA (в таблице обозначен как нулевая
итерация).</p>
      <p>Итерация Перплексия TC-PMI-nSIM
0 (PLSA) 1694 78.3
1 936 180.5
2 934 210.2
3 933 230
4 940 235.8
5 931 193.5
Таблица 7: Результаты итеративного алгоритма
построения тематической модели</p>
      <p>Как видно, после первой итерации
наблюдается существенное улучшение качества
получаемых тем по обеим целевым метрикам. Однако на
следующих итерациях результаты начинают
колебаться вокруг примерно тех же самых уровней
перплексии и согласованности тем (с
незначительным улучшением последней). Поэтому мы
считаем, что согласно результатам первой итерации
выбор необходимых биграмм и кандидатов в
похожие слова самими темами приводит к наилучшим
значениям перплексии и согласованности тем. В
таблице 8 приведены топ-5 униграмм и биграмм,
взятых из двух случайно выбранных тем,
полученных после первой итерации предложенного
алгоритма.
Банковский кредит
Банковский сектор</p>
      <p>Кредитование
Кредитная система
Кредит
Ипотечный банк
Ипотечный кредит
Ипотечное кредитование
Жилищное кредитование
Ипотека
Таблица 8: Топ-5 униграмм и биграмм, взятых из
тем, полученных с помощью итеративного
алгоритма построения тематической модели
7</p>
      <p>Благодарности
Работа частично поддержана грантом РФФИ
14-07-00383.
8</p>
      <p>
        Заключение
В работе представлены эксперименты по
добавлению биграмм в тематические модели.
Эксперименты, проведённые на русскоязычных
статьях из электронных банковских журналов,
показывают, что большинство ассоциативных мер
упорядочивает биграммы таким образом, что при
добавлении верхушки этих списков в
тематические модели ухудшается перплексия и улучшается
согласованность тем. Затем в статье
предлагается новый алгоритм PLSA-SIM, добавляющий
схожесть униграмм и биграмм в тематические
модели. Проведённые эксперименты показывают
значительное улучшение перплексии и
согласованности тем для этого алгоритма. В конце статьи
предлагается еще один новый итеративный алгоритм,
основанный на идее, что темы сами могут
выбирать себе наиболее подходящие биграммы и
похожие слова. Эксперименты показывают
дальнейшее улучшение качества по обеим целевым
метрикам.
Список литературы
[
        <xref ref-type="bibr" rid="ref2">1</xref>
        ] D. Blei, A. Ng and M. Jordan. Latent Dirichlet
Allocation. Journal of Machine Learning
Research, No. 3, pp. 993–1002, 2003.
[
        <xref ref-type="bibr" rid="ref3">2</xref>
        ] X. Wei and B. Croft. LDA-based document
models for ad-hoc retrieval. In the Proceedings
of the 29th International ACM-SIGIR
Conference on Research and Development
in Information Retrieval, pp. 178–185, 2006.
[
        <xref ref-type="bibr" rid="ref1 ref4">3</xref>
        ] J. Boyd-Grabber, D. Blei and X. Zhu. A Topic
Model for Word Sense Disambiguation. In the
Proceedings of the 2007 Joint Conference on
Empirical Methods in Natural Language
Processing and Computational Natural
Language Processing, pp. 1024–1033, 2007.
[4] D. Wang, S. Zhu, T. Li, and Y. Gong.
MultiDocument Summarization using Sentence-based
coherence. In the Proceedings of Human
Language Technologies: The 11th Annual
Conference of the North American Chapter of
the Association for Computational Linguistics,
pp. 100-108, 2010.
      </p>
      <p>Topic models: taking into account similarity
between unigrams and bigrams</p>
      <p>Michael Nokel</p>
      <p>The paper presents the results of experimental
study of integrating word similarity and bigram
collocations into topic models. First of all, we analyze
a variety of word association measures in order to
integrate top-ranked bigrams into topic models. Then
we propose a modification of the original algorithm
PLSA, which takes into account similar unigrams
and bigrams that start with the same beginning. And
at the end we present a novel unsupervised iterative
algorithm demonstrating how topics can choose the
most relevant bigrams. As a target text collection we
took articles from various Russian electronic banking
magazines. The experiments demonstrate significant
improvement of topic models quality for both
collections.</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <article-title>Algorithm 3: Итеративный алгоритм Input: коллекция документов D, число тем jT j, множество биграмм B Output: полученные темы</article-title>
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <article-title>1 Запуск оригинального PLSA на коллекции документов D для получения тем T</article-title>
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>2 BA = ;</mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <article-title>3 while не выполнится критерий остановки do Topic Models</article-title>
          .
          <source>In the Proceedings of the ACLIJCNLP 2009 Conference Short Papers</source>
          , pp.
          <fpage>297</fpage>
          -
          <lpage>300</lpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>S.</given-names>
            <surname>Zhou</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Li</surname>
          </string-name>
          , and
          <string-name>
            <given-names>Y.</given-names>
            <surname>Liu</surname>
          </string-name>
          .
          <source>Text Categorization Based on Topic Model</source>
          .
          <source>International Journal of Computational Intelligence Systems</source>
          , Vol.
          <volume>2</volume>
          , No.
          <issue>4</issue>
          , pp.
          <fpage>398</fpage>
          -
          <lpage>409</lpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>L.</given-names>
            <surname>Bolelli</surname>
          </string-name>
          ,
          <string-name>
            <surname>S</surname>
          </string-name>
          ¸. Ertekin,
          <string-name>
            <given-names>C. L.</given-names>
            <surname>Giles</surname>
          </string-name>
          .
          <article-title>Topic and Trend Detection in Text Collections Using Latent Dirichlet Allocation</article-title>
          .
          <source>In ECIR Proceedings, Lecture Notes in Computer Science</source>
          , Vol.
          <volume>5478</volume>
          , pp.
          <fpage>776</fpage>
          -
          <lpage>780</lpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>T.</given-names>
            <surname>Hyunh</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Fritz</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Schiele</surname>
          </string-name>
          .
          <article-title>Discovery of activity patterns using topic models</article-title>
          .
          <source>In the Proceedings of the 10th international conference on Ubiquitous computing</source>
          , pp.
          <fpage>10</fpage>
          -
          <lpage>19</lpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>T.</given-names>
            <surname>Hofmann</surname>
          </string-name>
          .
          <article-title>Probabilistic Latent Semantic Indexing</article-title>
          .
          <source>In the Proceedings of the 22nd Annual International SIGIR Conference on Research and Development in Information Retrieval</source>
          , pp.
          <fpage>50</fpage>
          -
          <lpage>57</lpage>
          ,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>E.</given-names>
            <surname>Bolshakova</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Loukachevitch</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Nokel</surname>
          </string-name>
          .
          <article-title>Topic Models Can Improve Domain Term Extraction</article-title>
          .
          <source>In ECIR Proceedings, Lecture Notes in Computer Science</source>
          , Vol.
          <volume>7814</volume>
          , pp.
          <fpage>684</fpage>
          -
          <lpage>687</lpage>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>M.</given-names>
            <surname>Nokel</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Loukachevitch</surname>
          </string-name>
          .
          <article-title>Application of Topic Models to the Task of Single-Word Term Extraction</article-title>
          .
          <source>In RCDL'2013 Proceedings</source>
          , pp.
          <fpage>52</fpage>
          -
          <lpage>60</lpage>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>Q.</given-names>
            <surname>He</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Chang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>E.</given-names>
            <surname>Lim</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Banerjee</surname>
          </string-name>
          .
          <article-title>Keep It Smile with Time: A Reexamination of Probabilistic Topic Detection Models</article-title>
          .
          <source>In the Proceedings of IEEE Transaction Pattern Analysis and Machine Intelligence</source>
          , vol.
          <volume>32</volume>
          , issue 10, pp.
          <fpage>1795</fpage>
          -
          <lpage>1808</lpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>H.</given-names>
            <surname>Wallach</surname>
          </string-name>
          .
          <article-title>Topic Modeling: beyond bagof-words</article-title>
          .
          <source>In the Proceedings of the 23rd International Conference on Machine Learning</source>
          , pp.
          <fpage>977</fpage>
          -
          <lpage>984</lpage>
          ,
          <year>2006</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>T.</given-names>
            <surname>Griffiths</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Steyvers</surname>
          </string-name>
          , and
          <string-name>
            <given-names>J.</given-names>
            <surname>Tenenbaum</surname>
          </string-name>
          .
          <article-title>Topics in semantic representation</article-title>
          .
          <source>Psychological Review</source>
          ,
          <volume>144</volume>
          ,
          <issue>2</issue>
          , pp.
          <fpage>211</fpage>
          -
          <lpage>244</lpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>X.</given-names>
            <surname>Wang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>McCallum</surname>
          </string-name>
          ,
          <string-name>
            <given-names>and X.</given-names>
            <surname>Wei</surname>
          </string-name>
          .
          <article-title>Topical n-grams: Phrase and topic discovery, with an application to information retrieval</article-title>
          .
          <source>In the Proceedings of the 2007 Seventh IEEE International Conference on Data Mining</source>
          , pp.
          <fpage>697</fpage>
          -
          <lpage>702</lpage>
          ,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [15]
          <string-name>
            <given-names>D.</given-names>
            <surname>Newman</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J. H.</given-names>
            <surname>Lau</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Grieser</surname>
          </string-name>
          , and
          <string-name>
            <given-names>T.</given-names>
            <surname>Baldwin</surname>
          </string-name>
          .
          <article-title>Automatic evaluation of topic</article-title>
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>W.</given-names>
            <surname>Hu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Shimizu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.</given-names>
            <surname>Sheng</surname>
          </string-name>
          .
          <article-title>Modeling chinese documents with topical word-character models</article-title>
          .
          <source>In the Proceedings of the 22nd International Conference on Computational Linguistics</source>
          , pp.
          <fpage>345</fpage>
          -
          <lpage>352</lpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>M.</given-names>
            <surname>Johnson</surname>
          </string-name>
          . PCFGs,
          <article-title>topic models, adaptor grammars and learning topical collocations and the structure of proper names</article-title>
          .
          <source>In the Proceedings of the 48th Annual Meeting of the ACL</source>
          , pp.
          <fpage>1148</fpage>
          -
          <lpage>1157</lpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>J. H.</given-names>
            <surname>Lau</surname>
          </string-name>
          ,
          <string-name>
            <given-names>T.</given-names>
            <surname>Baldwin</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Newman</surname>
          </string-name>
          .
          <article-title>On Collocations and Topic Models</article-title>
          .
          <source>In ACM Transactions on Speech and Language Processing</source>
          ,
          <volume>10</volume>
          (
          <issue>3</issue>
          ), pp.
          <fpage>1</fpage>
          -
          <lpage>14</lpage>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref19">
        <mixed-citation>
          [19]
          <string-name>
            <given-names>D.</given-names>
            <surname>Andrzejewski</surname>
          </string-name>
          ,
          <string-name>
            <given-names>X.</given-names>
            <surname>Zhu</surname>
          </string-name>
          , and
          <string-name>
            <given-names>M.</given-names>
            <surname>Craven</surname>
          </string-name>
          .
          <article-title>Incorporating domain knowledge into topic modeling via Dirichlet Forest priors</article-title>
          .
          <source>In the Proceedings of the 26th Annual International Conference on Machine Learning</source>
          , pp.
          <fpage>25</fpage>
          -
          <lpage>32</lpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref20">
        <mixed-citation>
          [20]
          <string-name>
            <given-names>B.</given-names>
            <surname>Liu</surname>
          </string-name>
          .
          <source>Sentiment Analysis and Opinion Mining. Syntheses Lectures on Human Language Technologies</source>
          . Morgan &amp; Claypool Publishers.
          <year>2012</year>
        </mixed-citation>
      </ref>
      <ref id="ref21">
        <mixed-citation>
          [21]
          <string-name>
            <given-names>Z.</given-names>
            <surname>Zhai</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Liu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.</given-names>
            <surname>Xu</surname>
          </string-name>
          , and
          <string-name>
            <given-names>P.</given-names>
            <surname>Jia</surname>
          </string-name>
          .
          <article-title>Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints</article-title>
          .
          <source>In the Proceedings of the 23rd International Conference on Computational Linguistics</source>
          , pp.
          <fpage>1272</fpage>
          -
          <lpage>1280</lpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref22">
        <mixed-citation>
          [22]
          <string-name>
            <given-names>A.</given-names>
            <surname>Daud</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Li</surname>
          </string-name>
          , and
          <string-name>
            <given-names>F.</given-names>
            <surname>Muhammad</surname>
          </string-name>
          .
          <article-title>Knowledge discovery through directed probabilistic topic models: a survey</article-title>
          .
          <source>Frontiers of Computer Science in China</source>
          ,
          <volume>4</volume>
          (
          <issue>2</issue>
          ), pp.
          <fpage>280</fpage>
          -
          <lpage>301</lpage>
          ,
          <year>2010</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref23">
        <mixed-citation>
          [23]
          <string-name>
            <given-names>J.</given-names>
            <surname>Chang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Boyd-Grabber</surname>
          </string-name>
          ,
          <string-name>
            <given-names>C.</given-names>
            <surname>Wang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S.</given-names>
            <surname>Gerrich</surname>
          </string-name>
          , and
          <string-name>
            <given-names>D.</given-names>
            <surname>Blei</surname>
          </string-name>
          . Reading tea leaves:
          <article-title>How human interpret topic models</article-title>
          .
          <source>In the Proceedings of the 24th Annual Conference on Neural Information Processing Systems</source>
          , pp.
          <fpage>288</fpage>
          -
          <lpage>296</lpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref24">
        <mixed-citation>
          [24]
          <string-name>
            <given-names>A.</given-names>
            <surname>Asuncion</surname>
          </string-name>
          ,
          <string-name>
            <given-names>M.</given-names>
            <surname>Welling</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Smyth</surname>
          </string-name>
          , and
          <string-name>
            <given-names>Y. W.</given-names>
            <surname>Teh</surname>
          </string-name>
          .
          <article-title>On smoothing and inference for topic models</article-title>
          .
          <source>In the Proceedings of the International Conference on Uncertainty in Artificial Intelligence</source>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref25">
        <mixed-citation>
          [25]
          <string-name>
            <given-names>D.</given-names>
            <surname>Mimno</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.</given-names>
            <surname>Wallach</surname>
          </string-name>
          , E. Talley,
          <string-name>
            <given-names>M.</given-names>
            <surname>Leenders</surname>
          </string-name>
          ,
          <article-title>and</article-title>
          <string-name>
            <given-names>A.</given-names>
            <surname>McCallum</surname>
          </string-name>
          .
          <article-title>Optimizing semantic coherence in topic models</article-title>
          .
          <source>In the Proceedings of EMNLP'2011</source>
          , pp.
          <fpage>262</fpage>
          -
          <lpage>272</lpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref26">
        <mixed-citation>
          [26]
          <string-name>
            <given-names>K.</given-names>
            <surname>Stevens</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Kegelmeyer</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Andrzejewski</surname>
          </string-name>
          ,
          <string-name>
            <given-names>D.</given-names>
            <surname>Butter</surname>
          </string-name>
          .
          <article-title>Exploring topic coherence over many models and many topics</article-title>
          .
          <source>In the Proceedings of EMNLP-CoNLL'12</source>
          , pp.
          <fpage>952</fpage>
          -
          <lpage>961</lpage>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref27">
        <mixed-citation>
          [27]
          <string-name>
            <given-names>D.</given-names>
            <surname>Andrzejewski</surname>
          </string-name>
          and
          <string-name>
            <given-names>D.</given-names>
            <surname>Buttier</surname>
          </string-name>
          .
          <article-title>Latent topic feedback for information retrieval</article-title>
          .
          <source>In the Proceedings of tthe 17th ACM SIGKDD International Conference on Knowledge discovery and data mining</source>
          , pp.
          <fpage>600</fpage>
          -
          <lpage>608</lpage>
          ,
          <year>2011</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref28">
        <mixed-citation>
          [28]
          <string-name>
            <given-names>K.</given-names>
            <surname>Church</surname>
          </string-name>
          and
          <string-name>
            <given-names>P.</given-names>
            <surname>Hanks</surname>
          </string-name>
          . Word Association Norms, Mutual Information, and
          <string-name>
            <surname>Lexicography</surname>
          </string-name>
          .
          <source>Computational Linguistics</source>
          , vol.
          <volume>16</volume>
          , pp.
          <fpage>22</fpage>
          -
          <lpage>29</lpage>
          ,
          <year>1990</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref29">
        <mixed-citation>
          [29]
          <string-name>
            <given-names>W.</given-names>
            <surname>Zhang</surname>
          </string-name>
          , T. Yoshida,
          <string-name>
            <given-names>T.</given-names>
            <surname>Ho</surname>
          </string-name>
          , and
          <string-name>
            <given-names>X.</given-names>
            <surname>Tang</surname>
          </string-name>
          .
          <article-title>Augmented Mutual Information for MultiWord Term Extraction</article-title>
          .
          <source>International Journal of Innovative Computing, Information and Control</source>
          ,
          <volume>8</volume>
          (
          <issue>2</issue>
          ), pp.
          <fpage>543</fpage>
          -
          <lpage>554</lpage>
          ,
          <year>2008</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref30">
        <mixed-citation>
          [30]
          <string-name>
            <given-names>B.</given-names>
            <surname>Daille</surname>
          </string-name>
          .
          <article-title>Combined Approach for Terminology Extraction: Lexical Statistics and Linguistic Filtering</article-title>
          .
          <source>PhD Dissertation</source>
          , University of Paris,
          <year>1995</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref31">
        <mixed-citation>
          [31]
          <string-name>
            <given-names>G.</given-names>
            <surname>Bouma. Normalized Pointwize</surname>
          </string-name>
          <article-title>Mutual Information</article-title>
          .
          <source>In the Proceedings of the Biennal GSCL Conference</source>
          , pp.
          <fpage>31</fpage>
          -
          <lpage>40</lpage>
          ,
          <year>2009</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref32">
        <mixed-citation>
          [32]
          <string-name>
            <given-names>F.</given-names>
            <surname>Smadja</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>McKeown</surname>
          </string-name>
          ,
          <string-name>
            <given-names>and V.</given-names>
            <surname>Hatzivassiloglou</surname>
          </string-name>
          .
          <article-title>Translating Collocations for Bilingual Lexicons: A Statistical Approach</article-title>
          .
          <source>Computational Linguistics</source>
          ,
          <volume>22</volume>
          (
          <issue>1</issue>
          ), pp.
          <fpage>1</fpage>
          -
          <lpage>38</lpage>
          ,
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref33">
        <mixed-citation>
          [33]
          <string-name>
            <given-names>M.</given-names>
            <surname>Kitamura</surname>
          </string-name>
          and
          <string-name>
            <given-names>Y.</given-names>
            <surname>Matsumoto</surname>
          </string-name>
          .
          <article-title>Automatic Extraction of Word Sequence Correspondences in Parallel Corpora</article-title>
          .
          <source>In the Proceedings of the 4th Annual Workshop on Very Large Corpora</source>
          , pp.
          <fpage>79</fpage>
          -
          <lpage>87</lpage>
          ,
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref34">
        <mixed-citation>
          [34]
          <string-name>
            <given-names>J. G. P.</given-names>
            <surname>Lopes</surname>
          </string-name>
          and
          <string-name>
            <given-names>J. F.</given-names>
            <surname>Silva</surname>
          </string-name>
          .
          <article-title>A Local Maxima Method and a Fair Dispersion Normalization for Extracting Multiword Units</article-title>
          .
          <source>In the Proceedings of the 6th Meeting on the Mathematics of Language</source>
          , pp.
          <fpage>369</fpage>
          -
          <lpage>381</lpage>
          ,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref35">
        <mixed-citation>
          [35]
          <string-name>
            <given-names>T.</given-names>
            <surname>Dunning</surname>
          </string-name>
          .
          <article-title>Accurate Methods for the Statistics of Surprise and Coincidence</article-title>
          .
          <source>Computational Linguistics</source>
          ,
          <volume>19</volume>
          (
          <issue>1</issue>
          ),
          <year>1993</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref36">
        <mixed-citation>
          [36]
          <string-name>
            <given-names>Y.</given-names>
            <surname>Park</surname>
          </string-name>
          ,
          <string-name>
            <given-names>R.</given-names>
            <surname>Bird</surname>
          </string-name>
          , and
          <string-name>
            <given-names>B.</given-names>
            <surname>Boguraev</surname>
          </string-name>
          .
          <article-title>Automatic Glossary Extraction: Beyond Terminology Identification</article-title>
          .
          <source>In the Proceedings of the 19th International Conference on Computational Linguistics</source>
          ,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref37">
        <mixed-citation>
          [37]
          <string-name>
            <given-names>K.</given-names>
            <surname>Vorontsov</surname>
          </string-name>
          and
          <string-name>
            <given-names>A.</given-names>
            <surname>Potapenko</surname>
          </string-name>
          .
          <article-title>EM-like algorithms for probabilistic topic modeling</article-title>
          .
          <source>Machine Learning and Data Analysis</source>
          , vol.
          <volume>1</volume>
          (
          <issue>6</issue>
          ), pp.
          <fpage>657</fpage>
          -
          <lpage>686</lpage>
          ,
          <year>2013</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>