Тематические модели: учет сходства между униграммами и биграммами

Аннотация

В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный алгоритм без учителя, показывающий, как темы сами могут выбирать себе наиболее подходящие биграммы. В качестве текстовой коллекции была взята подборка статей из электронных банковских журналов на русском языке. Эксперименты показывают значительное улучшение качества тематических моделей по всем целевым метрикам.

Введение

Вероятностные тематические модели (далее просто тематические модели) -одно из современных приложений машинного обучения к анализу текстов. Тематические модели предназначены для описания текстов с точки зрения их тем. Они определяют, к каким темам относится каждый документ в текстовой коллекции и какие слова образуют каждую такую тему. При этом темы представляются в виде дискретных распределений на множестве слов, а документы -в виде дискретных распределений на множестве тем [1]. Пользователям темы предоставляются, как правило, в виде некоторых списков часто встречающихся рядом друг с другом слов, упорядоченных по убыванию степени принадлежности им.

Труды 16-й Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" -RCDL-2014, Дубна, Россия, 13-16 октября 2014 г.

С момента своего появления тематические модели достигли значительных успехов в задачах информационного поиска [2], разрешении морфологической неоднозначности [3], многодокументного аннотирования [4], кластеризации и категоризации документов [5]. Также они успешно применяются в выявлении трендов в научных публикациях и новостных потоках [6], обработке аудиои видео-сигналов [7] и других задачах. Самыми известными представителями являются латентное размещение Дирихле (LDA) [1], использующее априорное распределение Дирихле, и метод вероятностного латентного семантического анализа (PLSA) [8], не связанный ни с какими параметрическими априорными распределениями.

В работах [9] и [10] было показано, что использование тематических моделей в задаче извлечения однословных терминов способно значительно улучшить качество извлечения последних из текстов предметных областей. Поэтому актуальной является и проблема улучшения качества самих тематических моделей за счет использования некоторой лингвистической информации, чему и посвящена данная работа.

Одним из главных недостатков тематических моделей является использование модели "мешка слов", в которой каждый документ рассматривается как набор встречающихся в нем слов. Данная модель не учитывает порядок слов и основывается на гипотезе независимости появлений слов в документах друг от друга. На данный момент проведено множество исследований, посвященных изучению вопроса добавления словосочетаний, nграмм и многословных терминов в тематические модели. Однако часто это приводит к ухудшению качества модели в связи с увеличением размера словаря или к значительному усложнению модели [12], [13], [14].

В статье предлагается новый подход, позволяющий учесть взаимосвязь между похожими словами (в частности, однокоренными) в тематических моделях (такими, как банк -банковскийбанкир, кредит -кредитный -кредитовать -кредитование). На основании данного метода в статье описывается и новый подход к добавлению биграмм в тематические модели, который рассматривает биграммы уже не как "черные ящики", а учитывает взаимосвязь между ними и униграммами, основанную на их внутренней структуре. Предлагаемый алгоритм улучшает качество тематических моделей по двум целевым метрикам: перплексии и согласованности тем [15].

Все эксперименты, описанные в статье, проведены на основе алгоритма PLSA и его модификаций на коллекции текстов банковской тематики на русском языке, взятых из электронных журналов.

Статья организована следующим образом. В разделе 2 рассматриваются близкие работы. В разделе 3 описывается текстовая коллекция, использующаяся в экспериментах, все стадии её предобработки и метрики, применяемые для оценивания качества работы тематических моделей. В разделе 4 проводится обширный анализ ассоциативных мер для выбора и последующего включения биграмм в тематические модели. В разделе 5 предлагается новый алгоритм, позволяющий учесть сходство между униграммами и биграммами в тематических моделях. В разделе 6 предлагается еще один новый итеративный алгоритм, использующий тот факт, что темы могут сами выбирать себе наиболее подходящие биграммы. И в последнем разделе приводятся выводы.

Близкие работы

Тематические модели

На сегодняшний день разработано достаточно много различных тематических моделей. Исторически одними из первых появились модели, основанные на традиционных методах кластеризации текстов [11]. При этом после окончания работы алгоритма кластеризации каждый получившийся кластер рассматривается как отдельная тема для вычисления вероятностей входящих в него слов по следующей формуле: Самыми известными представителями данной категории являются метод вероятностного латентного семантического анализа (PLSA) [8] и латентное размещение Дирихле (LDA) [1].

P (w|t) = f (w|t) w f(

Словосочетания в тематических моделях

Все описанные в прошлом разделе алгоритмы работают только со словами, основываясь на гипотезе о независимости слов друг от друга -модели "мешка слов". Идея же использования словосочетаний в тематических моделях сама по себе не нова. На данный момент существуют 2 подхода к решению данной проблемы: создание унифицированной вероятностной модели и предварительное извлечение словосочетаний и n-грамм для их последующего добавления в тематические модели.

Большинство исследований на данный момент посвящено первому подходу. Так, первая попытка выйти за пределы модели "мешка слов" была предпринята в работе [12], где была представлена Биграммная Тематическая Модель. В этой модели вероятности слов зависят от вероятностей непосредственно предшествующих им слов. Модель словосочетаний LDA расширяет Биграммную Тематическую Модель за счет введения дополнительных переменных, способных генерировать и униграммы, и биграммы. В работе [14] представлена Тематическая N-граммная Модель, усложняющая предыдущие для обеспечения возможности формирования биграмм в зависимости от контекста. В работе [16] предложена тематическая модель Слово-Символ, выходящая за рамки использовавшегося ранее предположения о том, что тема каждой n-граммы определяется в зависимости от тем слов, составляющих данное словосочетание. Эта модель оказалась наиболее пригодной для китайского языка. В работе [17] устанавливается связь между LDA и вероятностными контекстносвободными грамматиками и предлагаются две но-вые вероятностные модели, сочетающие в себе идеи из LDA и вероятностных контекстно-свободных грамматик для добавления словосочетаний и имен собственных в тематические модели.

Несмотря на то, что все описанные выше модели имеют теоретически элегантное обоснование, у них очень большая вычислительная сложность, что ведёт к неприменимости на реальных данных. Так, например, вычислительная сложность Биграммной Тематической Модели равна O(W 2 T ), в то время как для LDA она равна O(W T ), для PLSA -O(W T +DT ), где W -размер словаря, D -количество документов в коллекции и T -число тем. Поэтому такие модели представляют в основном чисто теоретический интерес.

Алгоритм, предложенный в работе [18], относится ко второму типу методов, добавляющих словосочетания в тематические модели. На этапе предобработки авторы извлекают биграммы с помощью t-теста и заменяют отдельные униграммы лучшими по данной мере биграммами. При этом используются 2 метрики оценивания качества полученных тем: перплексия и согласованность тем [15]. В статье показано, что добавление биграмм в тематические модели приводит к ухудшению перплексии и к улучшению согласованности тем.

Данная работа также относится ко второму типу методов и отличается от работы [18] в том, что описываемый здесь подход учитывает внутреннюю структуру биграмм и взаимосвязь между ними и составляющими их униграммами, что приводит к улучшению обоих показателей: и перплексии, и согласованности тем.

Идея использования априорных лингвистических знаний в тематических моделях сама по себе не нова. Так, в работе [19] предметно-ориентированные знания представляются в виде Must-Link и Cannot-Link примитивов с помощью априорного леса Дирихле. Эти примитивы отвечают за то, чтобы слова порождались одними и теми же или, наоборот, разными темами. Однако позднее было замечено, что данный метод может привести к экспоненциальному росту при кодировании Cannot-Link примитивов, и потому его сложно применять с большим количеством ограничений [20]. Другой способ включения подобных знаний представлен в работе [21], где был предложен частично обучаемый с учителем EM-алгоритм для группировки выражений в некоторые заданные пользователем категории. Для обеспечения наилучшей инициализации EM-алгоритма предложенный в статье метод использует априорное знание о том, что синонимы и выражения, имеющие одинаковые слова, должны, скорее всего, относиться к одним и тем же группам. Данная работа отличается от приведённых выше тем, что в ней сходства между униграммами и биграммами добавляются в тематическую модель естественным образом путем под-счета их совместной встречаемости в документах коллекции. Предлагаемый подход никак не увеличивает вычислительную сложность оригинального алгоритма PLSA.

3 Текстовая коллекция и методы оценивания качества тематических моделей

3.1 Текстовая коллекция и предобработка В экспериментах, описанных в данной статье, использовалась текстовая коллекция из 10422 статей на русском языке, взятых из некоторых электронных банковских журналов (таких, как Аудитор, РБК, Банковский журнал и др.). В данных документах содержится почти 15.5 млн слов.

На этапе предобработки был проведен морфологический анализ документов. В экспериментах рассматривались только существительные, прилагательные, глаголы и наречия, поскольку служебные слова не играют значительной роли в определении тем. Кроме того, из рассмотрения исключались слова, встретившиеся менее 5 раз во всей текстовой коллекции.

На этапе предобработки из документов также извлекались биграммы в формах сущ. + сущ. в родительном падеже и прил. + сущ. В экспериментах рассматривались только такие биграммы, поскольку темы, как правило, задаются именными группами.

Методы оценивания качества тематических моделей

Для оценивания качества полученных тем в статье рассматриваются две метрики.

Во-первых, использовалась перплексия, являющаяся стандартным критерием качества тематических моделей [22]. Эта мера несоответствия модели p(w|d) словам w, наблюдаемым в документах коллекции, определяется через логарифм правдоподобия:

P erplexity(D) = exp (− 1 n d∈D w∈d n dw ln p(w|d))

где n -число всех рассматриваемых слов в текстовой коллекции, D -множество всех документов в коллекции, n dw -частота слова w в документе d, p(w|d) -вероятность появления слова w в документе d.

Чем меньше значение перплексии, тем лучше модель предсказывает появление слов w в документах коллекции D. Поскольку известно, что перплексия, вычисленная на той же самой обучающей коллекции документов, склонна к переобучению и может давать оптимистически заниженные значения [1], в данной статье используется стандартный метод вычисления контрольной перплексии, описанный в работе [24]. Коллекция документов изначально разбивалась на 2 части: обучающую D, по которой строилась модель, и контрольную D , по которой вычислялась данная метрика. Хотя на данный момент существует множество исследований, утверждающих, что перплексию нельзя применять для оценивания качества тематических моделей [23], данная метрика попрежнему широко используется для сравнения различных тематических моделей.

В то же время неоднократно предпринимались попытки предложить способ автоматического оценивания качества тематических моделей, никак не связанного с перплексией и коррелирующего с мнениями экспертов. Данная постановка задачи является очень сложной, поскольку эксперты могут достаточно сильно расходиться во мнениях. Однако в недавних работах [15], [25] было показано, что возможно автоматически оценивать согласованность тем, основываясь на семантике слов с точностью, почти совпадающей с экспертами. Предложенная метрика измеряет интерпретируемость тем, основываясь на способах оценивания экспертом [15]. Поскольку темы, как правило, предоставляются экспертам для проверки в виде первых топ-N слов, согласованность тем оценивает то, насколько данные слова соответствуют рассматриваемой теме. Newman в работе [15] предложил использовать автоматический способ вычисления данной метрики исходя из меры взаимной информации:

T C-P M I(t) = 10 j=2 j−1 i=1 log P (w j , w i ) P (w j )P (w i ) где (w 1 , w 2 , . . . , w 10 ) -топ-10 слов в рассматриваемой теме t, P (w i ) и P (w j ) -вероятности униграмм w i и w j соответственно, а P (w j , w i ) -вероятность биграммы (w j , w i ). Итоговая мера согласованности тем вычисляется усреднением T C-P M I(t) по всем темам t.

Данная метрика показывает очень высокую корреляцию с оценками экспертов [15]. Предложенная метрика рассматривает только первые топ-10 слов в каждой теме, поскольку они, как правило, предоставляют достаточно информации для формирования предмета темы и отличительных черт одной темы от другой. Согласованность тем становится все более широко используемым способом оценивания качества тематических моделей наряду с перплексией. Так, в работе [26] также было показано, что данная метрика очень сильно коррелирует с оценками экспертом. А в работе [27] она просто используется для оценки качества полученных тем.

В соответствии с подходом, изложенным в работе [25], в данной статье вероятности униграмм и биграмм вычисляются путем деления количества документов, в которых встретилась та или иная униграмма или биграмма, на число всех документов в коллекции. Другой вариант вычисления меры согласованности тем на основе логарифма от условной вероятности (T C-LCP ), предложенный в работе [25], не рассматривается, поскольку в работе [18] было показано, что этот вариант работает значительно хуже, чем T C-P M I.

Добавление биграмм в тематические модели

На первом этапе экспериментов исследовалось, может ли улучшиться качество тематической модели путем добавления в неё биграмм в качестве отдельных элементов словаря. Для этой цели были извлечены все биграммы, встретившиеся в коллекции, с частотностью не меньше 5. Для последующего упорядочения извлечённых биграмм применялись ассоциативные меры -математические критерии, определяющие силу связи между составными частями фраз, основываясь на частотах встречаемости отдельных слов и словосочетаний целиком. В экспериментах были использованы следующие 15 ассоциативных мер: Взаимная Информация (MI) [28], Дополненная Взаимная Информация (Дополненная MI) [29], Кубическая Взаимная Информация (Кубическая MI) [30], Нормализованная Взаимная Информация (Нормализованная MI) [31], Настоящая Взаимная Информация (Настоящая MI), Коэффициент Dice (DC) [32], Модифицированный Коэффициент Dice (Модифицированный DC) [33], T-Score, Симметричная Условная Вероятность [34], Коэффициент Простого Соответствия, Коэффициент Kulczinsky, Коэффициент Yula [30], Хи-Квадрат, Отношение логарифмического правдоподобия [35] и Лексическая Связность [36].

В соответствии с результатами [18] в тематические модели добавлялись топ-1000 биграмм для каждой ассоциативной меры. Так, в каждом эксперименте к словарю в качестве отдельных элементов добавлялись топ-1000 биграмм, и в каждом документе, содержащем любые из добавляемых словосочетаний, из частот образующих их униграмм вычитались частоты биграмм, а сами словосочетания добавлялись в его разреженное представление. Отдельно следует отметить, что во всех экспериментах число топиков фиксировалось равным 100.

Хотя эксперименты были проведены для всех 15 упомянутых выше ассоциативных мер, в таблице 1 представлены только наиболее характерные результаты добавления топ-1000 биграмм наряду с результатом оригинального алгоритма PLSA без добавления биграмм (значения, выделенные полужирным шрифтом, соответствуют улучшению по одному из критериев). Таблица 1: Результаты добавления биграмм в тематическую модель

Как видно, добавление топ-1000 биграмм, упорядоченных по той или иной ассоциативной мере, как правило, приводит к увеличению размера словаря и, следовательно, ухудшению перплексии, в то время как согласованность тем становится лучше. Эти выводы полностью согласуются с результатами, описанными в работе [18]. Однако, используя некоторые ассоциативные меры (например, Взаимную Информацию), можно получить немного лучше перплексию, но чуть хуже согласованность тем, что обусловлено добавлением нестандартных и низкочастотных биграмм.

5 Добавление схожих униграмм и биграмм в тематические модели

Добавление схожих униграмм в тематические модели

Оригинальные тематические модели (PLSA и LDA) используют модель "мешка слов", предполагающую независимость слов друг от друга. Однако в документах есть много слов, связанных между собой по смыслу -в частности, однокоренные слова, например: банк -банковский -банкир, кредит -кредитный -кредитовать -кредитование и др. Поэтому на следующем этапе экспериментов исследовалась возможность учета в тематических моделях подобных похожих слов -а именно, слов, начинающихся с одних и тех же букв.

Для данной цели был модифицирован оригинальный алгоритм PLSA. При описании проведённой модификации будет использоваться описание алгоритма PLSA, представленное в работе [37], и следующие обозначения: Поскольку в русском языке достаточно богатая морфология, а темы в основном задаются именными группами, в качестве потенциальных кандидатов в похожие слова рассматривались только существительные и прилагательные. В таблице 2 представлены результаты добавления похожих слов в тематические модели наряду с оригинальным алгоритмом PLSA (значения, выделенные полужирным шрифтом, соответствуют лучшим значениям по одному из критериев). Таблица 2: Результаты экспериментов по добавлению похожих униграмм в тематическую модель Как видно, наилучшие результаты показывает модель, рассматривающая в качестве похожих слова, начинающиеся с 4 одинаковых букв. Однако в русском языке есть множество приставок длины в 4 буквы и больше. Учитывая это, был составлен список из 43 наиболее широко использующихся таких приставок (анти-, гипер-, переи др.) и введён дополнительный критерий: если слова начинаются на одну и ту же приставку, то они считаются похожими, если следующая буква после приставки также совпадает. Данный критерий позволил еще больше снизить перплексию до 1376 и оставить согласованность тем примерно на лучшем уровне -2250. В дальнейших экспериментах, описываемых в данной статье, было решено использовать именно эти 2 критерия.

• D -коллекция документов; • T -множество полученных тем; • W -словарь (

Следует отметить, что в результате добавления знаний о похожести слов в тематические модели такие слова с большей вероятностью окажутся в топ-10 в полученных темах. Тем самым происходит неявная максимизация меры T C-P M I, поскольку похожие слова склонны встречаться в одних и тех же документах. Поэтому было принято решение модифицировать данную метрику для учета не всех топ-10 слов, а только топ-10 непохожих слов в темах (в дальнейшем в статье данная метрика будет обозначаться как TC-PMI-nSIM ). В таблице 3 подытожены результаты добавления похожих слов в тематические модели с использованием описанных выше критериев и введённой новой метрики: Для применения подхода, представленного в разделе 5.1 к топ-1000 биграммам, упорядоченными в соответствии с различными ассоциативными мерами, описанными в разделе 4, было решено ввести дополнительный критерий схожести биграмм и униграмм. Биграмма (w 1 , w 2 ) считается похожей на униграмму w 3 , если выполнен один из следующих критериев:

• слово w 3 похоже на w 1 или w 2 в соответствии с критериями, описанными в разделе 5.1;

• слово w 3 совпадает с w 1 или w 2 и длина w 3 больше трех букв.

Хотя эксперименты были проведены для всех ассоциативных мер, описанных в разделе 4, в таблице 5 представлены только наиболее характерные результаты интеграции биграмм и добавлению похожести униграмм и биграмм наряду с результатами алгоритмов PLSA и PLSA-SIM (значения, выделенные полужирным шрифтом, соответствуют лучшим значениям по одному из критериев).

Благодарности

Работа частично поддержана грантом РФФИ 14-07-00383.

Заключение

В работе представлены эксперименты по добавлению биграмм в тематические модели. Эксперименты, проведённые на русскоязычных статьях из электронных банковских журналов, показывают, что большинство ассоциативных мер упорядочивает биграммы таким образом, что при добавлении верхушки этих списков в тематические модели ухудшается перплексия и улучшается согласованность тем. Затем в статье предлагается новый алгоритм PLSA-SIM, добавляющий схожесть униграмм и биграмм в тематические модели. Проведённые эксперименты показывают значительное улучшение перплексии и согласованности тем для этого алгоритма. В конце статьи предлагается еще один новый итеративный алгоритм, основанный на идее, что темы сами могут выбирать себе наиболее подходящие биграммы и похожие слова. Эксперименты показывают дальнейшее улучшение качества по обеим целевым метрикам.

coherence. In the Proceedings of Human Language Technologies: The 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 100-108, 2010.

2 4 for d ∈ D, w ∈ W do 5 Z = t φ wt θ td , 6 f dw = n dw + s∈Sw n ds 7 for t ∈ T do 8 if φ wt θ td > 0 then 9 δ 10 nwt = nwt + δ 11 ntd = nd + δ 12 nt = nt + δ 13 for w ∈ W , t ∈ T do 14 φ wt = nwt /n t 15 for d ∈ D, t ∈ T do 16 θ45678910111213141516for d ∈ D, w ∈ W , t ∈ T do 3 nwt = 0, ntd = 0, nt = 0 = f dw φ wt θ td /Z td = ntd /n t

{S w } -множество похожих слов, где S w -множество слов, похожих на w; • n dw и n ds -частотности слов w и s в документе d; • nwt -оценка частотности слова w в теме t; • ntd -оценка частотности темы t в документе d; • nt -оценка частотности темы t в коллекции документов D.Псевдокод алгоритма PLSA-SIM представленв Алгоритме 2. Единственная модификация ори-гинального алгоритма PLSA касается строчки 6,где в рассмотрение добавляются предварительновычисленные множества похожих слов (в ориги-нальном алгоритме данная строчка отсутствует, ав строчке 9 вместо f dw используется n dw ). Тем са-мым вес подобных слов увеличивается в каждомдокументе коллекции.Algorithm 2: PLSA-SIM алгоритм: PLSA спохожими словамиInput: коллекция документов D,количество тем |T |,начальные приближения Φ и Θ,множества похожих слов SOutput: распределения Φ и Θ1 while не выполнится критерий остановкиdo

множество уникальных слов в коллекции документов D); • Φ = {φ wt = p(w|t)} -распределение слов w по темам t; • Θ = {θ td = p(t|d)} -распределение тем t по документам d;• S =

Запуск PLSA-SIM с множеством похожих слов S A и с множеством биграмм B A для получения тем T В таблице 7 представлены первые несколько итераций предложенного итеративного алгоритма наряду с результатами оригинального алгоритма PLSA (в таблице обозначен как нулевая итерация).Как видно, после первой итерации наблюдается существенное улучшение качества получаемых тем по обеим целевым метрикам. Однако на следующих итерациях результаты начинают колебаться вокруг примерно тех же самых уровней перплексии и согласованности тем (с незначительным улучшением последней). Поэтому мы считаем, что согласно результатам первой итерации выбор необходимых биграмм и кандидатов в похожие слова самими темами приводит к наилучшим значениям перплексии и согласованности тем. В таблице 8 приведены топ-5 униграмм и биграмм, взятых из двух случайно выбранных тем, полученных после первой итерации предложенного алгоритма.тивных мер, приводит к улучшению качества по-Банковский кредит Ипотечный банк Банковский сектор Ипотечный кредит лучающихся тем по сравнению с алгоритмом PLSA-Кредитование Ипотечное кредитование SIM. В таблице 6 представлены топ-5 униграмм Кредитная система Жилищное кредитование и биграмм, взятых из двух случайно выбранных Кредит Ипотека тем, полученных с помощью алгоритма PLSA-SIM с добавлением топ-1000 биграмм, упорядоченных Модифицированным Коэффициентом Dice (Мо-дифицированным DC), для которого достигаются наилучшее значение перплексии. Таблица 8: Топ-5 униграмм и биграмм, взятых из тем, полученных с помощью итеративного алго-ритма построения тематической моделиAlgorithm 3: Итеративный алгоритм Input: коллекция документов D, число тем |T |, множество биграмм B Output: полученные темы 1 Запуск оригинального PLSA на коллекции документов D для получения тем T 2 B A = ∅ 3 while не выполнится критерий остановкиИнвестиция ИнвесторФинансовый рынок Финансовая система4doS A = ∅ИнвестированиеФинансовый5for t ∈ T doИностранный инвестор Иностранное инвестирование Таблица 6: Топ-5 униграмм и биграмм, взятых из Финансовый институт Финансовый ресурс тем, полученных с помощью PLSA-SIM с биграм-мами, упорядоченными Модифированным DC6 7 8 9S A = S A ∪ {u t 1 , u t 2 , . . . , u t 10 } for u t i , u t 1 , u t 2 , . . . , u t 10 ) do j ∈ (u t if (u t i , u t j ) ∈ B and f (u t i , u t j ) > f (u t j , u t i ) then B A = B A ∪ {(u t i , u t j )}6 Итеративный алгоритм для выбо-ра наиболее подходящих биграммНа последнем этапе экспериментов было сде-лано предположение, что темы могут сами вы-бирать себе наиболее подходящие биграммы. Дляпроверки данной гипотезы был предложен новыйитеративный алгоритм выбора биграмм исходя извида верхушек тем.При описании алгоритма будутиспользоваться следующие дополнительные обо-значения:Итерация 0 (PLSA)Перплексия TC-PMI-nSIM 1694 78.3• B -множество всех биграмм в коллекции документов D;1 2 3936 934 933180.5 210.2 230• B A -множество биграмм, добавленных в те-4940235.8матическую модель;Алгоритм 5Перплексия TC-PMI-nSIM 931 193.5• S A -множество потенциальных кандидатовPLSA169478.3на похожие слова; • (u t 1 , . . . , u t 10 ) -топ-10 униграмм в теме t; • f (u t 1 , u t 2 ) -частота биграммы (u t 1 , u t 2 ).PLSA-SIM PLSA-SIM + MI PLSA-SIM + Настоящая MI Таблица 7: Результаты итеративного алгоритма 1376 87.8 1411 106.2 1204 177.8 построения тематической моделиПсевдокод предлагаемого алгоритма представ-PLSA-SIM + Кубическая MI1186151.7лен в Алгоритме 3. На каждой итерации алгоритмPLSA-SIM + DC128899добавляет в множество кандидатов в похожие сло-ва униграмм из каждой темы. Также в это же множество и в саму тематическую модель до-бавляются все биграммы, которые могут быть об-PLSA-SIM + Модифицированный DC PLSA-SIM + T-Score1163 1222156.2 171.5разованы с помощью этих топ-10 униграмм. Бы-PLSA-SIM +ло принято решение анализировать только первые топ-10 слов в темах, поскольку одной из целевой метрик является согласованность тем, использую-Лексическая связность PLSA-SIM + Хи-квадрат1208 1346125.6 122.9щая именно это множество (см. определение мет-рики в разделе 3). В соответствии с данным алго-Таблица 5: Результаты добавления похожих уни-ритмом темы могут выбирать себе только те би-грамм и биграмм в тематическую модельграммы, которые образуются с помощью топ-10униграмм в темах, а такие биграммы с большейКак видно, добавление в тематическую модельвероятностью могут оказаться наиболее подходя-похожих униграмм и топ-1000 биграмм, упорядо-щими.ченных в соответствии с большинством ассоциа-

10S A = S A ∪ B A 11

Topic models: taking into account similarity between unigrams and bigrams Michael Nokel

The paper presents the results of experimental study of integrating word similarity and bigram collocations into topic models. First of all, we analyze a variety of word association measures in order to integrate top-ranked bigrams into topic models. Then we propose a modification of the original algorithm PLSA, which takes into account similar unigrams and bigrams that start with the same beginning. And at the end we present a novel unsupervised iterative algorithm demonstrating how topics can choose the most relevant bigrams. As a target text collection we took articles from various Russian electronic banking magazines. The experiments demonstrate significant improvement of topic models quality for both collections.

Latent Dirichlet Allocation DBlei ANg MJordan Journal of Machine Learning Research 3 2003 LDA-based document models for ad-hoc retrieval XWei B the Proceedings of the 29th International ACM-SIGIR Conference on Research and Development in Information Retrieval 2006 A Topic Model for Word Sense Disambiguation JBoyd-Grabber DBlei XZhu the Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Processing 2007 Multi-Document Summarization using Sentence-based Topic Models DWang SZhu TLi YGong the Proceedings of the ACL-IJCNLP 2009 Conference Short Papers 2009 Text Categorization Based on Topic Model SZhou KLi YLiu International Journal of Computational Intelligence Systems 2 4 2009 Topic and Trend Detection in Text Collections Using Latent Dirichlet Allocation LBolelli ŞErtekin CLGiles ECIR Proceedings Lecture Notes in Computer Science 2009 5478 Discovery of activity patterns using topic models THyunh MFritz BSchiele the Proceedings of the 10th international conference on Ubiquitous computing 2008 Probabilistic Latent Semantic Indexing THofmann the Proceedings of the 22nd Annual International SIGIR Conference on Research and Development in Information Retrieval 1999 Topic Models Can Improve Domain Term Extraction EBolshakova NLoukachevitch MNokel ECIR Proceedings Lecture Notes in Computer Science 2013 7814 Application of Topic Models to the Task of Single-Word Term Extraction MNokel NLoukachevitch RCDL'2013 Proceedings 2013 Keep It Smile with Time: A Reexamination of Probabilistic Topic Detection Models QHe KChang ELim ABanerjee the Proceedings of IEEE Transaction Pattern Analysis and Machine Intelligence 2010 32 Topic Modeling: beyond bagof-words HWallach the Proceedings of the 23rd International Conference on Machine Learning 2006 Topics in semantic representation TGriffiths MSteyvers JTenenbaum Psychological Review 144 2 2007 Topical n-grams: Phrase and topic discovery, with an application to information retrieval XWang AMccallum XWei the Proceedings of the 2007 Seventh IEEE International Conference on Data Mining 2007 Automatic evaluation of topic DNewman JHLau KGrieser TBaldwin Modeling chinese documents with topical word-character models WHu NShimizu HSheng the Proceedings of the 22nd International Conference on Computational Linguistics 2008 PCFGs, topic models, adaptor grammars and learning topical collocations and the structure of proper names MJohnson the Proceedings of the 48th Annual Meeting of the ACL 2010 On Collocations and Topic Models JHLau TBaldwin DNewman ACM Transactions on Speech and Language Processing 10 3 2013 Incorporating domain knowledge into topic modeling via Dirichlet Forest priors DAndrzejewski XZhu MCraven the Proceedings of the 26th Annual International Conference on Machine Learning 2009 Sentiment Analysis and Opinion Mining BLiu Syntheses Lectures on Human Language Technologies Morgan & Claypool Publishers 2012 Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints ZZhai BLiu HXu PJia the Proceedings of the 23rd International Conference on Computational Linguistics 2010 Knowledge discovery through directed probabilistic topic models: a survey ADaud JLi FMuhammad Frontiers of Computer Science in China 4 2 2010 Reading tea leaves: How human interpret topic models JChang JBoyd-Grabber CWang SGerrich DBlei the Proceedings of the 24th Annual Conference on Neural Information Processing Systems 2009 On smoothing and inference for topic models AAsuncion MWelling PSmyth YWTeh the Proceedings of the International Conference on Uncertainty in Artificial Intelligence 2009 Optimizing semantic coherence in topic models DMimno HWallach ETalley MLeenders AMccallum the Proceedings of EMNLP'2011 2011 Exploring topic coherence over many models and many topics KStevens PKegelmeyer DAndrzejewski DButter the Proceedings of EMNLP-CoNLL'12 2012 Latent topic feedback for information retrieval DAndrzejewski DButtier the Proceedings of tthe 17th ACM SIGKDD International Conference on Knowledge discovery and data mining 2011 Word Association Norms, Mutual Information, and Lexicography KChurch PHanks Computational Linguistics 16 1990 Augmented Mutual Information for Multi-Word Term Extraction WZhang TYoshida THo XTang International Journal of Innovative Computing, Information and Control 8 2 2008 Combined Approach for Terminology Extraction: Lexical Statistics and Linguistic Filtering BDaille 1995 University of Paris PhD Dissertation Normalized Pointwize Mutual Information GBouma the Proceedings of the Biennal GSCL Conference 2009 Translating Collocations for Bilingual Lexicons: A Statistical Approach FSmadja KMckeown VHatzivassiloglou Computational Linguistics 22 1 1996 Automatic Extraction of Word Sequence Correspondences in Parallel Corpora MKitamura YMatsumoto the Proceedings of the 4th Annual Workshop on Very Large Corpora 1996 A Local Maxima Method and a Fair Dispersion Normalization for Extracting Multiword Units JG PLopes JFSilva the Proceedings of the 6th Meeting on the Mathematics of Language 1999 Accurate Methods for the Statistics of Surprise and Coincidence TDunning Computational Linguistics 19 1 1993 Automatic Glossary Extraction: Beyond Terminology Identification YPark RBird BBoguraev the Proceedings of the 19th International Conference on Computational Linguistics 2002 EM-like algorithms for probabilistic topic modeling KVorontsov APotapenko Machine Learning and Data Analysis 1 6 2013