<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="ru">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Тематические модели: учет сходства между униграммами и биграммами</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">М</forename><forename type="middle">А</forename><surname>Нокель</surname></persName>
						</author>
						<author>
							<persName><forename type="first">Мгу</forename><forename type="middle">М В</forename><surname>Им</surname></persName>
						</author>
						<author>
							<persName><roleName>Москва</roleName><surname>Ломоносова</surname></persName>
						</author>
						<title level="a" type="main">Тематические модели: учет сходства между униграммами и биграммами</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">29ABAEDF480FA5FE0689A6BF36EFCF41</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-25T05:41+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract/>
		</profileDesc>
	</teiHeader>
	<text xml:lang="ru">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Аннотация</head><p>В статье представлены результаты экспериментов по добавлению сходства между униграммами и биграммами в тематические модели. Вначале изучается возможность применения ассоциативных мер для выбора и последующего включения биграмм в тематические модели. Затем предлагается модификация оригинального алгоритма PLSA, учитывающая похожие униграммы и биграммы, начинающиеся с одних и тех же букв. И в конце статьи предлагается новый итеративный алгоритм без учителя, показывающий, как темы сами могут выбирать себе наиболее подходящие биграммы. В качестве текстовой коллекции была взята подборка статей из электронных банковских журналов на русском языке. Эксперименты показывают значительное улучшение качества тематических моделей по всем целевым метрикам.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1">Введение</head><p>Вероятностные тематические модели (далее просто тематические модели) -одно из современных приложений машинного обучения к анализу текстов. Тематические модели предназначены для описания текстов с точки зрения их тем. Они определяют, к каким темам относится каждый документ в текстовой коллекции и какие слова образуют каждую такую тему. При этом темы представляются в виде дискретных распределений на множестве слов, а документы -в виде дискретных распределений на множестве тем <ref type="bibr" target="#b0">[1]</ref>. Пользователям темы предоставляются, как правило, в виде некоторых списков часто встречающихся рядом друг с другом слов, упорядоченных по убыванию степени принадлежности им.</p><p>Труды 16-й Всероссийской научной конференции "Электронные библиотеки: перспективные методы и технологии, электронные коллекции" -RCDL-2014, Дубна, Россия, 13-16 октября 2014 г.</p><p>С момента своего появления тематические модели достигли значительных успехов в задачах информационного поиска <ref type="bibr" target="#b1">[2]</ref>, разрешении морфологической неоднозначности <ref type="bibr" target="#b2">[3]</ref>, многодокументного аннотирования <ref type="bibr" target="#b3">[4]</ref>, кластеризации и категоризации документов <ref type="bibr" target="#b4">[5]</ref>. Также они успешно применяются в выявлении трендов в научных публикациях и новостных потоках <ref type="bibr" target="#b5">[6]</ref>, обработке аудиои видео-сигналов <ref type="bibr" target="#b6">[7]</ref> и других задачах. Самыми известными представителями являются латентное размещение Дирихле (LDA) <ref type="bibr" target="#b0">[1]</ref>, использующее априорное распределение Дирихле, и метод вероятностного латентного семантического анализа (PLSA) <ref type="bibr" target="#b7">[8]</ref>, не связанный ни с какими параметрическими априорными распределениями.</p><p>В работах <ref type="bibr" target="#b8">[9]</ref> и <ref type="bibr" target="#b9">[10]</ref> было показано, что использование тематических моделей в задаче извлечения однословных терминов способно значительно улучшить качество извлечения последних из текстов предметных областей. Поэтому актуальной является и проблема улучшения качества самих тематических моделей за счет использования некоторой лингвистической информации, чему и посвящена данная работа.</p><p>Одним из главных недостатков тематических моделей является использование модели "мешка слов", в которой каждый документ рассматривается как набор встречающихся в нем слов. Данная модель не учитывает порядок слов и основывается на гипотезе независимости появлений слов в документах друг от друга. На данный момент проведено множество исследований, посвященных изучению вопроса добавления словосочетаний, nграмм и многословных терминов в тематические модели. Однако часто это приводит к ухудшению качества модели в связи с увеличением размера словаря или к значительному усложнению модели <ref type="bibr" target="#b11">[12]</ref>, <ref type="bibr" target="#b12">[13]</ref>, <ref type="bibr" target="#b13">[14]</ref>.</p><p>В статье предлагается новый подход, позволяющий учесть взаимосвязь между похожими словами (в частности, однокоренными) в тематических моделях (такими, как банк -банковскийбанкир, кредит -кредитный -кредитовать -кредитование). На основании данного метода в статье описывается и новый подход к добавлению биграмм в тематические модели, который рассматривает биграммы уже не как "черные ящики", а учитывает взаимосвязь между ними и униграммами, основанную на их внутренней структуре. Предлагаемый алгоритм улучшает качество тематических моделей по двум целевым метрикам: перплексии и согласованности тем <ref type="bibr" target="#b14">[15]</ref>.</p><p>Все эксперименты, описанные в статье, проведены на основе алгоритма PLSA и его модификаций на коллекции текстов банковской тематики на русском языке, взятых из электронных журналов.</p><p>Статья организована следующим образом. В разделе 2 рассматриваются близкие работы. В разделе 3 описывается текстовая коллекция, использующаяся в экспериментах, все стадии её предобработки и метрики, применяемые для оценивания качества работы тематических моделей. В разделе 4 проводится обширный анализ ассоциативных мер для выбора и последующего включения биграмм в тематические модели. В разделе 5 предлагается новый алгоритм, позволяющий учесть сходство между униграммами и биграммами в тематических моделях. В разделе 6 предлагается еще один новый итеративный алгоритм, использующий тот факт, что темы могут сами выбирать себе наиболее подходящие биграммы. И в последнем разделе приводятся выводы.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2">Близкие работы</head></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.1">Тематические модели</head><p>На сегодняшний день разработано достаточно много различных тематических моделей. Исторически одними из первых появились модели, основанные на традиционных методах кластеризации текстов <ref type="bibr" target="#b10">[11]</ref>. При этом после окончания работы алгоритма кластеризации каждый получившийся кластер рассматривается как отдельная тема для вычисления вероятностей входящих в него слов по следующей формуле: Самыми известными представителями данной категории являются метод вероятностного латентного семантического анализа (PLSA) <ref type="bibr" target="#b7">[8]</ref> и латентное размещение Дирихле (LDA) <ref type="bibr" target="#b0">[1]</ref>.</p><formula xml:id="formula_0">P (w|t) = f (w|t) w f<label>(</label></formula></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.2">Словосочетания в тематических моделях</head><p>Все описанные в прошлом разделе алгоритмы работают только со словами, основываясь на гипотезе о независимости слов друг от друга -модели "мешка слов". Идея же использования словосочетаний в тематических моделях сама по себе не нова. На данный момент существуют 2 подхода к решению данной проблемы: создание унифицированной вероятностной модели и предварительное извлечение словосочетаний и n-грамм для их последующего добавления в тематические модели.</p><p>Большинство исследований на данный момент посвящено первому подходу. Так, первая попытка выйти за пределы модели "мешка слов" была предпринята в работе <ref type="bibr" target="#b11">[12]</ref>, где была представлена Биграммная Тематическая Модель. В этой модели вероятности слов зависят от вероятностей непосредственно предшествующих им слов. Модель словосочетаний LDA расширяет Биграммную Тематическую Модель за счет введения дополнительных переменных, способных генерировать и униграммы, и биграммы. В работе <ref type="bibr" target="#b13">[14]</ref> представлена Тематическая N-граммная Модель, усложняющая предыдущие для обеспечения возможности формирования биграмм в зависимости от контекста. В работе <ref type="bibr" target="#b15">[16]</ref> предложена тематическая модель Слово-Символ, выходящая за рамки использовавшегося ранее предположения о том, что тема каждой n-граммы определяется в зависимости от тем слов, составляющих данное словосочетание. Эта модель оказалась наиболее пригодной для китайского языка. В работе <ref type="bibr" target="#b16">[17]</ref> устанавливается связь между LDA и вероятностными контекстносвободными грамматиками и предлагаются две но-вые вероятностные модели, сочетающие в себе идеи из LDA и вероятностных контекстно-свободных грамматик для добавления словосочетаний и имен собственных в тематические модели.</p><p>Несмотря на то, что все описанные выше модели имеют теоретически элегантное обоснование, у них очень большая вычислительная сложность, что ведёт к неприменимости на реальных данных. Так, например, вычислительная сложность Биграммной Тематической Модели равна O(W 2 T ), в то время как для LDA она равна O(W T ), для PLSA -O(W T +DT ), где W -размер словаря, D -количество документов в коллекции и T -число тем. Поэтому такие модели представляют в основном чисто теоретический интерес.</p><p>Алгоритм, предложенный в работе <ref type="bibr" target="#b17">[18]</ref>, относится ко второму типу методов, добавляющих словосочетания в тематические модели. На этапе предобработки авторы извлекают биграммы с помощью t-теста и заменяют отдельные униграммы лучшими по данной мере биграммами. При этом используются 2 метрики оценивания качества полученных тем: перплексия и согласованность тем <ref type="bibr" target="#b14">[15]</ref>. В статье показано, что добавление биграмм в тематические модели приводит к ухудшению перплексии и к улучшению согласованности тем.</p><p>Данная работа также относится ко второму типу методов и отличается от работы <ref type="bibr" target="#b17">[18]</ref> в том, что описываемый здесь подход учитывает внутреннюю структуру биграмм и взаимосвязь между ними и составляющими их униграммами, что приводит к улучшению обоих показателей: и перплексии, и согласованности тем.</p><p>Идея использования априорных лингвистических знаний в тематических моделях сама по себе не нова. Так, в работе <ref type="bibr" target="#b18">[19]</ref> предметно-ориентированные знания представляются в виде Must-Link и Cannot-Link примитивов с помощью априорного леса Дирихле. Эти примитивы отвечают за то, чтобы слова порождались одними и теми же или, наоборот, разными темами. Однако позднее было замечено, что данный метод может привести к экспоненциальному росту при кодировании Cannot-Link примитивов, и потому его сложно применять с большим количеством ограничений <ref type="bibr" target="#b19">[20]</ref>. Другой способ включения подобных знаний представлен в работе <ref type="bibr" target="#b20">[21]</ref>, где был предложен частично обучаемый с учителем EM-алгоритм для группировки выражений в некоторые заданные пользователем категории. Для обеспечения наилучшей инициализации EM-алгоритма предложенный в статье метод использует априорное знание о том, что синонимы и выражения, имеющие одинаковые слова, должны, скорее всего, относиться к одним и тем же группам. Данная работа отличается от приведённых выше тем, что в ней сходства между униграммами и биграммами добавляются в тематическую модель естественным образом путем под-счета их совместной встречаемости в документах коллекции. Предлагаемый подход никак не увеличивает вычислительную сложность оригинального алгоритма PLSA.</p><p>3 Текстовая коллекция и методы оценивания качества тематических моделей</p><p>3.1 Текстовая коллекция и предобработка В экспериментах, описанных в данной статье, использовалась текстовая коллекция из 10422 статей на русском языке, взятых из некоторых электронных банковских журналов (таких, как Аудитор, РБК, Банковский журнал и др.). В данных документах содержится почти 15.5 млн слов.</p><p>На этапе предобработки был проведен морфологический анализ документов. В экспериментах рассматривались только существительные, прилагательные, глаголы и наречия, поскольку служебные слова не играют значительной роли в определении тем. Кроме того, из рассмотрения исключались слова, встретившиеся менее 5 раз во всей текстовой коллекции.</p><p>На этапе предобработки из документов также извлекались биграммы в формах сущ. + сущ. в родительном падеже и прил. + сущ. В экспериментах рассматривались только такие биграммы, поскольку темы, как правило, задаются именными группами.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3.2">Методы оценивания качества тематических моделей</head><p>Для оценивания качества полученных тем в статье рассматриваются две метрики.</p><p>Во-первых, использовалась перплексия, являющаяся стандартным критерием качества тематических моделей <ref type="bibr" target="#b21">[22]</ref>. Эта мера несоответствия модели p(w|d) словам w, наблюдаемым в документах коллекции, определяется через логарифм правдоподобия:</p><formula xml:id="formula_1">P erplexity(D) = exp (− 1 n d∈D w∈d n dw ln p(w|d))</formula><p>где n -число всех рассматриваемых слов в текстовой коллекции, D -множество всех документов в коллекции, n dw -частота слова w в документе d, p(w|d) -вероятность появления слова w в документе d.</p><p>Чем меньше значение перплексии, тем лучше модель предсказывает появление слов w в документах коллекции D. Поскольку известно, что перплексия, вычисленная на той же самой обучающей коллекции документов, склонна к переобучению и может давать оптимистически заниженные значения <ref type="bibr" target="#b0">[1]</ref>, в данной статье используется стандартный метод вычисления контрольной перплексии, описанный в работе <ref type="bibr" target="#b23">[24]</ref>. Коллекция документов изначально разбивалась на 2 части: обучающую D, по которой строилась модель, и контрольную D , по которой вычислялась данная метрика. Хотя на данный момент существует множество исследований, утверждающих, что перплексию нельзя применять для оценивания качества тематических моделей <ref type="bibr" target="#b22">[23]</ref>, данная метрика попрежнему широко используется для сравнения различных тематических моделей.</p><p>В то же время неоднократно предпринимались попытки предложить способ автоматического оценивания качества тематических моделей, никак не связанного с перплексией и коррелирующего с мнениями экспертов. Данная постановка задачи является очень сложной, поскольку эксперты могут достаточно сильно расходиться во мнениях. Однако в недавних работах <ref type="bibr" target="#b14">[15]</ref>, <ref type="bibr" target="#b24">[25]</ref> было показано, что возможно автоматически оценивать согласованность тем, основываясь на семантике слов с точностью, почти совпадающей с экспертами. Предложенная метрика измеряет интерпретируемость тем, основываясь на способах оценивания экспертом <ref type="bibr" target="#b14">[15]</ref>. Поскольку темы, как правило, предоставляются экспертам для проверки в виде первых топ-N слов, согласованность тем оценивает то, насколько данные слова соответствуют рассматриваемой теме. Newman в работе <ref type="bibr" target="#b14">[15]</ref> предложил использовать автоматический способ вычисления данной метрики исходя из меры взаимной информации:</p><p>T C-P M I(t) = 10 j=2 j−1 i=1 log P (w j , w i ) P (w j )P (w i ) где (w 1 , w 2 , . . . , w 10 ) -топ-10 слов в рассматриваемой теме t, P (w i ) и P (w j ) -вероятности униграмм w i и w j соответственно, а P (w j , w i ) -вероятность биграммы (w j , w i ). Итоговая мера согласованности тем вычисляется усреднением T C-P M I(t) по всем темам t.</p><p>Данная метрика показывает очень высокую корреляцию с оценками экспертов <ref type="bibr" target="#b14">[15]</ref>. Предложенная метрика рассматривает только первые топ-10 слов в каждой теме, поскольку они, как правило, предоставляют достаточно информации для формирования предмета темы и отличительных черт одной темы от другой. Согласованность тем становится все более широко используемым способом оценивания качества тематических моделей наряду с перплексией. Так, в работе <ref type="bibr" target="#b25">[26]</ref> также было показано, что данная метрика очень сильно коррелирует с оценками экспертом. А в работе <ref type="bibr" target="#b26">[27]</ref> она просто используется для оценки качества полученных тем.</p><p>В соответствии с подходом, изложенным в работе <ref type="bibr" target="#b24">[25]</ref>, в данной статье вероятности униграмм и биграмм вычисляются путем деления количества документов, в которых встретилась та или иная униграмма или биграмма, на число всех документов в коллекции. Другой вариант вычисления меры согласованности тем на основе логарифма от условной вероятности (T C-LCP ), предложенный в работе <ref type="bibr" target="#b24">[25]</ref>, не рассматривается, поскольку в работе <ref type="bibr" target="#b17">[18]</ref> было показано, что этот вариант работает значительно хуже, чем T C-P M I.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4">Добавление биграмм в тематические модели</head><p>На первом этапе экспериментов исследовалось, может ли улучшиться качество тематической модели путем добавления в неё биграмм в качестве отдельных элементов словаря. Для этой цели были извлечены все биграммы, встретившиеся в коллекции, с частотностью не меньше 5. Для последующего упорядочения извлечённых биграмм применялись ассоциативные меры -математические критерии, определяющие силу связи между составными частями фраз, основываясь на частотах встречаемости отдельных слов и словосочетаний целиком. В экспериментах были использованы следующие 15 ассоциативных мер: Взаимная Информация (MI) <ref type="bibr" target="#b27">[28]</ref>, Дополненная Взаимная Информация (Дополненная MI) <ref type="bibr" target="#b28">[29]</ref>, Кубическая Взаимная Информация (Кубическая MI) <ref type="bibr" target="#b29">[30]</ref>, Нормализованная Взаимная Информация (Нормализованная MI) <ref type="bibr" target="#b30">[31]</ref>, Настоящая Взаимная Информация (Настоящая MI), Коэффициент Dice (DC) <ref type="bibr" target="#b31">[32]</ref>, Модифицированный Коэффициент Dice (Модифицированный DC) <ref type="bibr" target="#b32">[33]</ref>, T-Score, Симметричная Условная Вероятность <ref type="bibr" target="#b33">[34]</ref>, Коэффициент Простого Соответствия, Коэффициент Kulczinsky, Коэффициент Yula <ref type="bibr" target="#b29">[30]</ref>, Хи-Квадрат, Отношение логарифмического правдоподобия <ref type="bibr" target="#b34">[35]</ref> и Лексическая Связность <ref type="bibr" target="#b35">[36]</ref>.</p><p>В соответствии с результатами <ref type="bibr" target="#b17">[18]</ref> в тематические модели добавлялись топ-1000 биграмм для каждой ассоциативной меры. Так, в каждом эксперименте к словарю в качестве отдельных элементов добавлялись топ-1000 биграмм, и в каждом документе, содержащем любые из добавляемых словосочетаний, из частот образующих их униграмм вычитались частоты биграмм, а сами словосочетания добавлялись в его разреженное представление. Отдельно следует отметить, что во всех экспериментах число топиков фиксировалось равным 100.</p><p>Хотя эксперименты были проведены для всех 15 упомянутых выше ассоциативных мер, в таблице 1 представлены только наиболее характерные результаты добавления топ-1000 биграмм наряду с результатом оригинального алгоритма PLSA без добавления биграмм (значения, выделенные полужирным шрифтом, соответствуют улучшению по одному из критериев). Таблица 1: Результаты добавления биграмм в тематическую модель</p><p>Как видно, добавление топ-1000 биграмм, упорядоченных по той или иной ассоциативной мере, как правило, приводит к увеличению размера словаря и, следовательно, ухудшению перплексии, в то время как согласованность тем становится лучше. Эти выводы полностью согласуются с результатами, описанными в работе <ref type="bibr" target="#b17">[18]</ref>. Однако, используя некоторые ассоциативные меры (например, Взаимную Информацию), можно получить немного лучше перплексию, но чуть хуже согласованность тем, что обусловлено добавлением нестандартных и низкочастотных биграмм.</p><p>5 Добавление схожих униграмм и биграмм в тематические модели</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.1">Добавление схожих униграмм в тематические модели</head><p>Оригинальные тематические модели (PLSA и LDA) используют модель "мешка слов", предполагающую независимость слов друг от друга. Однако в документах есть много слов, связанных между собой по смыслу -в частности, однокоренные слова, например: банк -банковский -банкир, кредит -кредитный -кредитовать -кредитование и др. Поэтому на следующем этапе экспериментов исследовалась возможность учета в тематических моделях подобных похожих слов -а именно, слов, начинающихся с одних и тех же букв.</p><p>Для данной цели был модифицирован оригинальный алгоритм PLSA. При описании проведённой модификации будет использоваться описание алгоритма PLSA, представленное в работе <ref type="bibr" target="#b36">[37]</ref>, и следующие обозначения:  Поскольку в русском языке достаточно богатая морфология, а темы в основном задаются именными группами, в качестве потенциальных кандидатов в похожие слова рассматривались только существительные и прилагательные. В таблице 2 представлены результаты добавления похожих слов в тематические модели наряду с оригинальным алгоритмом PLSA (значения, выделенные полужирным шрифтом, соответствуют лучшим значениям по одному из критериев). Таблица 2: Результаты экспериментов по добавлению похожих униграмм в тематическую модель Как видно, наилучшие результаты показывает модель, рассматривающая в качестве похожих слова, начинающиеся с 4 одинаковых букв. Однако в русском языке есть множество приставок длины в 4 буквы и больше. Учитывая это, был составлен список из 43 наиболее широко использующихся таких приставок (анти-, гипер-, переи др.) и введён дополнительный критерий: если слова начинаются на одну и ту же приставку, то они считаются похожими, если следующая буква после приставки также совпадает. Данный критерий позволил еще больше снизить перплексию до 1376 и оставить согласованность тем примерно на лучшем уровне -2250. В дальнейших экспериментах, описываемых в данной статье, было решено использовать именно эти 2 критерия.</p><formula xml:id="formula_2">• D -коллекция документов; • T -множество полученных тем; • W -словарь (</formula><p>Следует отметить, что в результате добавления знаний о похожести слов в тематические модели такие слова с большей вероятностью окажутся в топ-10 в полученных темах. Тем самым происходит неявная максимизация меры T C-P M I, поскольку похожие слова склонны встречаться в одних и тех же документах. Поэтому было принято решение модифицировать данную метрику для учета не всех топ-10 слов, а только топ-10 непохожих слов в темах (в дальнейшем в статье данная метрика будет обозначаться как TC-PMI-nSIM ). В таблице 3 подытожены результаты добавления похожих слов в тематические модели с использованием описанных выше критериев и введённой новой метрики: Для применения подхода, представленного в разделе 5.1 к топ-1000 биграммам, упорядоченными в соответствии с различными ассоциативными мерами, описанными в разделе 4, было решено ввести дополнительный критерий схожести биграмм и униграмм. Биграмма (w 1 , w 2 ) считается похожей на униграмму w 3 , если выполнен один из следующих критериев:</p><p>• слово w 3 похоже на w 1 или w 2 в соответствии с критериями, описанными в разделе 5.1;</p><p>• слово w 3 совпадает с w 1 или w 2 и длина w 3 больше трех букв.</p><p>Хотя эксперименты были проведены для всех ассоциативных мер, описанных в разделе 4, в таблице 5 представлены только наиболее характерные результаты интеграции биграмм и добавлению похожести униграмм и биграмм наряду с результатами алгоритмов PLSA и PLSA-SIM (значения, выделенные полужирным шрифтом, соответствуют лучшим значениям по одному из критериев). </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="7">Благодарности</head><p>Работа частично поддержана грантом РФФИ 14-07-00383.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="8">Заключение</head><p>В работе представлены эксперименты по добавлению биграмм в тематические модели. Эксперименты, проведённые на русскоязычных статьях из электронных банковских журналов, показывают, что большинство ассоциативных мер упорядочивает биграммы таким образом, что при добавлении верхушки этих списков в тематические модели ухудшается перплексия и улучшается согласованность тем. Затем в статье предлагается новый алгоритм PLSA-SIM, добавляющий схожесть униграмм и биграмм в тематические модели. Проведённые эксперименты показывают значительное улучшение перплексии и согласованности тем для этого алгоритма. В конце статьи предлагается еще один новый итеративный алгоритм, основанный на идее, что темы сами могут выбирать себе наиболее подходящие биграммы и похожие слова. Эксперименты показывают дальнейшее улучшение качества по обеим целевым метрикам.</p><p>coherence. In the Proceedings of Human Language Technologies: The 11th Annual Conference of the North American Chapter of the Association for Computational Linguistics, pp. 100-108, 2010.</p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>2 4 for d ∈ D, w ∈ W do 5 Z = t φ wt θ td , 6 f dw = n dw + s∈Sw n ds 7 for t ∈ T do 8 if φ wt θ td &gt; 0 then 9 δ 10 nwt = nwt + δ 11 ntd = nd + δ 12 nt = nt + δ 13 for w ∈ W , t ∈ T do 14 φ wt = nwt /n t 15 for d ∈ D, t ∈ T do 16 θ</head><label>45678910111213141516</label><figDesc>for d ∈ D, w ∈ W , t ∈ T do 3 nwt = 0, ntd = 0, nt = 0 = f dw φ wt θ td /Z td = ntd /n t</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_2"><head></head><label></label><figDesc>{S w } -множество похожих слов, где S w -множество слов, похожих на w; • n dw и n ds -частотности слов w и s в документе d; • nwt -оценка частотности слова w в теме t; • ntd -оценка частотности темы t в документе d; • nt -оценка частотности темы t в коллекции документов D.</figDesc><table><row><cell>Псевдокод алгоритма PLSA-SIM представлен</cell></row><row><cell>в Алгоритме 2. Единственная модификация ори-</cell></row><row><cell>гинального алгоритма PLSA касается строчки 6,</cell></row><row><cell>где в рассмотрение добавляются предварительно</cell></row><row><cell>вычисленные множества похожих слов (в ориги-</cell></row><row><cell>нальном алгоритме данная строчка отсутствует, а</cell></row><row><cell>в строчке 9 вместо f dw используется n dw ). Тем са-</cell></row><row><cell>мым вес подобных слов увеличивается в каждом</cell></row><row><cell>документе коллекции.</cell></row><row><cell>Algorithm 2: PLSA-SIM алгоритм: PLSA с</cell></row><row><cell>похожими словами</cell></row><row><cell>Input: коллекция документов D,</cell></row><row><cell>количество тем |T |,</cell></row><row><cell>начальные приближения Φ и Θ,</cell></row><row><cell>множества похожих слов S</cell></row><row><cell>Output: распределения Φ и Θ</cell></row><row><cell>1 while не выполнится критерий остановки</cell></row><row><cell>do</cell></row></table><note>множество уникальных слов в коллекции документов D); • Φ = {φ wt = p(w|t)} -распределение слов w по темам t; • Θ = {θ td = p(t|d)} -распределение тем t по документам d;• S =</note></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_5"><head></head><label></label><figDesc>Запуск PLSA-SIM с множеством похожих слов S A и с множеством биграмм B A для получения тем T В таблице 7 представлены первые несколько итераций предложенного итеративного алгоритма наряду с результатами оригинального алгоритма PLSA (в таблице обозначен как нулевая итерация).Как видно, после первой итерации наблюдается существенное улучшение качества получаемых тем по обеим целевым метрикам. Однако на следующих итерациях результаты начинают колебаться вокруг примерно тех же самых уровней перплексии и согласованности тем (с незначительным улучшением последней). Поэтому мы считаем, что согласно результатам первой итерации выбор необходимых биграмм и кандидатов в похожие слова самими темами приводит к наилучшим значениям перплексии и согласованности тем. В таблице 8 приведены топ-5 униграмм и биграмм, взятых из двух случайно выбранных тем, полученных после первой итерации предложенного алгоритма.</figDesc><table><row><cell cols="2">тивных мер, приводит к улучшению качества по-Банковский кредит Ипотечный банк Банковский сектор Ипотечный кредит лучающихся тем по сравнению с алгоритмом PLSA-Кредитование Ипотечное кредитование SIM. В таблице 6 представлены топ-5 униграмм Кредитная система Жилищное кредитование и биграмм, взятых из двух случайно выбранных Кредит Ипотека тем, полученных с помощью алгоритма PLSA-SIM с добавлением топ-1000 биграмм, упорядоченных Модифицированным Коэффициентом Dice (Мо-дифицированным DC), для которого достигаются наилучшее значение перплексии. Таблица 8: Топ-5 униграмм и биграмм, взятых из тем, полученных с помощью итеративного алго-ритма построения тематической модели</cell><cell cols="4">Algorithm 3: Итеративный алгоритм Input: коллекция документов D, число тем |T |, множество биграмм B Output: полученные темы 1 Запуск оригинального PLSA на коллекции документов D для получения тем T 2 B A = ∅ 3 while не выполнится критерий остановки</cell></row><row><cell>Инвестиция Инвестор</cell><cell>Финансовый рынок Финансовая система</cell><cell>4</cell><cell>do</cell><cell>S A = ∅</cell></row><row><cell>Инвестирование</cell><cell>Финансовый</cell><cell>5</cell><cell></cell><cell cols="2">for t ∈ T do</cell></row><row><cell cols="2">Иностранный инвестор Иностранное инвестирование Таблица 6: Топ-5 униграмм и биграмм, взятых из Финансовый институт Финансовый ресурс тем, полученных с помощью PLSA-SIM с биграм-мами, упорядоченными Модифированным DC</cell><cell>6 7 8 9</cell><cell></cell><cell cols="2">S A = S A ∪ {u t 1 , u t 2 , . . . , u t 10 } for u t i , u t 1 , u t 2 , . . . , u t 10 ) do j ∈ (u t if (u t i , u t j ) ∈ B and f (u t i , u t j ) &gt; f (u t j , u t i ) then B A = B A ∪ {(u t i , u t j )}</cell></row><row><cell cols="2">6 Итеративный алгоритм для выбо-</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">ра наиболее подходящих биграмм</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">На последнем этапе экспериментов было сде-</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">лано предположение, что темы могут сами вы-</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">бирать себе наиболее подходящие биграммы. Для</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">проверки данной гипотезы был предложен новый</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">итеративный алгоритм выбора биграмм исходя из</cell><cell></cell><cell></cell><cell></cell></row><row><cell>вида верхушек тем.</cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">При описании алгоритма будут</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">использоваться следующие дополнительные обо-значения:</cell><cell></cell><cell cols="2">Итерация 0 (PLSA)</cell><cell>Перплексия TC-PMI-nSIM 1694 78.3</cell></row><row><cell cols="2">• B -множество всех биграмм в коллекции документов D;</cell><cell></cell><cell></cell><cell>1 2 3</cell><cell>936 934 933</cell><cell>180.5 210.2 230</cell></row><row><cell cols="2">• B A -множество биграмм, добавленных в те-</cell><cell></cell><cell></cell><cell>4</cell><cell>940</cell><cell>235.8</cell></row><row><cell>матическую модель;</cell><cell></cell><cell></cell><cell cols="2">Алгоритм 5</cell><cell>Перплексия TC-PMI-nSIM 931 193.5</cell></row><row><cell cols="2">• S A -множество потенциальных кандидатов</cell><cell></cell><cell></cell><cell>PLSA</cell><cell>1694</cell><cell>78.3</cell></row><row><cell cols="2">на похожие слова; • (u t 1 , . . . , u t 10 ) -топ-10 униграмм в теме t; • f (u t 1 , u t 2 ) -частота биграммы (u t 1 , u t 2 ).</cell><cell cols="4">PLSA-SIM PLSA-SIM + MI PLSA-SIM + Настоящая MI Таблица 7: Результаты итеративного алгоритма 1376 87.8 1411 106.2 1204 177.8 построения тематической модели</cell></row><row><cell cols="2">Псевдокод предлагаемого алгоритма представ-</cell><cell></cell><cell cols="2">PLSA-SIM + Кубическая MI</cell><cell>1186</cell><cell>151.7</cell></row><row><cell cols="2">лен в Алгоритме 3. На каждой итерации алгоритм</cell><cell></cell><cell cols="3">PLSA-SIM + DC</cell><cell>1288</cell><cell>99</cell></row><row><cell cols="2">добавляет в множество кандидатов в похожие сло-ва униграмм из каждой темы. Также в это же множество и в саму тематическую модель до-бавляются все биграммы, которые могут быть об-</cell><cell cols="4">PLSA-SIM + Модифицированный DC PLSA-SIM + T-Score</cell><cell>1163 1222</cell><cell>156.2 171.5</cell></row><row><cell cols="2">разованы с помощью этих топ-10 униграмм. Бы-</cell><cell></cell><cell cols="2">PLSA-SIM +</cell></row><row><cell cols="2">ло принято решение анализировать только первые топ-10 слов в темах, поскольку одной из целевой метрик является согласованность тем, использую-</cell><cell></cell><cell cols="2">Лексическая связность PLSA-SIM + Хи-квадрат</cell><cell>1208 1346</cell><cell>125.6 122.9</cell></row><row><cell cols="2">щая именно это множество (см. определение мет-</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">рики в разделе 3). В соответствии с данным алго-</cell><cell cols="4">Таблица 5: Результаты добавления похожих уни-</cell></row><row><cell cols="2">ритмом темы могут выбирать себе только те би-</cell><cell cols="4">грамм и биграмм в тематическую модель</cell></row><row><cell cols="2">граммы, которые образуются с помощью топ-10</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="2">униграмм в темах, а такие биграммы с большей</cell><cell></cell><cell cols="3">Как видно, добавление в тематическую модель</cell></row><row><cell cols="2">вероятностью могут оказаться наиболее подходя-</cell><cell cols="4">похожих униграмм и топ-1000 биграмм, упорядо-</cell></row><row><cell>щими.</cell><cell></cell><cell cols="4">ченных в соответствии с большинством ассоциа-</cell></row></table><note>10S A = S A ∪ B A 11</note></figure>
		</body>
		<back>
			<div type="annex">
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Topic models: taking into account similarity between unigrams and bigrams Michael Nokel</head><p>The paper presents the results of experimental study of integrating word similarity and bigram collocations into topic models. First of all, we analyze a variety of word association measures in order to integrate top-ranked bigrams into topic models. Then we propose a modification of the original algorithm PLSA, which takes into account similar unigrams and bigrams that start with the same beginning. And at the end we present a novel unsupervised iterative algorithm demonstrating how topics can choose the most relevant bigrams. As a target text collection we took articles from various Russian electronic banking magazines. The experiments demonstrate significant improvement of topic models quality for both collections.</p></div>			</div>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<analytic>
		<title level="a" type="main">Latent Dirichlet Allocation</title>
		<author>
			<persName><forename type="first">D</forename><surname>Blei</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Ng</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Jordan</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Journal of Machine Learning Research</title>
		<imprint>
			<biblScope unit="volume">3</biblScope>
			<biblScope unit="page" from="993" to="1002" />
			<date type="published" when="2003">2003</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<analytic>
		<title level="a" type="main">LDA-based document models for ad-hoc retrieval</title>
		<author>
			<persName><forename type="first">X</forename><surname>Wei</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 29th International ACM-SIGIR Conference on Research and Development in Information Retrieval</title>
				<imprint>
			<date type="published" when="2006">2006</date>
			<biblScope unit="page" from="178" to="185" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<analytic>
		<title level="a" type="main">A Topic Model for Word Sense Disambiguation</title>
		<author>
			<persName><forename type="first">J</forename><surname>Boyd-Grabber</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Blei</surname></persName>
		</author>
		<author>
			<persName><forename type="first">X</forename><surname>Zhu</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Processing</title>
				<imprint>
			<date type="published" when="2007">2007</date>
			<biblScope unit="page" from="1024" to="1033" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b3">
	<analytic>
		<title level="a" type="main">Multi-Document Summarization using Sentence-based Topic Models</title>
		<author>
			<persName><forename type="first">D</forename><surname>Wang</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Zhu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Li</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Y</forename><surname>Gong</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the ACL-IJCNLP 2009 Conference Short Papers</title>
				<imprint>
			<date type="published" when="2009">2009</date>
			<biblScope unit="page" from="297" to="300" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b4">
	<analytic>
		<title level="a" type="main">Text Categorization Based on Topic Model</title>
		<author>
			<persName><forename type="first">S</forename><surname>Zhou</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><surname>Li</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Y</forename><surname>Liu</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">International Journal of Computational Intelligence Systems</title>
		<imprint>
			<biblScope unit="volume">2</biblScope>
			<biblScope unit="issue">4</biblScope>
			<biblScope unit="page" from="398" to="409" />
			<date type="published" when="2009">2009</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<analytic>
		<title level="a" type="main">Topic and Trend Detection in Text Collections Using Latent Dirichlet Allocation</title>
		<author>
			<persName><forename type="first">L</forename><surname>Bolelli</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Ş</forename><surname>Ertekin</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><forename type="middle">L</forename><surname>Giles</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">ECIR Proceedings</title>
		<title level="s">Lecture Notes in Computer Science</title>
		<imprint>
			<date type="published" when="2009">2009</date>
			<biblScope unit="volume">5478</biblScope>
			<biblScope unit="page" from="776" to="780" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<analytic>
		<title level="a" type="main">Discovery of activity patterns using topic models</title>
		<author>
			<persName><forename type="first">T</forename><surname>Hyunh</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Fritz</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Schiele</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 10th international conference on Ubiquitous computing</title>
				<imprint>
			<date type="published" when="2008">2008</date>
			<biblScope unit="page" from="10" to="19" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<analytic>
		<title level="a" type="main">Probabilistic Latent Semantic Indexing</title>
		<author>
			<persName><forename type="first">T</forename><surname>Hofmann</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 22nd Annual International SIGIR Conference on Research and Development in Information Retrieval</title>
				<imprint>
			<date type="published" when="1999">1999</date>
			<biblScope unit="page" from="50" to="57" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<analytic>
		<title level="a" type="main">Topic Models Can Improve Domain Term Extraction</title>
		<author>
			<persName><forename type="first">E</forename><surname>Bolshakova</surname></persName>
		</author>
		<author>
			<persName><forename type="first">N</forename><surname>Loukachevitch</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Nokel</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">ECIR Proceedings</title>
		<title level="s">Lecture Notes in Computer Science</title>
		<imprint>
			<date type="published" when="2013">2013</date>
			<biblScope unit="volume">7814</biblScope>
			<biblScope unit="page" from="684" to="687" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<analytic>
		<title level="a" type="main">Application of Topic Models to the Task of Single-Word Term Extraction</title>
		<author>
			<persName><forename type="first">M</forename><surname>Nokel</surname></persName>
		</author>
		<author>
			<persName><forename type="first">N</forename><surname>Loukachevitch</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">RCDL&apos;2013 Proceedings</title>
				<imprint>
			<date type="published" when="2013">2013</date>
			<biblScope unit="page" from="52" to="60" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<analytic>
		<title level="a" type="main">Keep It Smile with Time: A Reexamination of Probabilistic Topic Detection Models</title>
		<author>
			<persName><forename type="first">Q</forename><surname>He</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><surname>Chang</surname></persName>
		</author>
		<author>
			<persName><forename type="first">E</forename><surname>Lim</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Banerjee</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of IEEE Transaction Pattern Analysis and Machine Intelligence</title>
				<imprint>
			<date type="published" when="2010">2010</date>
			<biblScope unit="volume">32</biblScope>
			<biblScope unit="page" from="1795" to="1808" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b11">
	<analytic>
		<title level="a" type="main">Topic Modeling: beyond bagof-words</title>
		<author>
			<persName><forename type="first">H</forename><surname>Wallach</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 23rd International Conference on Machine Learning</title>
				<imprint>
			<date type="published" when="2006">2006</date>
			<biblScope unit="page" from="977" to="984" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<analytic>
		<title level="a" type="main">Topics in semantic representation</title>
		<author>
			<persName><forename type="first">T</forename><surname>Griffiths</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Steyvers</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Tenenbaum</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Psychological Review</title>
		<imprint>
			<biblScope unit="volume">144</biblScope>
			<biblScope unit="issue">2</biblScope>
			<biblScope unit="page" from="211" to="244" />
			<date type="published" when="2007">2007</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b13">
	<analytic>
		<title level="a" type="main">Topical n-grams: Phrase and topic discovery, with an application to information retrieval</title>
		<author>
			<persName><forename type="first">X</forename><surname>Wang</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Mccallum</surname></persName>
		</author>
		<author>
			<persName><forename type="first">X</forename><surname>Wei</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 2007 Seventh IEEE International Conference on Data Mining</title>
				<imprint>
			<date type="published" when="2007">2007</date>
			<biblScope unit="page" from="697" to="702" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<monogr>
		<title level="m" type="main">Automatic evaluation of topic</title>
		<author>
			<persName><forename type="first">D</forename><surname>Newman</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">H</forename><surname>Lau</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><surname>Grieser</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Baldwin</surname></persName>
		</author>
		<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<analytic>
		<title level="a" type="main">Modeling chinese documents with topical word-character models</title>
		<author>
			<persName><forename type="first">W</forename><surname>Hu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">N</forename><surname>Shimizu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">H</forename><surname>Sheng</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 22nd International Conference on Computational Linguistics</title>
				<imprint>
			<date type="published" when="2008">2008</date>
			<biblScope unit="page" from="345" to="352" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b16">
	<analytic>
		<title level="a" type="main">PCFGs, topic models, adaptor grammars and learning topical collocations and the structure of proper names</title>
		<author>
			<persName><forename type="first">M</forename><surname>Johnson</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 48th Annual Meeting of the ACL</title>
				<imprint>
			<date type="published" when="2010">2010</date>
			<biblScope unit="page" from="1148" to="1157" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b17">
	<analytic>
		<title level="a" type="main">On Collocations and Topic Models</title>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">H</forename><surname>Lau</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Baldwin</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Newman</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">ACM Transactions on Speech and Language Processing</title>
		<imprint>
			<biblScope unit="volume">10</biblScope>
			<biblScope unit="issue">3</biblScope>
			<biblScope unit="page" from="1" to="14" />
			<date type="published" when="2013">2013</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b18">
	<analytic>
		<title level="a" type="main">Incorporating domain knowledge into topic modeling via Dirichlet Forest priors</title>
		<author>
			<persName><forename type="first">D</forename><surname>Andrzejewski</surname></persName>
		</author>
		<author>
			<persName><forename type="first">X</forename><surname>Zhu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Craven</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 26th Annual International Conference on Machine Learning</title>
				<imprint>
			<date type="published" when="2009">2009</date>
			<biblScope unit="page" from="25" to="32" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b19">
	<analytic>
		<title level="a" type="main">Sentiment Analysis and Opinion Mining</title>
		<author>
			<persName><forename type="first">B</forename><surname>Liu</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Syntheses Lectures on Human Language Technologies</title>
				<imprint>
			<publisher>Morgan &amp; Claypool Publishers</publisher>
			<date type="published" when="2012">2012</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b20">
	<analytic>
		<title level="a" type="main">Grouping Product Features Using Semi-Supervised Learning with Soft-Constraints</title>
		<author>
			<persName><forename type="first">Z</forename><surname>Zhai</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Liu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">H</forename><surname>Xu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Jia</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 23rd International Conference on Computational Linguistics</title>
				<imprint>
			<date type="published" when="2010">2010</date>
			<biblScope unit="page" from="1272" to="1280" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b21">
	<analytic>
		<title level="a" type="main">Knowledge discovery through directed probabilistic topic models: a survey</title>
		<author>
			<persName><forename type="first">A</forename><surname>Daud</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Li</surname></persName>
		</author>
		<author>
			<persName><forename type="first">F</forename><surname>Muhammad</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Frontiers of Computer Science in China</title>
		<imprint>
			<biblScope unit="volume">4</biblScope>
			<biblScope unit="issue">2</biblScope>
			<biblScope unit="page" from="280" to="301" />
			<date type="published" when="2010">2010</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b22">
	<analytic>
		<title level="a" type="main">Reading tea leaves: How human interpret topic models</title>
		<author>
			<persName><forename type="first">J</forename><surname>Chang</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Boyd-Grabber</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Wang</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Gerrich</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Blei</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 24th Annual Conference on Neural Information Processing Systems</title>
				<imprint>
			<date type="published" when="2009">2009</date>
			<biblScope unit="page" from="288" to="296" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b23">
	<analytic>
		<title level="a" type="main">On smoothing and inference for topic models</title>
		<author>
			<persName><forename type="first">A</forename><surname>Asuncion</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Welling</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Smyth</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Y</forename><forename type="middle">W</forename><surname>Teh</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the International Conference on Uncertainty in Artificial Intelligence</title>
				<imprint>
			<date type="published" when="2009">2009</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b24">
	<analytic>
		<title level="a" type="main">Optimizing semantic coherence in topic models</title>
		<author>
			<persName><forename type="first">D</forename><surname>Mimno</surname></persName>
		</author>
		<author>
			<persName><forename type="first">H</forename><surname>Wallach</surname></persName>
		</author>
		<author>
			<persName><forename type="first">E</forename><surname>Talley</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Leenders</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Mccallum</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of EMNLP&apos;2011</title>
				<imprint>
			<date type="published" when="2011">2011</date>
			<biblScope unit="page" from="262" to="272" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b25">
	<analytic>
		<title level="a" type="main">Exploring topic coherence over many models and many topics</title>
		<author>
			<persName><forename type="first">K</forename><surname>Stevens</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Kegelmeyer</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Andrzejewski</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Butter</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of EMNLP-CoNLL&apos;12</title>
				<imprint>
			<date type="published" when="2012">2012</date>
			<biblScope unit="page" from="952" to="961" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b26">
	<analytic>
		<title level="a" type="main">Latent topic feedback for information retrieval</title>
		<author>
			<persName><forename type="first">D</forename><surname>Andrzejewski</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Buttier</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of tthe 17th ACM SIGKDD International Conference on Knowledge discovery and data mining</title>
				<imprint>
			<date type="published" when="2011">2011</date>
			<biblScope unit="page" from="600" to="608" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b27">
	<analytic>
		<title level="a" type="main">Word Association Norms, Mutual Information, and Lexicography</title>
		<author>
			<persName><forename type="first">K</forename><surname>Church</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Hanks</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Computational Linguistics</title>
		<imprint>
			<biblScope unit="volume">16</biblScope>
			<biblScope unit="page" from="22" to="29" />
			<date type="published" when="1990">1990</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b28">
	<analytic>
		<title level="a" type="main">Augmented Mutual Information for Multi-Word Term Extraction</title>
		<author>
			<persName><forename type="first">W</forename><surname>Zhang</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Yoshida</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Ho</surname></persName>
		</author>
		<author>
			<persName><forename type="first">X</forename><surname>Tang</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">International Journal of Innovative Computing, Information and Control</title>
		<imprint>
			<biblScope unit="volume">8</biblScope>
			<biblScope unit="issue">2</biblScope>
			<biblScope unit="page" from="543" to="554" />
			<date type="published" when="2008">2008</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b29">
	<monogr>
		<title level="m" type="main">Combined Approach for Terminology Extraction: Lexical Statistics and Linguistic Filtering</title>
		<author>
			<persName><forename type="first">B</forename><surname>Daille</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1995">1995</date>
		</imprint>
		<respStmt>
			<orgName>University of Paris</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">PhD Dissertation</note>
</biblStruct>

<biblStruct xml:id="b30">
	<analytic>
		<title level="a" type="main">Normalized Pointwize Mutual Information</title>
		<author>
			<persName><forename type="first">G</forename><surname>Bouma</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the Biennal GSCL Conference</title>
				<imprint>
			<date type="published" when="2009">2009</date>
			<biblScope unit="page" from="31" to="40" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b31">
	<analytic>
		<title level="a" type="main">Translating Collocations for Bilingual Lexicons: A Statistical Approach</title>
		<author>
			<persName><forename type="first">F</forename><surname>Smadja</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><surname>Mckeown</surname></persName>
		</author>
		<author>
			<persName><forename type="first">V</forename><surname>Hatzivassiloglou</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Computational Linguistics</title>
		<imprint>
			<biblScope unit="volume">22</biblScope>
			<biblScope unit="issue">1</biblScope>
			<biblScope unit="page" from="1" to="38" />
			<date type="published" when="1996">1996</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b32">
	<analytic>
		<title level="a" type="main">Automatic Extraction of Word Sequence Correspondences in Parallel Corpora</title>
		<author>
			<persName><forename type="first">M</forename><surname>Kitamura</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Y</forename><surname>Matsumoto</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 4th Annual Workshop on Very Large Corpora</title>
				<imprint>
			<date type="published" when="1996">1996</date>
			<biblScope unit="page" from="79" to="87" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b33">
	<analytic>
		<title level="a" type="main">A Local Maxima Method and a Fair Dispersion Normalization for Extracting Multiword Units</title>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">G P</forename><surname>Lopes</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">F</forename><surname>Silva</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 6th Meeting on the Mathematics of Language</title>
				<imprint>
			<date type="published" when="1999">1999</date>
			<biblScope unit="page" from="369" to="381" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b34">
	<analytic>
		<title level="a" type="main">Accurate Methods for the Statistics of Surprise and Coincidence</title>
		<author>
			<persName><forename type="first">T</forename><surname>Dunning</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Computational Linguistics</title>
		<imprint>
			<biblScope unit="volume">19</biblScope>
			<biblScope unit="issue">1</biblScope>
			<date type="published" when="1993">1993</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b35">
	<analytic>
		<title level="a" type="main">Automatic Glossary Extraction: Beyond Terminology Identification</title>
		<author>
			<persName><forename type="first">Y</forename><surname>Park</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Bird</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Boguraev</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">the Proceedings of the 19th International Conference on Computational Linguistics</title>
				<imprint>
			<date type="published" when="2002">2002</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b36">
	<analytic>
		<title level="a" type="main">EM-like algorithms for probabilistic topic modeling</title>
		<author>
			<persName><forename type="first">K</forename><surname>Vorontsov</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Potapenko</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Machine Learning and Data Analysis</title>
		<imprint>
			<biblScope unit="volume">1</biblScope>
			<biblScope unit="issue">6</biblScope>
			<biblScope unit="page" from="657" to="686" />
			<date type="published" when="2013">2013</date>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
