-

Towards document embeddings using dictionary transformation

alex.shundeev@gmail.com

alex.shundeev@gmail.com 0 0 Alexandr S. Shundeev Candidate of Physical and Mathematical Sciences Lomonosov Moscow State University Moscow , ul. Michurinskiy prospekt, d. 1, Russia 119192

2019

368 376

Data mining methods are increasingly becoming the basis of software for applied information systems. A popular approach to mining textual data is the use of word and document embeddings. The report considers a method of forming a vector representation of a set of documents that is consistent with a given vector representation of words.

word embeddings document embeddings text classification regression Word2Vec Doc2Vec

Общие для выделенных задач методы их решения будут представлять объект исследования в контексте настоящей работы.

Одним из популярных и показавших свою практическую эффективность подходов к решению первых двух из числа перечисленных выше задач стало использование так называемых векторных представлений слов (word embeddings). Здесь можно отметить модели Word2Vec [ 1 ], [ 2 ] и модель GloVe [ 3 ]. В рамках этих моделей каждому слову ставится в соответствие вещественный вектор фиксированной размерности. При таком подходе предоставляется возможность сопоставить близким по смыслу словам близкие вектора.

Под упомянутыми выше аналогиями понимаются высказывания следующего вида: слово A связано по смыслу со словом B, как слово C связано по смыслу со словом D. В задаче поиска аналогий слова A, B, C заданы, а слово D необходимо подобрать. Например, слово женщина относится к слову королева, как слово мужчина относится к словам король, принц, царь, герцог. Слова король, принц, царь, герцог являются найденными решениями.

На языке векторных представлений задача поиска аналогий имеет элегантную формулировку и решение. Предположим, что словам A, B, C, D сопоставлены соответственно вектора v , v , v , v . Тогда делается предположение, что аналогия может быть записана в виде выражения v v v v . Поэтому в качестве вариантов искомого слова D нужно подбирать слова, векторные представления которых близки вектору v v v .

Задача классификации текстов [ 4 ] состоит в том, чтобы отнести каждый документ из рассматриваемого набора к определенному классу. Число классов при этом фиксировано. В некоторых постановках этой задачи допускается возможность отнести документ сразу к нескольким классам. Однако в дальнейшем этот случай рассматриваться не будет. Предположение о том, что в один класс должны попадать тематически близкие документы, позволяет эффективно использовать векторные представления слов для решения этой задачи. Например, текст может быть представлен как последовательность, составленная из векторов входящих в него слов. Такое представление в частности используется при построении классификаторов на основе сверточных нейронных сетей (convolutional neural networks) [ 5 ].

Недостатком такого подхода является то обстоятельство, что разным текстам могут соответствовать вектора разной размерности. Модели векторного представления текстов Doc2Vec [ 6 ] позволяют обойти подобное ограничение. Оказывается возможным одновременно построить векторные представления одной фиксированной размерности, как для текстов, так и для слов, встречающихся в этих текстах. В результате предоставляется возможность определять смысловую близость и аналогии не только между словами, но и между текстами, а также между текстами и наборами ключевых слов. В дальнейшем, подобные векторные представления текстов и слов будем называть согласованными.

Создание векторных представлений является трудоемкой вычислительной задачей. В связи с этим обстоятельством появились подходы [ 7 ], реализующие так называемую пост-обработку готовых векторных представлений с целью повышения их качества. В некоторых случаях побочным эффектом пост-обработки является уменьшение размерности векторного представления.

Основной задачей исследования, результаты которого представлены в настоящей работе, является выработка подхода к созданию векторных представлений текстов, согласованных с заданным векторным представлением слов. Предполагается, что изначально у рассматриваемого векторного представления слов не было согласованного с ним векторного представления текстов. Побочным результатом решения этой задачи оказалась возможность существенно снижать размер исходных векторных представлений без потери их качества. В данном случае качество оценивается с точки зрения возможности эффективного использования векторного представления для решения задачи классификации текстов. В этой связи предложенный подход можно отнести к области пост-обработки векторных представлений.

Дальнейшее изложение структурировано следующим образом. В разделе 1 в качестве примеров векторных представлений слов и текстов описываются модели Word2Vec и Doc2Vec. В разделе 2 приводятся основные понятия и описываются используемые в данной работе методы машинного обучения [ 8 ]. В разделе 3 описывается алгоритм построения векторного представления текстов, согласованный с заданным векторным представлением слов. Приводятся результаты тестирования этого алгоритма. В заключении обсуждаются полученные результаты и описываются возможные направления для дальнейших исследований. 1 Векторные представления В качестве примеров векторных представлений слов и документов рассмотрим модели Word2Vec [ 1 ], [ 2 ] и Doc2Vec [ 6 ]. 1.1 Модель Word2Vec В основе построения многих моделей векторных представлений слов лежит так называемая дистрибутивная гипотеза (distributional hypothesis) [ 9 ]. Согласно этой гипотезе смысл слова определяется распределением слов, в окружении которых оно встречается в текстах. Покажем, как эта гипотеза реализуется в моделях Word2Vec. В качестве примера рассмотрим следующее предложение: «Лиса схватила зайца, пока он ел морковку». После предварительной обработки текста, включающей запись слов в нижнем регистре, приведение слов к их словарной форме (лемматизация), удаление часто встречающихся слов и знаков пунктуации, получим последовательность:

«лиса хватать заяц есть морковь».

Предположим, что из этой последовательности было удалено третье слово, и был оставлен только контекст (окружение), в котором оно присутствовало:

«лиса хватать ____ есть морковь».

Видя этот контекст, содержащий такие слова как лиса и морковь, можно с высокой долей уверенности предположить, что было пропущено слово заяц.

Подобные рассуждения были положены в основу варианта модели Word2Vec под названием continuous bag-ofwords (CBOW). В рамках модели CBOW производится анализ всех контекстов заданного фиксированного размера, встречающихся в рассматриваемом наборе текстов. Целевой установкой является оценка условных вероятностей появления разных слов в окружении рассматриваемых контекстов.

В рамках варианта под названием skip-gram (SG) модели Word2Vec решается обратная задача. По заданному слову требуется предугадать слова, которые могут встречаться в его контексте. Для слова заяц можно с высокой долей уверенности предположить, что в тексте его соседями могут быть такие слова, как лиса и морковь.

С математической точки зрения, наиболее корректное описание моделей CBOW и SG приводится в работе [ 10 ]. Следуя этой работе, опишем формальную постановку и решение задачи для модели CBOW в случае, когда контекст состоит из одного слова. Например, для заданного слова (контекста) требуется предсказать, какие слова могут следовать за ним в рассматриваемом наборе текстов.

Пусть D – это словарь, содержащий все рассматриваемые слова. Каждому слову w ∈ D ставятся в соответствие два вектора v , v́ ∈ . Первый вектор интерпретируется как векторное представление слова w, а второй вектор носит вспомогательный характер. Фиксированная размерность векторов n выбирается заранее. Условная вероятность появления слова w ∈ D в контексте слова c ∈ D моделируется с помощью выражения вида exp〈v́ , v 〉 ∑∈ exp〈v́ , v 〉 Приведенное выражение является эвристикой. Правомочность использования этой эвристики подтверждается практикой. Заметим, что вектора, фигурирующие в правой части выражения, изначально не известны и должны быть вычислены. Для этого используются методы математической статистики. Для условных вероятностей записывается функция правдоподобия p w|c В рамках модели DM моделируются условные вероятности появления различных слов в окружении рассматриваемых контекстов. При этом каждый контекст расширяется за счет добавления к нему идентификатора текста, в котором он был обнаружен.

В рамках модели DBOW моделируются условные вероятности появления различных контекстов внутри заданного текста. При этом контексты интерпретируются как неупорядоченные наборы слов. 2 Методы машинного обучения Приведем основные понятия и методы из области машинного обучения [ 8 ], которые будут использоваться в дальнейшем.

Постановка задачи машинного обучение с учителем (supervised learning) предполагает наличие множества объектов , множества целевых значений , а также неизвестной функциональной зависимости между объектами и целевыми значениями. Об этой функциональной зависимости можно судить только по конечному множеству обучающих примеров 2.1 Линейная регрессия Линейная регрессия представляет собой наиболее популярный и теоретически исследованный метод решения задачи восстановления регрессии. Этот метод предполагает, что (n 1 ), а гипотезами являются линейные функции вида h, x 〈θ, x〉 θ . Нахождение требуемой гипотезы осуществляется путем решения задачи минимизации

mseT, h , ⟶ m, in .

Эта задача имеет точное аналитическое решение. Однако на практике чаще используется приближенный численный алгоритм под названием метод градиентного спуска. Этот метод вычисляет последовательные приближения к точке минимума целевой функции J. В текущей точке вычисляется направление наибольшего убывания целевой функции, которое совпадает с направлением отрицательного градиента J . В качестве очередного приближения к точке минимума выбирается точка, лежащая на этом направлении.

Для минимизации среднего квадрата отклонения mse можно напрямую использовать метод градиентного спуска. Однако, если размерность n пространства объектов велика, вычисление градиента будет обладать большой погрешностью. Чтобы устранить это ограничение, используется модификация этого метода, которая называется методом стохастического градиентного спуска.

Идея метода стохастического градиентного спуска состоит в следующем. Целевая функция mse представляет собой сумму неотрицательных слагаемых, каждому из которых соответствует свой обучающий пример. На каждом шаге вычислительного процесса можно случайным образом выбирать подмножество обучающих примеров. Для очередного приближения будет строиться направление убывания не всей целевой функции, а только суммы слагаемых, соответствующих выбранным обучающим примерам.

Целевая функция mse является выпуклой, поэтому применение метода стохастического градиентного спуска будет порождать последовательность приближений, сходящихся к глобальной точке минимума.

Задача восстановления регрессии может быть обобщена. В качестве множества целевых значений может выступать множество (s 1 ). Такую задачу будем называть задачей восстановления многомерной регрессии. Простейший подход к ее решению сводится к решению s отдельных задач восстановления регрессии. Каждой координате целевых значений соответствует своя отдельная задача. 2.2 Логистическая регрессия Одним из популярных способов решения задачи классификации является метод логистической регрессии. В базовой постановке решается задача бинарной классификации. Предполагается, что (n 1 ), 0,1 . В качестве гипотез выступают функции вида h, x 1

1 exp 〈θ, x〉 θ Гипотеза интерпретируется как условная вероятность принадлежности объекта x классу 1, а именно p y 1 |x; θ, θ h , x и p y 0 |x; θ, θ 1 h , x . Если p y 1 |x; θ, θ 0.5 , то считается, что объект x принадлежит классу 1, иначе он принадлежит классу 0.

Для нахождения подходящей гипотезы по множеству обучающих примеров строится функция правдоподобия, для которой в свою очередь решается задача максимизации

L θ, θ p y |x ; θ, θ ⟶ max.

, Метод логистической регрессии естественным образом обобщается на случай | | 2 . 3 Изменение модели и размерности векторного представления В данном разделе будет описан алгоритм построения векторного представления текстов, согласованный с заданным векторным представлением слов. Будет проведен анализ результатов тестирования этого алгоритма. 3.1 Построение векторного представления набора текстов Пусть - набор текстов, а – словарь, состоящий из всех слов, встречающихся в текстах из набора . Отображение вида τ: ⟶ будем называть векторным представлением текстов, а отображение вида δ: ⟶ будем называть векторным представлением слов. При этом число n будем называть размерностью векторного представления.

Алгоритм.

Вход: δ , δ - векторные представления слов, соответственно размерности n и m; τ - векторное представление текстов размерности n; - модель решения задачи восстановления многомерной регрессии (не обязательно линейной).

Выход: τ - векторное представление текстов размерности m. Начало. 1. Построим T ∶ δ w , δ w w ∈ . 2. С помощью модели и множества обучающих примеров T построим многомерную регрессию ρ: ⟶ . 3. Положим τ ∶ ρ ∘ τ . Конец.

В основе описанного алгоритма лежит простая идея, согласно которой каждому слову из рассматриваемого словаря сопоставлено по два вектора. Первый вектор получается с помощью исходного векторного представления τ , а второй вектор – с помощью целевого векторного представления τ . Подобные пары векторов рассматриваются как обучающие примеры, на основе которых строится многомерная регрессия. Полученная регрессия применяется к векторному представлению текстов, согласованному с исходным векторным представлением слов. Можно сделать эвристически обоснованное предположение, что получившееся векторное представление текстов будет согласовано с целевым векторным представлением слов. Требуется выработать способ проверки степени обоснованности выдвинутого предположения. Точнее, необходимо выработать подход к оценке качества получившегося в результате применения алгоритма векторного представления текстов.

В рамках предлагаемого подхода качество векторного представления текстов оценивается с точки зрения решения задачи классификации. Поэтому будем предполагать, что набор текстов разбит на конечное число попарно непересекающихся классов, а также сформированы тренировочная T и тестовая T выборки.

Через τ T будем обозначать следующую модификацию множества обучающих примеров T с помощью векторного представления текстов τ. В каждом обучающем примере текст t заменяется на его векторное представление τ t .

Зафиксируем некоторую модель решения задачи классификации. Тогда векторное представление текстов τ можно оценивать через точность решения задачи классификации текстов в рамках модели . При этом предполагается, что объектами обучающих примеров являются вектора текстов, полученные с помощью представления τ. Метод скользящего контроля предписывает одновременно оценивать две величины

a τ accτ T , h и a τ accτ T , h , с целью выявления случаев недообучения и переобучения.

Поэтому, если требуется определить, насколько построенное целевое представление текстов τ «лучше» («хуже») исходного представления τ , то разумным выглядит подход, когда в качестве соответствующей оценки берутся значения двух величин

e τ , τ и e τ , τ .

Если построенные величины приблизительно равны единице, то можно считать, что качество исходного и целевого векторного представления одинаково. Если эти величины строго больше (меньше) единицы, то можно считать, что построенное целевое векторное представление лучше (хуже), чем исходное.

Если имеется набор различных моделей решения задачи классификации, то величины e и e могут быть вычислены для каждой из них. В этом случае будем рассматривать максимальное и среднее значение этих величин.

Далее представим результаты экспериментов над тестовыми наборами данных, которые получены с целью анализа эффективности построенного алгоритма. 3.2 Эксперименты В ходе проведения экспериментов использовалось два набора тестовых данных1. Каждый набор был предварительно разделен на тренировочную и тестовую выборку. Набор movies содержит рецензии к кинофильмам. Каждая рецензия отнесена к одному из шести жанров. Набор состоит из 44012 элементов. Набор twitter состоит из сообщений одноименной социальной сети. Каждое сообщение оценено как позитивное или негативное. Набор состоит из 1596753 элементов.

Для каждого набора данных всегда можно построить тривиальный классификатор. Этот классификатор относит все объекты к одному классу, содержащему наибольшее количество элементов. Точность тривиального классификатора равна отношению размера класса с наибольшим количеством элементов к размеру всего набора данных. Точность тривиального классификатора задает своеобразную нижнюю границу. Классификаторы с меньшей точностью следует рассматривать как неадекватные. Для набора movies точность тривиального классификатора равна 0.48, а для набора twitter равна 0.50.

Для генерации векторных представлений типа Word2Vec и Doc2Vec использовалась библиотека Gensim2. Для генерации векторных представлений типа Glove использовалась разработанная авторами этой модели программа3.

Для набора movies были созданы исходные векторные представления типа DBOW размерностей 50, 100, 200 и 300. При этом создавались векторные представления текстов и согласованные с ними векторные представления слов. В качестве целевых были созданы векторные представления слов типа CBOW, SG и GloVe размерностей 50, 100 и 200. Для набора twitter были созданы векторные представления аналогичных типов, но только размерностей 50 и 100.

В ходе проведения экспериментов использовались модели машинного обучения, реализованные в библиотеке Scikit-Learn4. Использовался класс LinearRegression, реализующий модель линейной регрессии и класс MultiOutputRegressor, реализующий модель многомерной регрессии. В качестве модели решения задачи классификации была использована логистическая регрессия, реализованная в классе LogisticRegression. Этот класс имеет набор конфигурационных параметров. В частности, может быть выбран алгоритм решения соответствующей оптимизационной задачи (newton-cg, lbfgs, liblinear, sag, saga), задан генератор псевдослучайных чисел, а также установлен параметр регуляризации. Выбор различных комбинаций значений этих параметров будет приводить к созданию разных классификаторов. В ходе проведения экспериментов рассматривались все предустановленные алго1 Наборы тестовых данных находятся в сети Интернет по адресу https://github.com/group112/se2019 2 https://radimrehurek.com/gensim 3 https://nlp.stanford.edu/projects/glove 4 https://scikit-learn.org ритмы решения оптимизационной задачи, пять различных начальных значений генератора псевдослучайных чисел и девять различных значений параметра регуляризации в диапазоне 10 , 1000 .

В таблице 1 собраны результаты тестирования алгоритма на наборе данных movies. Строка таблицы соответствует исходному векторному представлению, а столбец - целевому. Таким образом, ячейка соответствует регрессии, отображающей исходное векторное представление в целевое векторное представление. Каждая ячейка содержит пять чисел. Первые четыре числа являются характеристиками построенных классификаторов. Это, соответственно, максимальное и среднее значение величины e , а также максимальное и среднее значение величины e . Пятое число – это средний квадрат отклонения построенной регрессии.

Таблица 1. Результаты тестирования алгоритма на наборе данных movies.

CBOW 50 CBOW 100

Целевое представление (модель, размерность) CBOW SG SG SG GloVe 200 50 100 200 50 Построенные классификаторы обладали следующими характеристиками. На тренировочной (тестовой) выборке минимальная, максимальная и средняя точности равны соответственно 0.48, 0.96 и 0.86 (0.48, 0.87 и 0.79). Все эти числа не меньше точности тривиального классификатора. Было принято решение для последующего анализа оставить результаты только «сильных» классификаторов, точность которых превосходит средние значения. Показатели каждой из ячеек со столбцами типа CBOW и SG были сформированы на основе обобщения результатов 300 пар классификаторов, а показатели ячеек со столбцами типа GloVe – 150 пар классификаторов.

Следует обратить внимание на то, что классификаторы, построенные для целевых векторных представлений, обладают строго большей точностью, чем классификаторы, построенные для исходных векторных представлений. Более того, показатели точности зависят только от типа целевого векторного представления и практически не зависят от размерностей исходного и целевого векторных представлений. Этот результат сложно назвать ожидаемым. Построенные целевые векторные представления текстов оказались с точки зрения решения задачи классификации лучше, чем исходные представления.

Неожиданное поведение продемонстрировал также показатель точности регрессии. В каждом столбце он одинаковый. Этот факт означает, что точность регрессии никак не зависит от размерности исходного векторного представления. Если анализировать точность регрессии построчно, то можно заметить, что в границах одного типа целевого векторного представления с ростом его размерности эта точность улучшается.

Результаты тестирования алгоритма на наборе данных twitter, приведенные в таблице 2, в общем, подтверждают результаты, полученные на наборе данных movies. Некоторое отличие состоит в том, что целевые векторные представления обладают приблизительно теми же самыми характеристиками, что и исходные представления. Нет особых улучшений, но и ухудшения незначительны.

Во всех рассмотренных случаях нельзя сделать вывод, что построенные регрессии обладают большой точностью. Оценки их точности лежат в диапазоне 0.046,0.390 для набора movies и в диапазоне 0.052,0.656 для набора twitter. Можно предположить, что с точки зрения решения задачи классификации какую-либо роль играют только старшие разряды (после запятой) значений координат векторных представлений текстов. Поэтому младшие В настоящей статье был представлен подход к формированию векторного представления текстов, согласованного с заданным векторным представлением слов. Качество векторного представления текстов определяется точностью решения задачи классификации текстов, которую можно достигнуть, используя это векторное представление.

В основу подхода была положена идея трансформации векторного представления слов, согласованного с заданным векторным представлением текстов. Подобная трансформация включает изменение модели и размерности векторного представления. Ее целью может служить желание использовать векторные представления, более адекватно описывающие предметную область, а также желание уменьшить их размерность, которая напрямую влияет на затраты по их хранению и обработке. Рассматриваемые трансформации векторных представлений реализуются в виде решения задачи восстановления многомерной регрессии. Полученные в ходе проведение экспериментов результаты показали эффективность предложенного подхода. Качество построенных целевых векторных представлений текстов оказалось не хуже, а в большинстве случаев лучше исходных.

Был получен ряд экспериментальных результатов, касающихся точности построенных регрессий векторных представлений. Некоторые из них оказались неожиданными и требующими дальнейшего осмысления. Например, оказалось, что точность регрессии не зависит от размерности исходного векторного представления, а определяется только типом и размерностью целевого векторного представления.

Относительная невысокая точность регрессий навела на мысль, что координаты векторных представлений могут быть округлены. Это не приводит к ухудшению качества векторных представлений с точки зрения решения задачи классификации, однако позволяет значительно уменьшить их размер.

Полученные результаты свидетельствуют о том, что методы решения задачи восстановления многомерной регрессии могут успешно использоваться для формирования векторных представлений текстов с улучшенными характеристиками. В настоящей работе предполагалось, что множество текстов фиксировано. Дальнейшее развитие предложенного подхода будет связано со случаем, когда исходное множество текстов может быть расширено. Тем самым, будет рассматриваться задача интерполяции векторного представления текстов. Список использованной литературы

[1] Mikolov

, Chen

, Corrado

, Dean

. Efficient Estimation of Word Representations in Vector, Computing Research Repository (CoRR) , 2013 , pp. 1 - 12 , available at: https://arxiv.org/abs/1301.3781.

[2] Mikolov

, Sutskever

, Chen

, Corrado

, Dean

. Distributed representations of words and phrases and their compositionality , Proceedings of the 26th International Conference on Neural Information Processing Systems , 2013 , vol. 2 , pp. 3111 - 3119 .

[3] Pennington

, Socher

, Manning

C.D.

GloVe: Global Vectors for Word Representation , Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) , 2014 , pp. 1532 - 1544 .

[4] Sebastiani

Machine learning in automated text categorization , ACM Computing Surveys , 2002 , vol. 34 , no. 1 , pp. 1 - 47 .

[5] Kim

Convolutional

Neural Networks for Sentence Classification , Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP) , 2014 , pp. 1746 - 1751 .

[6] Le

, Mikolov

. Distributed Representations of Sentences and Documents , Proceedings of the 31st International Conference on Machine Learning , 2014 , vol. 32 , no. 2 , pp. 1188 - 1196 .

[7] Mu

, Bhat

, Viswanath P. All-but-the-Top: Simple and Effective Post-processing for Word Representations , Computing Research Repository (CoRR) , 2018 , pp. 1 - 25 , available at: https://arxiv.org/abs/1702.01417.

[8] Bishop

C.M. Pattern

Recognition and Machine Learning , Springer, Science+Business Media

LLC

, 2006 , 738 p.

[9] Harris

Z. Distributional structure

, Word , 1954 , vol. 10 , no. 23 , pp. 146 - 162 .

[10] Rong

word2vec Parameter Learning Explained, Computing Research Repository (CoRR) , 2016 , pp. 1 - 21 , available at: https://arxiv.org/abs/1411.2738.