=Paper=
{{Paper
|id=Vol-2133/cnia-paper4
|storemode=property
|title=Modélisation thématique à l’aide des plongements lexicaux issus de Word2Vec(Topic modeling with word embeddings)
|pdfUrl=https://ceur-ws.org/Vol-2133/cnia-paper4.pdf
|volume=Vol-2133
|dblpUrl=https://dblp.org/rec/conf/rjcia/GaleshchukF18
}}
==Modélisation thématique à l’aide des plongements lexicaux issus de Word2Vec(Topic modeling with word embeddings)==
Modélisation thématique à l’aide des plongements lexicaux issus de Word2Vec Svitlana Galeshchuk1 Bruno Chaves1 1 PSL Université Paris, Governance Analytics {svitlana.galeshchuk,bruno.chavesferreira}@dauphine.fr Résumé pêche la découverte de mots nouveaux émergeant des thé- matiques. Pour cela, il est recommandé d’employer des dis- Le papier étudie diverses approches pour la modélisation tributions continues permettant au modèle d’attribuer à un thématique et, en particulier, la méthode améliorée basée mot nouveau une probabilité élevée d’appartenance à une sur la paramétrisation des thèmes à partir d’une distribu- thématique simplement parce que ce dernier est similaire tion continue sur l’espace des plongements lexicaux afin à un mot existant représentatif de la thématique en ques- de tenir compte des interdépendances sémantiques. Ainsi, tion. Dans ce contexte, nous étudions la méthode LDA sta- nous incorporons les représentations vectorielles des mots tique et ses formes modifiées avec des distributions de mots entrainés avec le réseau de neurones Word2Vec dans le continues suivant des lois normales et bêta. processus génératif de la modélisation thématique. Nous proposons une approche alternative avec une approxima- Le papier a ainsi pour objectif d’améliorer l’algorithme du tion bêta de la distribution de l’information mutuelle et la modèle LDA standard à l’aide de l’approche continue, no- comparons aux méthodes LDA standard et LDA Gaussien. tamment la loi bêta, sur les plongements lexicaux (word embeddings). Mots Clefs La suite du papier est structurée de la manière suivante : Modélisation Thématique, Latent Dirichlet Allocation, La section 2 présente une brève revue de la littérature de LDA Gaussien, Information Mutuelle, Plongements Lexi- la modélisation thématique. La section 3 décrit l’approche caux, Word2Vec. LDA standard. La section 4 présente la méthodologie de l’approche faisant appel à une distribution continue avec Abstract les plongements lexicaux. La section 5 introduit les don- This paper discusses approaches for static topic modeling, nées utilisées. La section 6 décrit le dispositif expérimen- in particular an improved method based on topic parame- tal. Enfin, la section 7 conclut en présentant les résultats et trization from a continuous distribution over the space of des pistes pour des recherches futures. word embeddings. Word embeddings corpora proves to re- flect semantic interdependences. Thus, we incorporate vec- 2 Revue de la littérature torized word representations trained with Word2Vec neural La modélisation thématique, fondée sur la méthode LDA, network in a generative process of topic modeling. The al- est devenue l’une des principales méthodes de fouille tex- ternative approach with beta approximation of mutual in- tuelle de la dernière décennie. Elle fait partie de la famille formation distribution over embeddings is proposed and des méthodes d’apprentissage non supervisées destinées à compared with vanilla LDA and Gaussian LDA methods. extraire les structures thématiques latentes des corpus tex- Keywords tuels. Cette approche a été appliquée avec succès à des domaines Topic Modelling, Latent Dirichlet Allocation, Gaussian de recherche variés : le journalisme, pour analyser les LDA, Mutual Information, Word Embedding, Word2Vec. structures et tendances thématiques des articles de presse [7], les corpus de brevets [5], ou encore, pour classifier les 1 Introduction textes issus de la littérature scientifique [14]. Toutefois, la La modélisation thématique est devenue une méthode de méthode LDA n’est pas exempte de défauts. En particulier, choix pour la fouille de données textuelles non structurées. la représentation des thématiques définies comme des dis- De nombreux papiers (voir partie 2) se consacrent à l’im- tributions discrètes de mots empêche la prise en considéra- plémentation de cette méthode, usuellement fondée sur la tion de mots nouveaux. Cette limitation peut être contour- LDA (Latent Dirichlet Allocation), dans des domaines va- née en mobilisant, à la place, une distribution continue riés allant des textes juridiques aux papiers scientifiques. de mots sur des plongements lexicaux. Ces derniers défi- La méthode LDA définit les probabilités de mots sur une nissent la représentation vectorielle des mots basée sur le loi de Dirichlet qui appartient à la famille des distributions contexte de leur utilisation au sein du corpus. discrètes. Toutefois, l’usage de distributions discrètes em- Blei et al. [1] proposent d’utiliser une distribution gaus- sienne dans le processus génératif de la modélisation thé- de représenter les thématiques à partir d’une distribution matique dynamique afin de suivre l’évolution des théma- continue plutôt que discrète. tiques au cours du temps. Dans cette étude, nous nous foca- lisations sur l’usage de distributions continues pour l’amé- 4.1 Le plongement lexical lioration de la modélisation thématique statique plutôt que Le modèle de Word2Vec est la représentation interne à par- dynamique. En poursuivant un objectif similaire au notre, tir d’un modèle de réseau de neurones de séquences de certains travaux [6], [11] et [12] ont proposé l’utilisation mots. Word2Vec utilise le perceptron monocouche pour ap- de la distribution gaussienne. Toutefois, dans notre papier, prendre le plongement lexical des mots ; c’est-à-dire que nous nous fondons plutôt sur les contributions de Das et al. les mots sont appris à partir du contexte où ils sont men- [3] et Xun et al. [13]. Ces auteurs font émerger les théma- tionnés. Deux approches de Word2Vec sont proposées : tiques d’une distribution gaussienne sur des plongements CBOW et skip-gram. Nous implémentons le modèle skip- lexicaux en utilisant le modèle Word2Vec. De manière si- gram avec un échantillonnage négatif. Dans le processus milaire, nous utilisons le modèle Word2Vec pour présenter d’apprentissage de Word2Vec, les mots avec des significa- les mots sous la forme de vecteurs et déduire les théma- tions similaires convergent de manière graduelle vers les tiques de distributions continues. Toutefois, nous justifions zones voisines de l’espace vectoriel [13]. Nous enrichis- l’usage de la distribution bêta plutôt que gaussienne sur la sons les mots du corpus en les remplaçant par les mots cor- base des résultats de Levy et Goldberg [8]. En effet, ces au- respondants de Word2Vec comme dans l’approche définie teurs montrent que le modèle Word2Vec estime de manière par Xun et al. [13]. implicite les informations mutuelles des paires de mots. 4.2 La méthodologie de l’algorithme de LDA 3 Modélisation thématique LDA Gaussien et l’approche développée standard La modélisation thématique de corpus textuels avec LDA est fondée sur les fréquences de types de mots. L’approche Le modèle LDA (Latent Dirichlet Allocation) est un mo- que nous utilisons est fondée sur l’idée selon laquelle dèle Bayésien faisant partie de la famille des modèles non les textes représentent des séquences de plongement lexi- supervisés génératifs où les observations sont générées par caux. Word2Vec transforme les mots en des vecteurs. Les des variables latentes. Dans le contexte de la modélisation mots, usuellement représentés par des valeurs discrètes, thématique, on cherche à découvrir des thèmes latents, à sont alors modifiés en des valeurs continues. Das et al. [3] partir d’une collection de documents (articles, ouvrages, font émerger les thématiques d’une distribution gaussienne etc.) considérés comme des « sacs de mots » (bag-of- sur ces plongements lexicaux et placent les a priori conju- words) dans le sens où l’on ne tient pas compte de l’ordre gués sur les valeurs suivantes : loi normale centrée à zéro des mots. Chaque document est modélisé par un mélange pour la moyenne et la covariance. de thèmes qui génère ensuite chaque mot du document. Ils considèrent chaque document comme un mélange de Blei et al. [2] décrivent le processus génératif de LDA de thèmes de la loi de Dirichlet et décrivent le processus gé- la manière suivante : nératif de LDA Gaussien suivant : 1. Pour k = 1 à K : 1. Pour k = 1 à K : (a) Déduire la φ(k) ∼ Dirichlet(β) (a) Déduire la covariance du thème 2. Pour chaque document d dans le corpus D : Ek ∼ W −1 (φ, v) (a) Déduire la distribution de thèmes (b) Déduire la moyenne du thème θd ∼ Dirichlet(α) 1 µk ∼ N (µ, K Ek ) (b) Pour chaque index de mots n de 1 à Nd : 2. Pour chaque document d dans le corpus D : i. Déduire le thème zn ∼ M ultinomiale(θd ) (a) Déduire la distribution de thèmes ii. Déduire wd,n ∼ M ultinomiale(φzn ) θd ∼ Dirichlet(α) Où φ(k) est la distribution de mots dans le vocabulaire du (b) Pour chaque index de mots n de 1 à Nd : k ime thème, θd est la distribution de thèmes dans le docu- i. Déduire le thème zn ∼ M ultinomiale(θd ) ment d et zn est le thème n associé au mot wd,n . ii. Déduire vd,n ∼ N (µzn , Ezn ) 4 Modélisation thématique à partir Ici vd,n est la représentation vectorielle du mot dans le do- cument. W −1 est la loi de Wishart inverse pour la cova- d’une distribution continue riance. Cette partie de l’article présente l’approche gaussienne de Les auteurs justifient le choix de la paramétrisation gaus- la modélisation thématique fondée sur le plongement lexi- sienne par les observations de Hermann et Blunsom [4] se- cal et le modèle Word2Vec. Nous commençons par décrire lon lesquelles les distances euclidiennes entre les plonge- Word2Vec et son utilisation dans le cadre de la modélisa- ments lexicaux sont corrélés avec la similarité sémantique. tion thématique. Ensuite, nous discutons de la possibilité Pourtant, Levy et Goldberg [8] démontrent que le modèle de Word2Vec factorise une matrice de contexte de mots particulièrement, celle proposée par Röder et al. [10]. Les (co-occurrence matrix) de manière implicite. Ses cellules auteurs élaborent une méthodologie permettant de mesurer sont les informations mutuelles des paires de mots et de la cohérence thématique qui consiste à mesurer l’ajuste- contextes respectifs décalés d’une constante globale. Ainsi, ment entre des paires les mots ou sous-ensemble de mots. les vecteurs de mots sont déduits de la distribution des in- L’algorithme commence par effectuer une segmentation formations mutuelles. Zaffalon et Hutter [15] montrent que par paires de mots. Ensuite, chaque paire de mots est éva- la meilleure approximation de la loi de l’informations mu- luée à l’aide d’un score d’information mutuelle spécifique tuelles conditionnelles est la loi bêta. Elle appartient à une (pointwise mutual information) normalisée et les probabili- famille de lois de probabilités continues. Dans notre ap- tés des mots sont calculées. La cohérence résulte de l’agré- proche nous suivrons les résultats de Zaffalon et Hutter gation de la concordance des paires sur la base des proba- [15]. Par suite nous proposons le processus génératif de bilités calculées. Pour cela, nous avons utilisé la librairie LDA : Python Palmetto qui permet de calculer la cohérence thé- matique des ensembles de mots ci-dessous. Les résultats 1. Pour k = 1 à K : (arrondis) obtenus sont présentés dans la dernière ligne des (a) Déduire la covariance du thème tables 1, 2 et 3. Notre approche obtient le score agrégé, sur Ek ∼ W −1 (φ, v) les 4 thèmes, le plus élevé (1.342). L’approche LDA stan- (b) Déduire la moyenne du thème dard arrive en second (1.315) et le LDA gaussien en dernier µk ∼ N (µ, K1 Ek ) (1.246). Ces résultants n’en restent pas moins très proches. Par conséquent, nous envisageons d’utiliser d’autres mé- 2. Pour chaque document d dans le corpus D : thodes qualitatives et quantitatives dans des recherches fu- (a) Déduire la distribution de thèmes tures. θd ∼ Dirichlet(α) (b) Pour chaque index de mots n de 1 à Nd : Management Institutional Legal Market framework framework environment i. Déduire le thème zn ∼ M ultinomiale(θd ) firm institution policy contract market country state cost ii. Déduire vd,n ∼ bêta(αn , βzn ) law level law agent industry development model transaction Où α et β sont les paramètres de forme de la distribution innovation growth government model investment government court governance bêta. incentive effect decision market cost state election property 5 Les données utilisées organization model sector impact party case system party Dans notre étude, nous utilisons un corpus composé des 0.442 0.311 0.316 0.250 titres et résumées des articles présentés à la conférence SIOE (Society for Institutional & Organizational Econo- TABLE 1: Modélisation thématique LDA standard mics) de 2008 à 2017. SIOE est une société savante inter- Management Institutional Legal Market nationale sur l’économie des institutions et organisations. framework framework environment firm state innovation business Elle organise chaque année la principale conférence inter- market corruption patent analysis nationale consacrée à la recherche sur ces thématiques. Les cost development property decision données ont été récupérés à partir de la base de données performance industry patent market industry market regulation right MySQL du site web de la conférence (www.sioe.org). quality governance judge datum procurement institution law change 6 Démarche expérimentale incentive strategy policy regime crime rule innovation governance Les résultats issus du modèle LDA standard, le modèle thé- agent economy firm capital 0.390 0.433 0.323 0.098 matique reproduit à partir de Das et al., 2015 [3] et le mo- dèle que nous avons développé sont présentés, respective- TABLE 2: Modélisation thématique de Das et al. [3] ment, dans les tables 1, 2 et 3. Par ailleurs, la visualisation Management Institutional Legal Market des résultats LDA avec librairie Python pyLDA est présen- framework framework environment tée dans la figure 1 ci-dessous. Les trois modèles sont pré- firm government enforcement firm sentés comme des clusters de mots sur 4 thématiques. contract country law market cost level patent country Ces dernières sont assez proches dans les 3 modèles. On price state property land peut les représenter par les termes suivants : « Management market market right investment governance tax system capital », « Institutional framework », « Legal framework » et « procurement institution rule innovation Market environment ». transaction agent crime price L’évaluation est l’un des principaux défis de la modéli- agent decision judge level strategy policy firm change sation thématique. Des méthodes qualitatives et quantita- 0.467 0.263 0.321 0.290 tives peuvent être mobilisées comme dans [3] et [13]. Nous avons décidé d’utiliser une méthode quantitative et, plus TABLE 3: Notre Modélisation (distribution bêta) F IGURE 1 – Visualisation du thème « Institutional framework » avec le modèle LDA standard Références Recognition (pp. 556-563). Springer, Berlin, Heidel- berg. [1] Blei, D. M., & Lafferty, J. D. (2006, June). Dynamic [7] Jacobi, C., van Atteveldt, W., & Welbers, K. (2016). topic models. In Proceedings of the 23rd internatio- Quantitative analysis of large amounts of journalistic nal conference on Machine learning (pp. 113-120). texts using topic modelling. Digital Journalism, 4(1), ACM. 89-106 [2] Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). La- [8] Levy, O., & Goldberg, Y. (2014). Neural word em- tent dirichlet allocation. Journal of machine Learning bedding as implicit matrix factorization. In Advances research, 3(Jan), 993-1022. in neural information processing systems (pp. 2177- [3] Das, R., Zaheer, M., & Dyer, C. (2015). Gaussian lda 2185). for topic models with word embeddings. In Procee- [9] Naili, M., Chaibi, A. H., & Ghezala, H. H. B. (2017). dings of the 53rd Annual Meeting of the Association Comparative study of word embedding methods in to- for Computational Linguistics and the 7th Internatio- pic segmentation. Procedia Computer Science, 112, nal Joint Conference on Natural Language Proces- 340-349. sing (Volume 1 : Long Papers) (Vol. 1, pp. 795-804). [10] Röder, M., Both, A., & Hinneburg, A. (2015, Fe- [4] Hermann, K. M., & Blunsom, P. (2014). Multilin- bruary). Exploring the space of topic coherence mea- gual models for compositional distributed semantics. sures. In Proceedings of the eighth ACM internatio- arXiv preprint arXiv :1404.4641. nal conference on Web search and data mining (pp. 399-408). ACM. [5] Hu, Z., Fang, S., & Liang, T. (2014). Empirical study [11] Wang, C., Blei, D., & Heckerman, D. (2012). Conti- of constructing a knowledge organization system of nuous time dynamic topic models. arXiv preprint patent documents using topic modeling. Scientome- arXiv :1206.3298. trics, 100(3), 787-799. [12] Weinshall, D., Levi, G., & Hanukaev, D. (2013, Fe- [6] Hu, P., Liu, W., Jiang, W., & Yang, Z. (2012, Sep- bruary). LDA topic model with soft assignment of tember). Latent topic model based on Gaussian-LDA descriptors to words. In International Conference on for audio retrieval. In Chinese Conference on Pattern Machine Learning (pp. 711-719). [13] Xun, G., Gopalakrishnan, V., Ma, F., Li, Y., Gao, J., & Zhang, A. (2016, December). Topic discovery for short texts using word embeddings. In Data Mining (ICDM), 2016 IEEE 16th International Conference on (pp. 1299-1304). IEEE. [14] Yau, C-K, Porter, A.L., Newman, N.C., and Suomi- nen, A. (2014), Clustering scientific documents with topic modeling, Scientometrics, GTM special issue ; 100 (3) 767-786. [15] Zaffalon, M. & Hutter M. (2002). Robust feature se- lection by mutual information distributions. In Pro- ceedings of the Eighteenth conference on Uncertainty in artificial intelligence (UAI’02), Adnan Darwiche and Nir Friedman (Eds.). Morgan Kaufmann Publi- shers Inc., San Francisco, CA, USA, 577-584.