=Paper= {{Paper |id=Vol-2133/cnia-paper4 |storemode=property |title=Modélisation thématique à l’aide des plongements lexicaux issus de Word2Vec(Topic modeling with word embeddings) |pdfUrl=https://ceur-ws.org/Vol-2133/cnia-paper4.pdf |volume=Vol-2133 |dblpUrl=https://dblp.org/rec/conf/rjcia/GaleshchukF18 }} ==Modélisation thématique à l’aide des plongements lexicaux issus de Word2Vec(Topic modeling with word embeddings)== https://ceur-ws.org/Vol-2133/cnia-paper4.pdf
  Modélisation thématique à l’aide des plongements lexicaux issus de Word2Vec

                             Svitlana Galeshchuk1                            Bruno Chaves1
                                    1
                                        PSL Université Paris, Governance Analytics
                             {svitlana.galeshchuk,bruno.chavesferreira}@dauphine.fr


Résumé                                                           pêche la découverte de mots nouveaux émergeant des thé-
                                                                 matiques. Pour cela, il est recommandé d’employer des dis-
Le papier étudie diverses approches pour la modélisation
                                                                 tributions continues permettant au modèle d’attribuer à un
thématique et, en particulier, la méthode améliorée basée
                                                                 mot nouveau une probabilité élevée d’appartenance à une
sur la paramétrisation des thèmes à partir d’une distribu-
                                                                 thématique simplement parce que ce dernier est similaire
tion continue sur l’espace des plongements lexicaux afin
                                                                 à un mot existant représentatif de la thématique en ques-
de tenir compte des interdépendances sémantiques. Ainsi,
                                                                 tion. Dans ce contexte, nous étudions la méthode LDA sta-
nous incorporons les représentations vectorielles des mots
                                                                 tique et ses formes modifiées avec des distributions de mots
entrainés avec le réseau de neurones Word2Vec dans le
                                                                 continues suivant des lois normales et bêta.
processus génératif de la modélisation thématique. Nous
proposons une approche alternative avec une approxima-           Le papier a ainsi pour objectif d’améliorer l’algorithme du
tion bêta de la distribution de l’information mutuelle et la     modèle LDA standard à l’aide de l’approche continue, no-
comparons aux méthodes LDA standard et LDA Gaussien.             tamment la loi bêta, sur les plongements lexicaux (word
                                                                 embeddings).
Mots Clefs                                                       La suite du papier est structurée de la manière suivante :
Modélisation Thématique, Latent Dirichlet Allocation,            La section 2 présente une brève revue de la littérature de
LDA Gaussien, Information Mutuelle, Plongements Lexi-            la modélisation thématique. La section 3 décrit l’approche
caux, Word2Vec.                                                  LDA standard. La section 4 présente la méthodologie de
                                                                 l’approche faisant appel à une distribution continue avec
Abstract                                                         les plongements lexicaux. La section 5 introduit les don-
This paper discusses approaches for static topic modeling,       nées utilisées. La section 6 décrit le dispositif expérimen-
in particular an improved method based on topic parame-          tal. Enfin, la section 7 conclut en présentant les résultats et
trization from a continuous distribution over the space of       des pistes pour des recherches futures.
word embeddings. Word embeddings corpora proves to re-
flect semantic interdependences. Thus, we incorporate vec-       2    Revue de la littérature
torized word representations trained with Word2Vec neural        La modélisation thématique, fondée sur la méthode LDA,
network in a generative process of topic modeling. The al-       est devenue l’une des principales méthodes de fouille tex-
ternative approach with beta approximation of mutual in-         tuelle de la dernière décennie. Elle fait partie de la famille
formation distribution over embeddings is proposed and           des méthodes d’apprentissage non supervisées destinées à
compared with vanilla LDA and Gaussian LDA methods.              extraire les structures thématiques latentes des corpus tex-
Keywords                                                         tuels.
                                                                 Cette approche a été appliquée avec succès à des domaines
Topic Modelling, Latent Dirichlet Allocation, Gaussian           de recherche variés : le journalisme, pour analyser les
LDA, Mutual Information, Word Embedding, Word2Vec.               structures et tendances thématiques des articles de presse
                                                                 [7], les corpus de brevets [5], ou encore, pour classifier les
1 Introduction                                                   textes issus de la littérature scientifique [14]. Toutefois, la
La modélisation thématique est devenue une méthode de            méthode LDA n’est pas exempte de défauts. En particulier,
choix pour la fouille de données textuelles non structurées.     la représentation des thématiques définies comme des dis-
De nombreux papiers (voir partie 2) se consacrent à l’im-        tributions discrètes de mots empêche la prise en considéra-
plémentation de cette méthode, usuellement fondée sur la         tion de mots nouveaux. Cette limitation peut être contour-
LDA (Latent Dirichlet Allocation), dans des domaines va-         née en mobilisant, à la place, une distribution continue
riés allant des textes juridiques aux papiers scientifiques.     de mots sur des plongements lexicaux. Ces derniers défi-
La méthode LDA définit les probabilités de mots sur une          nissent la représentation vectorielle des mots basée sur le
loi de Dirichlet qui appartient à la famille des distributions   contexte de leur utilisation au sein du corpus.
discrètes. Toutefois, l’usage de distributions discrètes em-     Blei et al. [1] proposent d’utiliser une distribution gaus-
sienne dans le processus génératif de la modélisation thé-      de représenter les thématiques à partir d’une distribution
matique dynamique afin de suivre l’évolution des théma-         continue plutôt que discrète.
tiques au cours du temps. Dans cette étude, nous nous foca-
lisations sur l’usage de distributions continues pour l’amé-
                                                                4.1     Le plongement lexical
lioration de la modélisation thématique statique plutôt que     Le modèle de Word2Vec est la représentation interne à par-
dynamique. En poursuivant un objectif similaire au notre,       tir d’un modèle de réseau de neurones de séquences de
certains travaux [6], [11] et [12] ont proposé l’utilisation    mots. Word2Vec utilise le perceptron monocouche pour ap-
de la distribution gaussienne. Toutefois, dans notre papier,    prendre le plongement lexical des mots ; c’est-à-dire que
nous nous fondons plutôt sur les contributions de Das et al.    les mots sont appris à partir du contexte où ils sont men-
[3] et Xun et al. [13]. Ces auteurs font émerger les théma-     tionnés. Deux approches de Word2Vec sont proposées :
tiques d’une distribution gaussienne sur des plongements        CBOW et skip-gram. Nous implémentons le modèle skip-
lexicaux en utilisant le modèle Word2Vec. De manière si-        gram avec un échantillonnage négatif. Dans le processus
milaire, nous utilisons le modèle Word2Vec pour présenter       d’apprentissage de Word2Vec, les mots avec des significa-
les mots sous la forme de vecteurs et déduire les théma-        tions similaires convergent de manière graduelle vers les
tiques de distributions continues. Toutefois, nous justifions   zones voisines de l’espace vectoriel [13]. Nous enrichis-
l’usage de la distribution bêta plutôt que gaussienne sur la    sons les mots du corpus en les remplaçant par les mots cor-
base des résultats de Levy et Goldberg [8]. En effet, ces au-   respondants de Word2Vec comme dans l’approche définie
teurs montrent que le modèle Word2Vec estime de manière         par Xun et al. [13].
implicite les informations mutuelles des paires de mots.
                                                                4.2     La méthodologie de l’algorithme de LDA
3 Modélisation                thématique             LDA                Gaussien et l’approche développée
  standard                                                      La modélisation thématique de corpus textuels avec LDA
                                                                est fondée sur les fréquences de types de mots. L’approche
Le modèle LDA (Latent Dirichlet Allocation) est un mo-          que nous utilisons est fondée sur l’idée selon laquelle
dèle Bayésien faisant partie de la famille des modèles non      les textes représentent des séquences de plongement lexi-
supervisés génératifs où les observations sont générées par     caux. Word2Vec transforme les mots en des vecteurs. Les
des variables latentes. Dans le contexte de la modélisation     mots, usuellement représentés par des valeurs discrètes,
thématique, on cherche à découvrir des thèmes latents, à        sont alors modifiés en des valeurs continues. Das et al. [3]
partir d’une collection de documents (articles, ouvrages,       font émerger les thématiques d’une distribution gaussienne
etc.) considérés comme des « sacs de mots » (bag-of-            sur ces plongements lexicaux et placent les a priori conju-
words) dans le sens où l’on ne tient pas compte de l’ordre      gués sur les valeurs suivantes : loi normale centrée à zéro
des mots. Chaque document est modélisé par un mélange           pour la moyenne et la covariance.
de thèmes qui génère ensuite chaque mot du document.            Ils considèrent chaque document comme un mélange de
Blei et al. [2] décrivent le processus génératif de LDA de      thèmes de la loi de Dirichlet et décrivent le processus gé-
la manière suivante :                                           nératif de LDA Gaussien suivant :
    1. Pour k = 1 à K :                                               1. Pour k = 1 à K :
       (a) Déduire la φ(k) ∼ Dirichlet(β)                               (a) Déduire la covariance du thème
    2. Pour chaque document d dans le corpus D :                            Ek ∼ W −1 (φ, v)
       (a) Déduire la distribution de thèmes                            (b) Déduire la moyenne du thème
           θd ∼ Dirichlet(α)                                                            1
                                                                            µk ∼ N (µ, K  Ek )
       (b) Pour chaque index de mots n de 1 à Nd :                    2. Pour chaque document d dans le corpus D :
            i. Déduire le thème zn ∼ M ultinomiale(θd )                 (a) Déduire la distribution de thèmes
            ii. Déduire wd,n ∼ M ultinomiale(φzn )                          θd ∼ Dirichlet(α)
Où φ(k) est la distribution de mots dans le vocabulaire du              (b) Pour chaque index de mots n de 1 à Nd :
k ime thème, θd est la distribution de thèmes dans le docu-                  i. Déduire le thème zn ∼ M ultinomiale(θd )
ment d et zn est le thème n associé au mot wd,n .                           ii. Déduire vd,n ∼ N (µzn , Ezn )
4 Modélisation thématique à partir                              Ici vd,n est la représentation vectorielle du mot dans le do-
                                                                cument. W −1 est la loi de Wishart inverse pour la cova-
  d’une distribution continue                                   riance.
Cette partie de l’article présente l’approche gaussienne de     Les auteurs justifient le choix de la paramétrisation gaus-
la modélisation thématique fondée sur le plongement lexi-       sienne par les observations de Hermann et Blunsom [4] se-
cal et le modèle Word2Vec. Nous commençons par décrire          lon lesquelles les distances euclidiennes entre les plonge-
Word2Vec et son utilisation dans le cadre de la modélisa-       ments lexicaux sont corrélés avec la similarité sémantique.
tion thématique. Ensuite, nous discutons de la possibilité      Pourtant, Levy et Goldberg [8] démontrent que le modèle
de Word2Vec factorise une matrice de contexte de mots             particulièrement, celle proposée par Röder et al. [10]. Les
(co-occurrence matrix) de manière implicite. Ses cellules         auteurs élaborent une méthodologie permettant de mesurer
sont les informations mutuelles des paires de mots et de          la cohérence thématique qui consiste à mesurer l’ajuste-
contextes respectifs décalés d’une constante globale. Ainsi,      ment entre des paires les mots ou sous-ensemble de mots.
les vecteurs de mots sont déduits de la distribution des in-      L’algorithme commence par effectuer une segmentation
formations mutuelles. Zaffalon et Hutter [15] montrent que        par paires de mots. Ensuite, chaque paire de mots est éva-
la meilleure approximation de la loi de l’informations mu-        luée à l’aide d’un score d’information mutuelle spécifique
tuelles conditionnelles est la loi bêta. Elle appartient à une    (pointwise mutual information) normalisée et les probabili-
famille de lois de probabilités continues. Dans notre ap-         tés des mots sont calculées. La cohérence résulte de l’agré-
proche nous suivrons les résultats de Zaffalon et Hutter          gation de la concordance des paires sur la base des proba-
[15]. Par suite nous proposons le processus génératif de          bilités calculées. Pour cela, nous avons utilisé la librairie
LDA :                                                             Python Palmetto qui permet de calculer la cohérence thé-
                                                                  matique des ensembles de mots ci-dessous. Les résultats
    1. Pour k = 1 à K :
                                                                  (arrondis) obtenus sont présentés dans la dernière ligne des
       (a) Déduire la covariance du thème                         tables 1, 2 et 3. Notre approche obtient le score agrégé, sur
           Ek ∼ W −1 (φ, v)                                       les 4 thèmes, le plus élevé (1.342). L’approche LDA stan-
       (b) Déduire la moyenne du thème                            dard arrive en second (1.315) et le LDA gaussien en dernier
           µk ∼ N (µ, K1
                         Ek )                                     (1.246). Ces résultants n’en restent pas moins très proches.
                                                                  Par conséquent, nous envisageons d’utiliser d’autres mé-
    2. Pour chaque document d dans le corpus D :
                                                                  thodes qualitatives et quantitatives dans des recherches fu-
       (a) Déduire la distribution de thèmes                      tures.
           θd ∼ Dirichlet(α)
       (b) Pour chaque index de mots n de 1 à Nd :                   Management      Institutional      Legal         Market
                                                                                      framework      framework     environment
             i. Déduire le thème zn ∼ M ultinomiale(θd )                   firm        institution      policy        contract
                                                                          market        country          state           cost
            ii. Déduire vd,n ∼ bêta(αn , βzn )                            law             level          law           agent
                                                                         industry    development        model       transaction
Où α et β sont les paramètres de forme de la distribution              innovation        growth      government        model
                                                                       investment     government        court       governance
bêta.                                                                   incentive         effect       decision        market
                                                                           cost            state       election       property
5 Les données utilisées                                               organization
                                                                          model
                                                                                          sector
                                                                                         impact
                                                                                                        party
                                                                                                         case
                                                                                                                       system
                                                                                                                        party
Dans notre étude, nous utilisons un corpus composé des                    0.442           0.311         0.316           0.250
titres et résumées des articles présentés à la conférence
SIOE (Society for Institutional & Organizational Econo-               TABLE 1: Modélisation thématique LDA standard
mics) de 2008 à 2017. SIOE est une société savante inter-            Management      Institutional      Legal        Market
nationale sur l’économie des institutions et organisations.                           framework      framework     environment
                                                                            firm          state       innovation     business
Elle organise chaque année la principale conférence inter-                market       corruption       patent       analysis
nationale consacrée à la recherche sur ces thématiques. Les                 cost     development       property      decision
données ont été récupérés à partir de la base de données              performance       industry        patent        market
                                                                         industry        market       regulation       right
MySQL du site web de la conférence (www.sioe.org).                        quality     governance        judge         datum
                                                                      procurement      institution       law          change
6 Démarche expérimentale                                                incentive
                                                                         strategy
                                                                                         policy
                                                                                         regime
                                                                                                        crime
                                                                                                         rule
                                                                                                                    innovation
                                                                                                                    governance
Les résultats issus du modèle LDA standard, le modèle thé-                 agent        economy          firm         capital
                                                                           0.390          0.433         0.323          0.098
matique reproduit à partir de Das et al., 2015 [3] et le mo-
dèle que nous avons développé sont présentés, respective-            TABLE 2: Modélisation thématique de Das et al. [3]
ment, dans les tables 1, 2 et 3. Par ailleurs, la visualisation
                                                                     Management      Institutional      Legal         Market
des résultats LDA avec librairie Python pyLDA est présen-                             framework      framework     environment
tée dans la figure 1 ci-dessous. Les trois modèles sont pré-               firm       government     enforcement        firm
sentés comme des clusters de mots sur 4 thématiques.                     contract       country            law        market
                                                                           cost           level         patent        country
Ces dernières sont assez proches dans les 3 modèles. On                    price          state        property         land
peut les représenter par les termes suivants : « Management               market         market           right     investment
                                                                      governance           tax          system        capital
», « Institutional framework », « Legal framework » et «              procurement      institution         rule     innovation
Market environment ».                                                  transaction       agent           crime         price
L’évaluation est l’un des principaux défis de la modéli-                  agent         decision         judge         level
                                                                         strategy        policy           firm        change
sation thématique. Des méthodes qualitatives et quantita-                 0.467          0.263           0.321         0.290
tives peuvent être mobilisées comme dans [3] et [13]. Nous
avons décidé d’utiliser une méthode quantitative et, plus             TABLE 3: Notre Modélisation (distribution bêta)
              F IGURE 1 – Visualisation du thème « Institutional framework » avec le modèle LDA standard


Références                                                         Recognition (pp. 556-563). Springer, Berlin, Heidel-
                                                                   berg.
[1] Blei, D. M., & Lafferty, J. D. (2006, June). Dynamic
                                                               [7] Jacobi, C., van Atteveldt, W., & Welbers, K. (2016).
    topic models. In Proceedings of the 23rd internatio-
                                                                   Quantitative analysis of large amounts of journalistic
    nal conference on Machine learning (pp. 113-120).
                                                                   texts using topic modelling. Digital Journalism, 4(1),
    ACM.
                                                                   89-106
[2] Blei, D. M., Ng, A. Y., & Jordan, M. I. (2003). La-        [8] Levy, O., & Goldberg, Y. (2014). Neural word em-
    tent dirichlet allocation. Journal of machine Learning         bedding as implicit matrix factorization. In Advances
    research, 3(Jan), 993-1022.                                    in neural information processing systems (pp. 2177-
[3] Das, R., Zaheer, M., & Dyer, C. (2015). Gaussian lda           2185).
    for topic models with word embeddings. In Procee-          [9] Naili, M., Chaibi, A. H., & Ghezala, H. H. B. (2017).
    dings of the 53rd Annual Meeting of the Association            Comparative study of word embedding methods in to-
    for Computational Linguistics and the 7th Internatio-          pic segmentation. Procedia Computer Science, 112,
    nal Joint Conference on Natural Language Proces-               340-349.
    sing (Volume 1 : Long Papers) (Vol. 1, pp. 795-804).      [10] Röder, M., Both, A., & Hinneburg, A. (2015, Fe-
[4] Hermann, K. M., & Blunsom, P. (2014). Multilin-                bruary). Exploring the space of topic coherence mea-
    gual models for compositional distributed semantics.           sures. In Proceedings of the eighth ACM internatio-
    arXiv preprint arXiv :1404.4641.                               nal conference on Web search and data mining (pp.
                                                                   399-408). ACM.
[5] Hu, Z., Fang, S., & Liang, T. (2014). Empirical study     [11] Wang, C., Blei, D., & Heckerman, D. (2012). Conti-
    of constructing a knowledge organization system of             nuous time dynamic topic models. arXiv preprint
    patent documents using topic modeling. Scientome-              arXiv :1206.3298.
    trics, 100(3), 787-799.
                                                              [12] Weinshall, D., Levi, G., & Hanukaev, D. (2013, Fe-
[6] Hu, P., Liu, W., Jiang, W., & Yang, Z. (2012, Sep-             bruary). LDA topic model with soft assignment of
    tember). Latent topic model based on Gaussian-LDA              descriptors to words. In International Conference on
    for audio retrieval. In Chinese Conference on Pattern          Machine Learning (pp. 711-719).
[13] Xun, G., Gopalakrishnan, V., Ma, F., Li, Y., Gao, J.,
     & Zhang, A. (2016, December). Topic discovery for
     short texts using word embeddings. In Data Mining
     (ICDM), 2016 IEEE 16th International Conference
     on (pp. 1299-1304). IEEE.
[14] Yau, C-K, Porter, A.L., Newman, N.C., and Suomi-
     nen, A. (2014), Clustering scientific documents with
     topic modeling, Scientometrics, GTM special issue ;
     100 (3) 767-786.
[15] Zaffalon, M. & Hutter M. (2002). Robust feature se-
     lection by mutual information distributions. In Pro-
     ceedings of the Eighteenth conference on Uncertainty
     in artificial intelligence (UAI’02), Adnan Darwiche
     and Nir Friedman (Eds.). Morgan Kaufmann Publi-
     shers Inc., San Francisco, CA, USA, 577-584.