=Paper= {{Paper |id=Vol-2133/cnia-paper5 |storemode=property |title=Réseaux de neurones récurrents multi-tâches pour l’analyse automatique d’arguments(Argument mining: A multi-task approach using deep neural networks) |pdfUrl=https://ceur-ws.org/Vol-2133/cnia-paper5.pdf |volume=Vol-2133 |dblpUrl=https://dblp.org/rec/conf/rjcia/MensonidesHMT18 }} ==Réseaux de neurones récurrents multi-tâches pour l’analyse automatique d’arguments(Argument mining: A multi-task approach using deep neural networks)== https://ceur-ws.org/Vol-2133/cnia-paper5.pdf
                           Réseaux de Neurones Récurrents Multi-tâches
                            pour l’Analyse Automatique d’Arguments

                      Jean-Christophe Mensonides1                Sébastien Harispe1
                            Jacky Montmain1                      Véronique Thireau2
                           1
                             LGI2P, IMT Mines Ales, Univ Montpellier, Ales, France
                2
                    Université de Nîmes, CHROME, Rue du Dr Georges Salan, Nîmes, France

                                     jean-christophe.mensonides@mines-ales.fr


Résumé                                                         la philosophie ou la linguistique, l’extraction et l’analyse
Dans cet article nous proposons une méthode d’extraction       automatique d’arguments au sein de corpus textuels (aussi
et d’analyse automatique d’arguments à partir de textes        appelé argument mining) forment des axes de recherche
bruts, en nous affranchissant de l’utilisation de carac-       relativement nouveaux. Un système d’argument mining
téristiques manuellement définies par des experts. Nous        a pour objectif la génération automatique d’un graphe
présentons un modèle multi-tâches faisant appel à des          d’arguments à partir de textes non structurés, et peut géné-
techniques d’apprentissage profond, composé de plusieurs       ralement être divisé en une séquence d’étapes comportant
couches de réseaux de neurones récurrents. Plus particu-       notamment la détection d’arguments et la modélisation
lièrement, nous tirons parti de paramètres entraînés sur des   des liens unissant ces derniers [1]. Nous nous limitons à
tâches simples, comme l’étiquetage morpho-syntaxique ou        une étude de la micro-structure argumentative, consistant à
le chunking, afin d’obtenir un modèle capable de traiter       analyser la manière dont différents composants argumen-
des tâches plus complexes nécessitant une compréhension        tatifs interragissent entre eux au sein d’un même texte.
fine du texte.
                                                               De manière plus spécifique, Stab et Gurevych [2] ont
Mots Clef                                                      proposé le corpus Argument Annotated Essays (version 2),
Traitement Automatique du Langage Naturel, Extraction          contenant 402 dissertations extraites de essayforum.com.
d’arguments, Réseaux de neurones récurrents, Apprentis-        La structure argumentative de chaque dissertation a été
sage profond.                                                  manuellement annotée suivant un modèle de graphe orienté
                                                               acyclique connexe, dans lequel les noeuds représentent
Abstract                                                       des composants argumentatifs et les arcs des liens entre
In this article we propose a method performing automatic       ces derniers. Le schéma d’annotation utilisé permet de
extraction and analysis of arguments from raw texts, wi-       distinguer trois types de composants argumentatifs : (i) les
thout using handcrafted features. We introduce a multi-task    conclusions majeures, reflétant le point de vue global de
deep learning model stacking several layers of recurrent       l’auteur sur le sujet disserté, (ii) les conclusions intermé-
neural networks. Specifically, we make use of weight pa-       diaires, représentant des affirmations qui ne pourraient être
rameters trained on simple tasks, such as Part-Of-Speech       acceptées sans justifications complémentaires, et (iii) les
tagging and chunking, in order to obtain a model able to       prémisses, servant de justifications aux conclusions inter-
handle more complex tasks that require a detailed unders-      médiaires avancées. Les arcs du graphe sont porteurs d’une
tanding of the text.                                           étiquette "support" ou "attaque" selon que le composant
                                                               argumentatif source corrobore ou réfute la cible. Les arcs
Keywords                                                       ne peuvent exister que a) d’une prémisse vers une autre
Natural Language Processing, Argument mining, Recur-           prémisse, b) d’une prémisse vers une conclusion (majeure
rent neural networks, Deep learning.                           ou intermédiaire), et c) d’une conclusion intermédiaire
                                                               vers une autre conclusion (majeure ou intermédiaire).
1    Introduction
L’argumentation est un ensemble de techniques visant           Afin d’obtenir automatiquement un graphe synthéti-
à faire adhérer un interlocuteur à un point de vue qui         sant la structure argumentative d’une dissertation, Stab et
lui est présenté, en construisant un raisonnement à base       Gurevych [2] ont proposé une chaîne de traitement consti-
d’arguments. Bien que l’étude de l’argumentation soit un       tuée de quatre étapes : (1) Délimitation des frontières
champ étudié depuis longtemps dans des domaines tels que       des composants argumentatifs, (2) Détermination du type
de chaque composant argumentatif, (3) Détermination               classifient des composants argumentatifs en prémisses,
de l’existence d’un arc entre chaque paire ordonnée de            conclusions intermédiaires et conclusions majeures dans
composants argumentatifs, et (4) Etiquetage des arcs              des dissertations en utilisant un SVM [2], Persing et Ng
existants comme relation de support ou d’attaque.                 (2016) utilisent un classifieur d’entropie maximale afin
                                                                  de déterminer le type de composants argumentatifs [11],
Dans cet article, nous nous concentrons sur l’étude               Potash et al (2016) utilisent des réseaux de neurones
des tâches (1) et (2), en cherchant à nous affranchir de          récurrents dits "séquence à séquence" dans l’objectif
l’utilisation de caractéristiques définies manuellement           d’inférer le type de composants argumentatifs [12].
par des experts. La section 2 présente un panorama des
travaux antérieurs réalisés sur des tâches similaires à (1)       L’étude de modèles multi-tâches, capables de traiter
et (2). La section 3 décrit le modèle que nous avons mis          plusieurs problèmes différents en partageant un sous-
en place pour traiter les deux tâches évoquées ci-dessus.         ensemble commun de paramètres, a fait l’objet d’un
La section 4 présente les modalités d’entraînement du             engouement récent au sein de la communauté du traite-
modèle. La section 5 est consacrée aux expérimentations           ment automatique du langage. Ce type de modèles est
que nous avons menées et aux résultats obtenus. La section        bio-inspiré : un être humain est capable de réaliser une
6 propose des directions et perspectives pour nos futures         multitude de tâches différentes et peut exploiter, quand
recherches.                                                       cela est nécessaire, son savoir-faire acquis concernant la
                                                                  résolution d’un type de problème pour apprendre plus
2    Travaux antérieurs                                           vite à résoudre d’autres types de problèmes. Ruder (2017)
                                                                  énonce les raisons pour lesquelles ce type de modèle est
La détection de composants argumentatifs consiste à               efficace d’un point de vue apprentissage automatique
déterminer les frontières séparant les unités textuelles          [13] : l’utilisation de plusieurs corpus différents induit une
porteuses d’arguments du reste du texte. Cette tâche              augmentation implicite du nombre d’exemples disponibles
est généralement considérée comme un problème de                  pendant la phase d’entraînement. De plus, le modèle doit
segmentation de texte supervisée au niveau du mot. Les            rechercher des caractéristiques utiles pour l’ensemble des
modèles exploitant l’aspect séquentiel des mots, inhérent         tâches à traiter, ce qui limite la modélisation du bruit dans
à la construction d’une argumentation convaincante,               les données et permet une meilleur généralisation.
sont particulièrement adaptés et utilisés : Madnani et al
(2012) utilisent un Conditional Random Field (CRF) afin           Søgaard et Goldberg (2016) montrent qu’induire de
d’identifier des segments non argumentatifs au sein de            la connaissance a priori dans un modèle multi-tâches
dissertations [3], Levy et al (2014) identifient les frontières   en hiérarchisant l’ordre des tâches à apprendre permet
d’unités textuelles représentant des conclusions supportant       d’obtenir de meilleurs performances [14]. Yang et al
ou attaquant le sujet débattu dans des fils de discussions        (2016) ont montré qu’entraîner un modèle multi-tâches et
issus de Wikipedia [4], Ajjour et al (2017) utilisent des         multi-langues permettait d’améliorer les performances sur
réseaux de neurones récurrents de type Long Short-Term            des problèmes où les données ne sont que partiellement
Memory (LSTM) afin d’extraire des arguments issus de              annotées [15], Hashimoto et al (2017) obtiennent des
dissertations, d’éditoriaux et de commentaires générés            résultats compétitifs sur la majorité des tâches d’un
par des internautes [5], Goudas et al (2014) identifient          même modèle [16]. Le bénéfice d’un modèle multi-tâches
des phrases contenant des arguments avant de déterminer           n’est cependant pas garanti, et dépend notamment de la
précisément leurs frontières au sein de médias sociaux à          distribution des données relatives aux différents problèmes
l’aide d’un CRF [6], Sardianos et al (2015) déterminent           traités (Mou et al (2016) [17], Alonso et Plank (2017) [18],
les limites de composants argumentatifs au sein d’articles        Bingel et Søgaard (2017) [19]).
de presse à l’aide d’un CRF [7], Stab et Gurevych (2017)
utilisent un CRF afin d’isoler les composants argumentatifs       3    Modèle proposé
au sein de dissertations [2], Eger et al (2017) ont recouru à
des techniques d’apprentissage profond [8].                       Nous proposons un modèle ayant pour objectif 1) de dé-
                                                                  terminer les frontières de composants argumentatifs pré-
La tâche consistant à déterminer le type d’un compo-              sents dans un ensemble de dissertations et 2) de détermi-
sant argumentatif (prémisse, conclusion, etc.) a souvent été      ner le type de chaque composant argumentatif dans les-
traité comme un problème de classification de texte super-        dites dissertations. Nous nous inspirons du travail de Ha-
visée. Eckle-Kohler et al (2015) distinguent des prémisses        shimoto et al [16] et optons pour un modèle multi-tâches
et des conclusions au sein d’articles de presse à l’aide de       s’affranchissant de la définition de caractéristiques manuel-
Naive Bayes, Random Forest et Support Vector Machine              lement définies. Plus particulièrement, nous utilisons des
(SVM) [9], Park et Cardie (2014) utilisent un SVM pour            techniques issues de l’apprentissage profond et entraînons
déterminer à quel point des affirmations sont justifiées au       un modèle capable d’effectuer de l’étiquetage morpho-
sein de commentaires d’internautes relatifs à de nouveaux         syntaxique (EMS), du chunking, de la détection de limites
projets de législation [10], Stab et Gurevych (2017)              de composants argumentatifs et de la classification de com-
                                                                             rt = σ(Wr xt + br + Whr h(t−1) + bhr )
                                                                             zt = σ(Wz xt + bz + Whz h(t−1) + bhz )
                                                                 où xt représente l’entrée à l’instant t, rt , zt et nt sont
                                                                 respectivement les portes de réinitialisation, d’entrée et de
                                                                 nouveauté, σ représente la fonction sigmoïde, et W et b
                                                                 sont des matrices et vecteurs de paramètres.

                                                                 En vue d’exploiter le contexte "passé" et "futur" d’un
                                                                 élément d’une séquence de N éléments [x1 , x1 , ..., xN ],
                                                                 nous pouvons construire un encodage bi-directionnel par
                                                                 concaténation des états cachés obtenus par un encodage
                                                                 séquentiel "à l’endroit" (e.g, à l’instant t = 1, l’entrée est
F IGURE 1 – Aperçu de l’architecture utilisée couche par         x1 , à l’instant t = 2, l’entrée est x2 , etc.) et un encodage "à
couche. EMS, DelCA et DetCA sont respectivement des              l’envers" (e.g, à l’instant t = 1, l’entrée est xN , à l’instant
acronymes pour Etiquetage Morpho-Syntaxique, Délimi-             t = 2, l’entrée est xN −1 , etc.) :
tation des Composants Argumentatifs et Détermination du
                                                                                   →
                                                                                   −    −−−→
type des Composants Argumentatifs.                                                 ht = GRU (xt ), t ∈ [1, N ]
                                                                                   ←
                                                                                   − ←−−−
                                                                                   ht = GRU (xt ), t ∈ [N, 1]
posants argumentatifs. Une illustration de l’architecture du                                   →
                                                                                               − ←   −
modèle est proposée en Figure 1. Les différentes couches                                 ht = [ ht ; ht ]
utilisées sont présentées ci-dessous.                            Nous utilisons les représentations vectorielles des mots
3.1      Plongement sémantique                                   constituant l’exemple en cours comme entrée de la couche
                                                                 EMS :               −−→ −−−→
Nous utilisons une première couche de plongement séman-                                (1)
tique assignant une représentation vectorielle et à chaque                           ht = GRU (et )
mot wt donné en entrée du système. Nous utilisons Glove                              ←−− ←−−−
                                                                                       (1)
                                                                                     ht = GRU (et )
[20] afin d’obtenir un ensemble de représentations vecto-
rielles entraînées de manière non-supervisée 1 . Les repré-                                  −−→ ←−−
                                                                                      (1)      (1) (1)
                                                                                     ht = [ht ; ht ]
sentations vectorielles de mots sont continuellement opti-
misées au cours de l’entraînement du modèle sur les dif-         Ensuite pour chaque instant t, nous calculons la probabilité
férentes tâches explicitées ci-dessous. Les mots pour les-       d’assigner l’étiquette k au mot wt de la manière suivante :
quels nous ne disposons pas de représentation vectorielle
                                                                                                             (1)
pré-entraînée sont transformés en un mot spécial .                (1)         (1)    exp(Wsm(1) f ct + bsm(1) )
                                                                   p(yt      = k|ht ) = P                   (1)
3.2      Etiquetage morpho-syntaxique                                                     c1 exp(Wsm(1) f ct + bsm(1) )
                                                                                                                       (1)
La seconde couche du modèle correspond à une tâche                                (1)               (1)
                                                                               f ct = relu(Wf c(1) ht + bf c(1) )      (2)
d’étiquetage morpho-syntaxique (EMS), consistant à
assigner pour chaque mot wt en entrée du système une             Avec W et b matrices et vecteurs de paramètres, relu la
étiquette morpho-syntaxique (e.g, nom commun, verbe,             fonction Unité de Rectification Linéaire [22], et c1 l’en-
déterminant, etc.). Nous utilisons un Gated Recurrent Unit       semble des classes possibles pour l’étiquette EMS.
(GRU) [21] bi-directionnel afin d’encoder les séquences
                                                                 3.3      Chunking
de mots en entrée du système.
                                                                 Le chunking consiste à assigner une étiquette chunk (chunk
GRU est un réseau de neurones récurrent utilisant un             nom, chunk verbe, etc.) à chaque mot. Nous calculons les
mécanisme de déclenchement sans utilisation de cellule           états cachés relatifs au chunking en exploitant ce que le
mémoire séparée. A l’instant t, GRU calcule l’état caché         modèle a appris pour la tâche EMS :
ht de la manière suivante :                                                     −−→ −−−→
                                                                                  (2)            (1) (EM S)
                                                                                ht = GRU ([et ; ht ; yt     ])
                   ht = (1 − zt )nt + zt h(t−1)                                 ←−− ←−−−
                                                                                 (2)              (1) (EM S)
avec                                                                            ht = GRU ([et ; ht ; yt      ])
                                                                                           −−→ ←−−
                                                                                      (2)     (2)    (2)
       nt = tanh(Wn xt + bn + rt (Whn h(t−1) + bhn ))                                ht = [ht ; ht ]
                                                                          (1)
    1. Le         modèle        pré-entraîné   est   issu   de
                                                                 Avec ht l’état caché obtenu à l’instant t pour la tâche
                                                                         (EM S)
https ://nlp.stanford.edu/projects/glove/                        EMS et yt      la représentation vectorielle pondérée de
l’étiquette EMS. En suivant Hashimoto et al. [16], yt
                                                          (EM S)   [S1] The greater our goal is, the more competition we need.
est définit comme suit :                                           [S2] Take Olympic games which is a form of competition
                                                                   for instance, it is hard to imagine how an athlete could win
                      card(c1 )                                    the game without the training of his or her coach, and the
           (EM S)                    (1)        (1)
                        X
          yt      =               p(yt     = j|ht )l(j)      (3)   help of other professional staffs such as the people who
                        j=1                                        take care of his diet, and those who are in charge of the
                                                                   medical care [S3] . The winner is the athlete but the suc-
où l(j) est une représentation vectorielle de la j-ème éti-        cess belongs to the whole team. Therefore [S4] without the
quette EMS. Les représentations vectorielles des étiquettes        cooperation, there would be no victory of competition [S5]
sont pré-entraînées avec GloVe.                                    .
                                                                   Consequently, no matter from the view of individual deve-
La probabilité d’assigner une étiquette chunk à un                 lopment or the relationship between competition and co-
mot est ensuite calculée de manière similaire à celle pour         operation we can receive the same conclusion that [S6] a
les étiquettes EMS (équations (1) et (2)), mais avec un            more cooperative attitudes towards life is more profitable
ensemble de paramètres propres à la couche chunking.               in one’s success.
3.4    Délimitation des composants argumen-
                                                                   F IGURE 2 – Un extrait d’une dissertation extrait du cor-
       tatifs (DelCA)                                              pus. Les passages soulignés par un trait continu consti-
L’objectif de cette tâche est de déterminer, au mot près,          tuent des prémisses, ceux soulignés par un trait discontinu
les frontières de chaque composant argumentatif au sein            constituent des conclusions intermédiaires, et les passages
d’une dissertation. Nous suivons Stab et Gurevych [2]              en gras sont des conclusions majeures. Les numéros des
et traitons cette tâche comme un problème de segmen-               segments [S# ] sont rajoutés à titre indicatif. Le premier seg-
tation de texte supervisée dont les étiquettes suivent un          ment correspond à la portion du début du texte jusqu’à la
IOB-tagset [23] : le premier mot de chaque composant               première prémisse. Le second segment correspond à la pre-
argumentatif porte l’étiquette "Arg-B", les mots restant           mière prémisse. Le troisième segment correspond à la por-
dudit composant argumentatif portent l’étiquette "Arg-I",          tion non surlignée entre la première prémisse et la première
et les mots n’appartenant pas à un composant argumentatif          conclusion intermédiaire, etc.
portent l’étiquette "O".
                                                                   de texte continue dont les mots n’appartiennent pas à un
Chaque dissertation est traitée comme une unique
                                                                   composant argumentatif. La notion de segment est illustré
séquence de mots que nous encodons de la manière
                                                                   en Figure 2.
suivante :
     −−→ −−−→                                                      Nous encodons chaque segment si , i ∈ [1, L] de la
       (3)            (1) (EM S)    (2) (chunk)
     ht = GRU ([et ; ht ; yt     ; ht ; yt      ])
                                                                   manière suivante :
      ←−− ←−−−                                                          −
                                                                        → −−−→
       (3)             (1) (EM S)    (2) (chunk)                                           (1) (EM S)       (2) (chunk)
      ht = GRU ([et ; ht ; yt     ; ht ; yt      ])                     hit = GRU ([eit ; hit ; yit      ; hit ; yit    ])
                          −−→ ←−−                                       ←− ←−−−            (1) (EM S)       (2) (chunk)
                  (3)       (3)
                 ht = [ht ; ht ]
                                (3)                                     hit = GRU ([eit ; hit ; yit      ; hit ; yit    ])
                                                                                                −→ ← −
      (chunk)                                                                          hit = [hit ; hit ]
où yt         est la représentation vectorielle pondérée de
l’étiquette chunk, calculée de manière similaire à celle de        où it représente l’instant t du segment si .
l’étiquette EMS (équation (3)).
                                                                   Afin que le modèle se concentre davantage sur les
La probabilité d’assigner une étiquette à un mot est               marqueurs potentiellement importants (comme "I firmly
ensuite calculée de manière similaire à celle pour les             believe that" ou "we can receive the same conclusion
étiquettes EMS, mais avec un ensemble de paramètres                that") nous utilisons un mécanisme d’attention [24], nous
propres à la couche DelCA.                                         permettant de surcroît de synthétiser l’information portée
                                                                   par les états cachés d’un segment en un vecteur de taille
3.5    Déterminer le type des composants argu-                     fixe :
       mentatifs (DetCA)                                                           uit = tanh(Watt hit + batt )
L’objectif de cette tâche est de déterminer le type de                                        exp(u|it uatt )
chaque composant argumentatif parmi prémisse, conclu-                                αit = P           |
                                                                                               t exp(uit uatt )
sion intermédiaire et conclusion majeure. Nous traitons                                         X
cette tâche comme un problème d’étiquetage de segment.                                   shi =      αit hit
Nous considérons qu’un segment peut être la séquence                                              t
des mots appartenant à un même composant argumentatif              Avec Watt , batt et uatt respectivement matrices, biais et
ou la séquence des mots appartenant à une même portion             vecteurs de paramètres.
                                                              de paramètres et biais de la couche chunking, incluant ceux
Nous encodons ensuite la dissertation à partir des            de θEM S . EEM S est l’ensemble des paramètres caractéri-
états cachés synthétiques shi des segments :                  sant la représentation vectorielle des étiquettes EMS. La
                −−→ −−−→                                      fonction de coût est définie de la manière suivante :
                  (4)
                hj = GRU (shi ), i ∈ [1, L]                                    XX              (2)      (2)
                                                                     J (2) = −         log p(yt = k|ht )
                ←−− ←−−−                                                       s      t
                 (4)                                                                                             2
                hj = GRU (shi ), i ∈ [L, 1]                                                       2   0
                                                                       + λ kWchunking k + δ kθEM S − θEM Sk
                           −−→ ←−−
                      (4)    (4)  (4)                                  (2)          (2)
                     hj = [hj ; hj ]                          Avec p(yt = k|ht ) la probabilité d’assigner la bonne
                                                                                                               0
La probabilité d’assigner une étiquette à un segment est      étiquette k au mot wt de la séquence de mots s. θEM S est
ensuite calculée de manière similaire à celle pour les        l’ensemble des paramètres de la couche EMS obtenus avant
étiquettes EMS, mais avec un ensemble de paramètres           d’entamer l’"epoch" courante d’entraînement de la couche
propres à la couche DetCA.                                    chunking.
                                                              4.3   Couche DelCA
4     Entraînement du modèle
                                                              Notons θDelCA = (WDelCA , bDelCA , EEM S , Echunk, θe )
Nous entraînons le modèle en alternant les couches à
                                                              l’ensemble des paramètres intervenant dans la couche
chaque "epoch" dans l’ordre suivant : EMS, chunking,
                                                              DelCA, avec WDelCA et bDelCA respectivement matrices
DelCA, DetCA. Afin d’évaluer la pertinence d’implémen-
                                                              de paramètres et biais de la couche DelCA, incluant ceux
ter un modèle multi-tâches, nous avons entraîné une ver-
                                                              de la couche chunking et EMS. Echunk est l’ensemble des
sion du modèle en omettant l’optimisation des couches
                                                              paramètres caractérisant la représentation vectorielle des
EMS et chunking (nommée "w/o EMS & chunking") et une
                                                              étiquettes de la couche chunking. La fonction de coût est
version du modèle en optimisant l’ensemble des couches
                                                              définie de la manière suivante :
(nommée "w/ EMS & chunking"). Les détails de l’entraî-
                                                                                               (3)     (3)
                                                                                XX
nement de chaque couche sont explicités ci-dessous.                  J (3) = −          log p(yt = k|ht )
                                                                                d         t
4.1   Couche EMS                                                                              2      0           2
                                                                        + λ kWDelCA k + δ kθchunk − θchunk k
Nous suivons Hashimoto et al. [16] et notons
θEM S = (WEM S , bEM S , θe ) l’ensemble des paramètres                (3)          (3)
                                                              Avec p(yt = k|ht ) la probabilité d’assigner la bonne
intervenant dans la couche EMS. WEM S représente l’en-                                                      0
                                                              étiquette k au mot wt de la dissertation d. θchunk   est
semble des matrices de paramètres de la couche EMS,           l’ensemble des paramètres de la couche chunking obtenus
bEM S l’ensemble des biais de la couche EMS et θe l’en-       avant d’entamer l’"epoch" courante d’entraînement de la
semble des paramètres de la couche de plongement séman-       couche DelCA.
tique des mots. La fonction de coût est définie par :
                                                              4.4   Couche DetCA
                                  (1)        (1)
                   XX
         J (1) = −         log p(yt = k|ht )                  Notons θDetCA = (WDetCA , bDetCA , EEM S , Echunk, θe )
                     s    t
                                 2               2            l’ensemble des paramètres intervenant dans la couche
                   + λ kWEM S k + δ kθe − θe0 k               DetCA, avec WDetCA et bDetCA respectivement matrices
          (1)            (1)                                  de paramètres et biais de la couche DetCA, incluant ceux
Avec p(yt       = k|ht ) la probabilité d’assigner la         de la couche chunking et EMS. La fonction de coût est
bonne étiquette k au mot wt de la séquence de mots s,         définie de la manière suivante :
            2                                         2
λ kWEM S k est la régularisation L2 et δ kθe − θe0 k un
                                                                                               (4)     (4)
                                                                               XX
régularisateur successif. λ et δ sont des hyper-paramètres.          J (4) = −          log p(yi = k|shi )
                                                                                d         i
                                                                                              2      0           2
Le régularisateur successif a pour vocation de stabili-                 + λ kWDetCA k + δ kθchunk − θchunk k
ser l’entraînement en empêchant θe d’être trop modifié
                                                                       (4)          (4)
spécifiquement par la couche EMS. θe étant partagé par        Avec p(yi = k|shi ) la probabilité d’assigner la bonne
l’ensemble des couches du modèle, des modifications           étiquette k au segment si de la dissertation d.
trop importantes apportées par l’entraînement de chaque
couche empêcherait le modèle d’apprendre convenable-          5     Expérimentations et résultats
ment. θe0 est l’ensemble des paramètres intervenant dans la
couche de vectorisation des mots à l’époch précédente.
                                                              5.1   Hyper-paramètres et données utilisées
                                                              Optimisation. Nous entraînons le modèle en alternant
4.2   Couche chunking                                         les couches, suivant l’ordre suivant : EMS, chunking,
Nous notons θchunk = (Wchunk , bchunk , EEM S , θe ) l’en-    DelCA, DetCA. Chaque couche est entraînée pendant une
semble des paramètres intervenant dans la couche chun-        "epoch" avant de passer à la couche suivante. Nous utili-
king. Wchunk et bchunk sont respectivement les matrices       sons Adam [25] comme algorithme d’apprentissage, avec
β1 = 0.9, β2 = 0.999 et  = 10−8 . Le coefficient d’ap-            Tâche            w/o EMS & chunking          w/ EMS & chunking
prentissage est commun à toutes les couches et fixé à 10−3         DelCA                  0.5934                     0.8688
au début de l’entraînement, puis multiplité par 0.75 toutes        DetCA                  0.7464                     0.7105
les 10 "epoch". Afin de limiter le problème d’explosion du      DetCA simple              0.7529                     0.7911
gradient, nous redimensionnons sa norme avec une stra-
tégie de gradient clipping [26]. Nous suivons [16] et ap-      TABLE 1 – Macros f1-scores obtenus sur les différentes
pliquons un gradient clipping de min(3.0, prof ondeur),        tâches.
où prof ondeur représente le nombre de GRU impliquées
dans la couche entraînée.
                                                                 Tâche       F1-score obtenus en [2]       F1-score humain
Initialisation des paramètres. Afin de faciliter la pro-         DelCA               0.867                      0.886
pagation du gradient lors de l’entraînement, nous utilisons      DetCA               0.826                      0.868
des matrices orthogonales générées aléatoirement comme
états initiaux pour les matrices de paramètres des GRU,        TABLE 2 – F1-scores obtenus sur les tâches DelCA et
comme préconisé par Saxe et al. [27]. Les autres ma-           DetCA par Stab et Gurevych [2] et des agents humains.
trices de paramètres sont initialisées
                               p        avec des valeurs is-
sues d’une loi normal N (0, 2/nin ), où nin représente
le nombre de neurones entrant dans la couche concernée,
                                                               forcera le modèle à se concentrer sur le contexte entourant
comme proposé par He et al [28]. Les vecteurs de biais
                                                               les composants argumentatifs, et l’empêchera donc de se
sont initialisés en tant que vecteurs nuls.
                                                               surentraîner en considérant les mots à l’intérieur des com-
Dimensions vectorielles utilisées. La représentation           posants.
vectorielle utilisée pour les mots en entrée du système et
les représentations vectorielles des étiquettes EMS et chun-   5.2    Résultats obtenus
king sont de dimension 50. Les états cachés des GRU sont       Les résultats obtenus sur les données de test pour les tâches
de dimension 100 pour toutes les couches du modèle.            DelCA, DetCA et DetCA simple sont présentés en Table 1.
                                                               La colonne "w/o EMS & chunking" fait référence à la ver-
Régularisation. En suivant [16], nous fixons les coeffi-
                                                               sion du modèle pour laquelle l’optimisation des couches
cients λ à 10−6 pour les matrices de paramètres des GRU
                                                               EMS et chunking a été omise. La colonne "w/ EMS &
et 10−5 pour les autres matrices de paramètres. Le coef-
                                                               chunking" fait référence à la version du modèle pour la-
ficient de régularisation successif δ est fixé à 10−2 pour
                                                               quelle l’optimisation des couches EMS et chunking a été
toutes les couches. Nous utilisons aussi Dropout [29] sur
                                                               réalisée. Nous prenons comme référence les performances
toutes les couches, avec taux de neurones affectés de 0.2.
                                                               atteintes par des agents humains 2 ainsi que les résultats
Données d’entraînement pour les couches EMS et                 présentés par Stab et Gurevych [2], illustrés en Table 2.
chunking. Nous utilisons le corpus issu de la tâche par-
                                                               Evaluation générale des performances. Nous obtenons
tagée CoNLL-2000 [30] avec les étiquettes associées pour
                                                               un macro f1-score de 0.8688 sur DelCA avec la version
entraîner les couches EMS et chunking.
                                                               "w/ EMS & chunking". Ces résultats sont obtenus sans dé-
Données d’entraînement pour les couches DelCA et               finition de caractéristiques manuelles et sont comparables
DetCA. Nous utilisons le corpus Argument Annotated             à ceux enregistrés en [2] ; ils atteignent 98,06% de la per-
Essays (version 2) partagé par Stab et Gurevych [2] en sui-    formance humaine. Concernant la classification des com-
vant le découpage entraînement/test fourni pour l’entraîne-    posants argumentatifs, nous obtenons un macro f1-score
ment des couches DelCA et DetCA.                               de 0.7911 avec DetCA simple pour la version "w/ EMS
Arrêt de l’entraînement. Dans un cas d’entraînement            & chunking", ce qui représente 95,8% des performances
uni-tâche, une pratique généralement adoptée est d’arrêter     obtenues en [2] et 91,1% de la performance humaine.
l’entraînement du modèle peu avant le surapprentissage.        Pertinence de DetCA simple. Selon nous, les mots for-
Dans le cas de notre modèle, il n’est pas évident de dé-       mant un composant argumentatif ne sont pas réellement
terminer le meilleur moment pour arrêter l’entraînement,       caractéristiques de sa classe, et en se concentrant dessus,
puisque le modèle peut surapprendre sur une tâche parti-       le modèle peut être amené à modéliser du bruit l’empê-
culière, mais pas sur les autres. Ainsi, nous arrêtons l’en-   chant de généraliser correctement. En revanche, le contexte
traînement du modèle lorsqu’il surapprend sur les couches      dans lequel apparaissent les composants semble très im-
DelCA et DetCA, et reportons les meilleurs résultats obte-     portant. Par exemple, des mots tels que "we can receive the
nus pour chaque tâche avant le surapprentissage de celle-ci.   same conclusion that" semblent indiquer que l’auteur va
DetCa simple. Nous nommons DetCa simple la tâche               annoncer une conclusion intermédiaire ou majeure. Cela
DetCa avec la modification suivante : tous les segments des    peut expliquer la différence de performances entre DetCA
dissertations correspondant à des composants argumenta-        et DetCA simple, notamment pour la version "w/ EMS
tifs sont traités comme ne comportant qu’un unique mot            2. La performance humaine correspond à la moyenne des résultats
spécial . L’hypothèse est que cette transformation       obtenus par des annotateurs humains, tels que présentés en [2]
& chunking", avec respectivement un f1-score de 0.7105              tion for Computational Linguistics : Human Language
contre 0.7911, soit une amélioration de 11,3%.                      Technologies, pp. 20-28, Association for Computatio-
Pertinence du modèle multi-tâches. Les macro f1-                    nal Linguistics, 2012.
scores sur les tâches DelCA et DetCA simple sont respec-        [4] R. Levy, Y. Bilu, D. Hershcovich, E. Aharoni et N. Slo-
tivement de 0.5934 et 0.7529 pour la version "w/ EMS &              nim, Context dependent claim detection, Proceedings
chunking" et de 0.8688 et 0.7911, soit des améliorations            of COLING 2014, the 25th International Conference
de 46,4% et 5,1%. Ces résultats permettent donc de vali-            on Computational Linguistics : Technical Papers, pp.
der l’intérêt d’entraîner un modèle multi-tâches et incitent        1489-1500, 2014.
à l’ajout de tâches auxiliaires supplémentaires.                [5] Y. Ajjour, W.F. Chen, J. Kiesel, H. Wachsmuth et B.
                                                                    Stein, Unit Segmentation of Argumentative Texts, Pro-
6    Travaux à venir et perspectives                                ceedings of the 4th Workshop on Argument Mining, pp.
Les résultats obtenus sont encourageants et pourraient              118-128, 2017.
sûrement être améliorés, notamment avec une recherche           [6] T. Goudas, C. Louizos, G. Petasis et V. Karkaletsis, Ar-
plus d’approfondie d’hyper-paramètres optimaux. La                  gument extraction from news, blogs, and social media,
différence de performances entre les versions du modèle             Hellenic Conference on Artificial Intelligence, pp. 287-
"w/ EMS & chunking" et "w/o EMS & chunking" portent                 299, Springer, Cham, 2014.
à croire qu’implémenter davantage de tâches auxiliaires
pourrait être bénéfique. Une piste serait d’introduire une      [7] C. Sardianos, I.M. Katakis, G. Petasis et V. Karkalet-
couche modélisant un arbre de dépendances syntaxiques               sis, Argument extraction from news, Proceedings of
en complément de la couche chunking, comme effectué en              the 2nd Workshop on Argumentation Mining, pp. 56-
[16].                                                               66, 2015.
                                                                [8] S. Eger, J. Daxenberger et I. Gurevych, Neural End-to-
En vue d’implémenter un système complet d’argu-                     End Learning for Computational Argumentation Mi-
ment mining tel que présenté par Stab et Gurevych [2],              ning, arXiv preprint arXiv :1704.06104, 2017.
nous prévoyons d’implémenter des couches permettant la          [9] J. Eckle-Kohler, R. Kluge et I. Gurevych, On the role
génération automatique de graphes d’arguments. A cette              of discourse markers for discriminating claims and
fin il est nécessaire de déterminer s’il existe un arc entre        premises in argumentative discourse, Proceedings of
chaque paire ordonnée de composants argumentatifs, ainsi            the 2015 Conference on Empirical Methods in Natural
que d’inférer l’étiquette portée par ledit arc.                     Language Processing, pp. 2236-2242, 2015.
7    Conclusion                                                 [10] J. Park et C. Cardie, Identifying appropriate support
                                                                    for propositions in online user comments. Proceedings
Cet article a présenté une méthode d’extraction et d’ana-           of the 1st Workshop on Argumentation Mining, pp. 29-
lyse automatique d’arguments à partir de textes bruts. L’uti-       38, 2014.
lisation de techniques d’apprentissage profond nous permet
de nous affranchir de la définition de caractéristiques ma-     [11] I. Persing et V. Ng, End-to-End Argumentation Mi-
nuellement définies. Par ailleurs, l’amélioration des perfor-       ning in Student Essays, Proceedings of the 2016
mances de notre système par l’exploitation de paramètres            Conference of the North American Chapter of the As-
optimisés sur des tâches auxiliaires met en avant l’inté-           sociation for Computational Linguistics : Human Lan-
rêt de l’utilisation d’un modèle multi-tâches. Nous avons           guage Technologies, Association for Computational
comme perspective la complétion de la chaîne de traite-             Linguistics, pages 1384–1394, 2016.
ment existante en vue d’obtenir un système capable de syn-      [12] P. Potash, A. Romanov et A. Rumshisky, Here’s My
thétiser une dissertation par modélisation automatique d’un         Point : Joint Pointer Architecture for Argument Mi-
graphe d’arguments.                                                 ning, Proceedings of the 2017 Conference on Empi-
                                                                    rical Methods in Natural Language Processing, pp.
Références                                                          1364-1373, 2017.
[1] M. Lippi et P. Torroni, Argumentation mining : State        [13] S. Ruder, An overview of multi-task learning in deep
    of the art and emerging trends, ACM Transactions on             neural networks, CoRR, abs/1706.05098, 2017.
    Internet Technology (TOIT), 16(2), p.10, 2016.              [14] A. Søgaard et Y. Goldberg, Deep multi-task learning
[2] C. Stab et I. Gurevych, Parsing argumentation struc-            with low level tasks supervised at lower layers, Procee-
    tures in persuasive essays, Computational Linguistics,          dings of the 54th Annual Meeting of the Association for
    43(3), pp.619-659, 2017.                                        Computational Linguistics (Volume 2 : Short Papers),
[3] N. Madnani, M. Heilman, J. Tetreault et M. Chodorow,            Vol. 2, pp.231-235, 2016.
    Identifying high-level organizational elements in argu-     [15] Z. Yang, R. Salakhutdinov et W. Cohen, Multi-task
    mentative discourse, Proceedings of the 2012 Confe-             cross-lingual sequence tagging from scratch, arXiv
    rence of the North American Chapter of the Associa-             preprint arXiv :1603.06270, 2016.
[16] K. Hashimoto, C. Xiong, Y. Tsuruoka et R. Socher,          [30] E.F.T.K. Sang, S. Buchholz, Introduction to the
    A joint many-task model : Growing a neural network              CoNLL-2000 shared task : chunking, Proceedings of
    for multiple nlp tasks, Empirical Methods in Natural            the 2nd Workshop on Learning Language in Logic and
    Language Processing (EMNLP), 2017.                              the 4th Conference on Computational Natural Lan-
[17] L. Mou, Z. Meng, R. Yan, G. Li, Y. Xu, L. Zhang et             guage Learning, Lisbon, Portugal, vol. 7, 2000, pp.
    Z. Jin, How transferable are neural networks in nlp ap-         127–132, 2000.
    plications ?, Empirical Methods in Natural Language
    Processing (EMNLP), pp. 479–489, 2016.
[18] H.M Alonso et B. Plank, When is multitask lear-
    ning effective ? Semantic sequence prediction under
    varying data conditions, 15th Conference of the Eu-
    ropean Chapter of the Association for Computational
    Linguistics, 2017.
[19] J. Bingel et A. Søgaard, Identifying beneficial task re-
    lations for multi-task learning in deep neural networks,
    arXiv preprint arXiv :1702.08303, 2017.
[20] J. Pennington, R. Socher et C. Manning, Glove : Glo-
    bal vectors for word representation. Proceedings of the
    2014 conference on empirical methods in natural lan-
    guage processing (EMNLP), pp. 1532-1543, 2014.
[21] K. Cho, B. Van Merriënboer, C. Gulcehre, D.
    Bahdanau, F. Bougares, H. Schwenk et Y. Bengio,
    Learning phrase representations using RNN encoder-
    decoder for statistical machine translation, arXiv pre-
    print arXiv :1406.1078, 2014.
[22] V. Nair et G.E. Hinton, Rectified linear units im-
    prove restricted boltzmann machines, Proceedings of
    the 27th international conference on machine learning
    (ICML-10), pp. 807-814, 2010.
[23] L.A. Ramshaw et M.P. Marcus, Text chunking using
    transformation-based learning, Natural language pro-
    cessing using very large corpora, pp. 157-176, Sprin-
    ger, Dordrecht, 1999.
[24] D. Bahdanau, K. Cho et Y. Bengio, Neural machine
    translation by jointly learning to align and translate,
    ICLR, 2015.
[25] D.P. Kingma et J. Ba, Adam : A method for stochastic
    optimization, ICLR, 2015.
[26] R. Pascanu, T. Mikolov et Y. Bengio, On the difficulty
    of training recurrent neural networks, Proceedings of
    The 30th International Conference on Machine Lear-
    ning, pp. 1310–1318, 2013.
[27] A.M. Saxe, J.L. McClelland, S. Ganguli, Exact so-
    lutions to the nonlinear dynamics of learning in deep
    linear neural networks, Proceedings of the Internatio-
    nal Conference on Learning Representations (ICLR),
    2014.
[28] K. He, X. Zhang, S. Ren et J. Sun, Delving Deep into
    Rectifiers : Surpassing Human-Level Performance on
    ImageNet Classification, ICCV, 2015.
[29] N. Srivastava, G.E. Hinton, A. Krizhevsky, I. Suts-
    kever et R. Salakhutdinov, Dropout : a simple way to
    prevent neural networks from overfitting, Journal of
    machine learning research, 15(1) :1929–1958, 2014.