=Paper=
{{Paper
|id=Vol-2133/cnia-paper5
|storemode=property
|title=Réseaux de neurones récurrents multi-tâches pour l’analyse automatique d’arguments(Argument mining: A multi-task approach using deep neural networks)
|pdfUrl=https://ceur-ws.org/Vol-2133/cnia-paper5.pdf
|volume=Vol-2133
|dblpUrl=https://dblp.org/rec/conf/rjcia/MensonidesHMT18
}}
==Réseaux de neurones récurrents multi-tâches pour l’analyse automatique d’arguments(Argument mining: A multi-task approach using deep neural networks)==
Réseaux de Neurones Récurrents Multi-tâches pour l’Analyse Automatique d’Arguments Jean-Christophe Mensonides1 Sébastien Harispe1 Jacky Montmain1 Véronique Thireau2 1 LGI2P, IMT Mines Ales, Univ Montpellier, Ales, France 2 Université de Nîmes, CHROME, Rue du Dr Georges Salan, Nîmes, France jean-christophe.mensonides@mines-ales.fr Résumé la philosophie ou la linguistique, l’extraction et l’analyse Dans cet article nous proposons une méthode d’extraction automatique d’arguments au sein de corpus textuels (aussi et d’analyse automatique d’arguments à partir de textes appelé argument mining) forment des axes de recherche bruts, en nous affranchissant de l’utilisation de carac- relativement nouveaux. Un système d’argument mining téristiques manuellement définies par des experts. Nous a pour objectif la génération automatique d’un graphe présentons un modèle multi-tâches faisant appel à des d’arguments à partir de textes non structurés, et peut géné- techniques d’apprentissage profond, composé de plusieurs ralement être divisé en une séquence d’étapes comportant couches de réseaux de neurones récurrents. Plus particu- notamment la détection d’arguments et la modélisation lièrement, nous tirons parti de paramètres entraînés sur des des liens unissant ces derniers [1]. Nous nous limitons à tâches simples, comme l’étiquetage morpho-syntaxique ou une étude de la micro-structure argumentative, consistant à le chunking, afin d’obtenir un modèle capable de traiter analyser la manière dont différents composants argumen- des tâches plus complexes nécessitant une compréhension tatifs interragissent entre eux au sein d’un même texte. fine du texte. De manière plus spécifique, Stab et Gurevych [2] ont Mots Clef proposé le corpus Argument Annotated Essays (version 2), Traitement Automatique du Langage Naturel, Extraction contenant 402 dissertations extraites de essayforum.com. d’arguments, Réseaux de neurones récurrents, Apprentis- La structure argumentative de chaque dissertation a été sage profond. manuellement annotée suivant un modèle de graphe orienté acyclique connexe, dans lequel les noeuds représentent Abstract des composants argumentatifs et les arcs des liens entre In this article we propose a method performing automatic ces derniers. Le schéma d’annotation utilisé permet de extraction and analysis of arguments from raw texts, wi- distinguer trois types de composants argumentatifs : (i) les thout using handcrafted features. We introduce a multi-task conclusions majeures, reflétant le point de vue global de deep learning model stacking several layers of recurrent l’auteur sur le sujet disserté, (ii) les conclusions intermé- neural networks. Specifically, we make use of weight pa- diaires, représentant des affirmations qui ne pourraient être rameters trained on simple tasks, such as Part-Of-Speech acceptées sans justifications complémentaires, et (iii) les tagging and chunking, in order to obtain a model able to prémisses, servant de justifications aux conclusions inter- handle more complex tasks that require a detailed unders- médiaires avancées. Les arcs du graphe sont porteurs d’une tanding of the text. étiquette "support" ou "attaque" selon que le composant argumentatif source corrobore ou réfute la cible. Les arcs Keywords ne peuvent exister que a) d’une prémisse vers une autre Natural Language Processing, Argument mining, Recur- prémisse, b) d’une prémisse vers une conclusion (majeure rent neural networks, Deep learning. ou intermédiaire), et c) d’une conclusion intermédiaire vers une autre conclusion (majeure ou intermédiaire). 1 Introduction L’argumentation est un ensemble de techniques visant Afin d’obtenir automatiquement un graphe synthéti- à faire adhérer un interlocuteur à un point de vue qui sant la structure argumentative d’une dissertation, Stab et lui est présenté, en construisant un raisonnement à base Gurevych [2] ont proposé une chaîne de traitement consti- d’arguments. Bien que l’étude de l’argumentation soit un tuée de quatre étapes : (1) Délimitation des frontières champ étudié depuis longtemps dans des domaines tels que des composants argumentatifs, (2) Détermination du type de chaque composant argumentatif, (3) Détermination classifient des composants argumentatifs en prémisses, de l’existence d’un arc entre chaque paire ordonnée de conclusions intermédiaires et conclusions majeures dans composants argumentatifs, et (4) Etiquetage des arcs des dissertations en utilisant un SVM [2], Persing et Ng existants comme relation de support ou d’attaque. (2016) utilisent un classifieur d’entropie maximale afin de déterminer le type de composants argumentatifs [11], Dans cet article, nous nous concentrons sur l’étude Potash et al (2016) utilisent des réseaux de neurones des tâches (1) et (2), en cherchant à nous affranchir de récurrents dits "séquence à séquence" dans l’objectif l’utilisation de caractéristiques définies manuellement d’inférer le type de composants argumentatifs [12]. par des experts. La section 2 présente un panorama des travaux antérieurs réalisés sur des tâches similaires à (1) L’étude de modèles multi-tâches, capables de traiter et (2). La section 3 décrit le modèle que nous avons mis plusieurs problèmes différents en partageant un sous- en place pour traiter les deux tâches évoquées ci-dessus. ensemble commun de paramètres, a fait l’objet d’un La section 4 présente les modalités d’entraînement du engouement récent au sein de la communauté du traite- modèle. La section 5 est consacrée aux expérimentations ment automatique du langage. Ce type de modèles est que nous avons menées et aux résultats obtenus. La section bio-inspiré : un être humain est capable de réaliser une 6 propose des directions et perspectives pour nos futures multitude de tâches différentes et peut exploiter, quand recherches. cela est nécessaire, son savoir-faire acquis concernant la résolution d’un type de problème pour apprendre plus 2 Travaux antérieurs vite à résoudre d’autres types de problèmes. Ruder (2017) énonce les raisons pour lesquelles ce type de modèle est La détection de composants argumentatifs consiste à efficace d’un point de vue apprentissage automatique déterminer les frontières séparant les unités textuelles [13] : l’utilisation de plusieurs corpus différents induit une porteuses d’arguments du reste du texte. Cette tâche augmentation implicite du nombre d’exemples disponibles est généralement considérée comme un problème de pendant la phase d’entraînement. De plus, le modèle doit segmentation de texte supervisée au niveau du mot. Les rechercher des caractéristiques utiles pour l’ensemble des modèles exploitant l’aspect séquentiel des mots, inhérent tâches à traiter, ce qui limite la modélisation du bruit dans à la construction d’une argumentation convaincante, les données et permet une meilleur généralisation. sont particulièrement adaptés et utilisés : Madnani et al (2012) utilisent un Conditional Random Field (CRF) afin Søgaard et Goldberg (2016) montrent qu’induire de d’identifier des segments non argumentatifs au sein de la connaissance a priori dans un modèle multi-tâches dissertations [3], Levy et al (2014) identifient les frontières en hiérarchisant l’ordre des tâches à apprendre permet d’unités textuelles représentant des conclusions supportant d’obtenir de meilleurs performances [14]. Yang et al ou attaquant le sujet débattu dans des fils de discussions (2016) ont montré qu’entraîner un modèle multi-tâches et issus de Wikipedia [4], Ajjour et al (2017) utilisent des multi-langues permettait d’améliorer les performances sur réseaux de neurones récurrents de type Long Short-Term des problèmes où les données ne sont que partiellement Memory (LSTM) afin d’extraire des arguments issus de annotées [15], Hashimoto et al (2017) obtiennent des dissertations, d’éditoriaux et de commentaires générés résultats compétitifs sur la majorité des tâches d’un par des internautes [5], Goudas et al (2014) identifient même modèle [16]. Le bénéfice d’un modèle multi-tâches des phrases contenant des arguments avant de déterminer n’est cependant pas garanti, et dépend notamment de la précisément leurs frontières au sein de médias sociaux à distribution des données relatives aux différents problèmes l’aide d’un CRF [6], Sardianos et al (2015) déterminent traités (Mou et al (2016) [17], Alonso et Plank (2017) [18], les limites de composants argumentatifs au sein d’articles Bingel et Søgaard (2017) [19]). de presse à l’aide d’un CRF [7], Stab et Gurevych (2017) utilisent un CRF afin d’isoler les composants argumentatifs 3 Modèle proposé au sein de dissertations [2], Eger et al (2017) ont recouru à des techniques d’apprentissage profond [8]. Nous proposons un modèle ayant pour objectif 1) de dé- terminer les frontières de composants argumentatifs pré- La tâche consistant à déterminer le type d’un compo- sents dans un ensemble de dissertations et 2) de détermi- sant argumentatif (prémisse, conclusion, etc.) a souvent été ner le type de chaque composant argumentatif dans les- traité comme un problème de classification de texte super- dites dissertations. Nous nous inspirons du travail de Ha- visée. Eckle-Kohler et al (2015) distinguent des prémisses shimoto et al [16] et optons pour un modèle multi-tâches et des conclusions au sein d’articles de presse à l’aide de s’affranchissant de la définition de caractéristiques manuel- Naive Bayes, Random Forest et Support Vector Machine lement définies. Plus particulièrement, nous utilisons des (SVM) [9], Park et Cardie (2014) utilisent un SVM pour techniques issues de l’apprentissage profond et entraînons déterminer à quel point des affirmations sont justifiées au un modèle capable d’effectuer de l’étiquetage morpho- sein de commentaires d’internautes relatifs à de nouveaux syntaxique (EMS), du chunking, de la détection de limites projets de législation [10], Stab et Gurevych (2017) de composants argumentatifs et de la classification de com- rt = σ(Wr xt + br + Whr h(t−1) + bhr ) zt = σ(Wz xt + bz + Whz h(t−1) + bhz ) où xt représente l’entrée à l’instant t, rt , zt et nt sont respectivement les portes de réinitialisation, d’entrée et de nouveauté, σ représente la fonction sigmoïde, et W et b sont des matrices et vecteurs de paramètres. En vue d’exploiter le contexte "passé" et "futur" d’un élément d’une séquence de N éléments [x1 , x1 , ..., xN ], nous pouvons construire un encodage bi-directionnel par concaténation des états cachés obtenus par un encodage séquentiel "à l’endroit" (e.g, à l’instant t = 1, l’entrée est F IGURE 1 – Aperçu de l’architecture utilisée couche par x1 , à l’instant t = 2, l’entrée est x2 , etc.) et un encodage "à couche. EMS, DelCA et DetCA sont respectivement des l’envers" (e.g, à l’instant t = 1, l’entrée est xN , à l’instant acronymes pour Etiquetage Morpho-Syntaxique, Délimi- t = 2, l’entrée est xN −1 , etc.) : tation des Composants Argumentatifs et Détermination du → − −−−→ type des Composants Argumentatifs. ht = GRU (xt ), t ∈ [1, N ] ← − ←−−− ht = GRU (xt ), t ∈ [N, 1] posants argumentatifs. Une illustration de l’architecture du → − ← − modèle est proposée en Figure 1. Les différentes couches ht = [ ht ; ht ] utilisées sont présentées ci-dessous. Nous utilisons les représentations vectorielles des mots 3.1 Plongement sémantique constituant l’exemple en cours comme entrée de la couche EMS : −−→ −−−→ Nous utilisons une première couche de plongement séman- (1) tique assignant une représentation vectorielle et à chaque ht = GRU (et ) mot wt donné en entrée du système. Nous utilisons Glove ←−− ←−−− (1) ht = GRU (et ) [20] afin d’obtenir un ensemble de représentations vecto- rielles entraînées de manière non-supervisée 1 . Les repré- −−→ ←−− (1) (1) (1) ht = [ht ; ht ] sentations vectorielles de mots sont continuellement opti- misées au cours de l’entraînement du modèle sur les dif- Ensuite pour chaque instant t, nous calculons la probabilité férentes tâches explicitées ci-dessous. Les mots pour les- d’assigner l’étiquette k au mot wt de la manière suivante : quels nous ne disposons pas de représentation vectorielle (1) pré-entraînée sont transformés en un mot spécial. (1) (1) exp(Wsm(1) f ct + bsm(1) ) p(yt = k|ht ) = P (1) 3.2 Etiquetage morpho-syntaxique c1 exp(Wsm(1) f ct + bsm(1) ) (1) La seconde couche du modèle correspond à une tâche (1) (1) f ct = relu(Wf c(1) ht + bf c(1) ) (2) d’étiquetage morpho-syntaxique (EMS), consistant à assigner pour chaque mot wt en entrée du système une Avec W et b matrices et vecteurs de paramètres, relu la étiquette morpho-syntaxique (e.g, nom commun, verbe, fonction Unité de Rectification Linéaire [22], et c1 l’en- déterminant, etc.). Nous utilisons un Gated Recurrent Unit semble des classes possibles pour l’étiquette EMS. (GRU) [21] bi-directionnel afin d’encoder les séquences 3.3 Chunking de mots en entrée du système. Le chunking consiste à assigner une étiquette chunk (chunk GRU est un réseau de neurones récurrent utilisant un nom, chunk verbe, etc.) à chaque mot. Nous calculons les mécanisme de déclenchement sans utilisation de cellule états cachés relatifs au chunking en exploitant ce que le mémoire séparée. A l’instant t, GRU calcule l’état caché modèle a appris pour la tâche EMS : ht de la manière suivante : −−→ −−−→ (2) (1) (EM S) ht = GRU ([et ; ht ; yt ]) ht = (1 − zt )nt + zt h(t−1) ←−− ←−−− (2) (1) (EM S) avec ht = GRU ([et ; ht ; yt ]) −−→ ←−− (2) (2) (2) nt = tanh(Wn xt + bn + rt (Whn h(t−1) + bhn )) ht = [ht ; ht ] (1) 1. Le modèle pré-entraîné est issu de Avec ht l’état caché obtenu à l’instant t pour la tâche (EM S) https ://nlp.stanford.edu/projects/glove/ EMS et yt la représentation vectorielle pondérée de l’étiquette EMS. En suivant Hashimoto et al. [16], yt (EM S) [S1] The greater our goal is, the more competition we need. est définit comme suit : [S2] Take Olympic games which is a form of competition for instance, it is hard to imagine how an athlete could win card(c1 ) the game without the training of his or her coach, and the (EM S) (1) (1) X yt = p(yt = j|ht )l(j) (3) help of other professional staffs such as the people who j=1 take care of his diet, and those who are in charge of the medical care [S3] . The winner is the athlete but the suc- où l(j) est une représentation vectorielle de la j-ème éti- cess belongs to the whole team. Therefore [S4] without the quette EMS. Les représentations vectorielles des étiquettes cooperation, there would be no victory of competition [S5] sont pré-entraînées avec GloVe. . Consequently, no matter from the view of individual deve- La probabilité d’assigner une étiquette chunk à un lopment or the relationship between competition and co- mot est ensuite calculée de manière similaire à celle pour operation we can receive the same conclusion that [S6] a les étiquettes EMS (équations (1) et (2)), mais avec un more cooperative attitudes towards life is more profitable ensemble de paramètres propres à la couche chunking. in one’s success. 3.4 Délimitation des composants argumen- F IGURE 2 – Un extrait d’une dissertation extrait du cor- tatifs (DelCA) pus. Les passages soulignés par un trait continu consti- L’objectif de cette tâche est de déterminer, au mot près, tuent des prémisses, ceux soulignés par un trait discontinu les frontières de chaque composant argumentatif au sein constituent des conclusions intermédiaires, et les passages d’une dissertation. Nous suivons Stab et Gurevych [2] en gras sont des conclusions majeures. Les numéros des et traitons cette tâche comme un problème de segmen- segments [S# ] sont rajoutés à titre indicatif. Le premier seg- tation de texte supervisée dont les étiquettes suivent un ment correspond à la portion du début du texte jusqu’à la IOB-tagset [23] : le premier mot de chaque composant première prémisse. Le second segment correspond à la pre- argumentatif porte l’étiquette "Arg-B", les mots restant mière prémisse. Le troisième segment correspond à la por- dudit composant argumentatif portent l’étiquette "Arg-I", tion non surlignée entre la première prémisse et la première et les mots n’appartenant pas à un composant argumentatif conclusion intermédiaire, etc. portent l’étiquette "O". de texte continue dont les mots n’appartiennent pas à un Chaque dissertation est traitée comme une unique composant argumentatif. La notion de segment est illustré séquence de mots que nous encodons de la manière en Figure 2. suivante : −−→ −−−→ Nous encodons chaque segment si , i ∈ [1, L] de la (3) (1) (EM S) (2) (chunk) ht = GRU ([et ; ht ; yt ; ht ; yt ]) manière suivante : ←−− ←−−− − → −−−→ (3) (1) (EM S) (2) (chunk) (1) (EM S) (2) (chunk) ht = GRU ([et ; ht ; yt ; ht ; yt ]) hit = GRU ([eit ; hit ; yit ; hit ; yit ]) −−→ ←−− ←− ←−−− (1) (EM S) (2) (chunk) (3) (3) ht = [ht ; ht ] (3) hit = GRU ([eit ; hit ; yit ; hit ; yit ]) −→ ← − (chunk) hit = [hit ; hit ] où yt est la représentation vectorielle pondérée de l’étiquette chunk, calculée de manière similaire à celle de où it représente l’instant t du segment si . l’étiquette EMS (équation (3)). Afin que le modèle se concentre davantage sur les La probabilité d’assigner une étiquette à un mot est marqueurs potentiellement importants (comme "I firmly ensuite calculée de manière similaire à celle pour les believe that" ou "we can receive the same conclusion étiquettes EMS, mais avec un ensemble de paramètres that") nous utilisons un mécanisme d’attention [24], nous propres à la couche DelCA. permettant de surcroît de synthétiser l’information portée par les états cachés d’un segment en un vecteur de taille 3.5 Déterminer le type des composants argu- fixe : mentatifs (DetCA) uit = tanh(Watt hit + batt ) L’objectif de cette tâche est de déterminer le type de exp(u|it uatt ) chaque composant argumentatif parmi prémisse, conclu- αit = P | t exp(uit uatt ) sion intermédiaire et conclusion majeure. Nous traitons X cette tâche comme un problème d’étiquetage de segment. shi = αit hit Nous considérons qu’un segment peut être la séquence t des mots appartenant à un même composant argumentatif Avec Watt , batt et uatt respectivement matrices, biais et ou la séquence des mots appartenant à une même portion vecteurs de paramètres. de paramètres et biais de la couche chunking, incluant ceux Nous encodons ensuite la dissertation à partir des de θEM S . EEM S est l’ensemble des paramètres caractéri- états cachés synthétiques shi des segments : sant la représentation vectorielle des étiquettes EMS. La −−→ −−−→ fonction de coût est définie de la manière suivante : (4) hj = GRU (shi ), i ∈ [1, L] XX (2) (2) J (2) = − log p(yt = k|ht ) ←−− ←−−− s t (4) 2 hj = GRU (shi ), i ∈ [L, 1] 2 0 + λ kWchunking k + δ kθEM S − θEM Sk −−→ ←−− (4) (4) (4) (2) (2) hj = [hj ; hj ] Avec p(yt = k|ht ) la probabilité d’assigner la bonne 0 La probabilité d’assigner une étiquette à un segment est étiquette k au mot wt de la séquence de mots s. θEM S est ensuite calculée de manière similaire à celle pour les l’ensemble des paramètres de la couche EMS obtenus avant étiquettes EMS, mais avec un ensemble de paramètres d’entamer l’"epoch" courante d’entraînement de la couche propres à la couche DetCA. chunking. 4.3 Couche DelCA 4 Entraînement du modèle Notons θDelCA = (WDelCA , bDelCA , EEM S , Echunk, θe ) Nous entraînons le modèle en alternant les couches à l’ensemble des paramètres intervenant dans la couche chaque "epoch" dans l’ordre suivant : EMS, chunking, DelCA, avec WDelCA et bDelCA respectivement matrices DelCA, DetCA. Afin d’évaluer la pertinence d’implémen- de paramètres et biais de la couche DelCA, incluant ceux ter un modèle multi-tâches, nous avons entraîné une ver- de la couche chunking et EMS. Echunk est l’ensemble des sion du modèle en omettant l’optimisation des couches paramètres caractérisant la représentation vectorielle des EMS et chunking (nommée "w/o EMS & chunking") et une étiquettes de la couche chunking. La fonction de coût est version du modèle en optimisant l’ensemble des couches définie de la manière suivante : (nommée "w/ EMS & chunking"). Les détails de l’entraî- (3) (3) XX nement de chaque couche sont explicités ci-dessous. J (3) = − log p(yt = k|ht ) d t 4.1 Couche EMS 2 0 2 + λ kWDelCA k + δ kθchunk − θchunk k Nous suivons Hashimoto et al. [16] et notons θEM S = (WEM S , bEM S , θe ) l’ensemble des paramètres (3) (3) Avec p(yt = k|ht ) la probabilité d’assigner la bonne intervenant dans la couche EMS. WEM S représente l’en- 0 étiquette k au mot wt de la dissertation d. θchunk est semble des matrices de paramètres de la couche EMS, l’ensemble des paramètres de la couche chunking obtenus bEM S l’ensemble des biais de la couche EMS et θe l’en- avant d’entamer l’"epoch" courante d’entraînement de la semble des paramètres de la couche de plongement séman- couche DelCA. tique des mots. La fonction de coût est définie par : 4.4 Couche DetCA (1) (1) XX J (1) = − log p(yt = k|ht ) Notons θDetCA = (WDetCA , bDetCA , EEM S , Echunk, θe ) s t 2 2 l’ensemble des paramètres intervenant dans la couche + λ kWEM S k + δ kθe − θe0 k DetCA, avec WDetCA et bDetCA respectivement matrices (1) (1) de paramètres et biais de la couche DetCA, incluant ceux Avec p(yt = k|ht ) la probabilité d’assigner la de la couche chunking et EMS. La fonction de coût est bonne étiquette k au mot wt de la séquence de mots s, définie de la manière suivante : 2 2 λ kWEM S k est la régularisation L2 et δ kθe − θe0 k un (4) (4) XX régularisateur successif. λ et δ sont des hyper-paramètres. J (4) = − log p(yi = k|shi ) d i 2 0 2 Le régularisateur successif a pour vocation de stabili- + λ kWDetCA k + δ kθchunk − θchunk k ser l’entraînement en empêchant θe d’être trop modifié (4) (4) spécifiquement par la couche EMS. θe étant partagé par Avec p(yi = k|shi ) la probabilité d’assigner la bonne l’ensemble des couches du modèle, des modifications étiquette k au segment si de la dissertation d. trop importantes apportées par l’entraînement de chaque couche empêcherait le modèle d’apprendre convenable- 5 Expérimentations et résultats ment. θe0 est l’ensemble des paramètres intervenant dans la couche de vectorisation des mots à l’époch précédente. 5.1 Hyper-paramètres et données utilisées Optimisation. Nous entraînons le modèle en alternant 4.2 Couche chunking les couches, suivant l’ordre suivant : EMS, chunking, Nous notons θchunk = (Wchunk , bchunk , EEM S , θe ) l’en- DelCA, DetCA. Chaque couche est entraînée pendant une semble des paramètres intervenant dans la couche chun- "epoch" avant de passer à la couche suivante. Nous utili- king. Wchunk et bchunk sont respectivement les matrices sons Adam [25] comme algorithme d’apprentissage, avec β1 = 0.9, β2 = 0.999 et = 10−8 . Le coefficient d’ap- Tâche w/o EMS & chunking w/ EMS & chunking prentissage est commun à toutes les couches et fixé à 10−3 DelCA 0.5934 0.8688 au début de l’entraînement, puis multiplité par 0.75 toutes DetCA 0.7464 0.7105 les 10 "epoch". Afin de limiter le problème d’explosion du DetCA simple 0.7529 0.7911 gradient, nous redimensionnons sa norme avec une stra- tégie de gradient clipping [26]. Nous suivons [16] et ap- TABLE 1 – Macros f1-scores obtenus sur les différentes pliquons un gradient clipping de min(3.0, prof ondeur), tâches. où prof ondeur représente le nombre de GRU impliquées dans la couche entraînée. Tâche F1-score obtenus en [2] F1-score humain Initialisation des paramètres. Afin de faciliter la pro- DelCA 0.867 0.886 pagation du gradient lors de l’entraînement, nous utilisons DetCA 0.826 0.868 des matrices orthogonales générées aléatoirement comme états initiaux pour les matrices de paramètres des GRU, TABLE 2 – F1-scores obtenus sur les tâches DelCA et comme préconisé par Saxe et al. [27]. Les autres ma- DetCA par Stab et Gurevych [2] et des agents humains. trices de paramètres sont initialisées p avec des valeurs is- sues d’une loi normal N (0, 2/nin ), où nin représente le nombre de neurones entrant dans la couche concernée, forcera le modèle à se concentrer sur le contexte entourant comme proposé par He et al [28]. Les vecteurs de biais les composants argumentatifs, et l’empêchera donc de se sont initialisés en tant que vecteurs nuls. surentraîner en considérant les mots à l’intérieur des com- Dimensions vectorielles utilisées. La représentation posants. vectorielle utilisée pour les mots en entrée du système et les représentations vectorielles des étiquettes EMS et chun- 5.2 Résultats obtenus king sont de dimension 50. Les états cachés des GRU sont Les résultats obtenus sur les données de test pour les tâches de dimension 100 pour toutes les couches du modèle. DelCA, DetCA et DetCA simple sont présentés en Table 1. La colonne "w/o EMS & chunking" fait référence à la ver- Régularisation. En suivant [16], nous fixons les coeffi- sion du modèle pour laquelle l’optimisation des couches cients λ à 10−6 pour les matrices de paramètres des GRU EMS et chunking a été omise. La colonne "w/ EMS & et 10−5 pour les autres matrices de paramètres. Le coef- chunking" fait référence à la version du modèle pour la- ficient de régularisation successif δ est fixé à 10−2 pour quelle l’optimisation des couches EMS et chunking a été toutes les couches. Nous utilisons aussi Dropout [29] sur réalisée. Nous prenons comme référence les performances toutes les couches, avec taux de neurones affectés de 0.2. atteintes par des agents humains 2 ainsi que les résultats Données d’entraînement pour les couches EMS et présentés par Stab et Gurevych [2], illustrés en Table 2. chunking. Nous utilisons le corpus issu de la tâche par- Evaluation générale des performances. Nous obtenons tagée CoNLL-2000 [30] avec les étiquettes associées pour un macro f1-score de 0.8688 sur DelCA avec la version entraîner les couches EMS et chunking. "w/ EMS & chunking". Ces résultats sont obtenus sans dé- Données d’entraînement pour les couches DelCA et finition de caractéristiques manuelles et sont comparables DetCA. Nous utilisons le corpus Argument Annotated à ceux enregistrés en [2] ; ils atteignent 98,06% de la per- Essays (version 2) partagé par Stab et Gurevych [2] en sui- formance humaine. Concernant la classification des com- vant le découpage entraînement/test fourni pour l’entraîne- posants argumentatifs, nous obtenons un macro f1-score ment des couches DelCA et DetCA. de 0.7911 avec DetCA simple pour la version "w/ EMS Arrêt de l’entraînement. Dans un cas d’entraînement & chunking", ce qui représente 95,8% des performances uni-tâche, une pratique généralement adoptée est d’arrêter obtenues en [2] et 91,1% de la performance humaine. l’entraînement du modèle peu avant le surapprentissage. Pertinence de DetCA simple. Selon nous, les mots for- Dans le cas de notre modèle, il n’est pas évident de dé- mant un composant argumentatif ne sont pas réellement terminer le meilleur moment pour arrêter l’entraînement, caractéristiques de sa classe, et en se concentrant dessus, puisque le modèle peut surapprendre sur une tâche parti- le modèle peut être amené à modéliser du bruit l’empê- culière, mais pas sur les autres. Ainsi, nous arrêtons l’en- chant de généraliser correctement. En revanche, le contexte traînement du modèle lorsqu’il surapprend sur les couches dans lequel apparaissent les composants semble très im- DelCA et DetCA, et reportons les meilleurs résultats obte- portant. Par exemple, des mots tels que "we can receive the nus pour chaque tâche avant le surapprentissage de celle-ci. same conclusion that" semblent indiquer que l’auteur va DetCa simple. Nous nommons DetCa simple la tâche annoncer une conclusion intermédiaire ou majeure. Cela DetCa avec la modification suivante : tous les segments des peut expliquer la différence de performances entre DetCA dissertations correspondant à des composants argumenta- et DetCA simple, notamment pour la version "w/ EMS tifs sont traités comme ne comportant qu’un unique mot 2. La performance humaine correspond à la moyenne des résultats spécial . L’hypothèse est que cette transformation obtenus par des annotateurs humains, tels que présentés en [2] & chunking", avec respectivement un f1-score de 0.7105 tion for Computational Linguistics : Human Language contre 0.7911, soit une amélioration de 11,3%. Technologies, pp. 20-28, Association for Computatio- Pertinence du modèle multi-tâches. Les macro f1- nal Linguistics, 2012. scores sur les tâches DelCA et DetCA simple sont respec- [4] R. Levy, Y. Bilu, D. Hershcovich, E. Aharoni et N. Slo- tivement de 0.5934 et 0.7529 pour la version "w/ EMS & nim, Context dependent claim detection, Proceedings chunking" et de 0.8688 et 0.7911, soit des améliorations of COLING 2014, the 25th International Conference de 46,4% et 5,1%. Ces résultats permettent donc de vali- on Computational Linguistics : Technical Papers, pp. der l’intérêt d’entraîner un modèle multi-tâches et incitent 1489-1500, 2014. à l’ajout de tâches auxiliaires supplémentaires. [5] Y. Ajjour, W.F. Chen, J. Kiesel, H. Wachsmuth et B. Stein, Unit Segmentation of Argumentative Texts, Pro- 6 Travaux à venir et perspectives ceedings of the 4th Workshop on Argument Mining, pp. Les résultats obtenus sont encourageants et pourraient 118-128, 2017. sûrement être améliorés, notamment avec une recherche [6] T. Goudas, C. Louizos, G. Petasis et V. Karkaletsis, Ar- plus d’approfondie d’hyper-paramètres optimaux. La gument extraction from news, blogs, and social media, différence de performances entre les versions du modèle Hellenic Conference on Artificial Intelligence, pp. 287- "w/ EMS & chunking" et "w/o EMS & chunking" portent 299, Springer, Cham, 2014. à croire qu’implémenter davantage de tâches auxiliaires pourrait être bénéfique. Une piste serait d’introduire une [7] C. Sardianos, I.M. Katakis, G. Petasis et V. Karkalet- couche modélisant un arbre de dépendances syntaxiques sis, Argument extraction from news, Proceedings of en complément de la couche chunking, comme effectué en the 2nd Workshop on Argumentation Mining, pp. 56- [16]. 66, 2015. [8] S. Eger, J. Daxenberger et I. Gurevych, Neural End-to- En vue d’implémenter un système complet d’argu- End Learning for Computational Argumentation Mi- ment mining tel que présenté par Stab et Gurevych [2], ning, arXiv preprint arXiv :1704.06104, 2017. nous prévoyons d’implémenter des couches permettant la [9] J. Eckle-Kohler, R. Kluge et I. Gurevych, On the role génération automatique de graphes d’arguments. A cette of discourse markers for discriminating claims and fin il est nécessaire de déterminer s’il existe un arc entre premises in argumentative discourse, Proceedings of chaque paire ordonnée de composants argumentatifs, ainsi the 2015 Conference on Empirical Methods in Natural que d’inférer l’étiquette portée par ledit arc. Language Processing, pp. 2236-2242, 2015. 7 Conclusion [10] J. Park et C. Cardie, Identifying appropriate support for propositions in online user comments. Proceedings Cet article a présenté une méthode d’extraction et d’ana- of the 1st Workshop on Argumentation Mining, pp. 29- lyse automatique d’arguments à partir de textes bruts. L’uti- 38, 2014. lisation de techniques d’apprentissage profond nous permet de nous affranchir de la définition de caractéristiques ma- [11] I. Persing et V. Ng, End-to-End Argumentation Mi- nuellement définies. Par ailleurs, l’amélioration des perfor- ning in Student Essays, Proceedings of the 2016 mances de notre système par l’exploitation de paramètres Conference of the North American Chapter of the As- optimisés sur des tâches auxiliaires met en avant l’inté- sociation for Computational Linguistics : Human Lan- rêt de l’utilisation d’un modèle multi-tâches. Nous avons guage Technologies, Association for Computational comme perspective la complétion de la chaîne de traite- Linguistics, pages 1384–1394, 2016. ment existante en vue d’obtenir un système capable de syn- [12] P. Potash, A. Romanov et A. Rumshisky, Here’s My thétiser une dissertation par modélisation automatique d’un Point : Joint Pointer Architecture for Argument Mi- graphe d’arguments. ning, Proceedings of the 2017 Conference on Empi- rical Methods in Natural Language Processing, pp. Références 1364-1373, 2017. [1] M. Lippi et P. Torroni, Argumentation mining : State [13] S. Ruder, An overview of multi-task learning in deep of the art and emerging trends, ACM Transactions on neural networks, CoRR, abs/1706.05098, 2017. Internet Technology (TOIT), 16(2), p.10, 2016. [14] A. Søgaard et Y. Goldberg, Deep multi-task learning [2] C. Stab et I. Gurevych, Parsing argumentation struc- with low level tasks supervised at lower layers, Procee- tures in persuasive essays, Computational Linguistics, dings of the 54th Annual Meeting of the Association for 43(3), pp.619-659, 2017. Computational Linguistics (Volume 2 : Short Papers), [3] N. Madnani, M. Heilman, J. Tetreault et M. Chodorow, Vol. 2, pp.231-235, 2016. Identifying high-level organizational elements in argu- [15] Z. Yang, R. Salakhutdinov et W. Cohen, Multi-task mentative discourse, Proceedings of the 2012 Confe- cross-lingual sequence tagging from scratch, arXiv rence of the North American Chapter of the Associa- preprint arXiv :1603.06270, 2016. [16] K. Hashimoto, C. Xiong, Y. Tsuruoka et R. Socher, [30] E.F.T.K. Sang, S. Buchholz, Introduction to the A joint many-task model : Growing a neural network CoNLL-2000 shared task : chunking, Proceedings of for multiple nlp tasks, Empirical Methods in Natural the 2nd Workshop on Learning Language in Logic and Language Processing (EMNLP), 2017. the 4th Conference on Computational Natural Lan- [17] L. Mou, Z. Meng, R. Yan, G. Li, Y. Xu, L. Zhang et guage Learning, Lisbon, Portugal, vol. 7, 2000, pp. Z. Jin, How transferable are neural networks in nlp ap- 127–132, 2000. plications ?, Empirical Methods in Natural Language Processing (EMNLP), pp. 479–489, 2016. [18] H.M Alonso et B. Plank, When is multitask lear- ning effective ? Semantic sequence prediction under varying data conditions, 15th Conference of the Eu- ropean Chapter of the Association for Computational Linguistics, 2017. [19] J. Bingel et A. Søgaard, Identifying beneficial task re- lations for multi-task learning in deep neural networks, arXiv preprint arXiv :1702.08303, 2017. [20] J. Pennington, R. Socher et C. Manning, Glove : Glo- bal vectors for word representation. Proceedings of the 2014 conference on empirical methods in natural lan- guage processing (EMNLP), pp. 1532-1543, 2014. [21] K. Cho, B. Van Merriënboer, C. Gulcehre, D. Bahdanau, F. Bougares, H. Schwenk et Y. Bengio, Learning phrase representations using RNN encoder- decoder for statistical machine translation, arXiv pre- print arXiv :1406.1078, 2014. [22] V. Nair et G.E. Hinton, Rectified linear units im- prove restricted boltzmann machines, Proceedings of the 27th international conference on machine learning (ICML-10), pp. 807-814, 2010. [23] L.A. Ramshaw et M.P. Marcus, Text chunking using transformation-based learning, Natural language pro- cessing using very large corpora, pp. 157-176, Sprin- ger, Dordrecht, 1999. [24] D. Bahdanau, K. Cho et Y. Bengio, Neural machine translation by jointly learning to align and translate, ICLR, 2015. [25] D.P. Kingma et J. Ba, Adam : A method for stochastic optimization, ICLR, 2015. [26] R. Pascanu, T. Mikolov et Y. Bengio, On the difficulty of training recurrent neural networks, Proceedings of The 30th International Conference on Machine Lear- ning, pp. 1310–1318, 2013. [27] A.M. Saxe, J.L. McClelland, S. Ganguli, Exact so- lutions to the nonlinear dynamics of learning in deep linear neural networks, Proceedings of the Internatio- nal Conference on Learning Representations (ICLR), 2014. [28] K. He, X. Zhang, S. Ren et J. Sun, Delving Deep into Rectifiers : Surpassing Human-Level Performance on ImageNet Classification, ICCV, 2015. [29] N. Srivastava, G.E. Hinton, A. Krizhevsky, I. Suts- kever et R. Salakhutdinov, Dropout : a simple way to prevent neural networks from overfitting, Journal of machine learning research, 15(1) :1929–1958, 2014.