=Paper=
{{Paper
|id=Vol-2295/paper1
|storemode=property
|title=Modélisation d’un contexte global d’étiquettes pour l’étiquetage de séquences dans les réseaux neuronaux récurrents (Modeling a label global context for sequence tagging in recurrent neural networks)
|pdfUrl=https://ceur-ws.org/Vol-2295/paper1.pdf
|volume=Vol-2295
|authors=Marco Dinarelli,Loïc Grobol
}}
==Modélisation d’un contexte global d’étiquettes pour l’étiquetage de séquences dans les réseaux neuronaux récurrents (Modeling a label global context for sequence tagging in recurrent neural networks)==
Modélisation d’un contexte global d’étiquettes pour l’étiquetage de séquences dans les réseaux neuronaux récurrents Marco Dinarelli1 Loïc Grobol1, 2 (1) Lattice, CNRS, ENS, Université Sorbonne Nouvelle, PSL, USPC, 1 rue Maurice Arnoux, 92120 Montrouge, France (2) ALMAnaCH, Inria, 2 rue Simone Iff, 75589 Paris, France marco.dinarelli@ens.fr, loic.grobol@ens.fr RÉSUMÉ Depuis quelques années, les réseaux neuronaux récurrents ont atteint des performances à l’état-de-l’art sur la plupart des problèmes de traitement de séquences. Notamment les modèles sequence to sequence et les CRF neuronaux se sont montrés particulièrement efficaces pour ce genre de problèmes. Dans cet article, nous proposons un réseau neuronal alternatif pour le même type de problèmes, basé sur l’utilisation de plongements d’étiquettes et sur des réseaux à mémoire, qui permettent la prise en compte de contextes arbitrairement longs. Nous comparons nos modèles avec la littérature, nos résultats dépassent souvent l’état-de-l’art, et ils en sont proches dans tous les cas. Nos solutions restent toutefois plus simples que les meilleurs modèles de la littérature. ABSTRACT Modeling a label global context for sequence tagging in recurrent neural networks During the last few years Recurrent Neural Networks (RNN) have reached state-of-the-art performances on most sequence modeling problems. In particular the sequence to sequence model and the neural CRF have proved very effective on this class of problems. In this paper we propose an alternative RNN for sequence labelling, based on label embeddings and memory networks, which makes possible to take arbitrary long contexts into account. Our results are better than those of state-of-the-art models in most cases, and close to them in all cases. Moreover, our solution is simpler than the best models in the literature. MOTS-CLÉS : Réseaux neuronaux récurrents, contexte global, Étiquetage de séquences. KEYWORDS: Recurrent Neural Networks, global context, Sequence Labeling. 1 Introduction L’étiquetage de séquences est un problème très important du TAL. En effet, beaucoup de problèmes de TAL peuvent être reformulés comme des problèmes d’étiquetage de séquences. Cette reformulation peut être intégrale dans certains cas, comme pour l’étiquetage en parties du discours (POS tagging), la segmentation syntaxique, la reconnaissance d’entités nommées (Collobert et al., 2011) ou la compréhension automatique de la parole dans les systèmes de dialogue humain-machine (De Mori et al., 2008). Dans d’autre cas, elle ne concerne que la première de plusieurs étapes, comme pour l’analyse syntaxique en constituants, qui peut être décomposée en étiquetage en parties du discours et en analyse des composants (Collins, 1997); la détection de chaînes de coréférences (Soon et al., 2001; Ng & Cardie, 2002), décomposée en détection de mentions et détection des paires de mentions coréférentes; mais aussi la détection d’entités nommées étendues (Grouin et al., 2011), décomposée en détection des composants simples d’entités nommées, combinés ensuite en entités nommées structurées plus complexes (Dinarelli & Rosset, 2011, 2012). Dans cet article, nous nous intéressons aux modèles neuronaux pour l’étiquetage de séquences tel que la compréhension automatique de la parole, l’annotation en parties du discours et la détection d’entités nommées. Des modèles très efficaces existent pour ce type de problèmes, notamment le modèle sequence to sequence (Sutskever et al., 2014) et toute la famille de modèles employant une couche de sortie de type CRF neuronal au dessus d’une ou plusieurs couches cachées récurrentes telles que LSTM ou GRU (Hochreiter & Schmidhuber, 1997; Cho et al., 2014; Lample et al., 2016; Ma & Hovy, 2016; Vukotic et al., 2016; Chiu & Nichols, 2015; Huang et al., 2015). Ces dernières solutions ont été motivées par la nécessité de remplacer dans les réseaux neuronaux la fonction locale softmax, moins adaptée aux problèmes sur les séquences, par une fonction de décision globale. Pour ces tâches, les CRF classiques (Lafferty et al., 2001; Lavergne et al., 2010) avaient déjà largement montré l’intérêt de la prise en compte des dépendances entre les unités de sortie. Nous proposons une architecture neuronale alternative aux deux mentionnées ci-dessus. Cette architecture utilise une couche cachée de type GRU comme mémoire interne du réseau pour prendre en compte un contexte arbitrairement long, et ce aussi bien pour les unités d’entrée (les mots), que pour unités de sortie (les étiquettes). Pour une meilleure prise en compte de leurs dépendances, nous utilisons des plongements d’étiquettes en nous inspirant de la solution décrite dans (Dupont et al., 2017; Dinarelli et al., 2017). Ces deux choix architecturaux permettent de modéliser efficacement à la fois l’espace sémantique des étiquettes et leur contexte global, de la même façon que les modèles sequence to sequence (Sutskever et al., 2014) ou le LSTM+CRF (Lample et al., 2016). Nous comparons notre solution avec l’état-de-l’art, notamment avec les modèles décrits dans (Dinarelli et al., 2017) et (Lample et al., 2016). À notre connaissance, bien que le modèle sequence to sequence a été utilisé pour des tâches d’étiquetage de séquences, il s’agissait de tâches différentes par rapport à celles auxquelles nous nous intéressons dans cet article. Pour avoir une comparaison équitable, nous nous comparons sur les mêmes tâches que (Dinarelli et al., 2017) : deux tâches de compréhension automatique de la parole qui peuvent être modélisés comme des étiquetages de séquences : ATIS (Dahl et al., 1994) et MEDIA (Bonneau-Maynard et al., 2006). Nos résultats dépassent dans la plupart des cas l’état-de-l’art, et ils en sont proches dans tous les cas. De plus notre solution est plus simple que les modèles sequence to sequence et LSTM+CRF, et, grâce à l’utilisation de technologies récentes 1, elle peut passer à l’échelle sur des quantités de données plus importantes que celles utilisées dans cet article. 2 Réseaux neuronaux alternatifs pour l’étiquetage de séquences Les modèles neuronaux alternatifs aux modèles sequence to sequence et LSTM+CRF proposés dans cet article s’inspirent des modèles décrits dans (Dinarelli et al., 2017). La similarité consiste dans l’utilisation de plongements d’étiquettes pour la représentation des unités de sortie. Les modèles décrits dans (Dinarelli et al., 2017) sont cependant assez simples. Que ce soit au niveau des mots ou au niveau des étiquettes, la prise en compte d’un contexte utilise une fenêtre de taille fixe. Ce choix limite la modélisation d’un contexte à la distance de la taille de la fenêtre choisie. Aussi, les modèles présentés dans (Dinarelli et al., 2017) utilisent une couche cachée simple de type ReLU (Bengio, 2012), et n’utilisent pas l’algorithme Back-Propagation Through Time (BPTT) (Werbos, 1990), ce qui limite également la modélisation d’un contexte arbitrairement long. 1. Pytorch (Paszke et al., 2017) e4 Log-softmax −→ −→ −→ Linéaire ←− ←− ←− ←− he1 he2 he3 he5 he6 he7 he8 −−−→ −−−→ −−−→ −−−→ ←−−− ←−−− ←−−− ←−−− ←−−− GRU l GRU l GRU l GRU l GRU l GRU l GRU l GRU l GRU l El (e1) El (e2) El (e3) El (← e−5 ) El (← e−6 ) El (← e−7 ) El (← e−8 ) hw1 hw2 hw3 hw4 hw5 hw6 hw7 hw8 GRU w GRU w GRU w GRU w GRU w GRU w GRU w GRU w S1lex S2lex S3lex S4lex S5lex S6lex S7lex S8lex J’ aurais souhaité réserver une chambre à Paris FIGURE 1 – Structure (simplifiée) du réseau Les modèles que nous proposons dans cet article élimine ces restrictions en utilisant des couches cachées de type GRU. Celles-ci sont une évolution des couches LSTM qui donnent en général des meilleurs résultats (Cho et al., 2014; Vukotic et al., 2016), et montrent une meilleure capacité à mémoriser l’information contextuelle. −−−→ Dans la suite, GRU (xt,ht−1) désigne une couche cachée GRU bidirectionnelle, et GRU (xt,ht−1) et ←−−− GRU (xt,ht−1) indiquent respectivement une couche cachée forward ou backward. Les sorties de ces → − ← − couches seront notées respectivement ht, ht et ht , une lettre en exposant indiquant le type d’entrée à partir → − de laquelle la couche cachée a été calculée. Par exemple hlt désigne la sortie de la couche cachée forward sur les étiquettes. Les modèles présentés dans cet article utilisent toujours comme entrée xt les mots, leurs caractères et les étiquettes. Nous utilisons pour les mots des plongements notés Ew , et pour les étiquettes des plongements notés El . 2.1 Représentation des mots au niveau des caractères La représentation des mots au niveau des caractères est construite de la même façon que dans (Ma & Hovy, 2016), en utilisant une couche de type GRU au lieu d’une couche LSTM. Dans ce modèle, les caractères d’un mot w =ch1,...ch|w| sont d’abord convertis en plongements. La couche GRU ch est ensuite appliquée à la séquence de plongements et son état final est retenu comme représentation du mot au niveau des caractères. Formellement : Wch =(Ech(ch1)...Ech(ch|w|)) (1) hch |w| =GRUch (Wch ,h0 ) (2) Où Ech est la matrice des plongements de caractères, Wch la séquence de plongements pour w, h0 la valeur initiale de la couche cachée, et hch |w| est sa valeur finale, utilisée comme représentation du mot w. 2.2 Représentation des mots Les mots sont convertis en plongements et ensuite traités par une couche cachée GRU w . Avec le même formalisme que pour les caractères, la séquence de mots s=w1...wN est convertie en plongements Ew (wi). On note si =w1...wi la sous-séquence de s jusqu’au mot wi. Pour augmenter la représentation des mots, les représentations au niveau des caractères hch |wi | sont concaténées avec les plongements de mots et le résultat est donné en entrée à la couche GRU w . La représentation en contexte du mot wi est calculée comme suit : Se =(Ew (w1),...,Ew (wN )) (3) lex S =([Ew (w1),hch ch |w1 | ]...[Ew (wN ),h|wN | ]) (4) hwi =GRU w (Slex i ,hi−1 ),∀i∈[1...N] (5) Où Se est la séquence de plongements construite à partir de la séquence s, Slex est la séquence obtenue en concaténant plongements de mots et représentations au niveau des caractères, qui constitue l’information lexicale et [ ] indique la concaténation de vecteurs. On note aussi Slex i la sous-séquence de Slex jusqu’à la position i. 2.3 Représentation des étiquettes Afin d’obtenir une représentation au niveau des étiquettes qui encode également un long contexte, nous utilisons une couche cachée GRU sur les plongements d’étiquettes. Nous faisons d’abord une passe backward pour calculer la représentation du contexte droit d’une étiquette à prédire donnée. On note ← e−i ces étiquettes prédites en utilisant uniquement le contexte droit. Formellement : ←− ←−−− −−),←−−− hei = GRU l (El(← ei+1 hei+1 ) (6) ←− La sortie hei est utilisée comme représentation du contexte droit pour prédire l’étiquette ← e−i . Cette même représentation est utilisée aussi dans la phase forward, pendant laquelle le modèle dispose à la fois du contexte gauche et du contexte droit pour prédire l’étiquette finale. Le calcul du contexte gauche s’effectue −−−→ de façon similaire avec une couche GRU l . ←−−− −−−→ La couche GRU l (et donc aussi la couche GRU l ) utilise explicitement un contexte d’une seule étiquette. ←−−− −−−→ Grâce au fonctionnement de la couche cachée GRU, l’état de la couche cachée hei+1 (et hei−1 ) encode implicitement toutes les étiquettes précédentes. Nous considérons que le contexte lexical est utile non seulement pour désambiguïser le mot courant à étiqueter, mais également pour désambiguïser le contexte d’étiquettes. En effet, les étiquettes constituent une information sémantique abstraite, dont il est raisonnable de penser qu’elle ne suffit pas pour discriminer ←− − → les traits extraits pour obtenir la représentation des contextes d’étiquettes hli et hli . ←−−− −−−→ Nous ajoutons alors à l’entrée des couches GRU l et GRU l , l’information lexicale hwi décrite plus haut. Avec cette modification, le calcul du contexte droit au niveau des étiquettes devient : ←− ←−−− −−)],←−−− hei = GRU l ([hwi ,El(← ei+1 hei+1 ) (7) Le calcul du contexte gauche s’effectue de façon similaire. ←−−− −−−→ Notre choix d’utiliser l’information hwi dans les couches GRU l et GRU l est également motivé par la théorie des systèmes complexes, comme proposé dans (Wang, 2017). (Arthur, 1993) caractérise qualitativement l’évolution du fonctionnement d’un système complexe avec trois types d’adaptations différentes, notamment l’agrégation et la spécialisation. Dans ce cadre, nous décrivons l’évolution de nos modèles en terme de spécialisation. Les cas les plus clairs sont ceux des portes (gates) des couches LSTM et GRU. En effet, les portes z et r de la couche GRU (cf. (Cho et al., 2014)) sont définies exactement de la même façon, avec le même nombre de paramètres, et utilisent exactement les mêmes informations d’entrée. Pendant l’évolution du système (l’apprentissage), r s’adapte pour devenir la reset gate, qui permet d’oublier l’information passée quand celle-ci n’est pas pertinente, alors que z devient l’équivalent de l’input gate des LSTM, qui permet de contrôler l’information en entrée qui va être utilisée pour affecter la prédiction du modèle. ←−−− −−−→ Du point de vue de la spécialisation, les couches GRU l et GRU l s’adaptent pour fonctionner comme une porte qui permet de filtrer au niveau des étiquettes l’information qui n’est pas pertinente pour la prédiction du modèle. De la même façon que les portes qui ont besoin à la fois de l’information d’entrée et de la ←−−− valeur de la couche cachée précédente pour un fonctionnement optimal, la couche GRU l utilise à la fois l’information lexicale et les étiquettes pour mieux discriminer l’information sémantique des étiquettes. Nous montrerons dans l’évaluation l’efficacité de ce choix architectural. 2.4 Apprentissage Nous apprenons nos modèles en maximisant la log-vraisemblance avec les données : |D| Nd X X λ 2 LL(Θ|D)= log(PΘ(ei|wi,Hi)+ |Θ| ) (8) i=1 2 d=1 Où les deux sommes s’appliquent aux données d’apprentissage et à chaque séquences des données. Les log- probabilités log(PΘ(ei|wi,Hi)) sont calculées avec le log-softmax comme couche de sortie du réseau. La valeur Hi représente l’information contextuelle de nos modèles, c’est-à-dire l’information lexicale hwi et les MEDIA ATIS Mots Classes Étiquettes Mots Classes Étiquettes Oui - Answer-B i’d - O l’ - BDObject-B like - O hotel - BDObject-I to - O le - Object-B fly - O prix - Object-I Delta airline airline-name à - Comp.-payment-B between - O moins relative Comp.-payment-I Boston city fromloc.city cinquante tens Paym.-amount-B and - O cinq units Paym.-amount-I Chicago city toloc.city euros currency Paym.-currency-B TABLE 1 – Un exemple d’annotation pris du corpus MEDIA (gauche) et ATIS (droite). −→ ←− contextes forward et backward au niveau des étiquettes hei et hei . Étant donnée la taille relativement petite des données sur lesquelles nous nous évaluons et la relative complexité des modèles, nous utilisons un terme de régularisation L2, dont λ est le coefficient. La fonction de coût est minimisée par descente de gradient stochastique, le gradient étant estimé avec l’algorithme Back-propagation Through Time (Werbos, 1990). 3 Évaluation 3.1 Données utilisées et réglages Nous évaluons nos modèles sur les deux tâches de compréhension de la parole ATIS (Air Travel Information System) (Dahl et al., 1994) et MEDIA (Bonneau-Maynard et al., 2006). Ces deux tâches sont celles employées pour l’évaluation des modèles auxquels nous nous comparons (Dinarelli et al., 2017). Nous renvoyons les lecteurs à ces travaux pour plus de détails sur les corpus. Un exemple comparatif d’annotation pris des deux corpus est montré dans le tableau 1. Nous utilisons globalement les mêmes réglages utilisés dans (Dinarelli et al., 2017), sauf pour certains d’entre eux que nous avons re-optimisés sur les données de développement : les plongements des étiquettes ont une taille de 150, les couches cachées ont une taille de 300, le dropout sur tous les plongements est de 0,5. Comme dans (Dinarelli et al., 2017) également, nous utilisons les étiquettes gold pendant l’apprentissage du modèle. 3.2 Résultats Les résultats montrés sont des moyennes sur 10 expériences. Pour avoir une comparaison équitable, nos réglages sont les mêmes que ceux utilisés dans (Dinarelli et al., 2017). En revanche nous n’utilisons pas les classes de mots disponibles pour les deux tâches (cf. tableau 1) afin de nous placer dans un contexte plus réaliste. Pour réduire la quantité de mémoire utilisée, nous limitons la taille du contexte utilisé avec un hyper-paramètre dont la valeur est 10 par défaut. Nous avons aussi téléchargé le logiciel décrit dans (Dinarelli et al., 2017) 2 et nous avons effectué des expériences par nous mêmes, sans utiliser les classes de mots comme trait des modèles. Les résultats sont donnés en termes de précision, qui constitue le critère de choix du modèle en phase 2. Décrit à la page http ://www.marcodinarelli.it/software.php et disponible sous requête Modèle Précision F1 CER MEDIA DEV GRU+LD-RNN 89.11 85.59 11.46 GRU+LD-RNNle 89.42 86.09 10.58 GRU+LD-RNNle seg-len 15 89.97 86.57 10.42 TABLE 2 – Comparaison des résultats obtenus sur les données de développement de la tâche MEDIA sans ←−−− −−−→ (GRU+IRNN) et avec l’information lexicale (GRU+IRNNle ) en entrée des couches GRU l et GRU l d’apprentissage sur les données de développement, en plus de la mesure F1 et du taux d’erreur sur les étiquettes (Concept Error Rate). Puisque notre modèle constitue une amélioration du modèle LD-RNN décrit dans (Dinarelli et al., 2017), amélioration due notamment à l’utilisation des couches cachées GRU, dans la suite de notre article il sera indiqué avec GRU+LD-RNN. Afin de montrer la capacité de nos modèles à prendre en compte un contexte global, ainsi que leur capacité à discriminer l’information pertinente pour la décision à un instant donné, nous montrons les résultats de deux expériences visant à confirmer cette capacité. Dans la première expérience nous comparons les résultats obtenus par nos modèles sans et avec l’utilisation ←−−− −−−→ de l’information lexicale au niveau des couches GRU l et GRU l (cf. section 2.3). Ces résultats sont montrés dans le tableau 2. Le modèle utilisant l’information lexicale est indiqué avec GRU+LD-RNNle (pour information lexicale et étiquettes). Ce modèle est meilleur que le modèle n’employant pas l’information lexicale, ce qui confirme que cette information est très importante pour distinguer l’information sémantique pertinente à un instant donné. Dans la seconde expérience nous testons la capacité de nos modèles à filtrer l’information sémantique non pertinente pour la décision du modèle. Pour faire cela, nous utilisons une taille de contexte en phase d’apprentissage plus grande : 15 au lieu de 10 dans les expériences précédentes. Il est important de noter que dans un contexte de compréhension de la parole, dans lequel les données sont des transcriptions de l’oral, allonger le contexte est assez risqué puisque un contexte plus long contient à la fois plus d’information et plus de bruit. Par ailleurs, les modèles de la littérature employant une fenêtre de taille fixe, ne vont jamais au delà de 3 token par rapport à la position courante, ce qui confirme la difficulté à extraire de l’information utile de contextes plus longs. Les résultats de la seconde expérience sont montrés dans le tableau 2. Encore une fois, notre hypothèse semble être confirmée, le modèle utilisant un contexte de taille 15 étant meilleur que le modèle utilisant la taille 10.Nous tenons d’ailleurs à souligner que les modèles employant des couches cachées LSTM ou GRU ont tendance à sur-apprendre les données. Par manque de temps nous n’avons pas ré-optimisé les hyper-paramètres quand nous utilisons un contexte de taille 15 en phase d’apprentissage. Une optimisation plus fine pourrait conduire à des meilleurs résultats. Au delà de ces considérations, les résultats du modèle GRU+LD-RNNle seg-len 15 sont suffisamment meilleurs pour pouvoir confirmer notre hypothèse, d’autant plus qu’ils sont compétitifs par rapport aux résultats des meilleurs modèles de la littérature, comme nous le montrons dans la suite. Notre hypothèse concernant la spécialisation dans l’évolution de notre modèle semble confirmée (cf. section 2.3). Le fait que le modèle GRU+LD-RNNle obtienne des meilleurs résultats que le modèle GRU+LD-RNN simple, est déjà une preuve. En effet si le modèle GRU+LD-RNNle donne plus d’im- ←−−− portance à l’information lexicale qu’à l’information provenant des étiquettes au niveau des couches GRU l −−−→ et GRU l , les meilleurs résultats n’auraient pas une explication claire, puisque les deux modèles GRU+LD- RNNle et GRU+LD-RNN (cf. tableau 2) utilisent tous les deux l’information lexicale séparément (indiquée Modèle Précision F1 CER MEDIA DEV LD-RNNdeep 89.26 85.79 10.72 GRU+LD-RNNle 89.42 86.09 10.58 GRU+LD-RNNle seg-len 15 89.97 86.57 10.42 MEDIA TEST LD-RNNdeep 89.51 87.31 10.02 GRU+LD-RNNle 89.48 87.36 10.28 GRU+LD-RNNle seg-len 15 89.57 87.50 10.26 TABLE 3 – Comparaison des résultats obtenus sur les données de développement et de test de la tâche MEDIA entre le système LD-RNNdeep testé par nous même , et notre système GRU+LD-RNNle en utilisant un contexte de longueur 15. Modèle Précision F1 CER MEDIA TEST BiGRU+CRF (Dinarelli et al., 2017) – 86.69 10.13 LD-RNNdeep (Dinarelli et al., 2017) – 87.36 9.8 LD-RNNdeep 89.51 87.31 10.02 GRU+LD-RNNle seg-len 15 89.57 87.50 10.26 TABLE 4 – Comparaison entre les résultats obtenus sur la tâche MEDIA avec notre meilleur système, GRU+LD-RNNle en utilisant un contexte de taille 15, et les meilleurs résultats de la littérature avec hwi dans l’équation 5). Puisque l’information des étiquettes seules est déjà prise en compte par le modèle GRU+LD-RNN, nous pouvons déduire que le modèle GRU+LD-RNNle est capable d’extraire une représentation sémantique plus adaptée au contexte, et ce même quand nous utilisons un contexte plus long. Dans une autre série d’expériences nous avons comparé notre modèle avec celui publié dans (Dinarelli et al., 2017). Nous avons obtenu le logiciel associé à l’article 3 et nous avons effectué des expériences sur les mêmes données (MEDIA) dans les mêmes conditions. Nous avons utilisé la variante profonde LD-RNNdeep décrite dans l’article, qui donne les meilleurs résultats. Les résultats de ces expériences sont montrés dans le tableau 3. Comme nous pouvons le constater, sur les données de développement (MEDIA DEV) notre modèle est meilleur que celui publié dans (Dinarelli et al., 2017) qui détient l’état-de-l’art sur les tâches ATIS et MEDIA. Ces résultats sont confirmés aussi sur les données de test (MEDIA TEST), même si les marges d’amélioration sont un peu réduites, et le modèle LD-RNNdeep reste le meilleur en termes de taux d’erreur (CER). Nous avons effectué une dernière série d’expérience sur les deux tâches considérées dans cet article avec notre meilleur modèle. Ceci afin de nous comparer avec les meilleurs modèles de la littérature, qui sont encore une fois ceux publiés dans (Dinarelli et al., 2017). Notamment nous nous comparons aux modèles employant une couche CRF neuronale, qui constituent une solution alternative pour une prise de décision globale au niveau des étiquettes. Les résultats de ces expériences sont montrés dans le tableau 4 pour la tâche MEDIA, et dans le tableau 5 pour ATIS. Concernant les résultats sur MEDIA, le seul résultat nouveau par rapport à ceux déjà discutés 3. Décrit à la page http ://www.marcodinarelli.it/software.php Modèle Précision F1 CER ATIS TEST MLP+CRF (Dinarelli et al., 2017) – 95.45 5.28 LD-RNN (Dinarelli et al., 2017) – 95.74 4.91 GRU+LD-RNNle seg-len 15 98.08 95.70 5.04 TABLE 5 – Comparaison entre les résultats obtenus sur la tâche ATIS avec notre meilleur système, GRU+LD-RNNle en utilisant un contexte de taille 15, et les meilleurs résultats de la littérature est le meilleur taux d’erreur de 9,8 du modèle LD-RNNdeep publié dans (Dinarelli et al., 2017). Ces résultats sont obtenus cependant en utilisant les classes de mots disponibles pour les tâches. Notre modèle reste meilleur en termes de précision et mesure F1, constituant donc le nouvel état-de-l’art. Concernant la tâche ATIS (tableau 5), notre modèle obtient des résultats légèrement inférieurs à ceux du modèle LD-RNN. Ceci confirme les résultats sur MEDIA en termes de taux d’erreur, alors qu’en termes de mesure F1, d’après les commentaires de (Vukotic et al., 2015) justifiés par la taille réduite des données et par la simplicité de la tâche, la différence ne semble pas statistiquement significative. Un bon résultat dans le tableau 5 est que notre modèle reste plus compétitif que le modèle MLP+CRF employant une couche CRF neuronale. Ce résultat va renforcer celui que nous avons obtenu sur la tâche MEDIA, sur laquelle les solutions employant un contexte au niveau des étiquettes sous formes de représentation distributionnelle sont meilleures que les solutions employant la couche CRF neuronale. 4 Conclusion En considérant tous les résultats discutés dans cet article d’un point de vue global, nous pouvons conclure que l’emploi de couches cachées GRU pour construire un contexte global au niveau des étiquettes, est la plupart du temps plus efficace que les autres solutions proposées pour les tâches étudiées; en considérant d’un côté les solutions employant un contexte au niveau des étiquettes sous formes de représentation distributionnelle, c’est-à-direles modèles LD-RNN et GRU+LD-RNN, et d’un autre côté les modèles employant une couche CRF neuronale, nous pouvons affirmer que les premières sont plus efficaces, du moins sur les tâches utilisées dans cet article pour l’évaluation, et représentent donc des solutions alternatives intéressantes et prometteuses pour l’étiquetage de séquences dans un sens plus général. 5 Remerciements Ce travail a été financé par le projet ANR DEMOCRAT (Description et modélisation des chaînes de référence : outils pour l’annotation de corpus et le traitement automatique), projet ANR-15-CE38-0008. Cette recherche s’insère dans le programme « Investissements d’Avenir » géré par l’Agence Nationale de la Recherche ANR-10-LABX-0083 (Labex EFL). Références ARTHUR W. B. (1993). On the Evolution of Complexity. Working papers, Santa Fe Institute. BENGIO Y. (2012). Practical recommendations for gradient-based training of deep architectures. CoRR, abs/1206.5533. BONNEAU-MAYNARD H., AYACHE C., BECHET F., DENIS A., KUHN A., LEFÈVRE F., MOSTEFA D., QUGNARD M., ROSSET S. & SERVAN, S. VILANEAU J. (2006). Results of the french evalda-media evaluation campaign for literal understanding. In LREC, p. 2054–2059, Genoa, Italy. CHIU J. P. C. & NICHOLS E. (2015). Named entity recognition with bidirectional lstm-cnns. CoRR, abs/1511.08308. CHO K., VAN MERRIENBOER B., GÜLÇEHRE Ç., BOUGARES F., SCHWENK H. & BENGIO Y. (2014). Learning phrase representations using RNN encoder-decoder for statistical machine translation. CoRR, abs/1406.1078. COLLINS M. (1997). Three generative, lexicalised models for statistical parsing. In Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics, ACL ’98, p. 16–23, Stroudsburg, PA, USA : Association for Computational Linguistics. COLLOBERT R., WESTON J., BOTTOU L., KARLEN M., KAVUKCUOGLU K. & KUKSA P. (2011). Natural language processing (almost) from scratch. J. Mach. Learn. Res., 12, 2493–2537. DAHL D. A., BATES M., BROWN M., FISHER W., HUNICKE-SMITH K., PALLETT D., PAO C., RUDNICKY A. & SHRIBERG E. (1994). Expanding the scope of the atis task : The atis-3 corpus. In Proceedings of the Workshop on Human Language Technology, HLT ’94, p. 43–48, Stroudsburg, PA, USA : Association for Computational Linguistics. DE MORI R., BECHET F., HAKKANI-TUR D., MCTEAR M., RICCARDI G. & TUR G. (2008). Spoken language understanding : A survey. IEEE Signal Processing Magazine, 25, 50–58. DINARELLI M. & ROSSET S. (2011). Models cascade for tree-structured named entity detection. In Proceedings of International Joint Conference of Natural Language Processing (IJCNLP), Chiang Mai, Thailand. DINARELLI M. & ROSSET S. (2012). Tree representations in probabilistic models for extended named entity detection. In European Chapter of the Association for Computational Linguistics (EACL), p. 174–184, Avignon, France. DINARELLI M., VUKOTIC V. & RAYMOND C. (2017). Label-dependency coding in Simple Recurrent Networks for Spoken Language Understanding. In Interspeech, Stockholm, Sweden. DUPONT Y., DINARELLI M. & TELLIER I. (2017). Label-dependencies aware recurrent neural networks. In Proceedings of the 18th International Conference on Computational Linguistics and Intelligent Text Processing, Budapest, Hungary : Lecture Notes in Computer Science (Springer). GROUIN C., ROSSET S., ZWEIGENBAUM P., FORT K., GALIBERT O. & QUINTARD L. (2011). Proposal for an extension or traditional named entities : From guidelines to evaluation, an overview. In Proceedings of the Linguistic Annotation Workshop (LAW). HOCHREITER S. & SCHMIDHUBER J. (1997). Long short-term memory. Neural Comput., 9(8), 1735–1780. HUANG Z., XU W. & YU K. (2015). Bidirectional lstm-crf models for sequence tagging. arXiv preprint arXiv :1508.01991. LAFFERTY J., MCCALLUM A. & PEREIRA F. (2001). Conditional random fields : Probabilistic models for segmenting and labeling sequence data. In Proceedings of the Eighteenth International Conference on Machine Learning (ICML), p. 282–289, Williamstown, MA, USA. LAMPLE G., BALLESTEROS M., SUBRAMANIAN S., KAWAKAMI K. & DYER C. (2016). Neural architectures for named entity recognition. arXiv preprint arXiv :1603.01360. LAVERGNE T., CAPPÉ O. & YVON F. (2010). Practical very large scale CRFs. In Proceedings the 48th Annual Meeting of the Association for Computational Linguistics (ACL), p. 504–513 : Association for Computational Linguistics. MA X. & HOVY E. (2016). End-to-end sequence labeling via bi-directional lstm-cnns-crf. In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics, ACL 2016. NG V. & CARDIE C. (2002). Improving Machine Learning Approcahes to Corefrence Resolution. In Proceedings of ACL’02, p. 104–111. PASZKE A., GROSS S., CHINTALA S., CHANAN G., YANG E., DEVITO Z., LIN Z., DESMAISON A., ANTIGA L. & LERER A. (2017). Automatic differentiation in pytorch. In NIPS-W. SOON W. M., NG H. T. & LIM D. C. Y. (2001). A Machine Learning Approach to Coreference Resolution of Noun Phrases. Computational Linguistics, 27(4), 521–544. SUTSKEVER I., VINYALS O. & LE Q. V. (2014). Sequence to sequence learning with neural networks. In Proceedings of the 27th International Conference on Neural Information Processing Systems - Volume 2, NIPS’14, p. 3104–3112, Cambridge, MA, USA : MIT Press. VUKOTIC V., RAYMOND C. & GRAVIER G. (2015). Is it time to switch to word embedding and recurrent neural networks for spoken language understanding? In InterSpeech, Dresde, Germany. VUKOTIC V., RAYMOND C. & GRAVIER G. (2016). A step beyond local observations with a dialog aware bidirectional GRU network for Spoken Language Understanding. In Interspeech, San Francisco, United States. WANG C. (2017). Network of recurrent neural networks. CoRR, abs/1710.03414. WERBOS P. (1990). Backpropagation through time : what does it do and how to do it. In Proceedings of IEEE, volume 78, p. 1550–1560.