Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 173 Constitution d’une base bilingue de marqueurs de relations concep- tuelles pour l’élaboration de ressources termino-ontologiques Luce Lefeuvre Anne Condamines CLLE-ERSS, UMR 5263 CLLE-ERSS, UMR 5263 CNRS & Université Toulouse Jean-Jaurès CNRS & Université Toulouse Jean-Jaurès Toulouse, France Toulouse, France Luce.lefeuvre@univ-tlse2.fr Anne.condamines@univ-tlse2.fr pas fait l’objet d’un recensement systématique, Résumé ni d’une analyse à grande échelle. Les marqueurs de relations conceptuelles Nous mentionnons en section 2 les travaux sont un moyen efficace de détecter des dans la lignée desquels nous nous situons. La contextes utiles à l’élaboration de ressources section 3 décrit la méthodologie que nous avons termino-ontologiques. De nombreux travaux adoptée. Nous présentons quelques résultats en existent, mais aucun recensement n’a été section 4, et discutons des perspectives de travail effectué. Nous souhaitons construire une base en section 5. de marqueurs de relation pour l’hyperonymie, la méronymie et la cause, en français et en 2 Travaux antérieurs anglais. La prise en compte de la variation dans l’analyse de ces marqueurs nous La notion de marqueur de relation a souvent permettra de caractériser leur fonctionnement. été abordée pour élaborer des réseaux de termes, que ce soit en ingénierie des connaissances, en 1 Introduction terminologie, ou en traitement automatique des langues. Constitués d’éléments lexico- Notre étude se situe dans le cadre du projet syntaxiques, typographiques ou dispositionnels ANR CRISTAL (Contextes RIches en connais- (Auger et Barrière, 2008), ils peuvent être utili- sanceS pour la TrAduction terminoLogique) dont sés pour expliciter la relation qui unit deux l’un des objectifs consiste à affiner la notion de termes. Cette connaissance peut être représentée Contextes Riches en Connaissances (Meyer, par un triplet de la forme « Terme 1 - Marqueur - 2001) en prenant en compte différents para- Terme 2 », dans lequel le marqueur précise la mètres de variation tels que la langue (français vs relation existant entre les deux termes. Par anglais), le domaine (oncologie vs volcanologie), exemple, la relation d’hyperonymie (générique - le genre (scientifique vs vulgarisé) et l’utilisateur spécifique) peut être indiquée par le marqueur (traducteur vs terminologue). Nous adoptons ici « X est un Y + caractéristiques différentielles » le point de vue du terminologue. Nous nous inté- (« Le cancer est une maladie caractérisée par la ressons aux relations que peuvent entretenir au prolifération incontrôlée de cellules ») ; et la moins deux termes, en considérant que ces rela- relation de méronymie (ou partie - tout) peut être tions sont un type de connaissance qu’il est pos- indiquée par le marqueur « X être {for- sible de découvrir dans un corpus spécialisé. Le mé/constitué} de DET Y » (« le volcan primitif est projet s’inscrit ainsi dans la thématique de la en majorité constitué de coulées d’andésites »). construction de ressources termino-ontologiques. Les marqueurs étudiés concernent principale- L’un des moyens d’accéder à ces connais- ment trois relations : l’hyperonymie, la mérony- sances consiste à utiliser des marqueurs de rela- mie, et la cause. Considérées comme tions conceptuelles. Non ignorés de l’ingénierie structurantes, et supposées universelles, elles des connaissances, de la lexicographie ou de la apportent des éléments de connaissance sur les terminologie, ces éléments linguistiques n’ont termes d’un domaine. Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 174 De nombreux travaux s’attachent ainsi à dé- 2) Élaboration de la liste des marqueurs de rela- crire les marqueurs de ces relations (Alarcon- tion pour l’anglais (Fabre, 2014). Une première Martinez, 2009 ; Hearst, 1992 ; Garcia, 1998 ; liste de marqueurs a été dressée à partir d’une Cruse, 2002 ; Séguéla, 2001 ; Condamines et étude bibliographique. Cette liste a ensuite été Rebeyrolle, 2000). Ces études descriptives doi- enrichie par la traduction de certains marqueurs vent permettre d’exploiter les marqueurs de rela- de relation français. Une première validation a tion à l'aide d’outils dédiés, afin de détecter le été effectuée en vérifiant dans le COCA corpus1 plus automatiquement possible des triplets struc- les contextes d’apparition des nouveaux candi- turant les ressources termino-ontologiques. dats-marqueurs anglais obtenus. La relecture de D’autres travaux plus récents s’intéressent à la cette liste par une linguiste anglophone a ensuite variation de ces marqueurs selon le genre textuel, permis de valider la liste finale. le domaine, ou la langue (Condamines, 2002 ; Le tableau suivant recense le nombre de can- Marshman, 2006 ; Marshman et L’Homme, didats-marqueurs obtenus pour chaque relation et 2006 ; Pearson, 1998). Ces travaux montrent que pour chaque langue2. la productivité et la répartition des marqueurs Marqueurs de rela- varie parfois fortement d’un domaine ou d’un FRANÇAIS ANGLAIS tion conceptuelle genre à l’autre. Ils soulignent la nécessité de prendre en compte la variation dans la descrip- Hyperonymie 33 35 tion des marqueurs de relation, afin d’en étudier la « portabilité » (Marshman et L’Homme, Méronymie 95 99 2006). Bien que la littérature sur ce sujet soit abon- Cause 192 247 dante, il n’existe pas de base de données recen- Tableau 1. Nombre de candidats-marqueurs par rela- sant l’ensemble des marqueurs des relations tion et par langue. d’hyperonymie, de méronymie et de cause, ni d’analyse systématique à grande échelle de ces 3.2 Évaluation en corpus marqueurs. Notre contribution sera de constituer La seconde étape de notre travail a concerné cette base de données et d’analyser chaque can- l’analyse à grande échelle des candidats- didat-marqueur afin d’en donner une description marqueurs en français, en prenant en compte les linguistique fine. différents paramètres de variation que nous avons listés plus haut. Notre corpus traite ainsi 3 Méthodologie de deux domaines : la volcanologie, qui appar- Notre travail s’est déroulé selon deux étapes : tient aux Sciences de la Terre, et l’oncologie, qui 1) Élaboration de la liste des candidats- appartient aux Sciences de la Vie. Pour chacun marqueurs en français et en anglais pour de ces domaines, nous avons pu constituer un les relations d’hyperonymie, de mérony- corpus scientifique très spécialisé et un corpus mie et de cause vulgarisé, en français et en anglais. Les corpus 2) Analyse des occurrences des candidats- scientifiques sont constitués de textes issus de marqueurs français en corpus. revues spécialisées, écrits par des experts à desti- Nous détaillons dans la suite chacune de ces nation d’experts du domaine ou de domaines étapes. connexes. Les corpus vulgarisés sont constitués de textes issus de revues ou de sites internet de 3.1 Constitution de la base de marqueurs vulgarisation ; ils sont écrits par des experts du domaine et sont à destination du grand public. La base de marqueurs de relation a été cons- Les textes français ont été écrits par des auteurs truite en deux phases : francophones, et les textes anglais par des au- 1) Recensement des marqueurs de relation pour le français. À partir des travaux existants et dans la lignée des travaux mentionnés en section 2, 1 Davies, M. (2008-). The Corpus of Contemporary Ameri- nous avons fait une liste la plus exhaustive pos- can English: 450 million words, 1990-present. Disponible sible des marqueurs français pour trois relations : en ligne : http://corpus.byu.edu/coca/. 2 La liste des marqueurs français et anglais sera disponible hyperonymie, méronymie, cause. sur le site du laboratoire CLLE-ERSS : http://w3.erss.univ- tlse2.fr/ Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 175 teurs anglophones. Le tableau 2 ci-dessous syn- Il ne nous semble pas pertinent d’intégrer les thétise ces informations. éléments en relation à une ressource terminolo- gique liée au domaine de la volcanologie. Oncologie Volcanologie  « Indéterminé »: nous ne pouvons éva- 200 000 mots / 400 000 mots / Corpus langue langue luer la relation (par manque d’indices scientifique linguistiques ou par manque de connais- 2002 – 2008 1980 - 2012 sances sur le domaine). 200 000 mots / 400 000 mots / Corpus « Hormones hypophysaires : Ce sont des hor- langue langue vulgarisé mones sécrétées par l'hypophyse, glande céré- 2001 - 2008 1980 - 2002 brale située juste sous le cerveau » (oncologie, Tableau 2. Constitution du corpus d’étude. vulgarisation) Nous avons extrait de ce corpus les contextes Les candidats-termes « hormones » et « hypo- comportant les candidats-marqueurs recensés. physe » peuvent être reliés par une relation de Pour chaque candidat-marqueur de chaque rela- cause ou une relation de fonction. Aucun indice tion, nous avons annoté le contexte comme suit : linguistique ne nous permet de statuer pour l’une  « Oui » : la relation est présente ou l’autre des relations. « Un dynamisme explosif, extrusif et / ou intrusif Environ 10000 contextes ont été annotés selon a généré des cônes stromboliens, des necks basal- ces critères. tiques » (volcanologie, scientifique). Le candidat-marqueur « Det X générer Det Y » 4 Résultats lie les termes « dynamisme explosif, extrusif et / ou intrusif » d’une part et « cônes stromboliens » Comptabilisant ensemble les « oui » et « plu- et « necks basaltiques » d’autre part par la rela- tôt oui », nous avons effectué deux types de cal- tion de cause. culs : la fréquence d’apparition des candidats  « Non » : le candidat-marqueur marqueurs dans les corpus, et la productivité de n’indique pas la relation attendue chaque candidat-marqueur. Cette productivité « Mais notre but est un autre volcan très actif et correspond au pourcentage des énoncés conte- dangereux » (volcanologie, vulgarisation) nant un candidat marqueur pouvant être interpré- Le candidat-marqueur testé « Y être DET X très tés comme contenant la relation attendue. Nous avons ainsi pu mettre au jour quelques Adj » n’indique pas la relation d’hyperonymie phénomènes de variation liés au domaine ou au attendue entre « but » et « volcan ». genre textuel que nous présentons ici.  « Plutôt oui » : le candidat-marqueur exprime la relation conjointement avec 4.1 Influence du genre textuel un autre élément. Les candidats-marqueurs de la relation de mé- « Trop de repos ou un manque d'activité peuvent ronymie sont organisés selon différentes catégo- diminuer l'oxygénation des tissus musculaires » ries, qui peuvent préciser par exemple : le type (oncologie, vulgarisation) de liaison que les parties d’un ensemble entre- La nominalisation « oxygénation » associée au tiennent (fusion, jonction, inclusion), le type candidat-marqueur « diminuer » nous permet même des parties, si ces parties sont organisées d’interpréter la relation comme causale. Deux ou non (organisation, non organisation), si elles éléments du triplet sont ainsi présents. proviennent de la décomposition d’objets, si elles  « Plutôt non »: la relation est difficile à correspondent à l’expression d’un lieu. Plusieurs interpréter ; ou alors les éléments en rela- candidats-marqueurs n’apparaissant pas du tout tion ne nous intéressent pas dans dans les corpus, nous avons choisi d’observer la l’optique de construire des ressources façon dont les occurrences des candidats- termino-ontologiques (ce ne sont pas des marqueurs sont réparties à travers les catégories termes du domaine par exemple). plutôt que de les comparer de façon isolée. « Cette découverte motive son élection à l'Aca- démie des sciences » Relation de cause (volcano- logie, vulgarisation) Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 176 peut ainsi émettre l’hypothèse que l’apparition de VULGAR ISATION SCIENT ces candidats-marqueurs est liée à une volonté TOTAL Catégories de regroupement des auteurs, experts de leur domaine, de Occ. Occ. s’adresser à leurs pairs, sans avoir à détailler à la fois la relation d’inclusion et la spécificité des Inclusion 71 109 180 termes en relation. Non-organisation 37 3 40 La catégorie « Non-organisation » comporte Organisation 12 10 22 quant à elle des candidats-marqueurs comme « X {être/résulter/de/issu de} DET {tas/amas/ ramas- Types de parties 28 28 56 sis/masse/accumulation/entassement} de (DET) Lieu 38 40 78 Y » ou « {tas/amas/ramassis/masse/ accumula- Parties de même genre 29 20 49 tion/entassement} de (DET) Y {dans/en/pour former /pour constituer/donner} (DET) X ». La TOTAL 215 210 425 présence d’éléments du lexique comme « tas » Tableau 3. Répartition des occurrences totales de ou « accumulation » rend ces structures facile- certains candidats-marqueurs de la relation de méro- ment compréhensibles. Elles ne fournissent pas nymie par catégorie. d’information précise sur les liens que peuvent Le tableau 3 ci-dessus présente la répartition entretenir les parties. Assez générales et peu des occurrences des candidats-marqueurs selon spécialisées, elles peuvent être comprises par certaines catégories. On remarque que dans les tous les lecteurs ; quand bien même les éléments catégories « Inclusion » et « Non-organisation », en relation seraient des candidats-termes comme les occurrences ne sont pas réparties de manière « lave » et « dôme » ou « cellules » et « gan- équilibrée. Les candidats-marqueurs exprimant glions lymphatiques » par exemple. Ce manque l’inclusion d’une partie dans une autre sont plus de précision peut expliquer la très forte fré- fréquents dans le corpus scientifique. Les candi- quence d’apparition de ces candidats-marqueurs dats-marqueurs indiquant que les parties ne sont en corpus vulgarisé. Les auteurs ne peuvent en pas organisées entre elles sont plus fréquents effet pas détailler toutes les connaissances d’un dans le corpus vulgarisé. Un Chi-test3 (p ≤ 0,001) domaine spécialisé. a confirmé la différence des deux corpus par Finalement, il semblerait que le genre textuel rapport aux catégories des candidats-marqueurs. ait une influence à plusieurs niveaux : au niveau La catégorie « Inclusion » comporte des des catégories de la relation de méronymie, au candidats-marqueurs comme « X {comprendre/ niveau des candidats-marqueurs eux-mêmes, au abriter/comporter/compter/inclure/intégrer} DET niveau des éléments en relation. Y », ou « Y (être) {classé/classifié/catalogué/ rangé/placé/inclus/étiqueté/catégorisé/groupé} 4.2 Influence du domaine dans DET X ». Leur fréquence plus importante Le fonctionnement des candidats-marqueurs en corpus scientifique peut être due à deux de cause semble varier de manière significative facteurs. Le premier concerne la notion en fonction du domaine (figure 1). d’inclusion elle-même, qui peut être difficile à appréhender, et que l’on retrouve souvent dans les domaines des mathématiques, de la logique, de la biologie, de la minéralogie. L’autre facteur concerne les éléments en relation dans ces structures. Dans la plupart des contextes contenant ces candidats-marqueurs, les éléments en relation sont des candidats-termes : « acte chirurgical » et « curage axillaire », « complexe volcanique » et « cratère » par exemple. Si l’on ne connait pas la signification de ces termes, un effort de compréhension est nécessaire pour Figure 1. Répartition de quelques candidats- saisir le lien de méronymie qu’il peut exister. On marqueurs de cause selon le domaine. Dans le domaine de l’oncologie, les candidats- 3 Je remercie sincèrement Basilio Calderone, membre de marqueurs de cause les plus représentés (aggra- CLLE-ERSS pour son aide. Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 177 ver, gêner, réduire, diminuer) appartiennent aux traindre le co-texte. Ces ressources, de type lexi- catégories /influencer/ et /gêner/, que l’on peut cal, nous permettront à la fois de sélectionner et paraphraser par « X cause une influence/une de filtrer les contextes extraits. L’utilisation de la gêne sur Y ». Dans le domaine de la volcanolo- liste des candidats-termes ainsi que celle des gie, les candidats-marqueurs les plus représentés nominalisations déverbales nous permettront par (générer, mener à, mais aussi déclencher, créer, exemple de sélectionner des triplets complets. Le engendrer) sont liés à la catégorie /créer/, qui lexique transdisciplinaire scientifique pourra indique qu’un phénomène ou une situation X est nous permettre de filtrer certains contextes la cause de l’existence d’un phénomène ou d’une n’apportant pas de connaissances spécifiques sur situation Y. Les objectifs distincts des deux do- le domaine. maines peuvent expliquer ces différences. Enfin, il serait intéressant de projeter des L’oncologie, et la médecine plus généralement, a couples de termes dont on connaît la relation afin pour but de soigner, d’étudier le développement de pouvoir découvrir des marqueurs spécifiques des maladies, de décrire des symptômes, des au domaine. effets secondaires liés aux traitements. En objet des candidats-marqueurs présents, on retrouve Références des éléments du lexique comme "séquelles", Alarcon Martinez, R. (2009). Descripción y evalua- "dépression", "lymphœdème", "cancer", qui sont ción de un sistema basado en reglas para la ex- liés aux symptômes, aux diagnostics, aux traite- tracción automática de contextos definitorios. ments du cancer. La volcanologie a pour objectif Thèse de doctorat (non publiée) de l’Université d’étudier l’origine ainsi que les mécanismes du Pompeu Fabra (discipline Sciences du Langage), volcanisme. Elle s’intéresse à la création des Barcelone. volcans, mais également à ce qu’ils produisent, Auger, A., & Barrière, C. (2008). Pattern based ap- ce qui va de concert avec la catégorie /créer/ de proaches to semantic relation extraction: a state-of- la relation de cause. On retrouve ainsi en objet the-art. Terminology, 14(1), 1-19. des candidats-marqueurs de cause présents des Condamines, A. (2002). Corpus analysis and concep- éléments lexicaux qui désignent les produits des tual relation patterns. Terminology, 8(1), 141-162. volcans : "cendres", "lahars", ou qui concernent la typologie des volcans : "structures", "cônes". Condamines, A., & Rebeyrolle, J. (2000). Construc- Dans les deux cas, il semble bien que ce soit le tion d'une base de connaissances terminologiques à domaine qui ait une influence sur l’apparition partir de textes : expérimentation et définition d'une méthode. In J. Charlet, M. Zacklad, G. Kas- des candidats-marqueurs de cause. sel, D. Bourigault, (eds.), Ingénierie des Connais- sances, évolutions récentes et nouveaux défis (pp. 5 Perspectives 225-242). Paris: Eyrolles. Les premiers résultats nous ont permis de va- Cruse, A. (2002). Hyponymy and its Varieties. In R. lider nos hypothèses sur l’influence du genre Green, C.A. Bean, & S.-H Myaeng (eds.), The se- et/ou du domaine sur le fonctionnement des mar- mantics of relationships (pp. 3-22). Dor- queurs de relation. Nous souhaitons pour la suite drecht/Boston/London, Kluwer Academic Publishers. mener des analyses plus fines, afin de mettre en Fabre, L. (2014). Élaboration d’une liste de mar- évidence des fonctionnements propres à chaque queurs de relations conceptuelles en anglais. Rap- sous-corpus en lien avec la nature de sa varia- port de stage de Master 2 (discipline Linguistique tion. Cela nous permettra de mettre au point des Anglaise) au sein du laboratoire CLLE-ERSS, catégories de fonctionnement des marqueurs de Université Toulouse – Jean Jaurès, Toulouse. relation en fonction du domaine et du genre. Garcia, D. (1998). Analyse automatique des textes Nous pourrons ainsi dresser une typologie des pour l’organisation causale des actions, Réalisa- marqueurs de relation, indiquant les cas dans tion du système Coatis. Thèse de doctorat de lesquels les marqueurs sont productifs : dans tous l’Université Paris IV - Sorbonne (discipline Infor- les corpus, dans le domaine de la volcanologie, matique), Paris. dans le genre vulgarisé, etc. Hearst, M. (1992). Automatic Acquisition of Hypo- Le second aspect que nous souhaitons déve- nyms from Large Text Corpora. In Proceedings of lopper concerne l’amélioration de la productivité the Fourteenth International Conference on Com- des marqueurs. Pour cela, nous souhaitons utili- putational Linguistics, Nantes. ser différentes ressources externes pour con- Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain) 178 Marshman, E. (2006). Lexical Knowledge Patterns for the Semi-automatic Extraction of Cause-effect and Association Relations from Medical Texts: A Comparative Analysis of English and French. Thèse de doctorat de l’Université de Montréal (dis- cipline Traduction), Montréal. Marshman, E., & L’Homme, M.-C. (2006). Portabilité des marqueurs de la relation causale : étude sur deux corpus spécialisés. In F. Maniez, P. Dury, N. Arlin & C. Rougemont (eds.), Corpus et diction- naires de langues de spécialité. Actes des Journées du CRTT 2006 (pp. 87-110), Nantes. Meyer, I. (2001). Extracting Knowledge-rich Contexts for Terminography: A Conceptual and methodo- logical Framework. In D. Bourigault, M.C. L’Homme & C. Jacquemin (eds.), Recent Advanc- es in Computational Terminology (pp. 279-302). Amsterdam/Philadelphia: John Benjamins. Pearson, J. (1996). The Expression of Definition in Specialized Texts: A Corpus-based Analysis. In M. Gellerstam et al. (eds.), Proceedings of the Seventh Euralex International Congress (pp. 817–824), Göteborg. Séguéla, P. (2001). Construction de modèles de con- naissances par analyse linguistique de relations lexicales dans les documents techniques. Thèse de doctorat de l’Université Paul Sabatier (discipline Informatique), Toulouse.