=Paper=
{{Paper
|id=Vol-1495/paper_10
|storemode=property
|title=Constitution d’une Base Bilingue de Marqueurs de Relations Conceptuelles pour l’Élaboration de Ressources Termino-Ontologiques
|pdfUrl=https://ceur-ws.org/Vol-1495/paper_10.pdf
|volume=Vol-1495
|dblpUrl=https://dblp.org/rec/conf/tia/LefeuvreC15
}}
==Constitution d’une Base Bilingue de Marqueurs de Relations Conceptuelles pour l’Élaboration de Ressources Termino-Ontologiques==
Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain)
173
Constitution d’une base bilingue de marqueurs de relations concep-
tuelles pour l’élaboration de ressources termino-ontologiques
Luce Lefeuvre Anne Condamines
CLLE-ERSS, UMR 5263 CLLE-ERSS, UMR 5263
CNRS & Université Toulouse Jean-Jaurès CNRS & Université Toulouse Jean-Jaurès
Toulouse, France Toulouse, France
Luce.lefeuvre@univ-tlse2.fr Anne.condamines@univ-tlse2.fr
pas fait l’objet d’un recensement systématique,
Résumé ni d’une analyse à grande échelle.
Les marqueurs de relations conceptuelles
Nous mentionnons en section 2 les travaux
sont un moyen efficace de détecter des dans la lignée desquels nous nous situons. La
contextes utiles à l’élaboration de ressources section 3 décrit la méthodologie que nous avons
termino-ontologiques. De nombreux travaux adoptée. Nous présentons quelques résultats en
existent, mais aucun recensement n’a été section 4, et discutons des perspectives de travail
effectué. Nous souhaitons construire une base en section 5.
de marqueurs de relation pour l’hyperonymie,
la méronymie et la cause, en français et en 2 Travaux antérieurs
anglais. La prise en compte de la variation
dans l’analyse de ces marqueurs nous La notion de marqueur de relation a souvent
permettra de caractériser leur fonctionnement. été abordée pour élaborer des réseaux de termes,
que ce soit en ingénierie des connaissances, en
1 Introduction terminologie, ou en traitement automatique des
langues. Constitués d’éléments lexico-
Notre étude se situe dans le cadre du projet
syntaxiques, typographiques ou dispositionnels
ANR CRISTAL (Contextes RIches en connais-
(Auger et Barrière, 2008), ils peuvent être utili-
sanceS pour la TrAduction terminoLogique) dont
sés pour expliciter la relation qui unit deux
l’un des objectifs consiste à affiner la notion de
termes. Cette connaissance peut être représentée
Contextes Riches en Connaissances (Meyer,
par un triplet de la forme « Terme 1 - Marqueur -
2001) en prenant en compte différents para-
Terme 2 », dans lequel le marqueur précise la
mètres de variation tels que la langue (français vs
relation existant entre les deux termes. Par
anglais), le domaine (oncologie vs volcanologie),
exemple, la relation d’hyperonymie (générique -
le genre (scientifique vs vulgarisé) et l’utilisateur
spécifique) peut être indiquée par le marqueur
(traducteur vs terminologue). Nous adoptons ici
« X est un Y + caractéristiques différentielles »
le point de vue du terminologue. Nous nous inté-
(« Le cancer est une maladie caractérisée par la
ressons aux relations que peuvent entretenir au
prolifération incontrôlée de cellules ») ; et la
moins deux termes, en considérant que ces rela-
relation de méronymie (ou partie - tout) peut être
tions sont un type de connaissance qu’il est pos-
indiquée par le marqueur « X être {for-
sible de découvrir dans un corpus spécialisé. Le
mé/constitué} de DET Y » (« le volcan primitif est
projet s’inscrit ainsi dans la thématique de la
en majorité constitué de coulées d’andésites »).
construction de ressources termino-ontologiques.
Les marqueurs étudiés concernent principale-
L’un des moyens d’accéder à ces connais-
ment trois relations : l’hyperonymie, la mérony-
sances consiste à utiliser des marqueurs de rela-
mie, et la cause. Considérées comme
tions conceptuelles. Non ignorés de l’ingénierie
structurantes, et supposées universelles, elles
des connaissances, de la lexicographie ou de la
apportent des éléments de connaissance sur les
terminologie, ces éléments linguistiques n’ont
termes d’un domaine.
Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain)
174
De nombreux travaux s’attachent ainsi à dé- 2) Élaboration de la liste des marqueurs de rela-
crire les marqueurs de ces relations (Alarcon- tion pour l’anglais (Fabre, 2014). Une première
Martinez, 2009 ; Hearst, 1992 ; Garcia, 1998 ; liste de marqueurs a été dressée à partir d’une
Cruse, 2002 ; Séguéla, 2001 ; Condamines et étude bibliographique. Cette liste a ensuite été
Rebeyrolle, 2000). Ces études descriptives doi- enrichie par la traduction de certains marqueurs
vent permettre d’exploiter les marqueurs de rela- de relation français. Une première validation a
tion à l'aide d’outils dédiés, afin de détecter le été effectuée en vérifiant dans le COCA corpus1
plus automatiquement possible des triplets struc- les contextes d’apparition des nouveaux candi-
turant les ressources termino-ontologiques. dats-marqueurs anglais obtenus. La relecture de
D’autres travaux plus récents s’intéressent à la cette liste par une linguiste anglophone a ensuite
variation de ces marqueurs selon le genre textuel, permis de valider la liste finale.
le domaine, ou la langue (Condamines, 2002 ; Le tableau suivant recense le nombre de can-
Marshman, 2006 ; Marshman et L’Homme, didats-marqueurs obtenus pour chaque relation et
2006 ; Pearson, 1998). Ces travaux montrent que pour chaque langue2.
la productivité et la répartition des marqueurs
Marqueurs de rela-
varie parfois fortement d’un domaine ou d’un FRANÇAIS ANGLAIS
tion conceptuelle
genre à l’autre. Ils soulignent la nécessité de
prendre en compte la variation dans la descrip- Hyperonymie 33 35
tion des marqueurs de relation, afin d’en étudier
la « portabilité » (Marshman et L’Homme, Méronymie 95 99
2006).
Bien que la littérature sur ce sujet soit abon- Cause 192 247
dante, il n’existe pas de base de données recen- Tableau 1. Nombre de candidats-marqueurs par rela-
sant l’ensemble des marqueurs des relations tion et par langue.
d’hyperonymie, de méronymie et de cause, ni
d’analyse systématique à grande échelle de ces 3.2 Évaluation en corpus
marqueurs. Notre contribution sera de constituer La seconde étape de notre travail a concerné
cette base de données et d’analyser chaque can- l’analyse à grande échelle des candidats-
didat-marqueur afin d’en donner une description marqueurs en français, en prenant en compte les
linguistique fine. différents paramètres de variation que nous
avons listés plus haut. Notre corpus traite ainsi
3 Méthodologie de deux domaines : la volcanologie, qui appar-
Notre travail s’est déroulé selon deux étapes : tient aux Sciences de la Terre, et l’oncologie, qui
1) Élaboration de la liste des candidats- appartient aux Sciences de la Vie. Pour chacun
marqueurs en français et en anglais pour de ces domaines, nous avons pu constituer un
les relations d’hyperonymie, de mérony- corpus scientifique très spécialisé et un corpus
mie et de cause vulgarisé, en français et en anglais. Les corpus
2) Analyse des occurrences des candidats- scientifiques sont constitués de textes issus de
marqueurs français en corpus. revues spécialisées, écrits par des experts à desti-
Nous détaillons dans la suite chacune de ces nation d’experts du domaine ou de domaines
étapes. connexes. Les corpus vulgarisés sont constitués
de textes issus de revues ou de sites internet de
3.1 Constitution de la base de marqueurs vulgarisation ; ils sont écrits par des experts du
domaine et sont à destination du grand public.
La base de marqueurs de relation a été cons- Les textes français ont été écrits par des auteurs
truite en deux phases : francophones, et les textes anglais par des au-
1) Recensement des marqueurs de relation pour
le français. À partir des travaux existants et dans
la lignée des travaux mentionnés en section 2, 1
Davies, M. (2008-). The Corpus of Contemporary Ameri-
nous avons fait une liste la plus exhaustive pos- can English: 450 million words, 1990-present. Disponible
sible des marqueurs français pour trois relations : en ligne : http://corpus.byu.edu/coca/.
2
La liste des marqueurs français et anglais sera disponible
hyperonymie, méronymie, cause. sur le site du laboratoire CLLE-ERSS : http://w3.erss.univ-
tlse2.fr/
Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain)
175
teurs anglophones. Le tableau 2 ci-dessous syn- Il ne nous semble pas pertinent d’intégrer les
thétise ces informations. éléments en relation à une ressource terminolo-
gique liée au domaine de la volcanologie.
Oncologie Volcanologie
« Indéterminé »: nous ne pouvons éva-
200 000 mots / 400 000 mots /
Corpus
langue langue luer la relation (par manque d’indices
scientifique linguistiques ou par manque de connais-
2002 – 2008 1980 - 2012
sances sur le domaine).
200 000 mots / 400 000 mots /
Corpus « Hormones hypophysaires : Ce sont des hor-
langue langue
vulgarisé mones sécrétées par l'hypophyse, glande céré-
2001 - 2008 1980 - 2002
brale située juste sous le cerveau » (oncologie,
Tableau 2. Constitution du corpus d’étude.
vulgarisation)
Nous avons extrait de ce corpus les contextes Les candidats-termes « hormones » et « hypo-
comportant les candidats-marqueurs recensés. physe » peuvent être reliés par une relation de
Pour chaque candidat-marqueur de chaque rela- cause ou une relation de fonction. Aucun indice
tion, nous avons annoté le contexte comme suit : linguistique ne nous permet de statuer pour l’une
« Oui » : la relation est présente ou l’autre des relations.
« Un dynamisme explosif, extrusif et / ou intrusif Environ 10000 contextes ont été annotés selon
a généré des cônes stromboliens, des necks basal- ces critères.
tiques » (volcanologie, scientifique).
Le candidat-marqueur « Det X générer Det Y »
4 Résultats
lie les termes « dynamisme explosif, extrusif et /
ou intrusif » d’une part et « cônes stromboliens » Comptabilisant ensemble les « oui » et « plu-
et « necks basaltiques » d’autre part par la rela- tôt oui », nous avons effectué deux types de cal-
tion de cause. culs : la fréquence d’apparition des candidats
« Non » : le candidat-marqueur marqueurs dans les corpus, et la productivité de
n’indique pas la relation attendue chaque candidat-marqueur. Cette productivité
« Mais notre but est un autre volcan très actif et correspond au pourcentage des énoncés conte-
dangereux » (volcanologie, vulgarisation) nant un candidat marqueur pouvant être interpré-
Le candidat-marqueur testé « Y être DET X très tés comme contenant la relation attendue.
Nous avons ainsi pu mettre au jour quelques
Adj » n’indique pas la relation d’hyperonymie
phénomènes de variation liés au domaine ou au
attendue entre « but » et « volcan ».
genre textuel que nous présentons ici.
« Plutôt oui » : le candidat-marqueur
exprime la relation conjointement avec 4.1 Influence du genre textuel
un autre élément. Les candidats-marqueurs de la relation de mé-
« Trop de repos ou un manque d'activité peuvent ronymie sont organisés selon différentes catégo-
diminuer l'oxygénation des tissus musculaires » ries, qui peuvent préciser par exemple : le type
(oncologie, vulgarisation) de liaison que les parties d’un ensemble entre-
La nominalisation « oxygénation » associée au tiennent (fusion, jonction, inclusion), le type
candidat-marqueur « diminuer » nous permet même des parties, si ces parties sont organisées
d’interpréter la relation comme causale. Deux ou non (organisation, non organisation), si elles
éléments du triplet sont ainsi présents. proviennent de la décomposition d’objets, si elles
« Plutôt non »: la relation est difficile à correspondent à l’expression d’un lieu. Plusieurs
interpréter ; ou alors les éléments en rela- candidats-marqueurs n’apparaissant pas du tout
tion ne nous intéressent pas dans dans les corpus, nous avons choisi d’observer la
l’optique de construire des ressources façon dont les occurrences des candidats-
termino-ontologiques (ce ne sont pas des marqueurs sont réparties à travers les catégories
termes du domaine par exemple). plutôt que de les comparer de façon isolée.
« Cette découverte motive son élection à l'Aca-
démie des sciences » Relation de cause (volcano-
logie, vulgarisation)
Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain)
176
peut ainsi émettre l’hypothèse que l’apparition de
VULGAR
ISATION
SCIENT
ces candidats-marqueurs est liée à une volonté
TOTAL
Catégories de
regroupement des auteurs, experts de leur domaine, de
Occ.
Occ.
s’adresser à leurs pairs, sans avoir à détailler à la
fois la relation d’inclusion et la spécificité des
Inclusion 71 109 180 termes en relation.
Non-organisation 37 3 40 La catégorie « Non-organisation » comporte
Organisation 12 10 22 quant à elle des candidats-marqueurs comme « X
{être/résulter/de/issu de} DET {tas/amas/ ramas-
Types de parties 28 28 56 sis/masse/accumulation/entassement} de (DET)
Lieu 38 40 78 Y » ou « {tas/amas/ramassis/masse/ accumula-
Parties de même genre 29 20 49 tion/entassement} de (DET) Y {dans/en/pour
former /pour constituer/donner} (DET) X ». La
TOTAL 215 210 425 présence d’éléments du lexique comme « tas »
Tableau 3. Répartition des occurrences totales de ou « accumulation » rend ces structures facile-
certains candidats-marqueurs de la relation de méro- ment compréhensibles. Elles ne fournissent pas
nymie par catégorie. d’information précise sur les liens que peuvent
Le tableau 3 ci-dessus présente la répartition entretenir les parties. Assez générales et peu
des occurrences des candidats-marqueurs selon spécialisées, elles peuvent être comprises par
certaines catégories. On remarque que dans les tous les lecteurs ; quand bien même les éléments
catégories « Inclusion » et « Non-organisation », en relation seraient des candidats-termes comme
les occurrences ne sont pas réparties de manière « lave » et « dôme » ou « cellules » et « gan-
équilibrée. Les candidats-marqueurs exprimant glions lymphatiques » par exemple. Ce manque
l’inclusion d’une partie dans une autre sont plus de précision peut expliquer la très forte fré-
fréquents dans le corpus scientifique. Les candi- quence d’apparition de ces candidats-marqueurs
dats-marqueurs indiquant que les parties ne sont en corpus vulgarisé. Les auteurs ne peuvent en
pas organisées entre elles sont plus fréquents effet pas détailler toutes les connaissances d’un
dans le corpus vulgarisé. Un Chi-test3 (p ≤ 0,001) domaine spécialisé.
a confirmé la différence des deux corpus par Finalement, il semblerait que le genre textuel
rapport aux catégories des candidats-marqueurs. ait une influence à plusieurs niveaux : au niveau
La catégorie « Inclusion » comporte des des catégories de la relation de méronymie, au
candidats-marqueurs comme « X {comprendre/ niveau des candidats-marqueurs eux-mêmes, au
abriter/comporter/compter/inclure/intégrer} DET niveau des éléments en relation.
Y », ou « Y (être) {classé/classifié/catalogué/
rangé/placé/inclus/étiqueté/catégorisé/groupé} 4.2 Influence du domaine
dans DET X ». Leur fréquence plus importante Le fonctionnement des candidats-marqueurs
en corpus scientifique peut être due à deux de cause semble varier de manière significative
facteurs. Le premier concerne la notion en fonction du domaine (figure 1).
d’inclusion elle-même, qui peut être difficile à
appréhender, et que l’on retrouve souvent dans
les domaines des mathématiques, de la logique,
de la biologie, de la minéralogie. L’autre facteur
concerne les éléments en relation dans ces
structures. Dans la plupart des contextes
contenant ces candidats-marqueurs, les éléments
en relation sont des candidats-termes : « acte
chirurgical » et « curage axillaire », « complexe
volcanique » et « cratère » par exemple. Si l’on
ne connait pas la signification de ces termes, un
effort de compréhension est nécessaire pour Figure 1. Répartition de quelques candidats-
saisir le lien de méronymie qu’il peut exister. On marqueurs de cause selon le domaine.
Dans le domaine de l’oncologie, les candidats-
3
Je remercie sincèrement Basilio Calderone, membre de marqueurs de cause les plus représentés (aggra-
CLLE-ERSS pour son aide.
Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain)
177
ver, gêner, réduire, diminuer) appartiennent aux traindre le co-texte. Ces ressources, de type lexi-
catégories /influencer/ et /gêner/, que l’on peut cal, nous permettront à la fois de sélectionner et
paraphraser par « X cause une influence/une de filtrer les contextes extraits. L’utilisation de la
gêne sur Y ». Dans le domaine de la volcanolo- liste des candidats-termes ainsi que celle des
gie, les candidats-marqueurs les plus représentés nominalisations déverbales nous permettront par
(générer, mener à, mais aussi déclencher, créer, exemple de sélectionner des triplets complets. Le
engendrer) sont liés à la catégorie /créer/, qui lexique transdisciplinaire scientifique pourra
indique qu’un phénomène ou une situation X est nous permettre de filtrer certains contextes
la cause de l’existence d’un phénomène ou d’une n’apportant pas de connaissances spécifiques sur
situation Y. Les objectifs distincts des deux do- le domaine.
maines peuvent expliquer ces différences. Enfin, il serait intéressant de projeter des
L’oncologie, et la médecine plus généralement, a couples de termes dont on connaît la relation afin
pour but de soigner, d’étudier le développement de pouvoir découvrir des marqueurs spécifiques
des maladies, de décrire des symptômes, des au domaine.
effets secondaires liés aux traitements. En objet
des candidats-marqueurs présents, on retrouve Références
des éléments du lexique comme "séquelles", Alarcon Martinez, R. (2009). Descripción y evalua-
"dépression", "lymphœdème", "cancer", qui sont ción de un sistema basado en reglas para la ex-
liés aux symptômes, aux diagnostics, aux traite- tracción automática de contextos definitorios.
ments du cancer. La volcanologie a pour objectif Thèse de doctorat (non publiée) de l’Université
d’étudier l’origine ainsi que les mécanismes du Pompeu Fabra (discipline Sciences du Langage),
volcanisme. Elle s’intéresse à la création des Barcelone.
volcans, mais également à ce qu’ils produisent, Auger, A., & Barrière, C. (2008). Pattern based ap-
ce qui va de concert avec la catégorie /créer/ de proaches to semantic relation extraction: a state-of-
la relation de cause. On retrouve ainsi en objet the-art. Terminology, 14(1), 1-19.
des candidats-marqueurs de cause présents des
Condamines, A. (2002). Corpus analysis and concep-
éléments lexicaux qui désignent les produits des
tual relation patterns. Terminology, 8(1), 141-162.
volcans : "cendres", "lahars", ou qui concernent
la typologie des volcans : "structures", "cônes". Condamines, A., & Rebeyrolle, J. (2000). Construc-
Dans les deux cas, il semble bien que ce soit le tion d'une base de connaissances terminologiques à
domaine qui ait une influence sur l’apparition partir de textes : expérimentation et définition
d'une méthode. In J. Charlet, M. Zacklad, G. Kas-
des candidats-marqueurs de cause.
sel, D. Bourigault, (eds.), Ingénierie des Connais-
sances, évolutions récentes et nouveaux défis (pp.
5 Perspectives 225-242). Paris: Eyrolles.
Les premiers résultats nous ont permis de va- Cruse, A. (2002). Hyponymy and its Varieties. In R.
lider nos hypothèses sur l’influence du genre Green, C.A. Bean, & S.-H Myaeng (eds.), The se-
et/ou du domaine sur le fonctionnement des mar- mantics of relationships (pp. 3-22). Dor-
queurs de relation. Nous souhaitons pour la suite drecht/Boston/London, Kluwer Academic Publishers.
mener des analyses plus fines, afin de mettre en Fabre, L. (2014). Élaboration d’une liste de mar-
évidence des fonctionnements propres à chaque queurs de relations conceptuelles en anglais. Rap-
sous-corpus en lien avec la nature de sa varia- port de stage de Master 2 (discipline Linguistique
tion. Cela nous permettra de mettre au point des Anglaise) au sein du laboratoire CLLE-ERSS,
catégories de fonctionnement des marqueurs de Université Toulouse – Jean Jaurès, Toulouse.
relation en fonction du domaine et du genre. Garcia, D. (1998). Analyse automatique des textes
Nous pourrons ainsi dresser une typologie des pour l’organisation causale des actions, Réalisa-
marqueurs de relation, indiquant les cas dans tion du système Coatis. Thèse de doctorat de
lesquels les marqueurs sont productifs : dans tous l’Université Paris IV - Sorbonne (discipline Infor-
les corpus, dans le domaine de la volcanologie, matique), Paris.
dans le genre vulgarisé, etc. Hearst, M. (1992). Automatic Acquisition of Hypo-
Le second aspect que nous souhaitons déve- nyms from Large Text Corpora. In Proceedings of
lopper concerne l’amélioration de la productivité the Fourteenth International Conference on Com-
des marqueurs. Pour cela, nous souhaitons utili- putational Linguistics, Nantes.
ser différentes ressources externes pour con-
Proceedings of the conference Terminology and Artificial Intelligence 2015 (Granada, Spain)
178
Marshman, E. (2006). Lexical Knowledge Patterns
for the Semi-automatic Extraction of Cause-effect
and Association Relations from Medical Texts: A
Comparative Analysis of English and French.
Thèse de doctorat de l’Université de Montréal (dis-
cipline Traduction), Montréal.
Marshman, E., & L’Homme, M.-C. (2006). Portabilité
des marqueurs de la relation causale : étude sur
deux corpus spécialisés. In F. Maniez, P. Dury, N.
Arlin & C. Rougemont (eds.), Corpus et diction-
naires de langues de spécialité. Actes des Journées
du CRTT 2006 (pp. 87-110), Nantes.
Meyer, I. (2001). Extracting Knowledge-rich Contexts
for Terminography: A Conceptual and methodo-
logical Framework. In D. Bourigault, M.C.
L’Homme & C. Jacquemin (eds.), Recent Advanc-
es in Computational Terminology (pp. 279-302).
Amsterdam/Philadelphia: John Benjamins.
Pearson, J. (1996). The Expression of Definition in
Specialized Texts: A Corpus-based Analysis. In M.
Gellerstam et al. (eds.), Proceedings of the Seventh
Euralex International Congress (pp. 817–824),
Göteborg.
Séguéla, P. (2001). Construction de modèles de con-
naissances par analyse linguistique de relations
lexicales dans les documents techniques. Thèse de
doctorat de l’Université Paul Sabatier (discipline
Informatique), Toulouse.