<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Marqueurs de la relation cause-effet : stabilité et variation dans des corpus de nature différente</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Elizabeth Marshman</string-name>
          <email>elizabeth.marshman@uottawa.ca</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Marie-Claude L'Homme</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>et Victoria Surtees</string-name>
          <email>vsurtees@gmail.com</email>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Observatoire de linguistique Sens-Texte / Université d'Ottawa</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Observatoire de linguistique Sens-Texte, Université de Montréal</institution>
        </aff>
      </contrib-group>
      <pub-date>
        <year>2005</year>
      </pub-date>
      <fpage>127</fpage>
      <lpage>138</lpage>
      <abstract>
        <p>Résumé : Les marqueurs lexicaux figurent parmi les indicateurs les plus intéressants pour identifier et classer finement des relations terminologiques. Cependant, l'exploitation des marqueurs pour repérer automatiquement ou semi-automatiquement les relations dans des corpus, notamment des corpus associés à des domaines ou à des genres textuels différents, peut soulever des problèmes. Le présent article fait le bilan d'une analyse de 37 marqueurs verbaux de la relation cause-effet dans trois corpus représentant trois domaines (médecine, informatique et psychologie) et deux genres textuels (textes didactiques/vulgarisés et textes spécialisés). Il décrit les variations observées dans l'identification de sens spécifiques indiquant différents sous-types de la relation, et commente la difficulté de prévoir les marqueurs les plus efficaces pour extraire ces relations de différents corpus. Mots-clés : Relations terminologiques, Marqueurs de relations, Cause-effet, Domaine, Genre textuel.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Les marqueurs lexicaux sont des unités lexicales ou des combinaisons d’unités
lexicales qui expriment de façon récurrente une relation terminologique ; elles
apparaissent le plus souvent comme la composante centrale d’un patron de
connaissances (knowledge pattern dans la terminologie de Meyer (2001)) et relient
deux unités partageant un lien sémantique. Par exemple, le patron de connaissances X
stimule Y, comme dans l’hormone stimule la croissance, indique la présence d’une
relation causale. L’association récurrente d’unités lexicales et l’expression formelle
d’une relation terminologique (réalisée par le marqueur) permet de repérer des
relations terminologiques (semi-)automatiquement dans des textes. Bien qu’il ne
s’agisse pas des seuls indicateurs de relations terminologiques, les marqueurs
lexicaux sont particulièrement intéressants à exploiter dans la mesure où ils
permettent d’identifier clairement et de classer finement les relations terminologiques.
Cependant, la récurrence de ces marqueurs ne veut pas dire qu’ils constituent des
indices d’une portée universelle ; leur utilisation dans des corpus de nature différente
(c’est-à-dire dans des domaines ou genres textuels distincts) soulève des difficultés.</p>
      <p>Des travaux antérieurs ont montré que les marqueurs linguistiques se caractérisent
par une certaine instabilité quant à leur contenu sémantique et ne sont donc pas
toujours aisément portables d´un corpus à l´autre. Le travail dont nous rendons
compte dans les pages qui suivent vise à étudier l´ampleur de ce phénomène.</p>
      <p>Dans ce travail, nous analysons des marqueurs de la relation de cause-effet. Cette
dernière est une relation fondamentale dans l’expérience humaine et centrale dans de
nombreux domaines de spécialité, notamment la médecine (qui étudie les causes des
maladies et l’effet des traitements), la psychologie (qui cherche la source de
phénomènes psychiques et les facteurs qui influencent des processus mentaux) et
aussi l’informatique (qui décrit des manipulations de données et les outils utilisés
pour atteindre les objectifs visés). Cette relation, bien que considéré dans certains
travaux terminologiques comme étant secondaire par rapport aux liens
hyperonymiques et méronymiques, a suscité ces dernières années de plus en plus
d’intérêt (e.g. Nuopponen, 1994, 2005 ; Garcia 1997 ; Barrière 2001 ; Feliu 2004 ;
Marshman 2007). Notre travail veut contribuer à la mise au point d’outils de repérage
de relation cause-effet dans les textes spécialisés. Le terminologue, qui doit souvent
représenter cette relation dans les ressources (ontologies, bases de données
terminologiques) qu’il conçoit, doit d’abord repérer les éléments reliés dans les textes.
Une meilleure compréhension des facteurs linguistiques intervenant dans l’expression
de la relation contribuera au développement d’outils mieux adaptés.</p>
      <p>Plus spécifiquement, notre analyse a porté sur 37 marqueurs verbaux de la relation
de cause-effet dans trois corpus associés à trois domaines (médecine, informatique et
psychologie) et à deux genres textuels (textes didactiques/vulgarisés et spécialisés). À
partir d’une typologie des sens causaux et d’une liste de marqueurs qui les expriment
de manière récurrente, nous étudions les variations qui peuvent s´observer dans les
différents corpus, notamment dans les fréquences. Ces observations serviront à
évaluer : 1. la productivité des différents marqueurs ; 2. l’intérêt de les utiliser dans
les applications qui cherchent à repérer des relations terminologiques
automatiquement ou semi-automatiquement ; 3. leur stabilité d’un corpus à l’autre.</p>
      <p>La section 2 présente un bref survol de quelques études dans le domaine. La
méthodologie est expliquée dans la section 3 et les résultats sont résumés dans la
section 4. Enfin, la section 5 présente quelques remarques en guise de conclusion,
ainsi que des suggestions pour de futurs travaux.
2</p>
    </sec>
    <sec id="sec-2">
      <title>Concepts clés et études antérieures</title>
      <p>Depuis les travaux de Hearst (1992), de nombreux chercheurs ont étudié le
potentiel des marqueurs linguistiques pour extraire – de manière (semi-)automatique –
des relations sémantiques de corpus spécialisés (par exemple, Ahmad &amp; Fulford,
1992 ; Meyer et al., 1999 ; Condamines &amp; Rebeyrolle, 2001 ; Meyer, 2001 ;
Marshman et al., 2002 ; Malaisé et al., 2005), et ce, dans plusieurs langues.</p>
      <p>Malgré l’attrait indéniable que présentent les marqueurs pour repérer des relations
terminologiques (et pour les étiqueter de manière précise), leur exploitation soulève
des difficultés importantes. Parmi celles-ci, nous pouvons citer : 1) des variations
dans les sous-types de relations terminologiques qui peuvent être véhiculées par ces
marqueurs (notées par exemple dans le cas de relations de cause-effet par Barrière
(2002) et Marshman (2007)), comme le marqueur INHIBER, qui peut indiquer la
prévention ou la réduction; 2) la polysémie de marqueurs qui compromet la précision
avec laquelle des occurrences peuvent être identifiées (décrite entre autres dans
Condamines, 2000 ; Marshman et al., 2002 et Marshman, 2007), comme les
marqueurs CONDUIRE et AUGMENTER, qui peuvent indiquer des sens causaux ou non
causaux ; et 3) la présence de marqueurs distincts pour exprimer une même relation,
nécessitant la prise en compte d’une gamme relativement large de marqueurs afin de
permettre l’identification d’une proportion acceptable des occurrences. (Des exemples
sont présentés dans la section 4.)</p>
      <p>Évidemment, l’investissement requis pour dresser des listes de marqueurs devient
plus rentable lorsque ces marqueurs permettent d’extraire de l’information utile dans
divers corpus. Toutefois, on a observé (par exemple, dans Séguéla, 1999 ;
Condamines, 2000, 2002, 2008 et Jacques &amp; Aussenac-Gilles, 2006), que la
productivité des marqueurs peut varier de façon significative dans des corpus associés
à divers domaines ou composés de textes différents (genres textuels, cf. Biber, 1988,
ou liés à différentes situations communicatives, cf. Pearson, 1998).</p>
      <p>Des études antérieures au travail présenté dans ces pages (Marshman et al., 2008,
2008a) ont analysé des marqueurs de relations causales dans des corpus associés à
trois domaines et à deux genres textuels. Nous avons évalué : 1) la fréquence des
occurrences des marqueurs dans les corpus ; 2) la proportion des occurrences qui
indiquaient de véritables relations causales ; 3) la polysémie des marqueurs à un
niveau plus fin, notant plusieurs sens véhiculés par les différents marqueurs (ainsi que
des variations quant au nombre d’occurrences associées à ces sens spécifiques). Dans
les tous les cas, nous avons observé des différences importantes dans le cas de
certains des marqueurs, ainsi que des variations entre domaines et genres textuels. Il
était malheureusement difficile de confirmer et de lier définitivement ces variations à
l’un des facteurs en raison de la variabilité individuelle des marqueurs.</p>
      <p>Cette première analyse a permis d’évaluer l’efficacité des marqueurs pour
identifier et classer les relations. Toutefois, nous avions envisagé le problème du point
de vue du marqueur linguistique et sous l’angle des sens linguistiques associés à la
relation causale. Il est alors souhaitable de raffiner ce portrait au moyen d’une étude
ayant comme point de départ les sens exprimés par les différents marqueurs. Cela
permettra d’étudier les préférences dans le choix de marqueurs en fonction du
domaine ou du genre textuel. La comparaison des différents corpus (en fonction, par
exemple, de la ressemblance plus étroite entre la médecine et la psychologie) pourra
aussi permettre d’étudier des facteurs qui expliquent les variations.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Méthodologie</title>
      <p>Les données de l’étude sont tirées de trois corpus portant sur des domaines
différents : un corpus de médecine (600 000 occurrences) composé d’articles
spécialisés, un corpus d’informatique (1 000 000 occ.), d’articles didactiques, et un
corpus de psychologie, de deux sous-corpus, le premier d’articles spécialisés (165 000
occ.) et le deuxième d’articles didactiques et vulgarisés (420 000 occ.).</p>
      <p>À partir de ces corpus nous avons extrait des occurrences de 37 marqueurs
verbaux de relations de cause-effet identifiés dans une étude antérieure (Marshman,
2007). Cette étude avait comme objectif, entre autres, de découvrir les marqueurs de
relations de cause-effet dans un corpus médical1. Des marqueurs verbaux, qui sont
parmi les plus prototypiques et fréquents pour cette relation (cf. Garcia 1997 ;
Barrière 2001 ; Marshman 2007) ont été retenus pour cette étude plus approfondie. À
l’aide du concordancier WordSmith Tools, nous avons sélectionné un échantillon
aléatoire d’environ 50 occurrences de chaque marqueur dans chaque corpus, et avons
éliminé manuellement des occurrences qui correspondaient à du bruit2. Ce tri
préliminaire a produit un nombre variable d’occurrences (entre une seule occurrence
et une soixantaine, selon le corpus et le marqueur) à analyser pour chaque marqueur.
(Pour le nombre d’occurrences analysées pour chaque marqueur dans chaque corpus,
voir Marshman et al., 2008.)</p>
      <p>Les occurrences retenues ont été analysées par trois terminologues (chacune
prenant en charge les données d’un des corpus) et ont d’abord été classées en deux
catégories principales : celles qui exprimaient des sens causaux (c’est-à-dire, dont une
paraphrase du sens contenait un élément tel que cause ou à cause de) et celles qui
exprimaient des sens non causaux. Ensuite, les deux catégories ont été subdivisées en
utilisant un système de paraphrases : celles-ci faisaient appel à des variables (X, Y, Z)
pour représenter les arguments, et à une décomposition du sens au moyen d’un
vocabulaire simplifié (entre autres, causer et à cause de pour indiquer la relation de
cause-effet, être, avoir lieu, plus, moins, et différent pour d’autres éléments du sens).</p>
      <p>Dans l’analyse, nous avons identifié plusieurs marqueurs qui partagent une même
paraphrase causale. Les paraphrases qui apparaissent plusieurs fois dans au moins
deux des corpus et les marqueurs qui les véhiculent sont présentées dans le Tableau 1.
1 Pour une discussion détaillée de la méthodologie de l’identification initiale des marqueurs et de plusieurs
typologies disponibles de la relation cause-effet, ainsi que la typologie retenue pour l’identification initiale
des marqueurs et les motifs de ce choix, voir Marshman (2007).
2 En raison de variations dans le nombre d’occurrences des marqueurs et dans la taille des corpus et aussi
de l’usage de la fonction de sélection aléatoire dans le corpus offert par WordSmith Tools, le nombre
d’occurrences initialement extraites n’est pas toujours égal à 50. Le bruit éliminé correspondait surtout à
des occurrences qui n’étaient pas des formes verbales (par exemple, des formes adjectivales et nominales)
ou qui contenaient la construction causale faire + verbe.</p>
      <sec id="sec-3-1">
        <title>X cause que Y ait moins lieu/soit moins</title>
      </sec>
      <sec id="sec-3-2">
        <title>X cause que Y puisse avoir (plus) lieu</title>
        <p>(plus facilement)
X cause que Y soit plus
X (est l'un des agents qui) cause(nt) que
Y puisse avoir lieu/être
X cause que Y fonctionne d’une certaine
manière
X cause que Y n’ait pas lieu
X cause que Y ne fonctionne pas/plus
X cause que Z fasse Y</p>
      </sec>
      <sec id="sec-3-3">
        <title>CONTROLER, DIMINUER, INHIBER, LIMITER,</title>
        <p>REDUIRE
FACILITER, FAVORISER, PERMETTRE</p>
      </sec>
      <sec id="sec-3-4">
        <title>ACCROITRE, AUGMENTER, STIMULER AIDER, INTERVENIR</title>
      </sec>
      <sec id="sec-3-5">
        <title>CONTROLER, ENTRAINER</title>
      </sec>
      <sec id="sec-3-6">
        <title>BLOQUER, EMPECHER BLOQUER, INHIBER CONDUIRE, STIMULER</title>
        <p>Enfin, nous avons comparé le nombre d’occurrences des différents marqueurs
exprimant ces sens dans les trois domaines et deux genres textuels (regroupant
ensemble les articles didactiques et vulgarisés pour les fins de la comparaison).
4</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>Résultats</title>
      <p>Cette section présente les proportions des occurrences des sens causaux analysés
qui étaient associés aux marqueurs. Les tableaux présentent : a) les marqueurs
exprimant un sens spécifique ; et b) le nombre absolu d’occurrences ainsi que le
pourcentage des occurrences du sens associé à chaque marqueur dans chaque corpus.</p>
      <p>Un sous-type « de base » de relations de cause-effet a été identifié, correspondant
au sens « X cause que Y ait lieu/soit ». Ce sens est exprimé par un nombre élevé de
marqueurs (Tableau 2, Figure 1).
3 Dans les en-têtes des tableaux, M, indique le corpus de médecine, I le corpus d’informatique, P le corpus
de psychologie, S les textes spécialisés, et DV les textes didactiques ou vulgarisés.
PRODUIRE
PROVOQUER
REALISER
RESULTER
STIMULER
Total4
16
14
%
d 12
e
s 10
o
c
c 8
ur
er 6
n
ce 4
s
2
0</p>
      <p>L’analyse révèle quelques variations généralisées (ex. CONDUIRE, PROVOQUER et
ENTRAINER exprimant plus souvent le sens en question qu’EXPLIQUER). Mais il y a
des écarts plus importants pour d’autres marqueurs, ASSURER, DECLENCHER et
ENTRAINER étant proportionnellement plus fréquents dans les données tirées du
corpus d’informatique, CAUSER dans le corpus de psychologie, et STIMULER et
INDUIRE dans le corpus médical. Une corrélation intéressante peut être faite pour
certains marqueurs : les corpus de médecine et de psychologie (dont le contenu est
plus étroitement lié que la médecine ou la psychologie et l’informatique) présentent
des proportions d’occurrences similaires pour certains marqueurs (ex. ABOUTIR,
ASSURER, ENTRAINER), tandis que ces mêmes marqueurs sont plus rares ou absents,
ou au contraire plus fréquents, dans le corpus d’informatique. Ce n’est pas toujours le
cas cependant (par exemple, dans les cas de ENTRAINER, PRODUIRE et PROVOQUER,
apparaissent plus souvent en psychologie et en informatique qu’en médecine).</p>
      <p>En ce qui concerne le genre textuel, on note beaucoup plus de différences que de
similitudes entre les marqueurs exprimant ce sens : CAUSER, CONDUIRE, PRODUIRE et
4 Puisque ces pourcentages ont été arrondis, le total n’est pas nécessairement exactement égal à 100 p. cent.
REALISER sont les seuls marqueurs vraiment stables dans les deux genres. Dans les
autres cas, il existe des différences d’importance variable : ex. ABOUTIR,
DECLENCHER, ENTRAINER, PROVOQUER et STIMULER présentent tous des variations
assez éloquentes.</p>
      <p>Le sens « X cause que Y soit différent (grâce à Z) » est exprimé par 5 marqueurs
(Tableau 3). Le marqueur MODIFIER est le plus souvent observé dans les trois corpus,
mais il est particulièrement fréquent dans le corpus d’informatique. Les autres
marqueurs montrent une certaine variation aussi d’un corpus à l’autre, la plupart du
temps avec une correspondance plus étroite entre le corpus médical et celui de
psychologie qu’entre l’informatique et les deux autres corpus (l’exception étant
ALTERER). En fonction de ces observations, la dominance du marqueur MODIFIER est
très prononcée dans le genre didactique/vulgarisé ; la distribution des occurrences
entre les autres marqueurs dans les textes spécialisés est plus équilibrée.</p>
      <p>L’analyse des occurrences du sens « X cause que Y soit moins/ait moins lieu »
(Tableau 4), exprimé par cinq marqueurs distincts, montre également des variations.
En général, REDUIRE est le marqueur le plus souvent observé, mais DIMINUER apparaît
souvent (en fait, encore plus souvent) dans le corpus d’informatique. Par contraste, les
marqueurs CONTROLER et INHIBER ne servent pas à exprimer ce sens dans le corpus
d’informatique, mais étaient présents en médical et en psychologie. Cette différence
suggère qu’il existe des similitudes entre les corpus de médecine et de psychologie,
mais il existe aussi des contre-exemples de ressemblances relativement étroites entre
l’informatique et la psychologie pour les marqueurs LIMITER et REDUIRE.</p>
      <p>Total
130
73
96
181
118
99
100
101
100
100</p>
      <p>Quant aux genres textuels, des variations évidentes sont présentes : les marqueurs
DIMINUER et REDUIRE (ainsi que CONTROLER à un moindre degré) expriment plus
souvent ce sens dans les données didactiques/vulgarisés, tandis que INHIBER et
LIMITER étaient plus souvent identifiés dans les données tirées des textes spécialisées.</p>
      <p>L’expression du sens « X (est l'un des agents qui) cause(nt) que Y puisse avoir
lieu/être » (Tableau 5) présente aussi des variations importantes : les occurrences
tirées du corpus médical sont divisées presqu’également entre les deux marqueurs,
tandis que dans le corpus d’informatique le marqueur INTERVENIR est beaucoup plus
utilisé (alors que c’est l’inverse dans le corpus de psychologie. Il est difficile avec
deux marqueurs seulement de tirer des conclusions sur des corrélations éventuelles
entre les résultats observés entre le corpus médical et celui de psychologie. Les
variations entre les corpus individuels expliquent sans doute celles des genres
textuels, qui révèlent une répartition plus équilibrée dans les textes spécialisés et une
fréquence plus élevée dans les occurrences tirées des textes vulgarisés et didactiques.</p>
      <p>Nous observons une variation assez importante dans l’expression du sens « X
cause que Y ne fonctionne pas/plus » (Tableau 6). Les occurrences analysées dans le
corpus médical sont pour la plupart associées au marqueur INHIBER, avec quelques
occurrences du marqueur BLOQUER, tandis que seul le marqueur BLOQUER a été relevé
dans le corpus d’informatique. (En fait, le marqueur INHIBER est absent du corpus
d’informatique.) Encore une fois, il est difficile de tirer des conclusions sur des
correspondances entre les différents corpus avec deux marqueurs seulement5.
5 Le petit nombre d’occurrences provenant du corpus de psychologie dans ce cas fait qu’une analyse des
occurrences en fonction du genre textuel n’apporterait pas de données supplémentaires.</p>
      <sec id="sec-4-1">
        <title>Marqueur</title>
        <p>BLOQUER
EMPECHER
Total</p>
      </sec>
      <sec id="sec-4-2">
        <title>Marqueur</title>
        <p>La variation est moins importante mais aussi présente pour certains autres sens
observés dans les données analysées. On observe des variations dans les proportions
des occurrences du sens « X cause que Y n’ait pas lieu » (Tableau 7), surtout dans le
corpus de psychologie, avec 75 p. cent des occurrences analysées indiquées par le
marqueur EMPECHER. Ceci est vrai au niveau des corpus et aussi des genres textuels.
Quant à la ressemblance entre le corpus de médecine et celui de psychologie, elle est
possible mais pas très prononcée.</p>
        <p>Le sens « X cause que Y soit plus » a été observé en conjonction avec trois
marqueurs (Tableau 8). Dans tous les corpus, le marqueur STIMULER est moins utilisé
que les deux autres, qui varient légèrement quant à leur fréquence relative dans les
différents corpus et genres textuels. Si on analyse les correspondances entre le corpus
médical et celui de psychologie par rapport à l’informatique, l’hypothèse selon
laquelle de plus grandes similitudes pourraient être observées étant donné la relation
entre les domaines ne serait pas appuyée par ces données : outre STIMULER, les
proportions observées dans les données tirées du corpus médical et du corpus
d’informatique sont les plus similaires.</p>
        <p>Dans certains cas très peu de variation est observée (Tableau 9). L’expression du
sens « X cause que Y puisse avoir plus lieu » / « X cause que Y puisse avoir lieu plus
facilement » est représenté dans des proportions à peu près égales dans trois corpus et
les deux genres textuels par les marqueurs FACILITER, FAVORISER et PERMETTRE.
Pour CONDUIRE et STIMULER exprimant le sens « X cause que Z fasse Y », les
fréquences demeurent aussi relativement stables. Ces deux verbes ne présentent que
des variations mineures dans les données, l’usage de STIMULER au lieu de CONDUIRE
pour exprimer ce sens étant rare ou absent dans les trois corpus. Il en va de même
pour CONTROLER et ENTRAINER lorsqu’ils expriment le sens « X cause que Y
fonctionne d’une certaine manière », puisque la vaste majorité des occurrences
analysées en informatique et en psychologie sont exprimés par CONTROLER (le sens
n’ayant pas été identifié dans les occurrences analysées en médecine).</p>
        <p>Ces données montrent que la plupart des sens observés sont exprimés par les
mêmes ensembles de marqueurs dans les corpus et genres textuels, mais que les
proportions des occurrences indiquées par les différents marqueurs varient souvent
(mais de manière différente) entre corpus et genres textuels. Cela soulève la
possibilité que ces derniers facteurs influencent l’expression des relations ;
malheureusement, la variation observée au niveau des différents sens rend très
difficile la caractérisation précise de l’effet que ceux-ci pourraient avoir.</p>
        <p>Les données permettent tout de même d’observer un certain nombre de
corrélations possibles entre corpus (surtout les corpus associés à des domaines
étroitement liés, comme la médecine et la psychologie) quant à l’utilisation de
certains marqueurs pour exprimer des sens spécifiques, mais il n’a pas été possible de
conclure avec certitude que ce genre de ressemblance est prévisible. Un nombre plus
important de données seraient nécessaires pour tirer ces conclusions.
5</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Conclusions et perspectives</title>
      <p>L’analyse réalisée a permis de constater une variation parfois importante dans le
nombre d’occurrences de 37 marqueurs verbaux associés à des relations de
causeeffet dans trois corpus et deux genres textuels. Cependant, bien que certains sens
causaux analysés présentent des variations évidentes, d’autres varient peu. Nous
reconnaissons ainsi la difficulté de dégager des tendances claires quant à la capacité
des différents marqueurs à exprimer des sens précis dans des corpus spécifiques.</p>
      <p>L’observation qui précède tend à confirmer les conclusions d’études précédentes
et laisse supposer que la productivité de marqueurs individuels aura tendance à varier
d’un corpus à l’autre selon les caractéristiques des textes qui les composent. Á notre
avis, cette variation milite en faveur de l’inclusion d’une gamme aussi vaste que
possible de différents marqueurs dans des applications qui y ont recours pour repérer
et classer des relations terminologiques.</p>
      <p>Nous devons néanmoins reconnaître que cet échantillon de données est limité, et
que, s’il permet de dégager certaines tendances, un nombre plus conséquent de
données s’impose. Une analyse qui inclut d’autres genres textuels et d’autres
domaines permettrait d’étayer nos observations. D’ailleurs, nos résultats reflètent la
contribution de plusieurs facteurs aux différentes étapes de notre analyse (par
exemple, la fréquence variable des marqueurs en général dans les divers corpus, ainsi
que la polysémie des marqueurs, non seulement dans l’attestation de sens causaux ou
non causaux, mais aussi dans l’expression de différents sens causaux). Il s’agit donc
d’une combinaison complexe de facteurs qui interviennent dans les résultats décrits.</p>
      <p>Enfin les différences observées soulèvent une question plus pratique : est-il
possible d’exploiter efficacement les marqueurs lexicaux dans des applications
automatiques ? Nous persistons à croire que oui. Cela dit, il sera nécessaire de
continuer à parfaire les techniques de repérage et de mettre au point des stratégies afin
de réduire le bruit et améliorer les résultats de manière générale. Le niveau
d’automatisation prévu pour des applications spécifiques aidera sans doute à
déterminer ce qui est acceptable comme quantité de bruit ; une application qui vise à
présenter à l’utilisateur une liste triée de contextes potentiellement riches en
connaissances pourra tolérer davantage de bruit qu’une application entièrement
automatique. Des stratégies pour trier des contextes potentiellement utiles (en
analysant, par exemple, les structures actancielles et les classes d’actants observés
dans les textes, comme décrit dans Marshman &amp; L’Homme (2006)) pourraient aussi
contribuer à améliorer les résultats. Il est donc essentiel de continuer des recherches
de ce genre pour maximiser la productivité des marqueurs.</p>
    </sec>
    <sec id="sec-6">
      <title>Remerciements</title>
      <p>Nous remercions le Conseil de recherches en sciences humaines du Canada et le
Fonds québécois de recherches sur la société et la culture du Québec pour leur
soutien, et Stéphanie Caron pour son travail sur les corpus.</p>
      <p>Références
AHMAD K. &amp; FULFORD H. (1992). Knowledge Processing: 4. Semantic Relations and their Use
in Elaborating Terminology. (Computing Sciences Report CS-92-07). Guildford.
BARRIÈRE C. (2002). Hierarchical refinement and representation of the causal relation.
Terminology. 8(1), p. 91-111.</p>
      <p>BIBER D. (1988). Variation across Speech and Writing. Cambridge.</p>
      <p>CONDAMINES A. (2000). Chez dans un corpus de sciences naturelles: un marqueur de relation
de relation méronymique? Cahiers de lexicologie 77, p. 165-187.</p>
      <p>CONDAMINES A. (2002). Corpus analysis and conceptual relation patterns. Terminology. 8(1), p.
141-162.</p>
      <p>CONDAMINES A. (2008). Taking genre into account when analysing conceptual relation patterns.
Corpora 3(2), p. 115-140.</p>
      <p>CONDAMINES A. &amp; REBEYROLLE J. (2001). Searching for and identifying conceptual
relationships via a corpus-based approach to a Terminological Knowledge Base (CKTB):
Method and Results. In D. BOURIGAULT, C. JACQUEMIN &amp; M.-C. L’HOMME Eds. Recent
Advances in Computational Terminology. p. 127–148. Amsterdam/Philadelphia.
FELIU, J. (2004). Relacions conceptuals i terminologia: anàlisi i proposta de detecció
semiautomàtica. Thèse de doctorat, Universitat Pompeu Fabra.</p>
      <p>HEARST M. (1992). Automatic acquisition of hyponyms from large text corpora. In Proceedings
of COLING-92. p. 539-545. Nantes.</p>
      <p>GARCIA, D. (1997). Structuration du lexique de la causalité et réalisation d’un outil d’aide au
repérage de l’action dans les textes. In Actes des deuxièmes rencontres — Terminologie et
Intelligence Artificielle, TIA ’97. p. 7–26. Toulouse.</p>
      <p>JACQUES M.-P. &amp; AUSSENAC-GILLES N. (2006). Variabilité des performances des outils de TAL
et genre textuel. T.A.L. 47(1), p. 11-32.</p>
      <p>MALAISÉ, V., P. ZWEIGENBAUM &amp; B. BACHIMONT. (2005). Mining defining contexts to help
structuring differential ontologies. Terminology. 11(1), p. 21–53.</p>
      <p>MARSHMAN E. (2007). Lexical Knowledge Patters for Semi-automatic Extraction of
Causeeffect and Association Relations from Medical Texts: A Comparative Analysis of English and
French. Doctoral thesis, Département de linguistique et de traduction, Université de Montréal,
Montreal, Canada.</p>
      <p>MARSHMAN, E. &amp; M.C. L’HOMME. (2006). Disambiguating lexical markers of cause and effect
using actantial structures and actant classes. In Picht, H. Ed. Modern approaches to
terminological theories and applications. Proceedings of the 15th European Symposium on
Language for Special Purposes, LSP 2005. p. 261–285. Bern.</p>
      <p>MARSHMAN E., L’HOMME M.-C. &amp; SURTEES V. (2008). Portability of cause-effect relation
markers across specialized domains and text genres: A comparative evaluation. Corpora. 3(2),
p.141-172.</p>
      <p>MARSHMAN E., L’HOMME M.-C. &amp; SURTEES V. (2008a). Verbal Markers of Cause-Effect
Relations across Corpora. In B. NISTRUP MADSEN &amp; H. ERDMAN THOMSEN Eds. Managing
Ontologies and Lexical Resources. Proceedings of the 8th International Conference on
Terminology and Knowledge Engineering, TKE 2008. p. 159-173. Copenhagen.
MARSHMAN E., MEYER I. &amp; MORGAN T. (2002). French patterns for expressing concept
relations. Terminology. 8(1), p. 1-29.</p>
      <p>MEYER I. (2001). Extracting knowledge-rich contexts for terminography: A conceptual and
methodological framework. In D. BOURIGAULT, C. JACQUEMIN &amp; M.-C. L’HOMME Eds. Recent
Advances in Computational Terminology. p. 279-302. Amsterdam/Philadelphia.
MEYER I., MACKINTOSH K., BARRIÈRE C. &amp; MORGAN T. (1999). Conceptual sampling for
terminographical corpus analysis. In Proceedings of Terminology and Knowledge Engineering
TKE ’99. p. 256-267. Innsbruck.</p>
      <p>NUOPPONEN, A. (1994). Causal Relations in Terminological Knowledge Representation.
Terminology Science and Research 5(1). p. 36-44.</p>
      <p>SÉGUÉLA P. (1999). Adaptation semi-automatique d’une base de marqueurs de relations
sémantiques sur des corpus spécialisés. Terminologies nouvelles. 19, p. 52-60.</p>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>