<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Utiliser la Structure du Document dans le Processus de Construction d'Ontologies</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Mouna Kamel</string-name>
          <email>kamel@irit.fr</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Nathalie Aussenac-Gilles</string-name>
          <email>aussenac@irit.fr</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Laboratoire IRIT</institution>
          ,
          <addr-line>Université Paul Sabatier, Toulouse</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>Résumé : Les méthodes classiques de construction d'ontologies à partir de textes exploitent le texte rédigé qu'ils contiennent. Nous étendons ces approches en y ajoutant l'analyse de la structure du texte, qui contribue à en caractériser la sémantique. Lorsque le document existe sous un format numérique de type SGML, les différents éléments de la structure deviennent facilement accessibles. Notre méthode de construction d'ontologie se déroule alors en deux étapes. Une première phase s'appuie sur le repérage d'éléments de structure tels que titres, énumérations et définitions pour fournir un premier noyau d'ontologie. Nous montrons que ces éléments sont pertinents car ils dénotent des relations d'ordre ontologique. La seconde phase consiste à enrichir ce noyau en analysant le texte rédigé selon des techniques classiques de TAL. Mots-clés : Construction d'ontologies, structure du document, patrons structurels, patrons lexico-syntaxiques, Ingénierie des connaissances.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Un texte est une production linguistique composée d’une suite de signes en une langue
donnée (le texte proprement dit) mais aussi d’un dispositif de structuration de mise en
page, de typographie (organisation dispositionnelle). Les méthodes de construction
d’ontologies à partir de textes privilégient souvent l’analyse du texte brut, que ce soit
selon une approche statistique ou linguistique (Buitelaar et al., 2005), (Aussenac et al.,
2008). La plupart de ces travaux intègrent différents outils de TAL et soulignent la
complémentarité entre identification de concepts et extraction de relations. Mais
lorsque l’auteur du document utilise les éléments de structure (moyens de mise en
forme) mis à sa disposition pour structurer, subdiviser et hiérarchiser le contenu de
son document, la matérialité du texte joue un rôle important, car elle est également
porteuse de sémantique : selon le Modèle d’Architecture Textuelle (MAT), toute mise
en forme matérielle possède une formulation discursive (Luc &amp; Virbel, 2001).
Partant de ce constat, l’idée que nous défendons ici est que la structure hiérarchique
du document est porteuse de sémantique, et que son exploitation contribue à améliorer
le processus de construction d’ontologie à partir de texte. En effet, les éléments de
structure traduisent des relations hiérarchiques entre unités textuelles, et leur analyse
permet souvent d’obtenir un premier noyau d’ontologie. Ce noyau est ensuite enrichi
par l’analyse linguistique du texte. Notre approche consiste alors à combiner ces deux
analyses (structurelle et linguistique) pour identifier les concepts et les relations
sémantiques, ces dernières pouvant être exprimées de façon implicite (par le biais des
éléments de structure) ou explicite (en langage naturel). Pour cela, nous définissons
d’une part des patrons structurels qui prennent en compte la structure hiérarchique du
document, et d’autre part des patrons lexico-syntaxiques qui prennent en compte les
éléments lexicaux, syntaxiques et sémantiques du texte brut. L’originalité de ce travail
réside dans la définition de patrons structurels : un patron structurel permet d’associer
une propriété sémantique à un élément de structure. Le choix de cette propriété
provient du contexte dans lequel chaque élément de structure apparaît. Néanmoins, il
existe des classes de textes pour lesquelles on peut associer à un élément de structure
particulier une sémantique précise. La mise en évidence de telles associations requiert
l’analyse des textes par un expert.</p>
      <p>Cet article est organisé de la façon suivante. A l’aide d’un exemple en partie 2, Nous
montrons comment la structure du document, et plus particulièrement les éléments de
structure, sont porteurs de sémantique. Nous rappelons ensuite les différentes
méthodes de construction d’ontologies à partir du contenu d’un texte ou de sa
structure (partie 3). La partie 4 décrit notre approche qui combine l’analyse de la
structure du document à l’analyse linguistique du contenu textuel, pour améliorer le
processus de construction d’ontologies à partir de documents. La partie 5 présente les
résultats obtenus en appliquant notre méthode sur des textes très structurés contenant
des spécifications de bases de données (projet GEONTO). Nous dressons enfin le
bilan actuel de nos travaux au sein du projet et présentons les perspectives pour les
améliorer (partie 6).
2</p>
    </sec>
    <sec id="sec-2">
      <title>Structure de Document et Sémantique</title>
      <p>Le document présenté à la figure 1 montre que la mise en forme matérielle du texte est
porteuse de sémantique : différents éléments de structure (titraille, énumération, liste,
etc.) et éléments typographiques (taille des caractères, police, encadré, etc.) sont
utilisés pour souligner l’importance de certains éléments du texte et les liens qui
existent entre eux. Les éléments de structure sont particulièrement pertinents pour la
construction d’ontologie dans la mesure où ils traduisent des relations hiérarchiques
entre différentes unités textuelles. Les éléments de structure de la figure 1 notifient
qu’un Tronçon de route est une Voie de communication routière, les différents
éléments de l’énumération (Autoroute, Départementale, Nationale, etc.) sont des
catégories de Tronçon de route, chaque élément de la liste (Identifiant, Classement,
etc.) représente un attribut de Tronçon de route, etc.</p>
      <p>Notre approche se base essentiellement sur l’analyse des titrailles, listes et
énumérations car elles ont fait l’objet de nombreux travaux et sont fréquentes en
corpus. Les structures énumératives sont composées d’une amorce (syntagme nominal
introducteur de l’énumération) et d’un ensemble d’items (éléments de l’énumération)
(Luc, 2001). Lorsque les items ont la même structure discursive, une relation
sémantique entre l’amorce et chacun des items peut être établie. (Jacquemin &amp; Bush,
2000) sont les premiers à avoir utilisé la structure visuelle des énumérations pour une
application de recherche d’Entités Nommées. L’emboîtement ou le parallélisme de
titres de sous-sections d’une section donnée reflètent des relations de subordination ou
de juxtaposition existant entre ces sections (Jacques, 2005). Là encore, lorsque les
sous-titres ont la même structure discursive, une relation sémantique entre le titre et
chacun des sous-titres, ou entre les sous-titres, peut être instaurée.
Le traitement automatique de la structure d’un document nécessite que les contraintes
suivantes soient vérifiées :
1. Le document doit être accessible dans un format qui rende explicite sa structure et
son caractère hiérarchique (format de type SGML).
2. Le document doit être analysé par un expert pour caractériser les manifestations
matérielles des éléments de structure pertinents, et les propriétés sémantiques de
ces manifestations.
3. Les termes présents dans les structures discursives des éléments de structure
doivent être des termes désignant des concepts.</p>
      <p>La complémentarité entre identification de concepts et de relations est alors assurée en
exploitant simultanément la sémantique véhiculée par l’intitulé des balises, la structure
hiérarchique du document et l’information contenue entre les balises.
3</p>
    </sec>
    <sec id="sec-3">
      <title>Construction d’ontologies à partir de textes</title>
      <p>L’extraction et l’identification de relations est le complément indispensable de
l’identification des concepts pour construire ou enrichir une ontologie. Deux familles
de techniques extraient des relations sémantiques à partir de textes : les approches
statistiques et les approches linguistiques. Les approches statistiques consistent, entre
autres, à analyser les termes co-occurrents et la similarité entre leurs contextes
syntaxiques (Hindle, 1990), (Grefenstette, 1994), à découvrir des indices de présence
de relation à l’aide de techniques telles que les réseaux bayésiens (Weissenbacher &amp;
Nazarenko, 2007), les algorithmes d’apprentissage (Giuliano et al., 2006). Ces
méthodes sont efficaces, mais identifient mal la sémantique de la relation. Les
approches linguistiques font appel à des analyses syntaxiques ou des calculs de
dépendance pour identifier les relations argumentatives (sujet, verbe, objet)
(Jacquemin, 1997), (Bourigault, 2002), ou définissent des patrons lexico-syntaxiques
pour reconnaître les marques linguistiques des relations sémantiques (Aussenac-Gilles
&amp; Seguela, 2000). De ce fait, la sémantique des relations est bien identifiée, mais la
variabilité de leur expression en corpus oblige à multiplier les patrons et rend souvent
l’approche coûteuse.</p>
      <p>Ces techniques ne s’appliquent que pour la reconnaissance des relations
intraphrastiques, alors que d’autres études ont pour objectif d’identifier des relations
interphrastiques. Les liens entre différents paragraphes du texte peuvent exprimés soit
par des relations du discours repérables à l’aide de marqueurs linguistiques
(Charolles, 1997) (Asher et al., 2001), soit par la structure matérielle du texte (Luc &amp;
Virbel, 2001). La structure du texte joue un rôle important car elle donne "forme et
sens au contenu" (Jacques, 2005) et, du fait de la numérisation des documents, son
contenu devient plus facilement accessible grâce à des formats de représentation de la
structure. Pourtant, à notre connaissance, très peu de travaux la mettent à profit pour
construire des ressources sémantiques. Citons cependant la construction de
taxonomies à partir de la structure visuelle du texte (style, caractères gras,
soulignement, encadrement) (Abadie &amp; Mustière, 2008), et l’analyse d’objets textuels
tels que l’énumération qui met en évidence le rôle des propriétés visuelles dans
l’acquisition de relations sémantiques (Virbel et al., 2005).
4</p>
    </sec>
    <sec id="sec-4">
      <title>Analyse du document</title>
      <p>Notre approche associe une analyse de la structure du document qui permet d’obtenir
un premier noyau d’ontologie, à une analyse linguistique du texte pour enrichir ce
noyau.
4.1</p>
      <sec id="sec-4-1">
        <title>Analyse de la structure</title>
        <p>L’imbrication des composants des éléments de structure traduit des relations d’ordre
ontologique entre ces composants. Par ailleurs, lorsque le document est accessible
&lt;Document&gt;
&lt;Domaine&gt;
&lt;nomDomaine&gt; Voies de communication. routière&lt;/nomDomaine&gt;
&lt;Classe&gt;
&lt;nomClasse&gt; Tronçon de route &lt;nomClasse&gt;
&lt;nomClasse&gt; Tronçon de chemin &lt;/nomClasse&gt;
&lt;/Classe&gt;
&lt;/Domaine&gt;
&lt;/Document&gt;</p>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Ré-annotation des balises</title>
      <p>&lt;Tag name="Document" path="/"&gt;
&lt; Tag name="Domaine" path="/Document"&gt;
&lt; Tag name="nomDomaine" path="/Document/Domaine"&gt;</p>
      <p>Voies de communication. routière&lt;/Tag&gt;
&lt;Tag name="Classe" path="/Document/Domaine"&gt;
&lt;Tag name="nomClasse" path="/Document/Domaine/Classe"&gt; Tronçon de route &lt;/Tag&gt;
&lt;Tag name="nomClasse" path="/Document/Domaine/Classe"&gt; Tronçon de chemin &lt;/Tag&gt;
&lt;/Tag&gt;
&lt;/Tag&gt;
&lt;/Tag&gt;</p>
      <p>Annotation des termes et lexèmes
&lt;Tag name="Document" path="/"&gt;
&lt;Tag name="Domaine" path="/Document"&gt;
&lt;Tag name="nomDomaine" path="/Document/Domaine"&gt;
&lt;Terme&gt; &lt;Token&gt; Voies &lt;/Token&gt; &lt;Token&gt; de &lt;/Token&gt;</p>
      <p>&lt;Token&gt; communication &lt;/Token&gt;. &lt;Token&gt; Routière &lt;/Token&gt; &lt;/Terme&gt;
&lt;/Tag&gt;
&lt;Tag name="Classe" path="/Document/Domaine"&gt;
&lt;Tag name="nomClasse" path="/Document/Domaine/Classe"&gt;
&lt;Terme&gt; &lt;Token&gt; Tronçon &lt;/Token&gt; &lt;Token&gt; de &lt;/Token&gt; &lt;Token&gt; route &lt;/Token&gt;
&lt;/Terme&gt;
&lt;/Tag&gt;
&lt;Tag name="nomClasse" path="/Document/Domaine/Classe" &gt;
&lt;Terme&gt; &lt;Token&gt; Tronçon &lt;/Token&gt; &lt;Token&gt; de &lt;/Token&gt; &lt;Token&gt; chemin &lt;/Token&gt;
&lt;/Terme&gt;
&lt;/Tag&gt;
&lt;/Tag&gt; &lt;/Tag&gt;
&lt;/Tag&gt;
dans un format de type SGML, les composants principaux et subordonnés sont
marqués par des balises spécifiques. L’analyse de la structure consiste alors à :
1. associer une sémantique aux balises qui marquent les composants des éléments de
structure et aux relations qui les lient, en fonction de connaissances d’arrière-plan
2. ré-annoter et annoter automatiquement le document pour mettre en évidence
d’une part les propriétés des balises (nom, localisation, attributs), et d’autre part
pour attribuer des catégories grammaticales ou sémantiques aux unités textuelles
présentes dans le texte à l’aide d’outils du TAL.
3. définir des patrons structurels qui ont pour rôle d’expliciter la sémantique
véhiculée par ces éléments de structure.
4. projeter ces patrons sur le document pour obtenir des fragments d’ontologies.
4.1.1</p>
      <sec id="sec-5-1">
        <title>Ré-annotation et annotation de document</title>
        <p>La ré-annotation d’un document consiste à expliciter les caractéristiques des balises
(nom et localisation hiérarchique de la balise au sein du document). Chaque balise est
traduite en une balise nommée Tag ayant pour attributs name (nom initial de la balise)
et path (localisation de la balise). Les attributs présents dans la balise initiale sont
conservés tels quels. L’annotation sert à caractériser les lexèmes et termes (annotés
respectivement Token et Term) à l’aide d’un tokenizer et d’un extracteur de termes.
La figure 2 décrit ce processus appliqué à un document XML (figure 2.a).
4.1.2</p>
      </sec>
      <sec id="sec-5-2">
        <title>Définition d’un patron structurel</title>
        <p>Un patron structurel (PS) a pour rôle de caractériser la sémantique portée par un
élément de structure. Son rôle consiste à identifier les termes marqués par des balises
données, et à établir une relation sémantique entre ces termes, produisant ainsi un
fragment d’ontologie. L’identification des balises et de la relation reste à la charge de
l’expert. Une liste de PS a priori exhaustive semble donc hors de portée.
Les PS sont définis à l’aide du langage JAPE (Java Annotation Patterns Engine),
langage d’expression de règles qui portent sur les annotations (et non sur le texte). La
partie gauche d’une règle Jape est composée d’un motif basé sur les annotations, la
partie droite d’un ensemble d’instructions qui manipulent les annotations. Les
instructions sont exprimées en langage Java.</p>
        <p>Nous donnons figure 3 un exemple de PS permettant d’exploiter le document de la
figure 2.
({Tag name="nomDomaine" path="/Document/Domaine"} ({Terme}) : T1
({Token})*
({Tag name="nomClasse" path="/Document/Domaine/Classe"} ({Terme}) : T2
{Bal.name="nomDomaine",Bal.path="/Docment/Domaine", Tag contains</p>
        <p>{Bal.name="nomClasse", Bal.path="/Document/Domaine/Classe" } }
O = { est-un (T1, T2)}</p>
        <sec id="sec-5-2-1">
          <title>Ce patron est appliqué lorsque :</title>
          <p>(1) un terme annoté T1 par le PS (resp. T2) est marqué par une balise Tag ayant
pour attributs &lt;name="nomDomaine"&gt; et &lt;path="/Document/Domaine"&gt;
(resp. &lt;name="nomClasse"&gt; et &lt;path="/Document/Domaine/Classe"&gt;).
(2) La balise marquant T2 est sous la portée de la balise marquant T1
(3) Il peut exister 0 ou plusieurs lexèmes entre T1 et T2
Pour chaque appariement de la partie gauche du PS, un fragment d’ontologie O est
construit (instructions en code Java) : deux concepts ayant respectivement pour termes
T1 et T2 sont reliés par la relation est-un.
4.1.3</p>
        </sec>
      </sec>
      <sec id="sec-5-3">
        <title>Construction du noyau d’ontologie</title>
        <p>Les premiers fragments d’ontologie produits par les PS sont fusionnés pour former un
nouveau fragment d’ontologie. Dans le cas de l’exemple de la figure 2, deux
fragments d’ontologies sont produits par le PS de la figure 3, et fusionnées (figure 4).</p>
        <p>L’analyse linguistique du texte consiste alors à enrichir ce noyau en découvrant de
nouveaux concepts, relations, termes associés aux concepts, propriétés, etc.
4.2</p>
      </sec>
      <sec id="sec-5-4">
        <title>Analyse du texte rédigé</title>
        <p>Les définitions sont "un lieu privilégié où s’actualisent les relations sémantiques que
les mots entretiennent entre eux" (Rebeyrolle &amp; Tanguy, 2000). Nous avons choisi
d’exploiter les définitions directes (par opposition aux définitions indirectes, qui ont
une structure discursive) à l’aide de patrons incluant des critères lexicaux, syntaxiques
et typo-dispositionnels (Auger &amp; Barrière, 2008). Ces patrons exploitent les étiquettes
morpho-syntaxiques ou sémantiques attribuées par différents outils de TAL
(tokenizer, lemmatiseur, analyseur syntaxique, etc.), pour caractériser les relations
sémantiques existant entre les éléments de la structure. Seules les définitions
correspondant au schéma suivant ont été étudiées : "Terme défini : énoncé
définitoire", où l’énoncé définitoire représente une seule caractérisation du terme
défini.
Une étude des énoncés définitoires sur un corpus spécifique nous a conduit à définir
les patrons lexico-syntaxiques suivants. Chacun d’eux correspond à un cas de
définition de concept. Ces patrons exploitent les étiquettes morpho-syntaxiques
Terme, Concept, Propriete (caractérisée grammaticalement par un adjectif ou un
complément du nom) et M_Rel (marqueur de relation lexicale). Ces étiquettes sont
obtenues respectivement à partir d’un extracteur de termes, du noyau d’ontologie
(partie 4.1), d’un étiqueteur grammatical, et de patrons lexico-syntaxiques également
définis par nos soins.
{Concept} {Token.string=":"} {Terme}</p>
        <p>Un terme est défini par un autre terme (cas de quasi synonymie). Alors ces deux
termes (le défini et le définitoire) sont associés au même concept.</p>
        <p>Exemple : [Cascade]Terme : [Chute d’eau] Terme
{Concept} {Token.string=":"} ({Propriete})* {Terme} ({Propriete})*
Un terme est défini par un autre terme auquel sont associées des propriétés. Le
terme définitoire est alors considéré comme un terme plus générique que le terme
à définir. La ou les propriétés sont associées au concept relatif au terme à définir.
Exemple : [Terrain de sport] Terme : [Equipement sportif] Terme [de plein air] Propriété
{Concept} {Token.string=":"} {M_Rel} {Terme} ({Propriete})*</p>
        <p>Un terme est défini par une relation lexicale le reliant à un autre terme. La
relation lexicale correspondante est donc établie entre les concepts relatifs au
terme défini et au terme définitoire.</p>
        <p>Exemple : [Carburateur] Terme : [Partie de] Marqueur [moteur] Terme
Si les termes défini et définitoire sont associés à des concepts de l’ontologie, la
relation sémantique entre ces concepts est établie. Si ce n’est pas le cas pour un des
deux termes, un nouveau concept est créé. Pour l’insérer dans l’ontologie, nous
utilisons l’inclusion lexicale qui traduit souvent une relation hiérarchique
(hyponymique ou méronymique) (Kleiber &amp; Tamba, 1990). Les définitions présentant
des combinaisons de ces cas sont traitées en combinant les différents algorithmes.
5</p>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>Cadre d’application</title>
      <p>Au sein du projet GEONTO1, le COGIT2 dispose de bases de données géographiques
hétérogènes et a pour objectif l’interopérabilité de ces bases. Pour cela, le projet
prévoit de fournir une ontologie par base de données, et d’aligner les ontologies
obtenues avec une ontologie de référence. Plutôt que de construire une ontologie à
partir d’un schéma de base de données (Tirmizi et al., 2008), (Gardarin et al., 2008),
elle est construite à partir d’un document de spécifications de cette base. En effet, ces</p>
      <sec id="sec-6-1">
        <title>1 Projet ANR-07-MDCO-005, http://www.lri.fr/geonto 2 COGIT : Conception Objet et Généralisation de l’Information Topographique, laboratoire de l’IGN</title>
        <p>documents sont intéressants à exploiter à plusieurs titres. Tout d’abord, ils sont
sémantiquement riches : ils contiennent des descriptions de concepts, de relations, de
contraintes, de définitions, etc. qui sont exprimées à la fois à travers leur mise en page
(forte présence de titres, d’énumérations et de définitions), et à travers le langage
naturel. Ensuite, ces documents sont fournis dans un format XML qui rend les
éléments de la structure facilement accessibles. Enfin, ces documents sont conformes
à un schéma XML inspiré de normes ISO pour les données géographiques.
Les patrons structurels et lexico-syntaxiques que nous avons définis s’appliquent à
l’ensemble des documents de spécification disponibles au COGIT.
5.1</p>
        <sec id="sec-6-1-1">
          <title>Construction de l’ontologie</title>
          <p>L’expérimentation décrite ici porte sur la base de données BDTopo qui sert de
référence pour la localisation de l’information relative aux problématiques
d’aménagement, d’environnement ou d’urbanisme. Un extrait de ces spécifications au
format XML est présenté figure 5.
L’application de patrons structurels et lexico-syntaxiques que nous avons définis après
une expertise du document a permis de construire une ontologie en deux temps : le
noyau d’ontologie obtenu à partir de la structure, puis le noyau enrichi par l’analyse
linguistique du texte. L’extrait de cette ontologie correspondant à l’extrait de la
figure 5 est présenté figure 6.
Comme un même terme peut se retrouver à différents niveaux dans le document et que
les spécifications peuvent donner des définitions et des propriétés différentes dans
chaque cas, nous avons choisi de concaténer le nom du concept courant à celui de ses
concepts pères. Ainsi l’identifiant d’un concept précise sa position dans la hiérarchie
du document.</p>
          <p>La figure 7 montre les différentes propriétés associées au concept Sentier lors des
deux phases d’analyse.
L’analyse structurelle a permis d’établir les propriétés label (identifiant du concept),
Terme (termes associés au concept), Definition (définition du concept), Origine (si
le concept provient de l’analyse de la structure ou du texte) et Reference (référence à
l’attribut dénotant une hiérarchisation). L’analyse linguistique permet d’enrichir
l’ensemble de ces propriétés : les propriétés Terme_plus_Generique et propriete
permettent respectivement de proposer Chemin comme terme plus générique que
Sentier à l’ontologue, et d’associer étroit comme une propriété physique à Sentier.</p>
        </sec>
        <sec id="sec-6-1-2">
          <title>Avantages et limites de notre approche</title>
          <p>Dans le contexte de GEONTO, notre approche a permis d’obtenir une ontologie riche
dans le sens où de nombreuses connaissances présentes dans le document sont
modélisées dans l’ontologie. Cette ontologie aide à la validation, à la traçabilité et à
l’alignement car les concepts sont documentés par le biais de propriétés, au fur et à
mesure de leur construction (paragraphe 5.1).</p>
          <p>Mais la qualité de l’ontologie obtenue dépend entièrement de la qualité des
spécifications : lorsque des incohérences existent au niveau des spécifications (par ex.,
un des éléments d’une énumération a un statut différent des autres), une intervention
humaine s’impose pour corriger l’ontologie. L’étape de validation de l’ontologie
permettra aussi de pointer les erreurs présentes dans les spécifications.
6</p>
        </sec>
      </sec>
    </sec>
    <sec id="sec-7">
      <title>Conclusion</title>
      <p>Nous avons montré que, dans le cas favorable où des textes sont structurés à l’aide de
balises dont la sémantique est claire, et dont la hiérarchisation porte aussi une
sémantique précise, il est possible de définir une chaîne de traitements efficace pour
construire automatiquement une ontologie. Ces traitements s’appuient sur des patrons
exploitant à la fois la structure des documents et le texte en langage naturel. Ils
étendent donc les informations habituellement exploitées pour l’extraction de relations
à partir de texte. L’ontologie ainsi obtenue s’avère riche en concepts, relations,
propriétés et termes. De plus, la documentation des concepts assure la traçabilité vers
le texte dont est issue l’ontologie. Il est à noter que la qualité du document a des
conséquences sur la qualité des résultats issus de la méthode présentée.
Deux évolutions majeures sont envisagées pour enrichir l’ontologie obtenue. La
première amélioration consiste à s’appuyer sur les travaux existants pour identifier les
structures linguistiques qui permettraient de traiter automatiquement les éléments de
structure porteurs d’une relation paradigmatique. La seconde évolution concerne une
analyse plus systématique du texte brut contenu dans les énoncés définitoires, pour
identifier des relations du discours et des relations interphrastiques.</p>
      <p>Références
ASHER N., BUSQUET J. ET VIEU L. (2001), La SDRT: une approche de la cohérence du discours
dans la tradition de la sémantique dynamique. Verbum 23, 73-101
AUGER A., BARRIERE C. (2008), Pattern based approaches to semantic relation extraction : a
state-of-the-art. Terminology, John Benjamins , 14-1,1-19
AUSSENAC-GILLES N., SEGUELA P. (2000), Les relations sémantiques : du linguistique au
formel. Cahiers de grammaire. Numéro spécial linguistique de corpus. A. Condamines (Ed.).
Toulouse : Presse de l’UTM. 25 175-198
AUSSENAC-GILLES N., DESPRES S., SZULMAN S. (2008), The TERMINAE Method and Platform
for Ontology Engineering from texts. Bridging the Gap between Text and Knowledge
Selected Contributions to Ontology Learning and Population from Text. P. Buitelaar, P.
Cimiano (Eds.), IOS Press, p. 199-223.</p>
      <p>BOURIGAULT D. (2002), UPERY : un outil d’analyse distributionnelle étendue pour la
construction d’ontologies à partir de corpus. TALN 2002, Nancy, 24-27 juin 2002
BUITELAAR P., CIMIANO P., MAGNINI B. (2005), Ontology Learning From Text: Methods,
Evaluation and Applications. IOS Press.</p>
      <p>CHAROLLES M. (1997), L’encadrement du discours : Univers, Champs, Domaines et Espaces.
Cahier de Recherche Linguistique, LANDISCO, URA-CNRS 1035, Univ. Nancy 2, n°6, 1-73.
GARDARIN G., BEDINI I., NGUYEN B. (2008), B2B Automatic Taxonomy Construction, ICES
(32) 2008 : 325-330
GIULIANO C., LAVELLI A., ROMANO L. (2006), Exploiting Shallow Linguistic Information for
Relation Extraction from Biomedical Literature. In Proc. EACL 2006.</p>
      <p>GREFENSTETTE G. (1994), Explorations in Automatic Thesaurus Discovery. Boston, MA :
Kluwer Academic Plubisher
HINDLE D. (1990), Noun classification from predicate argument structures. In Actes, 28th
Annual Meeting of the Association for Computational Linguistics (ACL’90), Berkeley USA
JACQUEMIN C. (1997), Présentation des travaux en analyse automatique pour la reconnaissance
et l'acquisition terminologique. In Séminaire du LIPN, Université Paris 13, Villetaneuse.
JACQUEMIN C., BUSH C. (2000), Fouille du Web pour la collecte d’Entités Nommées. In E.
Wehrli (Ed.), TALN 2000, Lausanne..</p>
      <p>JACQUES M-P. (2005), Structure matérielle et contenu sémantique du texte écrit. Corela,
Volume 3, Numéro 2.</p>
      <p>KLEIBER G., TAMBA I., (1990), L’hyperonymie revisitée : inclusion et hiérarchie. Langages,
98 :7-32, juin.
LUC C., VIRBEL J., (2001), Le modèle d'architecture textuelle : fondements et expérimentation.
Verbum, Vol. XXIII, N. 1, p. 103-123.</p>
      <p>REBEYROLLE J., TANGUY L. (2000), Repérage automatique de structures linguistiques en
corpus : le cas des énoncés définitoires. Cahiers de Grammaire, 25, 153-174
TIRMIZI S., SEQUEDA S., MIRANKER J.F (2008), Translating SQL Applications to the Semantic
Web. Dexa 2008, Turin , Italie, , 450-464
VIRBEL J., GARCIA-DEBANC C., BACCINO T., CARRIO L., DOMINGUEZ C., JACQUEMIN C., LUC C.,
MOJAHID M., PERY-WOODLEY M-P., SCHMIDS S. (2005). Approches cognitives de la
spatialisation du langage. De la modélisation de structures spatiolinguistiques des textes à
l’expérimentation psycholinguitique : le cas d’un objet textuel, l’énumération. Agir dans
l’espace. Catherine Thinus-Blanc, Jean Bullier (Eds.), Editions de la Maison des sciences de
l’homme, p.233-254, Cognitique.</p>
      <p>WEISSENBACHER D., NAZARENKO A. (2007), Identifier les pronoms anaphoriques et trouver
leurs antécédents : l’intérêt de la classification bayésienne. TALN 2007, Toulouse, Juin 2007</p>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>