<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>TERRE-ISTEX : vers un modèle pour identifier des terrains d'études</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Annig Le Parc - Lacayrelle</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Amin Farvardin</string-name>
          <email>amin.farvardin@teledetection.fr</email>
        </contrib>
        <contrib contrib-type="author">
          <string-name>. Université de Pau et des Pays de l'Adour LIUPPA</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Pau cedex</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>France</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>. Université Paris-Dauphine LAMSADE</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Paris cedex</string-name>
        </contrib>
        <contrib contrib-type="author">
          <string-name>France</string-name>
        </contrib>
      </contrib-group>
      <fpage>41</fpage>
      <lpage>49</lpage>
      <abstract>
        <p>This article presents the first works carried out in the TERRE-ISTEX project whose objectives are, firstly, to identify research fronts in relation to the territories and, on the other hand, to offer a multidimensional information research tool. MOTS-CLÉS : Information géographique, documents hétérogènes et multi-langues</p>
      </abstract>
      <kwd-group>
        <kwd>Geographical information</kwd>
        <kwd>multi-lingual and heterogeneous documents</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>2</p>
      <p>1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017</p>
    </sec>
    <sec id="sec-2">
      <title>1. Introduction</title>
      <p>La disponibilité accrue des ressources numériques scientifiques, à travers
notamment les plateformes de revues (Revues.org), des répertoires d’archives ouvertes (HAL),
des entrepôts de thèses électroniques (Theses.fr), des services de fédération de
contenus (Isidore), des répertoires de données de la recherche (Nakala) et des bibliothèques
numériques (ISTEX) offre de nouvelles et de nombreuses opportunités d’usage. Les
historiens et les sociologues des sciences peuvent ainsi analyser la genèse des
disciplines, les conditions et les facteurs d’émergence des concepts par les communautés
scientifiques, leurs modalités de circulation et d’appropriation par d’autres
communautés. Il est également possible d’identifier l’évolution des fronts de recherche, les
croisements disciplinaires ainsi que les modalités concrètes de recherche dans la
mesure où ce gigantesque corpus scientifique rend compte des terrains, des méthodes et
des cadres théoriques mobilisés.</p>
      <p>
        L’objectif de ce papier est de présenter le projet de recherche TERRE-ISTEX 1 qui
s’inscrit dans cette dernière perspective. Ce projet fait partie des travaux initiés par
le projet ISTEX 2 dont l’objectif est de créer des services de recherche
d’information innovants pour accéder à un ensemble de ressources numériques selon différents
critères. Mais, au-delà de la seule analyse des fronts de recherche et de l’évolution
des tendances dans une optique infométrique, l’objectif de TERRE-ISTEX est
d’identifier les territoires au sens géographique du terme. Par "territoire", nous entendons
un ensemble d’informations géographiques associant des informations spatiales,
temporelles et thématiques sur lesquelles ont porté des études. Bien que de nombreux
travaux en scientométrie présentent des méthodes pour analyser des communautés à
partir de publications scientifiques (que ce soit en revues ou en conférences)
        <xref ref-type="bibr" rid="ref3">(Cavero
et al., 2014)</xref>
        <xref ref-type="bibr" rid="ref2">(Cabanac et al., 2015)</xref>
        , il n’existe pas à notre connaissance de travaux
proposant une analyse géographique d’un corpus de publications, i.e. combinant les
dimensions spatiale, temporelle et thématique. Ainsi, à partir d’un corpus de
documents scientifiques hétérogènes et multi-langues, le projet TERRE-ISTEX vise d’une
part à (1) identifier les lieux qui ont fait l’objet d’études empiriques et dont rendent
compte les publications issues du corpus, d’autre part (2) à identifier les approches
(méthodes et concepts) mobilisées pour la réalisation de ces études et enfin (3) à situer
temporellement les périodes au cours desquelles les études ont été menées. En
croisant ces trois dimensions (spatiale, temporelle et thématique), il sera ainsi possible de
comprendre quelles recherches ont été menées sur quels territoires, selon quelles
approches et à quel moment. L’intérêt de ses travaux est ainsi de compléter les approches
classiques de veille qui articulent très rarement ces trois dimensions en se focalisant
tout d’abord sur la thématique "changement climatique".
      </p>
      <p>Ce projet comporte 3 aspects :</p>
      <sec id="sec-2-1">
        <title>1. https://terreistex.hypotheses.org/ 2. http://www.istex.fr/le-projet/</title>
        <p>Le projet TERRE-ISTEX
3
– le marquage et l’indexation précise des informations spatiales, temporelles et
des thématiques traitées dans les documents du corpus ;</p>
        <p>– l’articulation de ces 3 axes (spatial, temporel et thématique) pour l’exploration
des publications et l’analyse des fronts de recherche ;
– la conception et le développement d’un moteur de recherche multidimensionel.</p>
        <p>Ce papier s’intéresse plus particulièrement au premier aspect du projet. La
section 2 présente la démarche générale utilisée dans le projet. Le corpus est décrit en
section 3. La section 4 aborde la mise en oeuvre de la démarche, et la section 5 décrit
le modèle de données TERRE-ISTEX. La section 6 conclut cette présentation.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>2. Démarche générale</title>
      <p>
        La démarche mise en oeuvre est décrite figure 1. Elle est générique car
indépendante de tout corpus de publication. Nous l’avons d’ailleurs déjà utilisé dans le cadre
d’une étude sur les publications EGC
        <xref ref-type="bibr" rid="ref5">(Kergosien et al., 2016)</xref>
        .
      </p>
      <p>La première étape consiste à extraire, en utilisant une approche TAL, les
informations spatiales, temporelles et thématiques contenus dans les documents du corpus et
dans leurs méta-données. Ces informations sont ensuites validées en nous appuyant
respectivement sur des outils de géocodage, de fouille de textes et sur une base
calendaire. Une deuxième étape concerne l’indexation des méta-données et des
informations extraites dans un moteur de recherche afin de les exploiter, lors d’une troisième
étape, dans des stratégies d’analyse et de recherche d’information combinant des
critères spatiaux, temporels et thématiques. Il est à noter que les résumés et les contenus
des documents sont eux aussi indexés afin de permettre la recherche "plein-texte".
4</p>
      <p>1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017</p>
    </sec>
    <sec id="sec-4">
      <title>3. Le corpus du projet TERRE-ISTEX</title>
      <p>Le corpus regroupe des publications ayant trait à la thématique "changement
climatique sur les territoires du Sénégal et de Madagascar" et provenant des plateformes
ISTEX 3 et Agritrop 4 (archive ouverte du CIRAD 5), ainsi que des thèses de l’ANRT 6
et de theses.fr 7. Nous avons choisi ce cas d’étude car nous disposions d’un grand
nombre de documents sur le sujet, et que les analyses qui en découleraient ont un
intérêt pour des membres du projet. Les documents provenant de la plateforme
ISTEX (environ 170000 documents) ont été obtenus en faisant des requêtes avec les
mots-clés suivant : "climate change", "changement climatique", "Senegal", "Sénégal",
"Madagascar". Les documents provenant d’Agritrop ciblent des études traitant de
Madagascar et du fleuve Sénégal. Enfin, les 400 thèses provenant de l’ANRT traitent du
changement climatique. Chaque document possède, en plus de son contenu, des
métadonnées et un résumé. Selon la provenance du document, les méta-données sont soit
au format MODS 8 (ISTEX), soit un format XML inspiré du Dublin Core (CIRAD),
soit en RDF (thèses ANRT). Le corpus est multi-langue : certains documents sont en
français et d’autres en anglais, mais on peut également trouver des documents
utilisant les deux langues (par exemple, ils comportent un résumé en français et un résumé
en anglais). Nous sommes donc face à un ensemble de documents multi-langues et
hétérogènes.</p>
    </sec>
    <sec id="sec-5">
      <title>4. Mise en oeuvre de la démarche</title>
      <p>Dans un premier temps, nous avons choisi d’appliquer notre approche sur les
métadonnées et les résumés de chaque document. Dans un second temps, nous
l’appliquerons en plus sur leur contenu. Comme nous venons de le voir, le corpus est
multilangue (documents en français et en anglais) et hétérogènes (différents formats pour
les méta-données). La figure 2 décrit la chaine de traitement mise en oeuvre dans le
projet TERRE-ISTEX.</p>
      <p>
        Pour pallier l’hétérogénéité de format des méta-données, nous avons défini un
modèle de données TERRE-ISTEX basé sur le format MODS (voir section 5). Des règles
de transformation entre modèles ont donc été écrites. Une fois toutes les méta-données
au format MODS, une annotation des entités spatiales, temporelles et thématiques
contenues dans les résumés est réalisée. Les méthodes d’annotation pour les entités
spatiales et thématiques sont basées sur celles de l’outil web SISO
        <xref ref-type="bibr" rid="ref4">(Farvardin et al.,
2015)</xref>
        . Les entités spatiales (ES) à annoter peuvent être de deux types
        <xref ref-type="bibr" rid="ref7">(Sallaberry et
al., 2007)</xref>
        : les ES absolues (ESA) (références directes à un espace géo-localisable,
      </p>
      <sec id="sec-5-1">
        <title>Le projet TERRE-ISTEX 5</title>
        <p>Métadonnées
Gazetier
Analyse</p>
        <p>Recherche
d information</p>
        <sec id="sec-5-1-1">
          <title>TTHHEESSEESS</title>
        </sec>
        <sec id="sec-5-1-2">
          <title>IISSTTEEXX</title>
        </sec>
        <sec id="sec-5-1-3">
          <title>CCIIRRAADD</title>
          <p>Métadonnées + résumé</p>
          <p>Métadonnées + résumé</p>
          <p>Métadonnées + résumé
Règles de</p>
          <p>Mapping
transformation</p>
          <p>Transformation
de modèles1</p>
          <p>Transformation
de modèles2</p>
          <p>Règles de
trManaspfpoirnmgation</p>
          <p>Résumé
Gazetier</p>
          <p>Annotation
Spatiale</p>
          <p>X1
ED ISTEX : format pivot MODS
N</p>
          <p>I</p>
          <p>Résumé
Annotation
temporelle</p>
          <p>Résumé</p>
          <p>Annotation
thématique
X2
D TERRE-ISTEX : format MODS
E</p>
          <p>IN étendu</p>
          <p>Métadonnées + résumé</p>
          <p>Règles de
transformation</p>
          <p>Transformation
de modèles3</p>
          <p>X3
E
DN TERRE-ISTEX : format JSON</p>
          <p>
            I
par exemple "la ville de Paris") et les ES relatives (ESR) (définies à l’aide d’au moins
une ESA et d’indicateurs spatiaux d’ordre topologique, par exemple, "près de Paris").
Une fois les ES identifiées, la chaine de traitement calcule l’empreinte spatiale
correspondant à chacune d’entre elles (en utilisant la ressource Geonames). Les entités
thématiques à annoter étant liées, dans notre cas, au domaine du changement
climatique, nous utilisons la ressource Agrovoc
            <xref ref-type="bibr" rid="ref6">(Rajbhandari, Keizer, 2012)</xref>
            . Cette approche
est générique car le changement de domaine d’étude nécessite juste l’utilisation de la
ressource appropriée. En ce qui concerne les entités temporelles, nous annotons
uniquement les entités calendaires (dates et périodes) en utilisant HeidelTime
            <xref ref-type="bibr" rid="ref8">(Strötgen,
Gertz, 2013)</xref>
            .
6
1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017
Ces annotations viennent ensuite compléter les méta-données décrivant chaque
document. Ces méta-données sont ensuite indexées sous ElasticSearch 9 ce qui
implique une transformation du format MODS-étendu au format json (utilisé par
ElasticSearch). Nous avons choisi ElasticSearch car c’est un moteur de recherche basé
sur la librairie Lucene, qui permet la recherche plein-texte, la recherche structurée,
la gestion des données spatiales et offre des outils d’analyse de données tels que
Kibana 10. Les index ElasticSearch ainsi créés pourront donc être utilisés pour produire
les analyses et permettre la recherche d’information multidimensionnelle.
          </p>
        </sec>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>5. Le modèle de données TERRE-ISTEX</title>
      <p>Le modèle de données TERRE-ISTEX étend le format MODS afin de lui permettre
de décrire les informations spatiales, temporelles et thématiques extraites des
documents et de leurs méta-données. Le choix de MODS a été guidé par le fait que MODS
est le format utilisé sur la plateforme ISTEX, qu’il est approprié à la description de
tous les types de documents et de tous les supports (numériques ou non), qu’il est plus
riche que le Dublin Core et plus proches des modèles de structuration des informations
bibliographiques utilisées par les bibliothèques.</p>
      <p>Ainsi, nous avons rajouté trois balises à un document MODS :
– &lt;spatialAnnotations&gt;,
– &lt;temporalAnnotations&gt;,
– &lt;thematicAnnotations&gt;.</p>
      <p>La balise &lt;spatialAnnotations&gt; contient un ensemble d’entités spatiales
(balise &lt;es&gt;), avec pour chacune d’elle, le texte annoté (balise &lt;text&gt;) ainsi que
son empreinte spatiale obtenue en interrogeant la ressource Geonames. La DTD
correspondante est donnée figure 3.</p>
      <p>La balise &lt;temporalAnnotations&gt; contient un ensemble d’entités
temporelles décrites par les balises &lt;timex3&gt; provenant d’Heildeltime complété par le
texte annoté (balise &lt;text&gt;). La DTD correspondante est donnée figure 4.</p>
      <p>Enfin, la balise &lt;thematicAnnotations&gt; contient l’ensemble des thèmes
abordés dans le résumé (balise &lt;topic&gt;), avec pour chacun d’eux des informations
provenant de la ressource Agrovoc complété le texte annoté (balise &lt;text&gt;). La DTD
correspondante est donnée figure 5.</p>
    </sec>
    <sec id="sec-7">
      <title>6. Conclusion</title>
      <p>Dans cet article, nous avons présenté la chaine de traitement mise en oeuvre dans
le projet TERRE-ISTEX pour marquer et indexer les informations spatiales,
tempo</p>
      <sec id="sec-7-1">
        <title>9. http://www.elastic.co/fr/ 10. http://www.elastic.co/fr/products/kibana/</title>
        <p>
          Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
Le projet TERRE-ISTEX 7
1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017
relles et thématiques contenues dans un corpus de documents hétérogènes et
multilangues. Nous avons choisi comme format pivot MODS, et nous l’avons étendu en
ajoutant des descripteurs permettant de décrire les informations annotées.
Actuellement, cette chaine est appliquée uniquement sur les méta-données et les résumés des
documents. La phase d’annotation est terminée (une première évaluation peut-être
trouvée dans
          <xref ref-type="bibr" rid="ref1">(Bessagnet et al., 2017)</xref>
          ). Nous disposons donc de chaque document
au format MODS-étendu. Nous travaillons actuellement sur la transformation JSON
et sur la construction de l’index ElasticSearch. Cet index va ensuite être utilisé, d’une
part, pour mettre en oeuvre des analyses permettant d’identifier les fronts de recherche
en relation avec les territoires d’études, et d’autre part, pour offrir un outil de recherche
d’information multidimensionnelle.
        </p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>Bessagnet M.-N</surname>
          </string-name>
          .,
          <string-name>
            <surname>Kergosien</surname>
            <given-names>E.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Farvardin</surname>
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Le Parc-Lacayrelle</surname>
            <given-names>A.</given-names>
          </string-name>
          ,
          <string-name>
            <surname>Sallaberry</surname>
            <given-names>C.</given-names>
          </string-name>
          (
          <year>2017</year>
          ).
          <article-title>A propos des territoires dans les corpus scientifiques</article-title>
          .
          <source>In Atelier emcSci</source>
          <year>2017</year>
          (en cours de soumission).
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          <string-name>
            <given-names>Cabanac G.</given-names>
            ,
            <surname>Hubert</surname>
          </string-name>
          <string-name>
            <given-names>G.</given-names>
            ,
            <surname>Milard</surname>
          </string-name>
          <string-name>
            <surname>B.</surname>
          </string-name>
          (
          <year>2015</year>
          ).
          <article-title>Academic careers in computer science: continuance and transience of lifetime co-authorships</article-title>
          .
          <source>Scientometrics</source>
          , vol.
          <volume>102</volume>
          , no 1, p.
          <fpage>135</fpage>
          -
          <lpage>150</lpage>
          . Consulté sur http://dx.doi.org/10.1007/s11192-014-1426-0
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          <string-name>
            <given-names>Cavero J.</given-names>
            ,
            <surname>Vela</surname>
          </string-name>
          <string-name>
            <given-names>B.</given-names>
            ,
            <surname>Cáceres</surname>
          </string-name>
          <string-name>
            <surname>P.</surname>
          </string-name>
          (
          <year>2014</year>
          ).
          <article-title>Computer science research: more production, less productivity</article-title>
          .
          <source>Scientometrics</source>
          , vol.
          <volume>98</volume>
          , no 3, p.
          <fpage>2103</fpage>
          -
          <lpage>2111</lpage>
          . Consulté sur http://dx.doi.org/10.1007/ s11192-013-1178-2
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          <string-name>
            <given-names>Farvardin A.</given-names>
            ,
            <surname>Kergosien</surname>
          </string-name>
          <string-name>
            <given-names>E.</given-names>
            ,
            <surname>Roche</surname>
          </string-name>
          <string-name>
            <given-names>M.</given-names>
            ,
            <surname>Teisseire</surname>
          </string-name>
          <string-name>
            <surname>M.</surname>
          </string-name>
          (
          <year>2015</year>
          ).
          <article-title>A webtool for analyzing land-use planning documents</article-title>
          .
          <source>In 14th international semantic web conference (demonstration track).</source>
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          <string-name>
            <given-names>Kergosien E.</given-names>
            ,
            <surname>Bessagnet</surname>
          </string-name>
          <string-name>
            <given-names>M.-N.</given-names>
            ,
            <surname>Sallaberry</surname>
          </string-name>
          <string-name>
            <given-names>C.</given-names>
            ,
            <surname>Le Parc-Lacayrelle</surname>
          </string-name>
          <string-name>
            <given-names>A.</given-names>
            ,
            <surname>Royer</surname>
          </string-name>
          <string-name>
            <surname>A.</surname>
          </string-name>
          (
          <year>2016</year>
          ). Analyse géographique de séries de publications :
          <article-title>application aux conférences egc. In Conférence internationale francophe sur l'extraction et la gestion des connaissances</article-title>
          (egc
          <year>2016</year>
          ).
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          <string-name>
            <given-names>Rajbhandari S.</given-names>
            ,
            <surname>Keizer</surname>
          </string-name>
          <string-name>
            <surname>J</surname>
          </string-name>
          . (
          <year>2012</year>
          ).
          <article-title>The agrovoc concept scheme: A walkthrough</article-title>
          .
          <source>Journal of Integrative Agriculture</source>
          , vol.
          <volume>11</volume>
          , no 5.
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <string-name>
            <given-names>Sallaberry C.</given-names>
            ,
            <surname>Baziz</surname>
          </string-name>
          <string-name>
            <given-names>M.</given-names>
            ,
            <surname>Lesbegueries</surname>
          </string-name>
          <string-name>
            <given-names>J.</given-names>
            ,
            <surname>Gaio</surname>
          </string-name>
          <string-name>
            <surname>M.</surname>
          </string-name>
          (
          <year>2007</year>
          ).
          <article-title>Une approche d'extraction et de recherche d'information spatiale dans les documents textuels - évaluation</article-title>
          . In Coria, p.
          <fpage>53</fpage>
          -
          <lpage>64</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          <string-name>
            <given-names>Strötgen J.</given-names>
            ,
            <surname>Gertz</surname>
          </string-name>
          <string-name>
            <surname>M.</surname>
          </string-name>
          (
          <year>2013</year>
          ).
          <article-title>Multilingual and cross-domain temporal tagging</article-title>
          .
          <source>Language Resources and Evaluation</source>
          , vol.
          <volume>47</volume>
          , no 2, p.
          <fpage>269</fpage>
          -
          <lpage>298</lpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>