=Paper=
{{Paper
|id=Vol-1860/paper5
|storemode=property
|title=TERRE-ISTEX : vers un modèle pour identifier des terrains d'études
|pdfUrl=https://ceur-ws.org/Vol-1860/paper5.pdf
|volume=Vol-1860
|authors=Annig Le Parc-Lacayrelle,Amin Farvardin
|dblpUrl=https://dblp.org/rec/conf/inforsid/Parc-Lacayrelle17
}}
==TERRE-ISTEX : vers un modèle pour identifier des terrains d'études==
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
TERRE-ISTEX : vers un modèle pour
identifier des terrains d’études
Annig Le Parc - Lacayrelle 1 , Amin Farvardin 2
1. Université de Pau et des Pays de l’Adour
LIUPPA
64013 Pau cedex, France
annig.lacayrelle@univ-pau.fr
2. Université Paris-Dauphine
LAMSADE
75775 Paris cedex 16, France
amin.farvardin@teledetection.fr
RÉSUMÉ. Cet article présente les premiers travaux réalisés dans le projet T ERRE -I STEX dont les
objectifs sont, d’une part, d’identifier les fronts de recherche en relation avec les territoires et,
d’autre part, d’offrir un outil de recherche d’information multidimensionnelle.
ABSTRACT. This article presents the first works carried out in the T ERRE -I STEX project whose
objectives are, firstly, to identify research fronts in relation to the territories and, on the other
hand, to offer a multidimensional information research tool.
MOTS-CLÉS : Information géographique, documents hétérogènes et multi-langues
KEYWORDS: Geographical information, multi-lingual and heterogeneous documents
41
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
2 1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017
1. Introduction
La disponibilité accrue des ressources numériques scientifiques, à travers notam-
ment les plateformes de revues (Revues.org), des répertoires d’archives ouvertes (HAL),
des entrepôts de thèses électroniques (Theses.fr), des services de fédération de conte-
nus (Isidore), des répertoires de données de la recherche (Nakala) et des bibliothèques
numériques (ISTEX) offre de nouvelles et de nombreuses opportunités d’usage. Les
historiens et les sociologues des sciences peuvent ainsi analyser la genèse des disci-
plines, les conditions et les facteurs d’émergence des concepts par les communautés
scientifiques, leurs modalités de circulation et d’appropriation par d’autres commu-
nautés. Il est également possible d’identifier l’évolution des fronts de recherche, les
croisements disciplinaires ainsi que les modalités concrètes de recherche dans la me-
sure où ce gigantesque corpus scientifique rend compte des terrains, des méthodes et
des cadres théoriques mobilisés.
L’objectif de ce papier est de présenter le projet de recherche T ERRE -I STEX 1 qui
s’inscrit dans cette dernière perspective. Ce projet fait partie des travaux initiés par
le projet ISTEX 2 dont l’objectif est de créer des services de recherche d’informa-
tion innovants pour accéder à un ensemble de ressources numériques selon différents
critères. Mais, au-delà de la seule analyse des fronts de recherche et de l’évolution
des tendances dans une optique infométrique, l’objectif de T ERRE -I STEX est d’iden-
tifier les territoires au sens géographique du terme. Par "territoire", nous entendons
un ensemble d’informations géographiques associant des informations spatiales, tem-
porelles et thématiques sur lesquelles ont porté des études. Bien que de nombreux
travaux en scientométrie présentent des méthodes pour analyser des communautés à
partir de publications scientifiques (que ce soit en revues ou en conférences) (Cavero
et al., 2014) (Cabanac et al., 2015), il n’existe pas à notre connaissance de travaux
proposant une analyse géographique d’un corpus de publications, i.e. combinant les
dimensions spatiale, temporelle et thématique. Ainsi, à partir d’un corpus de docu-
ments scientifiques hétérogènes et multi-langues, le projet T ERRE -I STEX vise d’une
part à (1) identifier les lieux qui ont fait l’objet d’études empiriques et dont rendent
compte les publications issues du corpus, d’autre part (2) à identifier les approches
(méthodes et concepts) mobilisées pour la réalisation de ces études et enfin (3) à situer
temporellement les périodes au cours desquelles les études ont été menées. En croi-
sant ces trois dimensions (spatiale, temporelle et thématique), il sera ainsi possible de
comprendre quelles recherches ont été menées sur quels territoires, selon quelles ap-
proches et à quel moment. L’intérêt de ses travaux est ainsi de compléter les approches
classiques de veille qui articulent très rarement ces trois dimensions en se focalisant
tout d’abord sur la thématique "changement climatique".
Ce projet comporte 3 aspects :
1. https://terreistex.hypotheses.org/
2. http://www.istex.fr/le-projet/
42
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
Le projet TERRE-ISTEX 3
– le marquage et l’indexation précise des informations spatiales, temporelles et
des thématiques traitées dans les documents du corpus ;
– l’articulation de ces 3 axes (spatial, temporel et thématique) pour l’exploration
des publications et l’analyse des fronts de recherche ;
– la conception et le développement d’un moteur de recherche multidimensionel.
Ce papier s’intéresse plus particulièrement au premier aspect du projet. La sec-
tion 2 présente la démarche générale utilisée dans le projet. Le corpus est décrit en
section 3. La section 4 aborde la mise en oeuvre de la démarche, et la section 5 décrit
le modèle de données T ERRE -I STEX. La section 6 conclut cette présentation.
2. Démarche générale
La démarche mise en oeuvre est décrite figure 1. Elle est générique car indépen-
dante de tout corpus de publication. Nous l’avons d’ailleurs déjà utilisé dans le cadre
d’une étude sur les publications EGC (Kergosien et al., 2016).
Figure 1. Chaîne de traitement générique pour l’analyse de corpus de publications.
La première étape consiste à extraire, en utilisant une approche TAL, les informa-
tions spatiales, temporelles et thématiques contenus dans les documents du corpus et
dans leurs méta-données. Ces informations sont ensuites validées en nous appuyant
respectivement sur des outils de géocodage, de fouille de textes et sur une base calen-
daire. Une deuxième étape concerne l’indexation des méta-données et des informa-
tions extraites dans un moteur de recherche afin de les exploiter, lors d’une troisième
étape, dans des stratégies d’analyse et de recherche d’information combinant des cri-
tères spatiaux, temporels et thématiques. Il est à noter que les résumés et les contenus
des documents sont eux aussi indexés afin de permettre la recherche "plein-texte".
43
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
4 1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017
3. Le corpus du projet TERRE-ISTEX
Le corpus regroupe des publications ayant trait à la thématique "changement cli-
matique sur les territoires du Sénégal et de Madagascar" et provenant des plateformes
ISTEX 3 et Agritrop 4 (archive ouverte du CIRAD 5 ), ainsi que des thèses de l’ANRT 6
et de theses.fr 7 . Nous avons choisi ce cas d’étude car nous disposions d’un grand
nombre de documents sur le sujet, et que les analyses qui en découleraient ont un
intérêt pour des membres du projet. Les documents provenant de la plateforme IS-
TEX (environ 170000 documents) ont été obtenus en faisant des requêtes avec les
mots-clés suivant : "climate change", "changement climatique", "Senegal", "Sénégal",
"Madagascar". Les documents provenant d’Agritrop ciblent des études traitant de Ma-
dagascar et du fleuve Sénégal. Enfin, les 400 thèses provenant de l’ANRT traitent du
changement climatique. Chaque document possède, en plus de son contenu, des méta-
données et un résumé. Selon la provenance du document, les méta-données sont soit
au format MODS 8 (ISTEX), soit un format XML inspiré du Dublin Core (CIRAD),
soit en RDF (thèses ANRT). Le corpus est multi-langue : certains documents sont en
français et d’autres en anglais, mais on peut également trouver des documents utili-
sant les deux langues (par exemple, ils comportent un résumé en français et un résumé
en anglais). Nous sommes donc face à un ensemble de documents multi-langues et
hétérogènes.
4. Mise en oeuvre de la démarche
Dans un premier temps, nous avons choisi d’appliquer notre approche sur les méta-
données et les résumés de chaque document. Dans un second temps, nous l’applique-
rons en plus sur leur contenu. Comme nous venons de le voir, le corpus est multi-
langue (documents en français et en anglais) et hétérogènes (différents formats pour
les méta-données). La figure 2 décrit la chaine de traitement mise en oeuvre dans le
projet T ERRE -I STEX.
Pour pallier l’hétérogénéité de format des méta-données, nous avons défini un mo-
dèle de données T ERRE -I STEX basé sur le format MODS (voir section 5). Des règles
de transformation entre modèles ont donc été écrites. Une fois toutes les méta-données
au format MODS, une annotation des entités spatiales, temporelles et thématiques
contenues dans les résumés est réalisée. Les méthodes d’annotation pour les entités
spatiales et thématiques sont basées sur celles de l’outil web SISO (Farvardin et al.,
2015). Les entités spatiales (ES) à annoter peuvent être de deux types (Sallaberry et
al., 2007) : les ES absolues (ESA) (références directes à un espace géo-localisable,
3. http://www.istex.fr/category/plateforme/
4. https://agritrop.cirad.fr/
5. http://www.cirad.fr/
6. http://www.anrt.asso.fr/
7. http://www.theses.fr/
8. http://www.bnf.fr/fr/professionnels/f_mods/s.mods_presentation.html
44
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
Le projet TERRE-ISTEX 5
THESES
THESES ISTEX
ISTEX CIRAD
CIRAD
Métadonnées + résumé Métadonnées + résumé Métadonnées + résumé
Règles de Transformation Transformation Règles de
Mapping Mapping
transformation de modèles1 de modèles2 transformation
INDEX1
ISTEX : format pivot MODS
Métadonnées
Résumé Résumé Résumé
Annotation Annotation Annotation
Gazetier Gazetier
Spatiale temporelle thématique
INDEX2
TERRE-ISTEX : format MODS
étendu
Métadonnées + résumé
Règles de Transformation
transformation de modèles3
Analyse
Recherche
d information
INDEX3
TERRE-ISTEX : format JSON
Figure 2. Mise en oeuvre de la chaine de traitement
par exemple "la ville de Paris") et les ES relatives (ESR) (définies à l’aide d’au moins
une ESA et d’indicateurs spatiaux d’ordre topologique, par exemple, "près de Paris").
Une fois les ES identifiées, la chaine de traitement calcule l’empreinte spatiale cor-
respondant à chacune d’entre elles (en utilisant la ressource Geonames). Les entités
thématiques à annoter étant liées, dans notre cas, au domaine du changement clima-
tique, nous utilisons la ressource Agrovoc (Rajbhandari, Keizer, 2012). Cette approche
est générique car le changement de domaine d’étude nécessite juste l’utilisation de la
ressource appropriée. En ce qui concerne les entités temporelles, nous annotons uni-
quement les entités calendaires (dates et périodes) en utilisant HeidelTime (Strötgen,
Gertz, 2013).
45
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
6 1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017
Ces annotations viennent ensuite compléter les méta-données décrivant chaque
document. Ces méta-données sont ensuite indexées sous ElasticSearch 9 ce qui im-
plique une transformation du format MODS-étendu au format json (utilisé par Elas-
ticSearch). Nous avons choisi ElasticSearch car c’est un moteur de recherche basé
sur la librairie Lucene, qui permet la recherche plein-texte, la recherche structurée,
la gestion des données spatiales et offre des outils d’analyse de données tels que Ki-
bana 10 . Les index ElasticSearch ainsi créés pourront donc être utilisés pour produire
les analyses et permettre la recherche d’information multidimensionnelle.
5. Le modèle de données TERRE-ISTEX
Le modèle de données T ERRE -I STEX étend le format MODS afin de lui permettre
de décrire les informations spatiales, temporelles et thématiques extraites des docu-
ments et de leurs méta-données. Le choix de MODS a été guidé par le fait que MODS
est le format utilisé sur la plateforme ISTEX, qu’il est approprié à la description de
tous les types de documents et de tous les supports (numériques ou non), qu’il est plus
riche que le Dublin Core et plus proches des modèles de structuration des informations
bibliographiques utilisées par les bibliothèques.
Ainsi, nous avons rajouté trois balises à un document MODS :
– ,
– ,
– .
La balise contient un ensemble d’entités spatiales
(balise ), avec pour chacune d’elle, le texte annoté (balise ) ainsi que
son empreinte spatiale obtenue en interrogeant la ressource Geonames. La DTD cor-
respondante est donnée figure 3.
La balise contient un ensemble d’entités tempo-
relles décrites par les balises provenant d’Heildeltime complété par le
texte annoté (balise ). La DTD correspondante est donnée figure 4.
Enfin, la balise contient l’ensemble des thèmes
abordés dans le résumé (balise ), avec pour chacun d’eux des informations
provenant de la ressource Agrovoc complété le texte annoté (balise ). La DTD
correspondante est donnée figure 5.
6. Conclusion
Dans cet article, nous avons présenté la chaine de traitement mise en oeuvre dans
le projet T ERRE -I STEX pour marquer et indexer les informations spatiales, tempo-
9. http://www.elastic.co/fr/
10. http://www.elastic.co/fr/products/kibana/
46
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
Le projet TERRE-ISTEX 7
Figure 3. DTD décrivant la balise
Figure 4. DTD décrivant la balise
47
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
8 1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017
Figure 5. DTD décrivant la balise
relles et thématiques contenues dans un corpus de documents hétérogènes et multi-
langues. Nous avons choisi comme format pivot MODS, et nous l’avons étendu en
ajoutant des descripteurs permettant de décrire les informations annotées. Actuelle-
ment, cette chaine est appliquée uniquement sur les méta-données et les résumés des
documents. La phase d’annotation est terminée (une première évaluation peut-être
trouvée dans (Bessagnet et al., 2017)). Nous disposons donc de chaque document
au format MODS-étendu. Nous travaillons actuellement sur la transformation JSON
et sur la construction de l’index ElasticSearch. Cet index va ensuite être utilisé, d’une
part, pour mettre en oeuvre des analyses permettant d’identifier les fronts de recherche
en relation avec les territoires d’études, et d’autre part, pour offrir un outil de recherche
d’information multidimensionnelle.
Bibliographie
Bessagnet M.-N., Kergosien E., Farvardin A., Le Parc-Lacayrelle A., Sallaberry C. (2017). A
propos des territoires dans les corpus scientifiques. In Atelier emcSci 2017 (en cours de
soumission).
48
Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR)
Le projet TERRE-ISTEX 9
Cabanac G., Hubert G., Milard B. (2015). Academic careers in computer science: conti-
nuance and transience of lifetime co-authorships. Scientometrics, vol. 102, no 1, p. 135–150.
Consulté sur http://dx.doi.org/10.1007/s11192-014-1426-0
Cavero J., Vela B., Cáceres P. (2014). Computer science research: more production, less produc-
tivity. Scientometrics, vol. 98, no 3, p. 2103-2111. Consulté sur http://dx.doi.org/10.1007/
s11192-013-1178-2
Farvardin A., Kergosien E., Roche M., Teisseire M. (2015). A webtool for analyzing land-use
planning documents. In 14th international semantic web conference (demonstration track).
Kergosien E., Bessagnet M.-N., Sallaberry C., Le Parc-Lacayrelle A., Royer A. (2016). Analyse
géographique de séries de publications : application aux conférences egc. In Conférence
internationale francophe sur l’extraction et la gestion des connaissances (egc 2016).
Rajbhandari S., Keizer J. (2012). The agrovoc concept scheme: A walkthrough. Journal of
Integrative Agriculture, vol. 11, no 5.
Sallaberry C., Baziz M., Lesbegueries J., Gaio M. (2007). Une approche d’extraction et de
recherche d’information spatiale dans les documents textuels - évaluation. In Coria, p. 53-
64.
Strötgen J., Gertz M. (2013). Multilingual and cross-domain temporal tagging. Language
Resources and Evaluation, vol. 47, no 2, p. 269–298.
49