Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) TERRE-ISTEX : vers un modèle pour identifier des terrains d’études Annig Le Parc - Lacayrelle 1 , Amin Farvardin 2 1. Université de Pau et des Pays de l’Adour LIUPPA 64013 Pau cedex, France annig.lacayrelle@univ-pau.fr 2. Université Paris-Dauphine LAMSADE 75775 Paris cedex 16, France amin.farvardin@teledetection.fr RÉSUMÉ. Cet article présente les premiers travaux réalisés dans le projet T ERRE -I STEX dont les objectifs sont, d’une part, d’identifier les fronts de recherche en relation avec les territoires et, d’autre part, d’offrir un outil de recherche d’information multidimensionnelle. ABSTRACT. This article presents the first works carried out in the T ERRE -I STEX project whose objectives are, firstly, to identify research fronts in relation to the territories and, on the other hand, to offer a multidimensional information research tool. MOTS-CLÉS : Information géographique, documents hétérogènes et multi-langues KEYWORDS: Geographical information, multi-lingual and heterogeneous documents 41 Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) 2 1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017 1. Introduction La disponibilité accrue des ressources numériques scientifiques, à travers notam- ment les plateformes de revues (Revues.org), des répertoires d’archives ouvertes (HAL), des entrepôts de thèses électroniques (Theses.fr), des services de fédération de conte- nus (Isidore), des répertoires de données de la recherche (Nakala) et des bibliothèques numériques (ISTEX) offre de nouvelles et de nombreuses opportunités d’usage. Les historiens et les sociologues des sciences peuvent ainsi analyser la genèse des disci- plines, les conditions et les facteurs d’émergence des concepts par les communautés scientifiques, leurs modalités de circulation et d’appropriation par d’autres commu- nautés. Il est également possible d’identifier l’évolution des fronts de recherche, les croisements disciplinaires ainsi que les modalités concrètes de recherche dans la me- sure où ce gigantesque corpus scientifique rend compte des terrains, des méthodes et des cadres théoriques mobilisés. L’objectif de ce papier est de présenter le projet de recherche T ERRE -I STEX 1 qui s’inscrit dans cette dernière perspective. Ce projet fait partie des travaux initiés par le projet ISTEX 2 dont l’objectif est de créer des services de recherche d’informa- tion innovants pour accéder à un ensemble de ressources numériques selon différents critères. Mais, au-delà de la seule analyse des fronts de recherche et de l’évolution des tendances dans une optique infométrique, l’objectif de T ERRE -I STEX est d’iden- tifier les territoires au sens géographique du terme. Par "territoire", nous entendons un ensemble d’informations géographiques associant des informations spatiales, tem- porelles et thématiques sur lesquelles ont porté des études. Bien que de nombreux travaux en scientométrie présentent des méthodes pour analyser des communautés à partir de publications scientifiques (que ce soit en revues ou en conférences) (Cavero et al., 2014) (Cabanac et al., 2015), il n’existe pas à notre connaissance de travaux proposant une analyse géographique d’un corpus de publications, i.e. combinant les dimensions spatiale, temporelle et thématique. Ainsi, à partir d’un corpus de docu- ments scientifiques hétérogènes et multi-langues, le projet T ERRE -I STEX vise d’une part à (1) identifier les lieux qui ont fait l’objet d’études empiriques et dont rendent compte les publications issues du corpus, d’autre part (2) à identifier les approches (méthodes et concepts) mobilisées pour la réalisation de ces études et enfin (3) à situer temporellement les périodes au cours desquelles les études ont été menées. En croi- sant ces trois dimensions (spatiale, temporelle et thématique), il sera ainsi possible de comprendre quelles recherches ont été menées sur quels territoires, selon quelles ap- proches et à quel moment. L’intérêt de ses travaux est ainsi de compléter les approches classiques de veille qui articulent très rarement ces trois dimensions en se focalisant tout d’abord sur la thématique "changement climatique". Ce projet comporte 3 aspects : 1. https://terreistex.hypotheses.org/ 2. http://www.istex.fr/le-projet/ 42 Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) Le projet TERRE-ISTEX 3 – le marquage et l’indexation précise des informations spatiales, temporelles et des thématiques traitées dans les documents du corpus ; – l’articulation de ces 3 axes (spatial, temporel et thématique) pour l’exploration des publications et l’analyse des fronts de recherche ; – la conception et le développement d’un moteur de recherche multidimensionel. Ce papier s’intéresse plus particulièrement au premier aspect du projet. La sec- tion 2 présente la démarche générale utilisée dans le projet. Le corpus est décrit en section 3. La section 4 aborde la mise en oeuvre de la démarche, et la section 5 décrit le modèle de données T ERRE -I STEX. La section 6 conclut cette présentation. 2. Démarche générale La démarche mise en oeuvre est décrite figure 1. Elle est générique car indépen- dante de tout corpus de publication. Nous l’avons d’ailleurs déjà utilisé dans le cadre d’une étude sur les publications EGC (Kergosien et al., 2016). Figure 1. Chaîne de traitement générique pour l’analyse de corpus de publications. La première étape consiste à extraire, en utilisant une approche TAL, les informa- tions spatiales, temporelles et thématiques contenus dans les documents du corpus et dans leurs méta-données. Ces informations sont ensuites validées en nous appuyant respectivement sur des outils de géocodage, de fouille de textes et sur une base calen- daire. Une deuxième étape concerne l’indexation des méta-données et des informa- tions extraites dans un moteur de recherche afin de les exploiter, lors d’une troisième étape, dans des stratégies d’analyse et de recherche d’information combinant des cri- tères spatiaux, temporels et thématiques. Il est à noter que les résumés et les contenus des documents sont eux aussi indexés afin de permettre la recherche "plein-texte". 43 Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) 4 1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017 3. Le corpus du projet TERRE-ISTEX Le corpus regroupe des publications ayant trait à la thématique "changement cli- matique sur les territoires du Sénégal et de Madagascar" et provenant des plateformes ISTEX 3 et Agritrop 4 (archive ouverte du CIRAD 5 ), ainsi que des thèses de l’ANRT 6 et de theses.fr 7 . Nous avons choisi ce cas d’étude car nous disposions d’un grand nombre de documents sur le sujet, et que les analyses qui en découleraient ont un intérêt pour des membres du projet. Les documents provenant de la plateforme IS- TEX (environ 170000 documents) ont été obtenus en faisant des requêtes avec les mots-clés suivant : "climate change", "changement climatique", "Senegal", "Sénégal", "Madagascar". Les documents provenant d’Agritrop ciblent des études traitant de Ma- dagascar et du fleuve Sénégal. Enfin, les 400 thèses provenant de l’ANRT traitent du changement climatique. Chaque document possède, en plus de son contenu, des méta- données et un résumé. Selon la provenance du document, les méta-données sont soit au format MODS 8 (ISTEX), soit un format XML inspiré du Dublin Core (CIRAD), soit en RDF (thèses ANRT). Le corpus est multi-langue : certains documents sont en français et d’autres en anglais, mais on peut également trouver des documents utili- sant les deux langues (par exemple, ils comportent un résumé en français et un résumé en anglais). Nous sommes donc face à un ensemble de documents multi-langues et hétérogènes. 4. Mise en oeuvre de la démarche Dans un premier temps, nous avons choisi d’appliquer notre approche sur les méta- données et les résumés de chaque document. Dans un second temps, nous l’applique- rons en plus sur leur contenu. Comme nous venons de le voir, le corpus est multi- langue (documents en français et en anglais) et hétérogènes (différents formats pour les méta-données). La figure 2 décrit la chaine de traitement mise en oeuvre dans le projet T ERRE -I STEX. Pour pallier l’hétérogénéité de format des méta-données, nous avons défini un mo- dèle de données T ERRE -I STEX basé sur le format MODS (voir section 5). Des règles de transformation entre modèles ont donc été écrites. Une fois toutes les méta-données au format MODS, une annotation des entités spatiales, temporelles et thématiques contenues dans les résumés est réalisée. Les méthodes d’annotation pour les entités spatiales et thématiques sont basées sur celles de l’outil web SISO (Farvardin et al., 2015). Les entités spatiales (ES) à annoter peuvent être de deux types (Sallaberry et al., 2007) : les ES absolues (ESA) (références directes à un espace géo-localisable, 3. http://www.istex.fr/category/plateforme/ 4. https://agritrop.cirad.fr/ 5. http://www.cirad.fr/ 6. http://www.anrt.asso.fr/ 7. http://www.theses.fr/ 8. http://www.bnf.fr/fr/professionnels/f_mods/s.mods_presentation.html 44 Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) Le projet TERRE-ISTEX 5 THESES THESES ISTEX ISTEX CIRAD CIRAD Métadonnées + résumé Métadonnées + résumé Métadonnées + résumé Règles de Transformation Transformation Règles de Mapping Mapping transformation de modèles1 de modèles2 transformation INDEX1 ISTEX : format pivot MODS Métadonnées Résumé Résumé Résumé Annotation Annotation Annotation Gazetier Gazetier Spatiale temporelle thématique INDEX2 TERRE-ISTEX : format MODS étendu Métadonnées + résumé Règles de Transformation transformation de modèles3 Analyse Recherche d information INDEX3 TERRE-ISTEX : format JSON Figure 2. Mise en oeuvre de la chaine de traitement par exemple "la ville de Paris") et les ES relatives (ESR) (définies à l’aide d’au moins une ESA et d’indicateurs spatiaux d’ordre topologique, par exemple, "près de Paris"). Une fois les ES identifiées, la chaine de traitement calcule l’empreinte spatiale cor- respondant à chacune d’entre elles (en utilisant la ressource Geonames). Les entités thématiques à annoter étant liées, dans notre cas, au domaine du changement clima- tique, nous utilisons la ressource Agrovoc (Rajbhandari, Keizer, 2012). Cette approche est générique car le changement de domaine d’étude nécessite juste l’utilisation de la ressource appropriée. En ce qui concerne les entités temporelles, nous annotons uni- quement les entités calendaires (dates et périodes) en utilisant HeidelTime (Strötgen, Gertz, 2013). 45 Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) 6 1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017 Ces annotations viennent ensuite compléter les méta-données décrivant chaque document. Ces méta-données sont ensuite indexées sous ElasticSearch 9 ce qui im- plique une transformation du format MODS-étendu au format json (utilisé par Elas- ticSearch). Nous avons choisi ElasticSearch car c’est un moteur de recherche basé sur la librairie Lucene, qui permet la recherche plein-texte, la recherche structurée, la gestion des données spatiales et offre des outils d’analyse de données tels que Ki- bana 10 . Les index ElasticSearch ainsi créés pourront donc être utilisés pour produire les analyses et permettre la recherche d’information multidimensionnelle. 5. Le modèle de données TERRE-ISTEX Le modèle de données T ERRE -I STEX étend le format MODS afin de lui permettre de décrire les informations spatiales, temporelles et thématiques extraites des docu- ments et de leurs méta-données. Le choix de MODS a été guidé par le fait que MODS est le format utilisé sur la plateforme ISTEX, qu’il est approprié à la description de tous les types de documents et de tous les supports (numériques ou non), qu’il est plus riche que le Dublin Core et plus proches des modèles de structuration des informations bibliographiques utilisées par les bibliothèques. Ainsi, nous avons rajouté trois balises à un document MODS : – , – , – . La balise contient un ensemble d’entités spatiales (balise ), avec pour chacune d’elle, le texte annoté (balise ) ainsi que son empreinte spatiale obtenue en interrogeant la ressource Geonames. La DTD cor- respondante est donnée figure 3. La balise contient un ensemble d’entités tempo- relles décrites par les balises provenant d’Heildeltime complété par le texte annoté (balise ). La DTD correspondante est donnée figure 4. Enfin, la balise contient l’ensemble des thèmes abordés dans le résumé (balise ), avec pour chacun d’eux des informations provenant de la ressource Agrovoc complété le texte annoté (balise ). La DTD correspondante est donnée figure 5. 6. Conclusion Dans cet article, nous avons présenté la chaine de traitement mise en oeuvre dans le projet T ERRE -I STEX pour marquer et indexer les informations spatiales, tempo- 9. http://www.elastic.co/fr/ 10. http://www.elastic.co/fr/products/kibana/ 46 Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) Le projet TERRE-ISTEX 7 Figure 3. DTD décrivant la balise Figure 4. DTD décrivant la balise 47 Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) 8 1er Atelier Valorisation et analyse des données de la recherche (VADOR), 2017 Figure 5. DTD décrivant la balise relles et thématiques contenues dans un corpus de documents hétérogènes et multi- langues. Nous avons choisi comme format pivot MODS, et nous l’avons étendu en ajoutant des descripteurs permettant de décrire les informations annotées. Actuelle- ment, cette chaine est appliquée uniquement sur les méta-données et les résumés des documents. La phase d’annotation est terminée (une première évaluation peut-être trouvée dans (Bessagnet et al., 2017)). Nous disposons donc de chaque document au format MODS-étendu. Nous travaillons actuellement sur la transformation JSON et sur la construction de l’index ElasticSearch. Cet index va ensuite être utilisé, d’une part, pour mettre en oeuvre des analyses permettant d’identifier les fronts de recherche en relation avec les territoires d’études, et d’autre part, pour offrir un outil de recherche d’information multidimensionnelle. Bibliographie Bessagnet M.-N., Kergosien E., Farvardin A., Le Parc-Lacayrelle A., Sallaberry C. (2017). A propos des territoires dans les corpus scientifiques. In Atelier emcSci 2017 (en cours de soumission). 48 Actes du 1er atelier Valorisation et Analyse des Données de la Recherche (VADOR) Le projet TERRE-ISTEX 9 Cabanac G., Hubert G., Milard B. (2015). Academic careers in computer science: conti- nuance and transience of lifetime co-authorships. Scientometrics, vol. 102, no 1, p. 135–150. Consulté sur http://dx.doi.org/10.1007/s11192-014-1426-0 Cavero J., Vela B., Cáceres P. (2014). Computer science research: more production, less produc- tivity. Scientometrics, vol. 98, no 3, p. 2103-2111. Consulté sur http://dx.doi.org/10.1007/ s11192-013-1178-2 Farvardin A., Kergosien E., Roche M., Teisseire M. (2015). A webtool for analyzing land-use planning documents. In 14th international semantic web conference (demonstration track). Kergosien E., Bessagnet M.-N., Sallaberry C., Le Parc-Lacayrelle A., Royer A. (2016). Analyse géographique de séries de publications : application aux conférences egc. In Conférence internationale francophe sur l’extraction et la gestion des connaissances (egc 2016). Rajbhandari S., Keizer J. (2012). The agrovoc concept scheme: A walkthrough. Journal of Integrative Agriculture, vol. 11, no 5. Sallaberry C., Baziz M., Lesbegueries J., Gaio M. (2007). Une approche d’extraction et de recherche d’information spatiale dans les documents textuels - évaluation. In Coria, p. 53- 64. Strötgen J., Gertz M. (2013). Multilingual and cross-domain temporal tagging. Language Resources and Evaluation, vol. 47, no 2, p. 269–298. 49