=Paper= {{Paper |id=Vol-1535/paper-08 |storemode=property |title=Un nouveau méta-modèle pour rapprocher la folksonomie et l’ontologie d’OSM |pdfUrl=https://ceur-ws.org/Vol-1535/paper-08.pdf |volume=Vol-1535 |authors=Anthony Hombiat,Marlène Villanova-Oliver,Jérôme Gensel |dblpUrl=https://dblp.org/rec/conf/sageo/HombiatVG15 }} ==Un nouveau méta-modèle pour rapprocher la folksonomie et l’ontologie d’OSM== https://ceur-ws.org/Vol-1535/paper-08.pdf
Un nouveau méta-modèle pour rapprocher
la folksonomie et l’ontologie d’OSM

Anthony Hombiat, Marlène Villanova-Oliver, Jérôme Gensel

Univ. Grenoble Alpes, LIG, F-38000 Grenoble, France
prenom.nom@imag.fr


RÉSUMÉ. Depuis les années 2000, les technologies du Web permettent aux utilisateurs de prendre
part à la production de données : les internautes du Web 2.0 sont les nouveaux capteurs de
l’information. Du côté de l’Information Géographique affluent de nombreux jeux de données
en provenance de plates-formes de cartographie participative telles qu’OpenStreetMap (OSM)
qui a largement impulsé le phénomène de la Géographique Participative (VGI). La communauté
OSM représente aujourd’hui plus de deux millions de contributeurs qui alimentent une base de
données géospatiales ouverte dont l’objet est de capturer une représentation du territoire mon-
dial. Les éléments cartographiques qui découlent de ce déluge de VGI sont caractérisés par des
tags. Les tags permettent une catégorisation simple et rapide du contenu des plates-formes de
crowdsourcing qui inondent la toile. Cette approche est cependant un obstacle majeur pour le
partage et la réutilisation de ces grands volumes d’information. En effet, ces ensembles de tags,
ou folksonomies, sont des modèles de données beaucoup moins expressifs que les ontologies.
Dans cet article, nous proposons un méta-modèle pour rapprocher la folksonomie et l’ontologie
OSM afin de mieux exploiter la sémantique des données qui en sont issues, tout en préservant
la flexibilité intrinsèque à l’utilisation de tags.
ABSTRACT. Post-2000s web technologies have enabled users to engage in the information pro-
duction process: Web 2.0 surfers are the new data sensors. Regarding Geographic Information
(GI), large crowdsourced datasets emerge from the Volunteered Geographic Information (VGI)
phenomenon through platforms such as OpenStreetMap (OSM). The latter involves more than
two millions contributors who aim at mapping the world into an open geospatial database.
This deluge of VGI consists of spatial features associated with tags describing their attributes
which is typical of crowdsourced content categorization. However, this approach is also a major
impediment to interoperability with other systems that could benefit from this huge amount of
bottom-up data. Indeed, folksonomies are much less expressive data models than ontologies. In
this paper, we address the issue of loose OSM metadata by proposing a model for collaborative
ontology engineering in order to semantically lift the data while preserving the flexible nature
of the activity of tagging.
MOTS-CLÉS : Information Géographique Volontaire (IGV), Données ouvertes, Web Sémantique,
Ontologie
KEYWORDS: Volunteered Geographic Information (VGI), OpenData, Semantic Web, Ontology



  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
2   SAGEO’2015




1. Introduction

    Avec l’avènement des technologies du Web 2.0, les plates-formes comme wiki-
pedia.org 1 et son analogue géospatial OpenStreetMap (OSM) 2 encouragent la pro-
duction d’énormes quantités de contenus produits par les utilisateurs (User Generated
Content, UGC). Alors que la barrière entre la production et la consommation de l’in-
formation tombe, A. Bruns invente le terme "produsage" pour parler du processus
collaboratif et en continu de construction et d’extension de contenus existants dans
le but d’une amélioration future (Bruns, 2006). Les produsers sont animés à la fois
par des motivations constructives (altruisme, stimulation intellectuelle, expression per-
sonnelle, reconnaissance sociale, etc.) et nuisible (malice, calcul politique, intention
criminelle, etc.) (Coleman et al., 2009). Au-delà de ces mobiles, la création d’UGC
est stimulée par l’émergence de licences ouvertes. Parmi elles, les licences Creative
Commons (CC) 3 essaient de trouver un équilibre entre le concept de "tous droits ré-
servés" qui régit la propriété intellectuelle, et celui de "aucun droits réservés" que l’on
retrouve dans le domaine public (Loenen, 2012). Cette nouvelle donne qui bouleverse
le processus de production de l’information amène à sa suite nombre d’avantages mais
soulève également de multiples problèmes.
    Tout d’abord, du côté des avantages, la donnée citoyenne est le plus souvent vo-
lontaire, c’est-à-dire que toute personne équipée d’un accès à Internet peut potentiel-
lement ajouter, modifier ou supprimer de l’information, ce qui a pour effet de générer
des flux massifs de données ouvertes. De plus, cette information dite crowdsourcée est
typiquement encadrée par les licences CC et donc libre de droits pour leur exploitation
et réutilisation gratuite. D’autre part, le processus de collecte des données s’effectue
en continu : les produsers peuvent alimenter le flux d’information à tout moment,
garantissant par là même son actualisation. En ce qui concerne l’Information Géogra-
phique (IG), la donnée peut être collectée à un niveau de granularité très fin puisque
les contributeurs ont tendance à décrire les zones dont ils sont familers (leur quartier,
leur lieu de travail) à l’échelle de leurs déplacements quotidiens. Du même coup, la
représentation qu’ils donnent de l’environnement avec lequel ils sont familier exprime
une expérience terrain que les moyens limités d’une expertise (temps, ressources hu-
maines) peinent à saisir. Enfin, les métadonnées sont, pour l’essentiel, associées aux
données citoyennes par le biais de tags : ce sont des mots-clés en texte libre choisis
par les utilisateurs dans le but de caractériser les resources issues de l’UGC. A titre
d’exemple, pour décrire une école dans la base de données OSM, un contributeur doit
d’abord dessiner ses limites géographiques sur la carte (c’est le niveau des instances,
ou ABox en logique de description), puis il peut lui associer l’étiquette (tag) ame-


1. https://www.wikipedia.org/
2. http://www.openstreetmap.org/
3. http://creativecommons.org/licenses/
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
                                                                             OF4OSM       3

nity=school (c’est le niveau conceptuel, ou TBox en logique de description). Ces
tags sous la forme clé=valeur sont décrits en texte libre, ce qui leur confère un
caractère évolutif (Ho, Rajabifard, 2010).
    Néanmoins, la donnée citoyenne ne va pas sans poser de problèmes de qualité
parmi lesquels l’incomplétude (Neis et al., 2011), le manque d’expertise (McCall,
Minang, 2005) et le manque d’expressivité de son méta-modèle (Haklay, 2010). Dans
cet article, nous nous concentrons sur ce dernier aspect. Les métadonnées d’OSM
constituent une folksonomie, c’est-à-dire "le résultat de l’activité d’association libre
d’étiquettes (tags) à des données ou objets (tout ce qui est identifié par une URL) dans
le but personnel de les retrouver ultérieurement" (Wal, 2005). Cette méthode de caté-
gorisation par étiquettage (tagging) est très flexible puisque l’utilisateur ne rencontre
aucune contrainte lorsqu’il décrit du contenu avec des tags en texte libre. Pourtant,
l’utilisation de foksonomies comporte de sérieux inconvénients tels que les coquilles,
la redondance conceptuelle et le manque d’expressivité par rapport à d’autres types
de classification tels que les thesauri (synonymie), les taxonomies (subsomption), ou
encore les ontologies (logique du premier ordre) (Weller, 2007). Par ailleurs, l’usage
des tags peut être ambigu : S. Golder identifie sept fonctions différentes des tags,
chacune liée à une intention différente de l’utilisateur (Golder, 2006) : l’extraction
d’information devient alors d’autant plus difficile. Dans cet article, nous proposons un
méta-modèle pour la construction collaborative d’une ontologie des tags OSM dans le
but d’améliorer la sémantique des données, tout en préservant la plasticité de l’acti-
vité de tagging. La suite de cet article s’articule de la manière suivante : la section 2
souligne les points forts et les faiblesses des efforts qui ont été faits pour structurer le
méta-modèle d’OSM ; la section 3 présente notre méta-modèle et la section 4 résume
nos contributions et donne des pistes vers d’autres travaux à réaliser dans la même
direction.


2. État de l’art

   Plusieurs travaux ont abordé les problèmes liés à la folksonomie d’OpenStreet-
Map. Dans la section suivante, nous dressons un aperçu de ces différentes propositions
en mettant l’accent sur les points positifs et négatifs de chacune.


2.1. OSM wiki

    Afin de décrire aussi précisément que possible les caractéristiques physiques du
terrain, les contributeurs d’OSM doivent partager un vocabulaire commun. Dans l’op-
tique de s’accorder sur le sens des tags, le projet OSM s’appuie sur un guide de bonnes
pratiques sous la forme d’un wiki 4 qui regroupe des tags qui font consensus (2047 tags
en 2013 d’après (Ballatore et al., 2013)), ainsi que la description de l’utilisation qui
doit en être faite dans le but de les désambiguïser. Mais surtout, comme n’importe


4. http://wiki.openstreetmap.org/wiki/Map_Features
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
4   SAGEO’2015

quel wiki, les directives OSM sont établies par les contributeurs OSM et chaque tag
choisi pour y figurer peut être soumis au cycle Contribution/Révocation/Discussion
(BOLD/Revert/Discuss, BRD) 5 qui laisse place au débat : l’ajout d’un tag litigieux
peut potentiellement être annulé via le système de gestion des versions propre au wiki.
Le cycle BRD permet aux utilisateurs impliqués dans un contentieux de créer une page
de discussion associée au tag concerné afin d’argumenter leurs choix et d’arriver, in
fine, à un accord. Cette méthode répond parfaitement aux exigences de l’approche as-
cendante que défend le projet OSM. Cependant, même si les tags sélectionnés sont les
plus fréquents dans la base de données OSM, ils ne représentent qu’une infime partie
des 77 millions de tags 6 existants. Pire, aucune relation ne les lie, ce qui empêche tout
raisonnement automatique sur le modèle dans son ensemble.


2.2. LinkedGeoData (LGD)

   Les travaux de S. Auer comptent parmi les premières tentatives de construction
d’une ontologie, LinkedGeoData (LGD) 7 , des données (ABox) et métadonnées (TBox)
d’OSM (Auer et al., 2009). Dans ce modèle, les tags sont classés en trois catégories,
chacune correspondant à un modèle de conversion vers le langage de représentation
des connaissances OWL 8 :

Attributs de classification Les attributs de classification sont des tags qui donnent
      des informations sur la nature des éléments spatiaux auxquels ils sont associés
      (ex. : amenity=school). Dans l’ontologie, à la fois la clé et la valeur sont
      représentées par des classes (owl:Class), la clé étant super-classe de la valeur
      (rdfs:subClassOf) ;
Attributs de description Les attributs de description sont des tags ayant pour va-
      leur un ensemble de valeurs prédéfinies (ex. : internet_access=wired/-
      wlan/terminal). Ils sont convertis en propriétés objet (owl:ObjectProperty)
      dans l’ontologie ;
Attributs de données Les attributs de données sont des tags dont la valeur est tex-
      tuelle ou de type primitif (ex. : opening_hours=9am-5pm). Ils sont conver-
      tis en propriétés primitives (owl:DataProperty) dans l’ontologie.

    Néanmoins, cette caractérisation haut-niveau des tags est le reflet d’une expertise
qui n’a pas été soumise à un processus démocratique qui est pourtant au cœur de la
philosophie du projet OSM.
   En fin de compte, l’ontologie LGD contient 500 classes, 50 propriétés objet et
15 000 propriétés primitives. De plus, les instances (c’est-à-dire les objets spatialisés


5. https://en.wikipedia.org/wiki/Wikipedia:BOLD,_revert,_discuss_cycle
6. http://wiki.openstreetmap.org/wiki/Taginfo/FAQ
7. http://wiki.openstreetmap.org/wiki/LinkedGeoData
8. Web Ontology Language, http://www.w3.org/2001/sw/wiki/OWL
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
                                                                                 OF4OSM     5

dans la base de données OSM) sont interconnectées avec les entités DBpedia 9 pour
lesquelles des valeurs de longitude et de latitude sont définies. La correspondance
entre les deux bases de connaissances se fait par l’intermédiaire de la comparaison du
nom, de la localisation et du type de ces entités. Toutefois, les classes dans l’ontologie
(c’est-à-dire les clés et valeurs des tags) ne sont directement connectées à aucune autre
source, ce qui freine considérablement l’interopérabilité des informations sur les tags.


2.3. OSMonto

    L’ontologie OSMonto 10 (Codescu et al., 2011) a été créée pour appuyer un outil
de navigation orienté activités pour OSM 11 . La méthodologie qui sous-tend sa créa-
tion est semblable à celle de l’ontologie LGD : les clés des tags OSM sont considérées
comme les super-classes des valeurs auxquelles elles sont associées. Afin de prévenir
l’ambiguïté dans le cas où elles sont les mêmes, les clés et valeurs sont respective-
ment préfixées par k_ (ex. : station=subway donne k_station) et v_ (ex. :
railway=station donne v_station). Les dépendances entre tags sont éga-
lement prises en considération : certains tags (ex. : cuisine=seafood) ne sont
compatibles qu’avec d’autres tags bien spécifiques (ex. : amenity=restaurant).
Dans ces cas, la clé du tag dépendant est convertie en une propriété objet (ex. : has-
Cuisine) ayant pour domaine la valeur du tag dont il est dépendant (ex. : v_res-
taurant) et sa propre valeur pour rang (i.e. v_seafood). Cependant, seuls les tags
qui possèdent plus de 100 occurences dans la base de données OSM, ainsi que ceux
qui sont référencés dans le wiki OSM sont intégrés dans l’ontologie. Ce parti pris
assure une meilleure qualité des tags considérés (ils sont de facto plus consensuels),
mais écarte la grande diversité des contributions minoritaires significatives 12 .


2.4. Game With A Purpose (GWAP)

    Les auteurs de (Baglatzi Alkyoni et al., 2012) adoptent une approche différente :
ils proposent une méthode d’alignement des tags OSM sur l’ontologie de haut niveau
DUL 13 . Le degré de similarité entre un tag OSM et un concept issu de l’ontologie
DUL est mesuré via un jeu (Game With A Purpose, GWAP) : lorsqu’un contribu-
teur ajoute un nouvel élément dans la base de données OSM, il ou elle se voit po-
ser une série de questions à propos des caractéristiques dudit élément. Chacune de
ces questions représente un concept de l’ontologie DUL. A titre d’exemple, la ques-
tion "S’agit-il d’un objet physique tel qu’une rivière ou un stade ?" fait référence au
concept dul:PhysicalObject. Cette technique dissimule la complexité de l’on-
tologie afin de faciliter l’utilisation de l’outil. Cependant, l’interprétation entre la ques-


9. http://dbpedia.org/
10. http://wiki.openstreetmap.org/wiki/OSMonto
11. http://do-roam.org/
12. Exit les erreurs d’orthographes et autres fautes de frappe
13. DOLCE+DnS ULtralite, http://www.ontologydesignpatterns.org/ont/dul/DUL.owl
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
6   SAGEO’2015

tion et le concept interfère nécessairement entre la représentation du contributeur et le
concept qui y correspond dans l’ontologie DUL. De plus, les utilisateurs ne sont pas
sollicités dans le choix des concepts représentés dans l’ontologie de haut niveau.

2.5. OSM Semantic Network (OSN)

     Enfin, le réseau sémantique OSN 14 (Ballatore et al., 2013) compte parmi les tra-
vaux les plus récents pour l’amélioration de la sémantique dans OSM. Les instiga-
teurs de cette approche ont développé un outil qui explore les pages du wiki OSM
(il existe, entre autres, des pages pour les tags et les clés) et les utilise pour générer
un graphe dont les sommets sont les pages web et les arrêtes sont les hyperliens en-
trants et sortants. De surcroît, les concepts ainsi récupérés sont alignés sur les entités
de Wikipedia et les concepts de l’ontologie LGD. Malgré tout, l’expertise humaine
doit suppléer aux approximations de l’alignement automatique dans le but d’optimi-
ser l’interconnexion des bases de connaissances. D’autre part, comme les auteurs l’ont
souligné, des connexions doivent également être établies entre des bases de données
géospatiales telles que GeoWordNet 15 ou Geonames 16 qui font aujourd’hui autorité.
Ceci afin de tirer profit de toute l’information disponible sur les tags en consultation
et d’éviter la redondance en modification.

2.6. Synthèse et motivations

    Notre approche vise à assister la construction d’un modèle conceptuel pour OSM
qui réponde à plusieurs problèmes. En premier lieu, afin de tenir compte de tous les
éléments cartographiques (c’est-à-dire les représentations des objets physiques pré-
sents sur le territoire tels que les arbres, les aménagements urbains, le réseau routier,
etc.) qui sont enregistrés dans la base de données, l’ontologie qui les modélise doit
intégrer tous les tags existants qui les décrivent. La couverture des tags est donc un as-
pect de la plus haute importance pour prendre en considération la sémantique d’OSM
de façon exhaustive. D’autre part, l’un des intérêts principaux de la création d’une on-
tologie est la réutilisation d’un vocabulaire commun dans l’optique de favoriser l’in-
teropérabilité des systèmes informatiques. Par conséquent, l’interconnexion de l’on-
tologie OSM avec les autres bases de connaissances qui existent dans l’écosystème
des données liées et ouvertes 17 est essentielle. Finalement, la base de connaissances
OSM dont nous nous proposons d’appuyer la construction ne pourra être efficacement
exploitée que si elle est solidement structurée. Dès lors, nous devons nous attacher
à choisir une sémantique pertinente pour garantir l’expressivité des relations décrites
dans le méta-modèle qui la sous-tend. D’autre part, bien conscients du problème de
qualité soulevé par les données citoyennes, il nous semble indispensable d’instaurer


14. OSM Semantic Network, http://wiki.openstreetmap.org/wiki/OSM_Semantic_Network
15. http://datahub.io/dataset/geowordnet
16. http://www.geonames.org/
17. Linked Open Data, LOD, http://lod-cloud.net/
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
                                                                                  OF4OSM      7

un système de gestion des versions de façon à s’assurer que chacune des modifica-
tions apportées à l’ontologie OSM puisse être annulée mais également pour servir
de base à une analyse longitudinale des tags. Pour finir, dans la lignée des préceptes
posés par le projet OSM, nous faisons le pari que la confiance en l’intelligence col-
lective (O’Reilly, 2005) est cruciale pour encourager la responsabilité et l’autonomie
des citoyens dans le processus de production de l’Information Géographique. Une at-
tention toute particulière sera donc accordée à l’implication de l’utilisateur dans le
méta-modèle que nous proposons.
    Le tableau 1 livre une synthèse des cinq modèles de données pour les tags OSM
étudiés en section 2, évalués à l’aune des cinq critères suivants : 1) exhaustivité de
la couverture des tags, 2) interconnexion avec les bases de connaissances existantes,
3) implication de l’utilisateur, 4) expressivité et 5) gestion des versions. Plusieurs ca-
rences de la sémantique relative à l’information géographique participative (Volunteer
Geographic Information, VGI) sont traitées par ces modèles. En effet, le GWAP est
potentiellement capable d’intégrer tous les tags d’OSM. Le wiki OSM, quant à lui,
implique de façon significative les utilisateurs dans le choix des tags et gère les diffé-
rentes versions des pages du site web. Enfin, le réseau sémantique OSN est un premier
pas vers une interconnexion substantielle entre les concepts issus de la folksonomie
OSM et ceux qui proviennent d’autres bases de connaissances tout en offrant une
taxonomie de tags relativement expressive grâce à des mesures de similarité entre ces
concepts. Cependant, aucune de ces contributions ne répond à l’ensemble des cinq
critères. C’est pourquoi nous proposons un modèle pour assister la construction col-
laborative d’une ontologie des tags OSM faite par et pour ses utilisateurs, qui tire le
meilleur parti des travaux précédents et satisfasse l’intégralité des besoins évoqués
plus haut.


        Tableau 1. Comparaison des modèles de données pour les tags OSM
                                                 Implication                          Gestion de
             Couverture         Interconnexion                     Expressivité
                                                 utilisateur                          Versions
                                Faible                                                Oui
 OSM         Faible                              Forte
                                (Hyperliens                        Aucune             (Type
 Wiki        (2047/70M tags)                     (Cycle BRD)
                                Wikipedia)                                            wiki)
                                                 Faible            Faible
             Faible             Moyenne
 LGD                                             (Expertise des-   (Subsomption       Non
             (2047/70M tags)    (DBpedia)
                                                 cendante)         clé-valeur)
                                                 Faible            Faible
             Faible
 OSMonto                        Aucune           (Expertise des-   (Subsomption       Non
             (3000/70M tags)
                                                 cendante)         clé-valeur)
             Forte
                                Faible           Moyenne           Moyenne
 GWAP        (Potentiellement                                                         Non
                                (DUL)            (Questionnaire)   (DUL)
             tous)
                                Forte            Faible            Moyenne
             Faible
 OSN                            (LGD, DBpe-      (Ontologies       (LGD + Simila-     Non
             (2047/70M tags)
                                dia, WordNet)    descendantes)     rité entre tags)



  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
8   SAGEO’2015

3. OF4OSM: un méta-modèle pour l’ontologie de tags OSM

    Le modèle que nous présentons ici pour lier l’Ontologie et la Folksonomie d’OSM
(OF4OSM) est composé de quatre parties qui correspondent aux quatre sous-sections
suivantes : un modèle de représentation des tags (section 3.1), un modèle de relations
entre tags (section 3.2), un modèle de similarité entre tags (section 3.3) et un modèle
de révision de tags (section 3.4).


3.1. Une représentation des tags spécifique à OSM et conforme aux standards

    La plupart des plates-formes d’UGC utilisent des tags pour classifier leur contenu.
Dans (Lohmann et al., 2011), les auteurs font un état de l’art des ontologies de tags
et proposent l’ontologie MUTO 18 qui vise à unifier les concepts fondamentaux sur
lesquels repose l’activité de tagging et que l’on retrouve dans différentes ontologies
qui font autorité telles que Tag Ontology 19 , Meaning Of A Tag (MOAT) 20 , Common
Tag 21 ou NiceTag 22 . L’ontologie MUTO fait référence à des vocabulaires tels que
SIOC 23 qui permet de lier un utilisateur qui associe un tag à une ressource (un tagger)
à une communauté en ligne, mais également les schémas de métadonnées DCTERMS
maintenus par l’initiative Dublin Core 24 ou encore le langage de représentation des
connaissances SKOS 25 pour associer les concepts aux bases de connaissances respec-
tant les standards du W3C 26 . Cependant, ce modèle ne correspond pas exactement à
la structure des tags OSM (ils sont représentés par une paire clé-valeur) ni aux besoins
évoqués dans la section précédente. Par conséquent, nous proposons un méta-modèle
qui étend l’ontologie MUTO pour rapprocher l’ontologie et la folksonomie d’OSM :
OF4OSM.
    Dans l’ontologie OF4OSM, le concept muto:Tag est la super-classe du concept
of4osm:OSMTag, comme décrit sur la figure 1. De cette manière, of4osm:OSM-
Tag bénéficie des metadonnées héritées de muto:Tag : la description, la date de
création et le créateur du tag. De plus, puisque muto:Tag est aussi un skos:-
Concept, of4osm:OSMTag est, par transitivité, décrit dans un langage de repré-
sentation des connaissances largement utilisé en Science de l’Information. Par ailleurs,
le concept of4osm:OSMTag est associé à deux autres concepts représentant sa clé
et sa valeur, respectivement of4osm:OSMTagKey et of4osm:OSMTagValue,
par le biais de propriétés sous-classes de la propriété méréologique dc:hasPart :


18. Modular Unified Tagging Ontology, http://purl.org/muto/core
19. http://www.holygoat.co.uk/owl/redwood/0.1/tags/
20. http://moat-project.org/ns#
21. http://commontag.org/ns#
22. http://ns.inria.fr/nicetag/2010/09/09/voc.rdf
23. Semantically-Interlinked Online Communities, http://rdfs.org/sioc/ns#
24. Dublin Core Metadata Initiative, http://purl.org/dc/terms/
25. Semantic Knowledge Organization System, http://www.w3.org/2004/02/skos/core
26. World Wide Web Consortium, http://www.w3.org/
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
                                                                           OF4OSM       9

of4osm:hasOSMTagKey et of4osm:hasOSMTagValue. Cependant, la forme
clé-valeur des tags OSM est équivoque. En effet, certaines clés sont faites pour être
super-classes de leur valeur (ex. : amenity=school), tandis que d’autres sont faites
pour représenter des propriétés booléennes (ex. : internet_access=no), selon
les intentions du tagger (cf. section 2.2). Nous prenons le parti de laisser de côté cette
ambiguïté. Au lieu de prendre chacune de ses composantes séparément, nous nous
situons à un niveau d’abstraction supérieur pour considérer la paire clé-valeur comme
un tout. Ainsi, le concept of4osm:OSMTag sera la brique élémentaire sujette à la
classification dans l’ontologie de tags OSM.
    Bien que la classe of4osm:OSMTag soit à la base de notre modèle de classifica-
tion, nous avons besoin de la représentation de ses sous-parties, of4osm:OSMTag-
Key et of4osm:OSMTagValue, qui peuvent être utiles pour interroger des services
web d’information sur l’utilisation des tags. A titre d’exemple, TagInfo 27 est capable
d’indiquer le nombre d’éléments cartographiques associés à un tag donné, ou bien s’il
existe une page sur le wiki OSM qui correspond à ce tag. Ce type d’information peut
s’avérer très utile au contributeur pour déterminer l’autorité d’un tag : s’il a un nombre
d’occurences faible en base de données et pas de page dédiée sur le wiki, le contri-
buteur devrait être plutôt dissuadé de l’ajouter dans l’ontologie. A contrario, si un tag
est très largement utilisé et est documenté dans le guide de bonnes pratiques, il a très
certainement sa place dans l’ontologie. Ces services donnent des informations rela-
tives à un tag, mais également à une clé ou à une valeur. Prenons l’exemple suivant :
un utilisateur souhaite ajouter le tag amenity=swimming_pool à l’ontologie. En
interrogeant TagInfo, le système basé sur notre modèle peut signaler au contributeur
que la clé la plus fréquemment associée à la valeur swimming_pool est leisure,
qui est effectivement la clé qui fait autorité selon les directives OSM. Cette technique
permet au contributeur de prendre des décisions avisées et, finalement, d’améliorer la
qualité des données.


3.2. Une classification des tags plus expressive

    L’un des principaux intérêts de la représentation de connaissances par le bias d’on-
tologies est l’expression des relations entre les concepts, la plus élémentaire d’entres
elles étant la relation de subsomption. Malheureusement, les folksonomies sont intrin-
séquement plates : il n’existe pas a priori de relations hiérarchiques entre les tags. En
conséquence, les différentes tentatives de sémantisation des tags OSM présentées en
section 2 ont produit des taxonomies superficielles dont la profondeur est la résultante
du seul rapport de subsomption entre clé et valeur. Pour parvenir à une hiérarchie plus
profonde, nous proposons un concept abstrait (c’est-à-dire qui n’a pas d’instances
dans la base de données OSM, qui ne peut pas être associé à un élément cartogra-
phique), of4osm:OSMAbstractTag, afin de servir de super-classe à d’autres tags
(abstraits ou non) via la relation rdfs:subClassOf. Puisque of4osm:OSMTag


27. http://taginfo.openstreetmap.fr/
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
10    SAGEO’2015




     Figure 1. Modèle de relation entre tags autour du concept of4osm:OSMTag.


et of4osm:OSMAbstractTag sont les classes que les contributeurs vont agencer
en une taxonomie, la capacité de subsomption qu’elles partagent est factorisée dans le
concept parent of4osm:OSMConcept.
    Pour illustrer l’intérêt de ce modèle, prenons l’exemple d’un contributeur OSM
qui voudrait associer le tag simpliste shop=bicycle à un distributeur de chambres
à air pour vélo. Si un système de suggestion de tags raisonne sur le réseau sémantique
OSN dans lequel seules des relations de subsomption clé-valeur sont représentées (le
concept shop est parent du concept bicycle), seuls les concepts qui ont également
 Copyright c by the paper’s authors. Copying permitted for private and academic
purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                      2015.
                                                                           OF4OSM       11

pour parent le concept shop vont être retournés. Si on filtre ces résultats par nombre
décroissant d’occurences dans la base de données OSM, on obtient les tags shop=-
bakery, shop=clothes et shop=hairdresser, lesquels présentent un intérêt
pour le moins limité dans ce cas de figure. Avec une ontologie rudimentaire basée
sur le méta-modèle OF4OSM, le concept abstrait cycling_activities pourrait
être parent des tags shop=bicycle, amenity=bicycle_repair_station
et vending=bicycle_tube, chacun d’eux étant documentés sur le wiki OSM
mais ne partageant pas la même clé. Avec le même système de suggestion basé sur un
algorithme de similarité de structure, cette nouvelle classification permet de retrou-
ver les tags amenity=bicycle_repair_station et vending=bicycle_-
tube. L’utilisateur est cette fois à même de rafiner sa description du distributeur de
chambres à air. Même si, à ce stade, notre méta-modèle ne décrit que des relations
hiérarchiques entre les tags, il permet de générer une taxonomie des tags issus de la
folksonomie OSM plus expressive que celles revues en section 2.


3.3. Compatibilité avec les mesures de similarité existantes et similarité subjective

    Au-delà de la simple représentation des tags, il nous semble important de prendre
en considération dans notre modèle une mesure de similarité qui provienne de la vi-
sion subjective du contributeur. En effet, nombre de mesures de similarité ont été
développées, sur différents critères tels que l’interconnexion des pages du wiki OSM
(cf. section 2.5), la lignée des tags (Mülligann et al., 2011), ou encore la similarité des
instances géospatiales associées (Du et al., 2013). Pourtant, les premiers concernés,
les membres de la communauté OSM, n’ont jamais eu l’opportunité d’exprimer un
degré de similitude entre les tags. La figure 2 décrit le modèle de similarité entre tags
que nous proposons et qui s’organise autour du concept central of4osm:OSMTag-
Sim qui lie un tag à un autre selon une mesure de similarité spécifique représentée par
la classe of4osm:OSMTagSimType et à laquelle un poids est associé via la pro-
priété primitive of4osm:hasOSMTagSimScore. Cette représentation permet de
tenir compte de différents types de mesures de similarité. Par exemple, la mesure de si-
milarité subjective du contributeur OSM est repésentée par l’instance of4osm:OSM-
SubjectiveTagSim, issue de la classe of4osm:OSMTagSimType. De cette fa-
çon, la représentation du contributeur est intégrée au réseau de tags OSM ce qui répond
aux éxigences de la politique participative du projet OSM.
    Dans l’optique d’assister le contributeur lorsqu’il associe un tag à un élément
cartographique, le modèle de similarité entre tags peut être exploité. Les auteurs de
(Vandecasteele, Devillers, 2013) exposent une approche qu’ils ont implémentée dans
un greffon, OSMantic 28 , pour l’éditeur OSM JOSM 29 . Basé sur les mesures de simi-
larité calculées dans OSN (cf. section 2.5), cet outil augmente le champ de texte dédié
à l’ajout de tags de JOSM avec une liste de tags suggérés en fonction de leur degré de


28. http://wiki.openstreetmap.org/wiki/JOSM/Plugins/OSMantic
29. https://josm.openstreetmap.de/
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
12    SAGEO’2015

similarité avec le tag entré par l’utilisateur. De plus, il alerte l’utilisateur qui voudrait
associer un nouveau tag à une entité géographique qui en possède déjà d’autres qui
présentent un degré de similarité très bas. Dans la même idée, nous fournissons un
modèle générique pour encourager les contributeurs OSM à s’appuyer sur toutes les
mesures de similarité disponibles car la diversité des points de vue est garante de choix
avisés. Au-delà de l’aspect décisionnel, cela favorise la connexion entre l’ontologie de
tags OSM et d’autres réseaux sémantiques.
    Enfin, le processus de construction de l’ontologie de tags OSM doit pouvoir bénéfi-
cier de la comparaison entre, d’un côté, les nomenclatures officielles de caratéristiques
spatiales du terrain et d’aménagements urbains et, de l’autre, les ontologies OSM.
Cela permettrait de faire le pont entre les données gouvernementales et les données
citoyennes qui présentent des caractéristiques très complémentaires comme souligné
dans l’introduction de cet article. Techniquement, ce rapprochement peut être fait par
le biais d’outils, les matchers d’ontologies, qui sont conçus pour déterminer des cor-
respondences entre des concepts provenant de différentes ontologies. Les techniques
d’alignement d’ontologies sont passées en revue de manière exhaustive dans (Euzenat,
Shvaiko, 2007). Parmi elles, certaines techniques se basent sur la structure interne
du modèle pour rechercher des similarités : l’expressivité de notre méta-modèle est
ici déterminante pour permettre aux matchers de trouver des correspondences per-
tinentes comme montré en section 3.2. Ces alignements sont essentiels pour désen-
claver les ontologies et favoriser leur interopérabilité. Pour illustrer ce point, nous
avons aligné, à l’aide de matchers d’ontologies, d’un côté, une nomenclature offi-
cielle des aménagements urbains produites par l’INSEE 30 et, de l’autre, le réseau
sémantique OSN. Entre autres, l’alignement qui en a résulté affiche une correspon-
dence entre les tags amenity=nursing_home et amenity=retirement_-
home, issus d’OSM, et le terme personne_agees_hebergement de la nomen-
clature INSEE. Cette indication est précieuse pour le contributeur OSM : soit les
termes amenity=nursing_home et amenity=retirement_home sont tota-
lement redondants et il faut en supprimer un, soit ils partagent certaines caractéris-
tiques communes qui doivent alors être factorisées dans une super-classe (abstraite
avec of4osm:OSMAbstractTag ou non avec of4osm:OSMTag).


3.4. La gestion de versions comme support de la discussion entre contributeurs

    Afin de conserver une trace des modifications effectuées sur l’ontologie OSM pour
en améliorer sa qualité, nous proposons un modèle de revue des tags (figure 3) pour
chaque tentative de classification via la classe of4osm:OSMTagReview. Cela per-
met d’enregistrer la date et l’identité du contributeur à l’origine de ce changement,
ainsi que les relations (subsomption ou similarité) dans lesquelles le tag était impli-
qué avant la modification, de sorte que le système qui s’appuie sur notre modèle soit
capable d’annuler toute action sur l’ontologie de tags. Dans le cas d’un profond désac-


30. Institut National de la Statistique et des Etudes Economiques, http://www.insee.fr/en/
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
                                                                         OF4OSM       13




Figure 2. Modèle de similarité entre tags autour du concept of4osm:OSMTagSIM.


cord (de nombreuses annulations dans une période de temps courte 31 ), l’utilisateur est
incité à argumenter son choix par l’intermèdiaire d’une page de discussion sur le wiki
OSM, soit pré-existante (dans ce cas, le système fournira l’url correspondante) ou non-
existante (dans ce cas, le système se chargera de créer la page via l’API Wikipédia 32 ),
reprenant à son compte le cycle participatif BRD détaillé en section 2.1.
    Au niveau des instances, lorsqu’un contributeur associe un nouveau tag à un élé-
mént cartographique, il est automatiquement ajouté et marqué comme inclassé au ni-
veau des concepts dans l’ontologie de tags OSM via la propriété booléenne of4osm:-
isOSMTagClassified. Cette technique aide le contributeur à retrouver les tags
qui n’ont pas encore été classés afin de limiter le nombre de tags non classififés. On
pourrait rétorquer que la simple absence d’une instance de la classe of4osm:OSM-
TagReview implique qu’un tag n’a jamais fait l’objet d’une classification. Ce n’est
pourtant pas suffisant : si un utilisateur annule la première tentative de classification
d’un tag sans en proposer de meilleure, le tag en question va retourner à sa posi-
tion intitiale, sans instance de la classe of4osm:OSMTagReview associée. Dans
ce cas de figure, le marqueur of4osm:isOSMTagClassified=false donne la
possibilité à l’utilisateur d’indiquer à la communauté que le tag est revenu à son état
antérieur mais qu’il a déjà été le sujet d’une ou plusieurs tentatives de classification
(sa caractérisation est vraisemblablement délicate).
   Par ailleurs, le modèle de révision de tag proposé ici est compatible avec la mé-
thode de stratification de la confiance développée par les auteurs de (Exel, Dias, 2010)


31. Thresholds are to be determined in a future work.
32. http://www.mediawiki.org/wiki/API:Main_page
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
14   SAGEO’2015

et peut être utilisé pour extraire des strates de données de plus ou moins bonne fac-
ture à partir de l’ontologie des tags OSM. Par exemple, en ignorant les tentatives de
classification de faible qualité (des mesures de qualité des révisions seront dévelop-
pées dans de prochains travaux sur la base des mesures de qualité de données OSM
mises au point par (Haklay et al., 2010 ; Keß ler et al., 2013 ; Rehrl et al., 2013)), un
environnement intégrant le méta-modèle OF4OSM est capable de générer des vues
haute-qualité de l’ontologie OSM contenant uniquement les concepts clés. En ayant
une vision globale dessinée par les tags centraux de l’ontologie sans pâtir du bruit
des tags périphériques, le contributeur bénéficie d’un atout majeur pour éviter la re-
dondance et l’incohérence dans le processus d’ingénierie des connaissances auquel il
prend légitimement part.




 Figure 3. Modèle de revue de tag autour du concept of4osm:OSMTagReview.


4. Conclusion et perspectives

     Nous avons introduit un méta-modèle qui vise à rapprocher la folksonomie de l’on-
tologie OSM. La méta-ontologie OF4OSM a pour but d’exploiter les tags OSM pour
en faire une ontologie expressive faite par et pour les contributeurs OSM, qui préserve
la flexibilité du système de tagging de contenu. Dans un souci de partage et de réutili-
sation de l’information, OF4OSM fournit un cadre de représentation des tags OSM qui
s’inscrit dans l’écosystème des données ouvertes et liées en exploitant les vocabulaires
standards du LOD. Cette représentation offre la possibilité aux contributeurs OSM de
classifier les tags en une taxonomie dont la profondeur va bien au-delà de la simple
subsomption clé-valeur qui prévalait jusqu’alors. Attentifs au problème de la qualité
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
                                                                            OF4OSM       15

des données qui va de pair avec une stratégie participative, notre modèle de similarité
entre tags permet d’interconnecter les concepts issus de l’ontologie OSM et ceux issus
d’autres bases de connaissances afin d’obtenir l’information la plus complète possible
mais également pour prévenir la redondance. Enfin, notre modèle de revision de tags
offre la possibilité d’enregistrer et d’argumenter toute nouvelle tentative de classifica-
tion d’un tag dans l’ontologie, ceci afin d’encourager les contributeurs à s’engager de
manière constructive dans l’élaboration d’une ontologie solide des tags OSM.
    Les propositions exposées dans cet article sont les prémices de travaux pour l’éla-
boration d’un environnement dédié à la construction participative d’une ontologie des
tags OSM. Cependant, beaucoup de travail reste à accomplir. Concernant la qualité
des données, les travaux de M. Bishr et W. Kuhn sur les modèles de réputation des
utilisateurs peuvent servir de point de départ à un système de contrôle de la qualité
des contributions (Bishr, 2011). Du côté de l’interconnexion avec d’autres bases de
connaissances, nous pensons que les mesures de similarité entre les tags du réseau sé-
mantique OSN pourraient être améliorées en prenant en considération les différentes
versions de ces pages web dans le temps (Ballatore et al., 2013 ; Mülligann et al.,
2011). Pour finir, les modèles de comportement des contributeurs Wikipedia déve-
loppés par D. Bégin sont une piste pour mieux appréhender les comportements des
contributeurs OSM et, par là même, pour mieux comprendre les données produites
par ces bénévoles (Bégin et al., 2013).

Remerciements
  Les auteurs remercient l’université Pierre-Mendès-France (Grenoble 2) et Minatec
  IDEAS Laboratory c pour le financement de la thèse d’Anthony Hombiat sur ce
  sujet.

Bibliographie

Auer S., Lehmann J., Hellmann S. (2009). LinkedGeoData: Adding a spatial dimension to the
   Web of data. In Lecture notes in computer science (including subseries lecture notes in
   artificial intelligence and lecture notes in bioinformatics), vol. 5823 LNCS, p. 731–746.
Baglatzi Alkyoni, Kokla Margarita, Kavouras Marinos. (2012). Semantifying OpenStreetMap.
   In The 11th international semantic web conference, p. 39–48.
Ballatore A., Bertolotto M., Wilson D. C. (2013). Geographic knowledge extraction and se-
    mantic similarity in OpenStreetMap. Knowledge and Information Systems, vol. 37, no 1,
    p. 61–81.
Bégin D., Devillers R., Roche S. (2013). Assessing Volunteered Geographic Information (VGI)
   Quality Based On Contributors’ Mapping Behaviours. ISPRS, vol. XL-2/W1, no June,
   p. 149–154.
Bishr M. (2011). Trust & reputation models for human sensor observations. Thèse de doctorat
   non publiée.
Bruns A. (2006). Towards produsage: Futures for User-Led Content Production. In F. Sud-
   weeks, H. Hrachovec, C. Ess (Eds.), Cultural attitudes towards communication and tech-
   nology 2006, p. 275–284. Perth: Murdoch University.
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
16   SAGEO’2015

Codescu M., Horsinka G., Kutz O., Mossakowski T., Rau R. (2011). Osmonto-an ontology of
   openstreetmap tags. State of the map. Consulté sur http://www.informatik.uni-bremen.de/
   ~okutz/osmonto.pdf
Coleman D. J., Georgiadou Y., Labonte J., Observation E., Canada N. R. (2009). Volunteered
   Geographic Information : The Nature and Motivation of Produsers. International Journal
   of Spatial Data Infrastructures Research, vol. 4, p. 332–358.
Du H., Alechina N., Jackson M., Hart G. (2013). Matching Formal and informal Geospatial On-
   tologies. In D. Vandenbroucke, B. Bucher, J. Crompvoets (Eds.), Geographic information
   science at the heart of europe, p. 155–171. Cham, Springer International Publishing.
Euzenat J., Shvaiko P. (2007). Ontology matching (Springer-V éd.). Heidelberg (DE).
Exel M. V., Dias E. (2010). Towards A Methodology For Trust Stratification in VGI. , p. 2–5.
Golder S. a. (2006, avril). Usage patterns of collaborative tagging systems. Journal of Infor-
   mation Science, vol. 32, no 2, p. 198–208.
Haklay M. (2010). How good is volunteered geographical information? A comparative study
   of OpenStreetMap and ordnance survey datasets. Environment and Planning B: Planning
   and Design, vol. 37, no 4, p. 682–703.
Haklay M., Basiouka S., Antoniou V., Ather A. (2010). How Many Volunteers Does it Take to
   Map an Area Well? The Validity of Linus’ Law to Volunteered Geographic Information. ,
   p. 1–13.
Ho S., Rajabifard A. (2010, mars). Learning from the crowd: The role of volunteered geographic
   information in realising a spatially enabled society. In Gsdi conference proceedings.
Keß ler C., Theodore R., Groot A. D. (2013). Trust as a Proxy Measure for the Quality of Volun-
   teered Geographic Information in the Case of OpenStreetMap. In Geographic information
   science at the heart of europe, p. 21–37.
Loenen B. V. (2012). Quest for a global standard for geo-data licenses. In Spatially en-
   abling government, industry and citizens: research and development perspectives, p. 39 –
   55. Needham, GSDI Association Press.
Lohmann S., Díaz P., Aedo I. (2011). MUTO. In Proceedings of the 7th international confe-
   rence on semantic systems - i-semantics ’11, p. 95–104.
McCall M. K., Minang P. A. (2005). Assessing participatory GIS for community-based natural
  resource management: Claiming community forests in Cameroon (vol. 171) no 4.
Mülligann C., Janowicz K., Ye M., Lee W. C. (2011). Analyzing the spatial-semantic in-
   teraction of points of interest in volunteered geographic information. In Lecture notes in
   computer science, vol. 6899 LNCS, p. 350–370.
Neis P., Zielstra D., Zipf A. (2011, décembre). The Street Network Evolution of Crowdsourced
   Maps: OpenStreetMap in Germany 2007–2011 (vol. 4) no 1.
O’Reilly T. (2005). What Is Web 2.0 Design Patterns and Business Models for the Next Gene-
   ration of Software.
Rehrl K., Gröechenig S., Hochmair H., Leitinger S., Steinmann R., Wagner A. (2013). A
   Conceptual Model for Analyzing Contribution Patterns in the Context of VGI. In Progress
   in location-based services, p. 373–388.
  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.
                                                                            OF4OSM       17

Vandecasteele A., Devillers R. (2013). Improving Volunteered Geographic Data Quality Using
   Semantic Similarity Measurements. In 8th international symposium on spatial data quality,
   vol. XL, p. 143–148.
Wal T. V. (2005). Folksonomy Definition and Wikipedia. Consulté sur http://www.vanderwal
   .net/random/entrysel.php?blog=1750
Weller K. (2007). Folksonomies and ontologies: two new players in indexing and knowledge
   representation. Online Information 2007, p. 108–115.




  Copyright c by the paper’s authors. Copying permitted for private and academic
 purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
                                       2015.