=Paper=
{{Paper
|id=Vol-1535/paper-17
|storemode=property
|title=Une approche basée sur l'analyse formelle de concepts pour la recherche en continue des K plus proches voisins dans les réseaux routiers
|pdfUrl=https://ceur-ws.org/Vol-1535/paper-17.pdf
|volume=Vol-1535
|authors=Hafedh Ferchichi,Jalel Akaichi
|dblpUrl=https://dblp.org/rec/conf/sageo/FerchichiA15
}}
==Une approche basée sur l'analyse formelle de concepts pour la recherche en continue des K plus proches voisins dans les réseaux routiers==
Une approche basée sur l'Analyse Formelle de Concepts pour la Recherche en Continue des K Plus Proches Voisins dans les Réseaux Routiers Hafedh FERCHICHI 1, Jalel AKAICHI 2 1. ISET de Jendouba, Laboratoire BESTMOD, Campus Universitaire 8189 Jendouba Nord, Tunisie ferchichi.hafedh@gmail.com 2. ISG de Tunis, Laboratoire BESTMOD, 41, Avenue de la Liberté, Cité Bouchoucha, Le Bardo 2000 - Tunis j.akaichi@gmail.com RESUME. Ce papier présente une nouvelle approche de recherche en continue des K plus proches voisins (C-KNN). Notre approche, qui s'applique sur des réseaux routiers, adopte l’Analyse Formelle de Concepts (FCA : Formel Concept Analysis) qui est un paradigme à base de fondement mathématique. FCA permettra de présenter une abstraction du réseau qui se base sur les voisinages. L’approche proposée consiste à construire le treillis de Galois à partir des relations binaires entre les points d’intérêts candidats et leurs propriétés. Ces dernières sont extraites à partir d'un ensemble de capteurs associés au réseau routier en question. Une phase d’indexation permet d’accélérer le processus de recherche afin de réduire le temps de traitement. Une étude de cas est aussi proposée afin de montrer la faisabilité de notre approche de recherche en continue des KNN à base de FCA. ABSTRACT. This paper presents a new approach to the continuous K nearest neighbors search (C-KNN) problem, in the context of road networks. Our approach is based on Formal Concepts Analysis (FCA) which has a mathematical foundation. FCA offers an abstraction of the network based on the neighborhoods. We build the concept lattice based on the binary relations between the target points as well as theirs properties. The latter are collected from various sensors on the road network. An indexing phase is also defined to speed up the search process and to reduce the processing time. Finally, a case study is presented to show the effectiveness of our FCA-based solution. MOTS-CLES : Analyse formelle de concepts, requêtes de plus proche voisin, CKNN, indexation, réseau spatial. KEYWORDS: Formel Concept Analysis, K-Nearest Neighbors queries, CKNN, indexation, spatial network. Copyright © by the paper’s authors. Copying permitted for private and academic purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO 2015. 2 SAGEO’2015 1. Introduction Avec l'intégration des communications sans fils et les technologies de positionnement (GPS-Global Positioning System), les applications et les services basés sur la localisation (LBS Location-based services) émergent et gagnent rapidement du progrès. Une classe importante de problème dans les LBSs consiste en la recherche du plus proche voisin (NN). Jusqu'à présent, la recherche des k-NN constituent un problème majeur dans les entrepôts de données notamment dans les entrepôts de données des objets mobiles qui décrivent des environnements dynamiques. Il existe plusieurs techniques de traitement efficaces des requêtes de recherches des k-NN dans un espace de données statique. Récemment, la recherche s’est focalisée sur les requêtes de recherche en continu des K-NN (C-KNN : Continous K Nearest Neighber) qui s’intéresse aux objets mobiles sur un réseau routier. Une requête continue est une requête qui, au lieu d’être évaluée une seule fois à l’instant où elle est soumise au système, s’évalue de manière continue pour un intervalle de temps donné (Terry. D et al, 1992). Les approches actuelles de traitement de ce genre de requêtes dans des environnements dynamiques ont montré des insuffisances et ont été, dans la majorité des cas, incapables de donner satisfaction aux usagers. Cependant, une pertinence et une efficacité des résultats attendus dépendent énormément de la façon avec laquelle est indexé l’espace de recherche ainsi que les méthodes de recherche utilisé dans ces structures d’indexes. L'émergence de l'analyse formelle de concepts (FCA) dans divers domaines de l'informatique, que ce soit en extraction et représentation des connaissances (Lakhal et Stumme, 2005), dans les domaines des ontologies (Bendaoud et al., 2010) ou encore des bases de données, a ainsi mis en avant les structures de treillis des concepts. La recherche en continue des K-NN est un domaine en plein essor. Avec l'absence d'un standard de traitement de ce genre de requête dans un environnement dynamique, plusieurs approches ont été proposées. Le dilemme est de fournir aux usagers des réponses valides au moment de réception. Pour aboutir à des tels résultats, l’FCA semble être un bon candidat, permettant de regrouper les points d’intérêts en une hiérarchie de niveaux. Chaque niveau correspond à un regroupement d’objets mobiles qui partagent un ensemble de propriétés communes (Vitesse, Position, Direction ….). Nous proposons, ainsi, une nouvelle approche de traitement en continu des k-NN qui s'applique sur des réseaux routiers. Notre contribution profite d'une technique mathématique, l’analyse formelle de concepts, et ce afin de présenter une abstraction du réseau qui se base sur les voisinages. Notre approche vise à répondre aux requêtes des usagers en tenant compte de l’état de la route et du contexte de l’utilisateur. Le reste du papier est organisé comme suit : La section 2 synthétise l'état de l'art des méthodes de recherche des k-plus proches voisins dans un réseau routier. La section 3 donne une idée sur la solution adoptée. Dans la section 4 nous présentons notre approche à base de FCA pour la recherche des k-plus proches voisins dans un réseau routier. La section 5 présente une synthèse de notre approche. La section 6 est consacrée à la conclusion et aux travaux futurs. Copyright © by the paper’s authors. Copying permitted for private and academic purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO 2015. FCA-Cknn 3 2. Etat de l’art La problématique de recherche des K plus proches voisins présente plusieurs axes où les chercheurs essayent de trouver des solutions. Le classement le plus fréquent de cette problématique se base sur la façon avec laquelle seront calculées les distances entre les points requêtes et les points d’intérêts, dont on distingue la distance euclidienne et la distance de plus court chemin. Pour chercher les K plus proches voisins on pourrait détecter plusieurs points de différences entre l'espace euclidien et le réseau routier. Ces différences touchent essentiellement la métrique utilisée (distance euclidienne entre deux points ou distance du plus court chemin dans le réseau routier), le type de recherche à appliquer (Par point (kNN) ou Par intervalle (kNN+CkNN)) et les techniques de recherches utilisées (Structure d’index ou Techniques géométriques+Structures d'index). Les techniques d’indexation multidimensionnelles ont été largement étudiées. En 1984, Guttman propose le R-Tree (Guttman, 1984), une technique référence dans ce domaine. Plusieurs variantes du R-Tree sont apparues, parmi elles le R*Tree (Beckmann et al., 1990) ou encore le X-Tree (Berchtold et al., 1997). Ces structures d’indexation ont montré leurs limites lors du passage à des dimensions élevées. La plupart des travaux existants essayent d'offrir une réponse valide pour différents types de requêtes instantanées. Ce qui a été proposé par (Song et Roussopoulos, 2001) dépend du nombre d'exemples fournis en entrée, si le nombre d'exemples est faible le résultat sera erroné. (Tao et Papadias, 2002 ; 2003) et (Feng et Watanabe, 2004) ont proposé une technique valable uniquement pour la recherche du premier plus proche voisin (1NN). (Khayati et Akaichi, 2008) Utilisent la triangulation de Delaunay pour modéliser un réseau routier constitué de routes directes joignant des points de l'espace. La technique ne peut être appliquée, que sur un réseau routier avec des routes directes (sans virage) car leur proposition ne prend en considération que les points inclus dans la triangulation. Les auteurs proposent comme perspectives d'appliquer ce modèle de partitionnement de l'espace de recherche sur des réseaux routiers avec des routes sinueuses en ajoutant des facteurs de pondérations comme le trafic urbain, le temps écoulé, la vélocité... Plusieurs modèles et algorithmes ont été proposés pour faire face aux changements constamment des positions des objets en mouvement. Toutefois, ces travaux présentent encore énormément de limites : - la majorité des travaux existants se basent sur la métrique de la distance euclidienne. Toutefois, dans un monde réel, les requêtes se déplacent sur un réseau routier. Etant donné un chemin d'un point Pr à un point Pi, on appelle longueur du chemin, la somme des longueurs des arcs qui le constituent qui s’oppose au calcul de la distance euclidienne entre Pr et Pi qui n’est que la longueur de la ligne directe qui sépare ces deux points. - la plupart des techniques existantes pour la recherche des K-NN ignorent l'état du réseau routier et ne prennent pas en charge la requête en temps réel ; Copyright © by the paper’s authors. Copying permitted for private and academic purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO 2015. 4 SAGEO’2015 - la plupart des algorithmes existants génèrent un surcoût de stockage considérable ; - les approches précédentes ne peuvent pas bien fonctionner s'il ya des mises à jour fréquentes du déplacement d’objets, qui se produisent généralement dans des applications réelles ; - les Travaux existant ne sont pas en mesure de faire face à la représentation dynamique des attributs des objets en mouvement ; Même les tentatives récentes, telles que (Zhong et al., 2013) qui propose un indexe G-arbre pour trouver les K-NN à un emplacement donné, ont montré des limites par rapport à la taille du réseau étudié. G-arbre nécessite un prétraitement de plusieurs heures pour les réseaux routiers (16,8 heures de prétraitement pour le réseau complet Etats-Unis) par conséquence ça ne peut pas être applicable en cas des objets mobiles sur un réseau routier car G-arbre est construit avec une vue statique de l'information sur le trafic du réseau routier. Dans le même contexte Notre travail (Ferchichi et Akaichi, 2013) s’inspire de la validité des approches statiques pour proposer une technique efficace qui détermine le premier plus proche voisin (1NN) dans un environnement dynamique. La majorité des approches étudiées présentent des insuffisances surtout lors du passage à des dimensions élevées ou dans le cas où il s’agit d’un contexte dynamique. Pour en résumer le problème, actuellement pour connaître les plus proches voisins d'un point requête dans l'espace, on est obligé de parcourir tous les points déjà existants, ce qui implique beaucoup de comparaisons. 3. Définition du problème et exemple de motivation 3.1 Analyse Formelle de Concepts L'Analyse Formelle de Concepts (AFC) est un formalisme mathématique qui permet d'obtenir des concepts structurés hiérarchiquement regroupant des objets possédants les mêmes attributs. La hiérarchie résultant de l'AFC est appelée treillis de Galois (Barbut et Monjardet, 1970) ou treillis de concepts (Ganter et Wille, 1999). Le fondement mathématique de l’AFC et les structures conceptuelles qu’elle permet de dériver (Godin et al., 1995) ont été exploités dans plusieurs domaines d’analyse et d’exploitation de données tels que la classification, la recherche d’information (Carpineto et Romano, 2005), la sélection de services Web (Azmeh et al., 2008), la construction d’ontologies (Bendaoud et al., 2008), l’extraction de connaissances (Lakhal et Stumme, 2005), l’ingénierie des logiciels (Tilley et al., 2005 ; Godin et Valtchev, 2005), la linguistique (Priss, 2005), etc. L’AFC consiste à construire un treillis de concepts à partir d’un tableau binaire Objets × Attributs. Formellement, un contexte K est la donnée d’un triplet (O, A, I) où O est un ensemble d’objets, A est un ensemble d’attributs, et I ⊂ O × A une relation entre O et A. Copyright © by the paper’s authors. Copying permitted for private and academic purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO 2015. FCA-Cknn 5 3.2 Définitions et symboles préliminaires Définition 1 (Contexte Formel) : Un Contexte Formel est un triplet K = (G, M, I) où G est un ensemble d'objets, M est un ensemble d'attributs et I une relation binaire entre G et M vérifiant: I ⊆ G × P ; (g,m) ∈ I avec g ∈ G et m ∈ M signifie que l'objet g possède l'attribut m ou que l'attribut m est possédé par l'objet g. Définition 2 (Concept Formel) : Un Concept Formel d'un contexte K = (G,M,I) est une paire (A,B) avec : A ⊆ G, B ⊆ M , A′ = B et B′ = A, où A′ est l'ensemble de tous les attributs de B possédés par les objets de A et de façon duale B′ est l'ensemble de tous les objets possédant les attributs de B. Les ensembles A et B sont appelés respectivement extension et intension du concept formel C. B (G, M, I) dénote l'ensemble de tous les concepts du contexte K = (G, M, I). Définition 3 (Objet Mobile) : Un Objet Mobile « Oi », avec 0< i ≤ n, est caractérisé par une Position (P), une Vitesse (V) et une Direction (D). « Oi » pourrait être soit un point requête (Pr) soit un point d’intérêt (Pi). Oi (Pi, Vi, Di) avec Oi, Objet Mobile i, Pi position de l’objet mobile i, Vi Vitesse de l’objet mobile i, Di direction de l’objet mobile i. Définition 4 (Point requête-Pr) : un Point requête (Pr) désigne chaque Objet mobile « Oi » qui lance une requête (r). « Pr » est caractérisé par une Position, une Vitesse et une Direction. Pr (P, V, D), avec Pr point requête, P position, V vitesse et D direction (East, Weast, North, South). Définition 5 {Point d’intérêt (Pi) avec 0< i ≤ n} : un Point d’intérêt (Pi) désigne chaque objet mobile sur un réseau routier qui satisfait les critères d’une requête donnée. Pi est Caractérisé par une Position, une Vitesse et une Direction. Pi (Pi, Vi, Di), avec Pi point d’intérêt i, Vi vitesse de l’objet mobile i et Di direction de l’objet mobile. Définition 6 Statut (O1, O2) : Chaque objet mobile (O1) admet un Statut par rapport à un autre objet mobile (O2). Généralement, O1 est un point requête alors qu’O2 est un point d’intérêt. Statut (O1, O2) est une fonction qui retourne soit « loin » soit « prés ». Statut (Pr, Pi) = Loin. Statut (Pr, Pi) = Prés. Illustration 1 Statut (Pr, Pi) = {Loin || Prés}. Déterminer le statut d’un objet mobile revient à étudier les caractéristiques suivantes : la direction de l’objet mobile « Pr » ainsi que celle de l’objet mobile « Pi » (même direction ou direction inverse) ; les vitesses de l’objet mobile « Pr » ainsi que celle de l’objet mobile « Pi » (Vr est- elle supérieure ou inférieure à Vi ?) Algorithme 1. Statut (in (Pr, Pi, Vr, Vi, D1, D2), out (Near, Far)) Input: Pr (Xpr, Ypr), Pi(Xpi, Ypi), Vr, Vi, Dr, Di Output: “Near”, “Far” 1: si ((Vi= Vr) et (Dr != Di)) alors 2: return “Near” 3: fin condition Copyright © by the paper’s authors. Copying permitted for private and academic purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO 2015. 6 SAGEO’2015 4: si ((Vi >Vr) et (Dr= Di)) Ou ((Vi