=Paper= {{Paper |id=Vol-1535/paper-17 |storemode=property |title=Une approche basée sur l'analyse formelle de concepts pour la recherche en continue des K plus proches voisins dans les réseaux routiers |pdfUrl=https://ceur-ws.org/Vol-1535/paper-17.pdf |volume=Vol-1535 |authors=Hafedh Ferchichi,Jalel Akaichi |dblpUrl=https://dblp.org/rec/conf/sageo/FerchichiA15 }} ==Une approche basée sur l'analyse formelle de concepts pour la recherche en continue des K plus proches voisins dans les réseaux routiers== https://ceur-ws.org/Vol-1535/paper-17.pdf

Une approche basée sur l'Analyse Formelle
de Concepts pour la Recherche en Continue
des K Plus Proches Voisins dans les
Réseaux Routiers
Hafedh FERCHICHI 1, Jalel AKAICHI 2
1. ISET de Jendouba, Laboratoire BESTMOD,
Campus Universitaire 8189 Jendouba Nord, Tunisie
ferchichi.hafedh@gmail.com
2. ISG de Tunis, Laboratoire BESTMOD,
41, Avenue de la Liberté, Cité Bouchoucha, Le Bardo 2000 - Tunis
j.akaichi@gmail.com

RESUME. Ce papier présente une nouvelle approche de recherche en continue des K plus
proches voisins (C-KNN). Notre approche, qui s'applique sur des réseaux routiers, adopte
l’Analyse Formelle de Concepts (FCA : Formel Concept Analysis) qui est un paradigme à
base de fondement mathématique. FCA permettra de présenter une abstraction du réseau qui
se base sur les voisinages. L’approche proposée consiste à construire le treillis de Galois à
partir des relations binaires entre les points d’intérêts candidats et leurs propriétés. Ces
dernières sont extraites à partir d'un ensemble de capteurs associés au réseau routier en
question. Une phase d’indexation permet d’accélérer le processus de recherche afin de
réduire le temps de traitement. Une étude de cas est aussi proposée afin de montrer la
faisabilité de notre approche de recherche en continue des KNN à base de FCA.
ABSTRACT. This paper presents a new approach to the continuous K nearest neighbors search
(C-KNN) problem, in the context of road networks. Our approach is based on Formal
Concepts Analysis (FCA) which has a mathematical foundation. FCA offers an abstraction of
the network based on the neighborhoods. We build the concept lattice based on the binary
relations between the target points as well as theirs properties. The latter are collected from
various sensors on the road network. An indexing phase is also defined to speed up the search
process and to reduce the processing time. Finally, a case study is presented to show the
effectiveness of our FCA-based solution.
MOTS-CLES : Analyse formelle de concepts, requêtes de plus proche voisin, CKNN, indexation,
réseau spatial.
KEYWORDS: Formel Concept Analysis, K-Nearest Neighbors queries, CKNN, indexation,
spatial network.

Copyright © by the paper’s authors. Copying permitted for private and academic
purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
2015.
2 SAGEO’2015

1. Introduction

Avec l'intégration des communications sans fils et les technologies de
positionnement (GPS-Global Positioning System), les applications et les services
basés sur la localisation (LBS Location-based services) émergent et gagnent
rapidement du progrès. Une classe importante de problème dans les LBSs consiste
en la recherche du plus proche voisin (NN). Jusqu'à présent, la recherche des k-NN
constituent un problème majeur dans les entrepôts de données notamment dans les
entrepôts de données des objets mobiles qui décrivent des environnements
dynamiques. Il existe plusieurs techniques de traitement efficaces des requêtes de
recherches des k-NN dans un espace de données statique. Récemment, la recherche
s’est focalisée sur les requêtes de recherche en continu des K-NN (C-KNN :
Continous K Nearest Neighber) qui s’intéresse aux objets mobiles sur un réseau
routier. Une requête continue est une requête qui, au lieu d’être évaluée une seule
fois à l’instant où elle est soumise au système, s’évalue de manière continue pour un
intervalle de temps donné (Terry. D et al, 1992). Les approches actuelles de
traitement de ce genre de requêtes dans des environnements dynamiques ont montré
des insuffisances et ont été, dans la majorité des cas, incapables de donner
satisfaction aux usagers. Cependant, une pertinence et une efficacité des résultats
attendus dépendent énormément de la façon avec laquelle est indexé l’espace de
recherche ainsi que les méthodes de recherche utilisé dans ces structures d’indexes.
L'émergence de l'analyse formelle de concepts (FCA) dans divers domaines de
l'informatique, que ce soit en extraction et représentation des connaissances (Lakhal
et Stumme, 2005), dans les domaines des ontologies (Bendaoud et al., 2010) ou
encore des bases de données, a ainsi mis en avant les structures de treillis des
concepts. La recherche en continue des K-NN est un domaine en plein essor. Avec
l'absence d'un standard de traitement de ce genre de requête dans un environnement
dynamique, plusieurs approches ont été proposées. Le dilemme est de fournir aux
usagers des réponses valides au moment de réception. Pour aboutir à des tels
résultats, l’FCA semble être un bon candidat, permettant de regrouper les points
d’intérêts en une hiérarchie de niveaux. Chaque niveau correspond à un
regroupement d’objets mobiles qui partagent un ensemble de propriétés communes
(Vitesse, Position, Direction ….). Nous proposons, ainsi, une nouvelle approche de
traitement en continu des k-NN qui s'applique sur des réseaux routiers. Notre
contribution profite d'une technique mathématique, l’analyse formelle de concepts,
et ce afin de présenter une abstraction du réseau qui se base sur les voisinages. Notre
approche vise à répondre aux requêtes des usagers en tenant compte de l’état de la
route et du contexte de l’utilisateur.
Le reste du papier est organisé comme suit : La section 2 synthétise l'état de l'art
des méthodes de recherche des k-plus proches voisins dans un réseau routier. La
section 3 donne une idée sur la solution adoptée. Dans la section 4 nous présentons
notre approche à base de FCA pour la recherche des k-plus proches voisins dans un
réseau routier. La section 5 présente une synthèse de notre approche. La section 6 est
consacrée à la conclusion et aux travaux futurs.

Copyright © by the paper’s authors. Copying permitted for private and academic
purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
2015.
FCA-Cknn 3

2. Etat de l’art

La problématique de recherche des K plus proches voisins présente plusieurs
axes où les chercheurs essayent de trouver des solutions. Le classement le plus
fréquent de cette problématique se base sur la façon avec laquelle seront calculées
les distances entre les points requêtes et les points d’intérêts, dont on distingue la
distance euclidienne et la distance de plus court chemin. Pour chercher les K plus
proches voisins on pourrait détecter plusieurs points de différences entre l'espace
euclidien et le réseau routier. Ces différences touchent essentiellement la métrique
utilisée (distance euclidienne entre deux points ou distance du plus court chemin
dans le réseau routier), le type de recherche à appliquer (Par point (kNN) ou Par
intervalle (kNN+CkNN)) et les techniques de recherches utilisées (Structure d’index
ou Techniques géométriques+Structures d'index).
Les techniques d’indexation multidimensionnelles ont été largement étudiées. En
1984, Guttman propose le R-Tree (Guttman, 1984), une technique référence dans ce
domaine. Plusieurs variantes du R-Tree sont apparues, parmi elles le R*Tree
(Beckmann et al., 1990) ou encore le X-Tree (Berchtold et al., 1997). Ces structures
d’indexation ont montré leurs limites lors du passage à des dimensions élevées. La
plupart des travaux existants essayent d'offrir une réponse valide pour différents
types de requêtes instantanées. Ce qui a été proposé par (Song et Roussopoulos,
2001) dépend du nombre d'exemples fournis en entrée, si le nombre d'exemples est
faible le résultat sera erroné. (Tao et Papadias, 2002 ; 2003) et (Feng et Watanabe,
2004) ont proposé une technique valable uniquement pour la recherche du premier
plus proche voisin (1NN). (Khayati et Akaichi, 2008) Utilisent la triangulation de
Delaunay pour modéliser un réseau routier constitué de routes directes joignant des
points de l'espace. La technique ne peut être appliquée, que sur un réseau routier
avec des routes directes (sans virage) car leur proposition ne prend en considération
que les points inclus dans la triangulation. Les auteurs proposent comme
perspectives d'appliquer ce modèle de partitionnement de l'espace de recherche sur
des réseaux routiers avec des routes sinueuses en ajoutant des facteurs de
pondérations comme le trafic urbain, le temps écoulé, la vélocité...
Plusieurs modèles et algorithmes ont été proposés pour faire face aux
changements constamment des positions des objets en mouvement. Toutefois, ces
travaux présentent encore énormément de limites :
- la majorité des travaux existants se basent sur la métrique de la distance
euclidienne. Toutefois, dans un monde réel, les requêtes se déplacent sur un
réseau routier. Etant donné un chemin d'un point Pr à un point Pi, on
appelle longueur du chemin, la somme des longueurs des arcs qui le
constituent qui s’oppose au calcul de la distance euclidienne entre Pr et Pi
qui n’est que la longueur de la ligne directe qui sépare ces deux points.
- la plupart des techniques existantes pour la recherche des K-NN ignorent
l'état du réseau routier et ne prennent pas en charge la requête en temps
réel ;

Copyright © by the paper’s authors. Copying permitted for private and academic
purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
2015.
4 SAGEO’2015

- la plupart des algorithmes existants génèrent un surcoût de stockage
considérable ;
- les approches précédentes ne peuvent pas bien fonctionner s'il ya des mises
à jour fréquentes du déplacement d’objets, qui se produisent généralement
dans des applications réelles ;
- les Travaux existant ne sont pas en mesure de faire face à la représentation
dynamique des attributs des objets en mouvement ;
Même les tentatives récentes, telles que (Zhong et al., 2013) qui propose un
indexe G-arbre pour trouver les K-NN à un emplacement donné, ont montré des
limites par rapport à la taille du réseau étudié. G-arbre nécessite un prétraitement de
plusieurs heures pour les réseaux routiers (16,8 heures de prétraitement pour le
réseau complet Etats-Unis) par conséquence ça ne peut pas être applicable en cas
des objets mobiles sur un réseau routier car G-arbre est construit avec une vue
statique de l'information sur le trafic du réseau routier. Dans le même contexte Notre
travail (Ferchichi et Akaichi, 2013) s’inspire de la validité des approches statiques
pour proposer une technique efficace qui détermine le premier plus proche voisin
(1NN) dans un environnement dynamique.
La majorité des approches étudiées présentent des insuffisances surtout lors du
passage à des dimensions élevées ou dans le cas où il s’agit d’un contexte
dynamique. Pour en résumer le problème, actuellement pour connaître les plus
proches voisins d'un point requête dans l'espace, on est obligé de parcourir tous les
points déjà existants, ce qui implique beaucoup de comparaisons.
3. Définition du problème et exemple de motivation

3.1 Analyse Formelle de Concepts

L'Analyse Formelle de Concepts (AFC) est un formalisme mathématique qui
permet d'obtenir des concepts structurés hiérarchiquement regroupant des objets
possédants les mêmes attributs. La hiérarchie résultant de l'AFC est appelée treillis
de Galois (Barbut et Monjardet, 1970) ou treillis de concepts (Ganter et Wille,
1999). Le fondement mathématique de l’AFC et les structures conceptuelles qu’elle
permet de dériver (Godin et al., 1995) ont été exploités dans plusieurs domaines
d’analyse et d’exploitation de données tels que la classification, la recherche
d’information (Carpineto et Romano, 2005), la sélection de services Web (Azmeh et
al., 2008), la construction d’ontologies (Bendaoud et al., 2008), l’extraction de
connaissances (Lakhal et Stumme, 2005), l’ingénierie des logiciels (Tilley et al.,
2005 ; Godin et Valtchev, 2005), la linguistique (Priss, 2005), etc.
L’AFC consiste à construire un treillis de concepts à partir d’un tableau binaire
Objets × Attributs. Formellement, un contexte K est la donnée d’un triplet (O, A, I)
où O est un ensemble d’objets, A est un ensemble d’attributs, et I ⊂ O × A une
relation entre O et A.

Copyright © by the paper’s authors. Copying permitted for private and academic
purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
2015.
FCA-Cknn 5

3.2 Définitions et symboles préliminaires

Définition 1 (Contexte Formel) : Un Contexte Formel est un triplet K = (G, M,
I) où G est un ensemble d'objets, M est un ensemble d'attributs et I une relation
binaire entre G et M vérifiant: I ⊆ G × P ; (g,m) ∈ I avec g ∈ G et m ∈ M signifie
que l'objet g possède l'attribut m ou que l'attribut m est possédé par l'objet g.
Définition 2 (Concept Formel) : Un Concept Formel d'un contexte K = (G,M,I)
est une paire (A,B) avec : A ⊆ G, B ⊆ M , A′ = B et B′ = A, où A′ est l'ensemble de
tous les attributs de B possédés par les objets de A et de façon duale B′ est
l'ensemble de tous les objets possédant les attributs de B. Les ensembles A et B sont
appelés respectivement extension et intension du concept formel C. B (G, M, I)
dénote l'ensemble de tous les concepts du contexte K = (G, M, I).
Définition 3 (Objet Mobile) : Un Objet Mobile « Oi », avec 0< i ≤ n, est
caractérisé par une Position (P), une Vitesse (V) et une Direction (D). « Oi »
pourrait être soit un point requête (Pr) soit un point d’intérêt (Pi). Oi (Pi, Vi, Di)
avec Oi, Objet Mobile i, Pi position de l’objet mobile i, Vi Vitesse de l’objet mobile
i, Di direction de l’objet mobile i.
Définition 4 (Point requête-Pr) : un Point requête (Pr) désigne chaque Objet
mobile « Oi » qui lance une requête (r). « Pr » est caractérisé par une Position, une
Vitesse et une Direction. Pr (P, V, D), avec Pr point requête, P position, V vitesse et
D direction (East, Weast, North, South).
Définition 5 {Point d’intérêt (Pi) avec 0< i ≤ n} : un Point d’intérêt (Pi) désigne
chaque objet mobile sur un réseau routier qui satisfait les critères d’une requête
donnée. Pi est Caractérisé par une Position, une Vitesse et une Direction. Pi (Pi, Vi,
Di), avec Pi point d’intérêt i, Vi vitesse de l’objet mobile i et Di direction de l’objet
mobile.
Définition 6 Statut (O1, O2) : Chaque objet mobile (O1) admet un Statut par
rapport à un autre objet mobile (O2). Généralement, O1 est un point requête alors
qu’O2 est un point d’intérêt. Statut (O1, O2) est une fonction qui retourne soit
« loin » soit « prés ». Statut (Pr, Pi) = Loin. Statut (Pr, Pi) = Prés.
Illustration 1 Statut (Pr, Pi) = {Loin || Prés}. Déterminer le statut d’un objet
mobile revient à étudier les caractéristiques suivantes : la direction de l’objet mobile
« Pr » ainsi que celle de l’objet mobile « Pi » (même direction ou direction inverse) ;
les vitesses de l’objet mobile « Pr » ainsi que celle de l’objet mobile « Pi » (Vr est-
elle supérieure ou inférieure à Vi ?)

Algorithme 1. Statut (in (Pr, Pi, Vr, Vi, D1, D2), out (Near, Far))

Input: Pr (Xpr, Ypr), Pi(Xpi, Ypi), Vr, Vi, Dr, Di
Output: “Near”, “Far”
1: si ((Vi = Vr) et (Dr != Di)) alors
2: return “Near”
3: fin condition
Copyright © by the paper’s authors. Copying permitted for private and academic
purposes. Proceedings of the Spatial Analysis and GEOmatics conference, SAGEO
2015.
6 SAGEO’2015

4: si ((Vi >Vr) et (Dr= Di)) Ou ((Vi