Vers une Ingénierie Ontologique à Base du Web Usage Mining

Vers une Ingénierie Ontologique à Base du Web Usage Mining AbdelmadjidGraba Laboratoire EEDIS Université Djilali Liabes de Sidi Bel Abbes

ALGERIE

ElberrichiGuessoum elberrichi@gmail.com Laboratoire EEDIS Université Djilali Liabes de Sidi Bel Abbes

ALGERIE

Zakaria Laboratoire EEDIS Université Djilali Liabes de Sidi Bel Abbes

ALGERIE

Vers une Ingénierie Ontologique à Base du Web Usage Mining 0C92D228018FA3A519D5712C17C746D6 GROBID - A machine learning software for extracting information from scholarly documents ontologies Web Usage Mining enrichissement Web sémantique fouille de données motifs séquentiels

Récemment, de nouvelles approches ont intégré l'utilisation de techniques de fouille de données dans le processus d'enrichissement d'ontologies. En effet, les deux domaines, fouille de données et méta-données ontologiques sont extrêmement liés : d'une part les techniques de fouille de donnée aident à la construction du Web sémantique, d'autre part le Web sémantique aide à l'extraction de nouvelles connaissances. Ainsi, beaucoup de travaux utilisent les ontologies comme un guide pour l'extraction de règles ou de motifs, permettant de discriminer les données par leur valeur sémantique et donc d'extraire des connaissances plus pertinentes. Il s'avère à l'inverse que peu de travaux visant à mettre à jour l'ontologie s'intéressent aux techniques de fouilles de données. Dans ce papier, nous présentons une approche pour supporter la gestion des ontologies des sites Web basée sur l'utilisation des techniques de Web Usage Mining. L'approche présentée a été expérimentée et évaluée sur une ontologie d'un site Web, que nous avons construit et ensuite enrichie en se basant sur les motifs séquentiels extraits sur le Log.

Introduction

Le Web sémantique désigne un espace d'échange et de manipulation de grandes sources de données visant à rendre le contenu des pages Web accessibles aux humains et aux agents artificiels. En effet, la recherche d'information dans le Web classique se base essentiellement sur la structure des documents, ce qui rend l'exploitation du contenu quasiment impossible par les machines. A la différence de cela, dans le Web sémantique, les machines accèdent aux ressources grâce à la représentation sémantique du contenu. Cette représentation inclut une formalisation du contenu, permettant d'encoder l'information dans un format lisible par la machine, ainsi que l'ajout de métadonnées sémantiques modélisant l'information disponible. La combinaison des données formalisées et de la couche sémantique donne alors accès à la connaissance et ouvre la voie à un large panel d'applications.

Il est nécessaire d'utiliser un moyen d'échange commun afin de partager l'information entre différentes communautés. Les ontologies sont l'un des modèles de représentation de connaissances les plus avancés. Constituées de concepts liés par des relations, et souvent structurés hiérarchiquement, elles permettent d'organiser des connaissances en fonction du domaine considéré. Au coeur du Web sémantique, elles ajoutent une couche sémantique au Web classique en décrivant les connaissances contenues dans les ressources. Considérées désormais dans ce domaine comme métadonnées de référence, les ontologies, ainsi que leur création et leur développement, font l'objet de nombreux travaux de recherche. En particulier, l'évolution permanente des ressources, nécessite la mise au point de techniques permettant l'évolution des ontologies et leurs mises à jours.

Nous proposons donc dans cet article une approche d'enrichissement d'ontologies basée sur une technique de fouille de données, la recherche de motifs séquentiels à l'aide de l'algorithme Vpsp. Appliquée sur des fichiers logs, cet algorithme permet de mettre en évidence des séquences fréquentes d'accès Web, dans un ordre donné. Notre approche consiste ainsi, à partir de fichiers logs, à extraire des motifs séquentiels qui sont ensuite utilisés afin d'enrichir l'ontologie, en y ajoutant d'une part de nouveaux concepts, d'autre part, les relations sémantiques qui peuvent exister entre eux.

La suite de cet article est organisée de la manière suivante : dans la section 2 nous présentons les étapes de notre approche. La section 3 présente les résultats d'expérimentations conduites sur la mise à jour de l'ontologie du site Web étudié. Nous terminons l'article par une discussion de travaux connexes et une conclusion.

Approche proposée

Cette approche est divisée en quatre étapes : 1-Construction d'une ontologie pour le site Web étudié. 2-Prétraitement des fichiers Logs.

3-Application de l'algorithme Vpsp sur le fichier Log. 4-Enrichissement de l'ontologie de base à l'égard des visites des utilisateurs.

Construction de l'ontologie

Les ontologies sont l'un des modèles de représentation de connaissances les plus avancés. Constituées de concepts liés par des relations, et souvent structurés hiérarchiquement, elles permettent d'organiser des connaissances en fonction du domaine considéré. La construction de l'ontologie peut être effectuée manuellement ou semiautomatiquement. Dans le premier cas, cette tâche est difficile et prend du temps. C'est la raison pour laquelle de nombreuses méthodes et méthodologies ont été conçues pour semi-automatiser ce processus. Les sources de données peuvent être du texte, des données semi-structurées, les données relationnelles, etc. Dans la suite, nous décrivons certaines méthodes dédiées à l'extraction des connaissances à partir des pages Web. L'approche proposée par Navigli et Velardi [9] tente de réduire la confusion conceptuelle et terminologique entre les membres d'une communauté virtuelle. Les concepts et les relations sont tirés d'une série de sites Web en utilisant l'outil Ontolearn. Les principales étapes sont: l'extraction de terminologie à partir des sites Web, interprétation sémantique des termes, et l'identification des relations taxonomiques.

Certaines approches transforment les pages html en une hiérarchie sémantique structurée codées en XML, en tenant compte des régularités HTML [3].

Enfin, on peut aussi remarquer que certaines approches consacrées à la construction de l'ontologie à partir des pages Web sans l'utilisation d'aucune connaissance a priori. L'approche décrite dans [10] est basé sur les étapes suivantes:

(1) extraire des mots clés représentatifs du domaine, (2) trouver une collection de sites Web liés aux anciens mots clé (en utilisant par exemple Google), (3) analyse exhaustive de chaque site, (4) l'analyseur recherche les mots clés initiales dans un site Web et trouve les mots suivants et précédents; ces mots sont candidats à être des concepts, (5) pour chaque concept sélectionné, une analyse statistique est effectuée sur la base du nombre d'occurrences de ce mot dans les sites Web et, finalement, (6) pour chaque concept extrait en utilisant une fenêtre autour du mot clé initial, un nouveau mot clé est défini et l'algorithme réitère récursivement.

Dans [5] une méthode est proposée pour extraire l'ontologie de domaine à partir des sites Web sans l'utilisation de connaissances a priori. Cette approche prend la structure des pages Web en considération et définit une hiérarchie contextuelle. Le prétraitement des données est une étape importante pour définir les termes les plus pertinents pour pouvoir être classés. Des poids sont associés aux termes en fonction de leur position dans cette hiérarchie conceptuelle. Ensuite, ces termes sont automatiquement classés et les concepts sont extraits.

Dans [2] les auteurs définissent une architecture ontologique basée sur un triplet sémantique, à savoir: sémantique du contenu, la structure et les services d'un domaine.

Prétraitement des fichiers Logs

La première étape d'un processus du WUM consiste en un prétraitement des fichiers Log. En effet, le format des fichiers log web est impropre à une analyse directe par les diverses techniques de fouille des données. Leur nettoyage et leur structuration sont donc nécessaires avant toute analyse.

La première étape d'un processus WUM se compose principalement de deux types de taches :

-Tâches classiques de prétraitement : fusion des fichiers logs web, nettoyage et structuration de données. -Tâches avancées de prétraitement : stockage des données structurées dans une base de données, généralisation et agrégation des données.

Prétraitement classique

Fusionner tous les fichiers log dans un seul fichier log afin de pouvoir reconstruire les sessions réalisées à travers plusieurs serveurs Web ;

Nettoyer le fichier log :

-La méthode TRACE est employée pour le débogage. Le serveur renvoie, dans le corps de la réponse, le contenu exact qu'il a reçu du client. Ceci permet de comprendre, en particulier, ce qui se passe lorsque la requête transite par plusieurs serveurs intermédiaires. -La méthode OPTIONS permet de demander au serveur les méthodes autorisées pour le document référencé. Vu que le WUM s'intéresse à l'étude du comportement de l'internaute sur le Web et par conséquent aux ressources qu'il demande, il faut garder seulement les requêtes dont la méthode utilisée est GET.

-Les Scripts. Généralement, le téléchargement d'une page demandée par un utilisateur est accompagné automatiquement par le téléchargement des scripts tels que les scripts Java (fichiers .js), des feuilles de style (fichiers .css), des animations flash (fichier .swf), etc. Ces éléments doivent être supprimés du fichier Log étant donné que leur apparition ne reflète pas le comportement de l'internaute.

Structurer le fichier log :

La structuration des données consiste à identifier les utilisateurs, les sessions et les visites :

Identification des utilisateurs et des sessions : Une session est composée de l'ensemble de pages visitées par le même utilisateur durant la période d'analyse. Plusieurs moyens d'indentification des utilisateurs ont été proposés dans la littérature (login et mot de passe, cookie, IP), cependant, tous ces moyens présentent des défaillances à cause des systèmes de cache, des firewalls et des serveurs proxy. Dans notre cas, nous considérons que deux requêtes provenant de deux adresse IP différents, appartiennent à deux sessions différentes donc elles sont effectuées par deux utilisateurs différents. Toutefois, nous ne pouvons nier la limite inhérente à cette méthode. En effet, une confusion entre deux utilisateurs différents utilisant la même adresse IP est toujours possible surtout en cas d'utilisation d'un serveur Proxy ou d'un firewall.

Identification des visites : Une visite est composée d'une série de requêtes séquentiellement ordonnées, effectuées pendant la même session et ne présentant pas de rupture de séquence de plus de 30 minutes. L'identification des visites sur le site, est effectuée selon la démarche suivante:

Déterminer la durée de consultation des pages. La durée de consultation d'une page est le temps séparant deux requêtes successives. Si la durée de consultation d'une page dépasse 30 minutes alors la page suivante dans la même session est attribuée à une nouvelle visite.

Une fois les visites identifiées, la durée de consultation de la dernière page de chaque visite est obtenue à partir de la moyenne des temps de consultation des pages précédentes appartenant à la même visite.

Les visites composées d'une seule requête ne sont pas considérées car, d'une part, il n'est pas possible d'estimer la durée d'une seule requête, d'autre part, elles sont éliminées dans la phase de retraitement puisqu'elles ne présentent aucun intérêt pour notre analyse.

Prétraitement avancé

Dans cette étape, les données structurées sont enregistrées sous une forme persistante, généralement, dans une base de données. On produit souvent des variables dérivées à partir des premières (requête, utilisateur, session ou visite).

Afin de pouvoir traiter l'information contenue dans la base le plus simplement et le plus efficacement possible, il faut restructurer la base selon le schéma relationnel.

Application de l'algorithme Vpsp sur le fichier Log

Introduits dans [1] et largement étudiés dans [7], les motifs séquentiels peuvent être vus comme une extension de la notion de règles d'association intégrant diverses contraintes temporelles. La recherche de tels motifs consiste ainsi à extraire des enchaînements d'ensembles d'items, couramment associés sur une période de temps bien spécifiée.

L'approche Vpsp (Vertical Prefix-Tree for Sequential Pattern)

L'algorithme Vpsp [4] est un algorithme de type "générer-élaguer" et combine les avantages principaux des algorithmes PSP [6] et SPADE [13] grâce à une nouvelle structure de données en forme d'arbre préfixée (héritée de PSP) couplée à un chargement de la base de données en représentation verticale. Cette union de structure d'arbre et de transformation de bases de données permet :

1. d'optimiser l'espace mémoire utilisé. La différence principale, distinguant notre structure de celle utilisée dans PSP, provient du fait que la base de données n'est parcourue qu'une seule fois tout au long de l'algorithme permettant l'extraction. Lors de cette unique lecture de la base, le premier étage de l'arbre préfixé est construit. Chaque noeud de profondeur 1, représentant un item de la base de données, garde une trace, pour chaque apparition dans la base, du visiteur et de la date d'apparition correspondante. Ce processus reprend donc la transformation de la base de données opérée dans SPADE, pour la projeter dans l'arbre préfixé.

2. de simplifier l'opération de générations (inutilité des classes d'équivalences). Cet algorithme reprend les fondements de la génération des candidats effectuée dans PSP. Cependant, dans Vpsp lorsqu'un candidat est généré, celui-ci se voit attribué un vecteur d'apparition issu de la base de données qui permet de vérifier plus efficacement le comptage du support.

3. de simplifier le comptage du support. Le comptage des séquences candidates tire profit de la structure de données utilisée par Vpsp. En effet, grâce à la liste d'apparition dont dispose chaque candidat, nous pouvons déterminer efficacement le nombre de visiteurs qui ont participés à l'incrémentation du support.

Recommandations pour enrichir l'ontologie

Pour soutenir la gestion de l'ontologie, nous fournissons des recommandations pour la mise à jour de l'ontologie par les techniques du Web Mining, principalement par le Web Usage Mining. Les mises à jour concernent principalement l'extension de l'ontologie qui ne modifie pas complètement l'ontologie initiale:

1. L'ajout d'une feuille concept dans une hiérarchie.

Résultats

Le tableau suivant présente les résultats du prétraitement du fichier Log du site collectées pendant la période allant du 24 Mars au 21 Avril 2008. La nouvelle taille de la base (8.28 % de la taille initiale) montre bien l'importance de l'étape du prétraitement des fichiers Log, en particulier la phase du nettoyage. Cette étape a abouti à des fichiers nettoyés et structurés, prêts à l'analyse par l'application des méthodes de fouille des données.

Afin de pouvoir traiter l'information contenue dans la base le plus simplement et le plus efficacement possible, il faut restructurer la base selon le schéma relationnel. http://www.univ-sba.dz/ http://www.univ-sba.dz/fsi/ http://www.univ-sba.dz/fsi/lmd/progr_LMD/S1-S2.htm Support : 0.009715 Ce comportement a un support de 0,9715%. Cela signifie qu'il correspond à 15 utilisateurs du site Web. Ces utilisateurs sont susceptibles d'être intéressées par le programme du nouveau système LMD.

Pattern 2:

http://www.univ-sba.dz/ http://www.univ-sba.dz/laboratoires.php Support : 0.027202 Ce comportement a un support de 2,7202%. Cela signifie qu'il correspond à 42 utilisateurs du site web. Ces utilisateurs sont susceptibles d'être intéressées par les laboratoires de l'université DJILALI LIABES.

Étape 4 : Mise à jour de l'ontologie L'interprétation des résultats de l'étape précédente nous permet de faire des suggestions en vue d'appuyer la gestion de l'ontologie, et plus précisément d'étendre l'ontologie de base. Après l'étape précédente (extraction des motifs séquentiels), on a trouvé que les internautes ont consultés la page de vice-rectorat (http://www.univ-sba.dz/vrpg) après la page principale du site Web (http://www.univ-sba.dz/). Le concept "Rectorate" n'existe pas dans notre ontologie et pourrait être ajoutée comme le montre la Figure 3. Nous avons également trouvé que plusieurs internaute ont consultés la page du programme LMD (http://www.univ-sba.dz/fsi/lmd/progr_LMD/S1-S2.htm) et aussi la page des cours LMD (http://www.univ-sba.dz/fsi/lmd/courtd.htm). Nous proposons d'ajouter le concept "LMDStudent" sous-concept du concept "UndergraduateStudent".

1 :1Construction de l'ontologieDans cette expérimentation, nous avons utilisé une ontologie qui existe déjà et nous l'avons modifié en fonction de la structure du site Web (UNIVERSITE DJILALI LIABES www.uni-sba.dz) qui a été étudiée.

Fig. 1 .1Fig. 1. L'ontologie du site Web.

Fig. 2 .Étape 3 :23Fig. 2. Schéma relationnel.

Fig. 3 .3Fig. 3. Mise à jour de l'ontologie.

Peu de travaux visant à mettre à jour l'ontologie s'intéressent aux techniques de Web Usage Mining. Parmi ses travaux : Mikroyannidis & Theodoulidis[8] Ici, les auteurs ont proposé une architecture pour l'adaptation des sites Web. Après l'étape de prétraitement des fichiers Log, les algorithmes pour l'extraction des itemsets fréquents sont appliqués afin de produire l'ensemble des pages (pagesets) qui sont souvent accessibles en même temps tout au long de la même session. Les pagesets extraits sont classées en fonction de deux critères. Le premier critère est basé sur la relation entre les pages de chaque pageset,

2. L'ajout d'un sous-arbre de concepts dans la hiérarchie. 3. L'ajout d'une relation entre deux concepts. Notre démarche consiste à fouiller le fichier Log afin d'en extraire des séquences de pages apparaissant fréquemment. Ces motifs séquentiels sont ensuite eux-mêmes analysés afin d'identifier les items représentant de nouveaux concepts. De la même façon, une nouvelle relation entre deux concepts peut être identifiée grâce à l'extraction des patterns séquentiels. L'exemple choisi dans l'expérimentation décrite dans la section suivante nous permet d'illustrer le premier cas.

Étape 2 : Résultats de l'analyse du fichier Log Corpus expérimentalIl est constitué de l'ensemble de requêtes adressées au site (UNIVERSITE DJILALI LIABES www.uni-sba.dz) pendant la période allant du 24 Mars au 21 Avril 2008. Le fichier est composé de 115703 requêtes enregistrées suivant la norme CLF (Common Log Format). Pour chaque requête, nous disposons des champs suivants: la date de réalisation de la requête et l'heure à laquelle elle s'est produite (timestamp), l'adresse IP du client ayant accédé au serveur (client), la méthode i.e. l'action que tentait de réaliser le client (method), la requête que le client a essayé d'effectuer (url), la réponse du serveur (status), la longueur du contenu du document transféré (size).

Table 1 .1Tableau récapitulatif des résultats.

Nombre de requêtes Pourcentage

Nombre des sessions Nombre des visites destinées à l'analyse 1544 2103

selon la topologie du site. Le deuxième critère de classification est basé sur le contenu des pages contenues dans chaque pageset. Une fois que les modifications proposées ont été révisées par le webmaster, elles peuvent être utilisées pour mettre à jour l'ontologie et modifier la structure du site Web.Trousse & all.[12] Les auteurs présentent une approche basée sur l'analyse des usages du site Web. Ensuite, ils appliquent deux techniques de fouille de données sur les fichiers Log : extraction des motifs séquentiels et classification des pages Web dans le but de proposer de nouvelles relations entre les concepts de l'ontologie. L'approche a été illustrée sur un site Web de tourisme.Dans ce travail, nous avons tenté de démontrer l'impact potentiel du Web Usage Mining sur la mise à jour de l'ontologie. Nous avons illustré un tel impact dans le domaine de l'université en examinant le site Web de l'université DJILALI LIABES (http://www.univ-sba.dz/), nous partons d'une ontologie de domaine obtenu grâce à l'adaptation d'une ontologie existante à la structure actuelle du site Web. Ensuite, l'algorithme Vpsp a été appliqué sur le fichier Log généré à partir de ce site. Web Usage Mining fournit des informations pertinentes aux utilisateurs et il est donc un outil très puissant pour la recherche d'information. Le Web Usage Mining peut également être utilisés pour appuyer la modification de la structure du site Web et donner quelques recommandations aux visiteurs.Les résultats de ce travail nous ouvrent des opportunités futures, notamment la possibilité de combiner Usage et Content Mining pour confirmer les mises à jour proposées. Cette combinaison pourrait nous permettre de construire des ontologies selon le contenu des pages Web et de les affiner avec les comportements extraits à partir des fichiers Log.

5Conclusion et perspectives

Mining Sequential Patterns RAgrawal RSrikant Proceedings of the 11th International Conference on Data Engineering (ICDE'95) the 11th International Conference on Data Engineering (ICDE'95)

Tapei, Taiwan

1995 Towards an architecture of ontological components for the semantic web BenMustapha NAufaure M-ABaazhaoui-Zghal H Proceedings of Wism (Web Information Systems Modeling) Workshop, CAiSE 2006 Wism (Web Information Systems Modeling) Workshop, CAiSE 2006

Luxembourg

2006 OntoMiner: Bootstrapping and populating ontologies from domain specific websites HDavulcu SVadrevu SNagarajan Proceedings of the First International Workshop on Semantic Web and Databases (SWDB 2003) the First International Workshop on Semantic Web and Databases (SWDB 2003)

Berlin

2003 VPSP : extraction de motifs séquentiels dans weka LDi-Jorio DJouve DKraemer ASerra CRaissi ALaurent MTeisseire PPoncelet Démonstrations dans les 22émes journées "Bases de Données Avancées 2006 BDA'06 Ontology discovery from web pages: Application to tourism LKaroui M.-AAufaure NBennacer Workshop on Knowledge Discovery and Ontologies (KDO), colocated with ECML/PKDD

Pisa, Italy

2004 The PSP Approach for Mining Sequential Patterns FMasseglia FCathala PPoncelet Proceedings of the 2nd European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD'98) LNAI the 2nd European Symposium on Principles of Data Mining and Knowledge Discovery (PKDD'98)

Nantes, France

1998. September 1998 1510 Algorithmes et applications pour l'extraction de motifs séquentiels dans le domaine de la fouille de données : de l'incrémental au temps réel FMasseglia 2002 Université de versailles St Quentin -France PHD Dissertation A Theoretical Framework and an Implementation Architecture for Self Adaptive Web Sites AMikroyannidis BTheodoulidis Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence (WI'04) the IEEE/WIC/ACM International Conference on Web Intelligence (WI'04)

Beijing, China

2004 Learning domain ontologies from document warehouses and dedicated web sites RNavigli PVelardi Computational Linguistics 30 2 2004 Automatic generation of taxonomies from the WWW DSanchez AMoreno Proceedings of the 5th International Conference on Practical Aspects of Knowledge Management (PAKM 2004) the 5th International Conference on Practical Aspects of Knowledge Management (PAKM 2004)

Vienna, Austria

2004 3336 Semantic web mining : State of the art and future directions GStumme AHotho BBerendt Web Semantics : Science, Services and Agents on the World Wide Web 4 2 2006 Web Usage Mining for Ontology Management BTrousse M.-AAufaure LeGrand BLechevallier YMasseglia F Data Mining with Ontologies: Implementations, Findings and Frameworks NHèctorOscar GonzalezCisaro GSandra Elisabeth XDanielHugo 2007. 2007 Information Science Reference SPADE: An Efficient Algorithm for Mining Frequent Sequences DZaki Machine Learning Kluwer Academic Publishers 2001. 2001 42