Annotation Sémantique De Pages Web

Annotation Sémantique De Pages Web BenyahiaKadda benyahiaka@gmail.com Laboratoire EEDIS Université Djillali Liabes de Sidi Bel Abbes

ALGERIE

LehirecheAhmed Laboratoire EEDIS Université Djillali Liabes de Sidi Bel Abbes

ALGERIE

LatrecheAbdelkrim Laboratoire EEDIS Université Djillali Liabes de Sidi Bel Abbes

ALGERIE

Calcul de la Fréquence RDF Degré de Similarité Annotation Sémantique De Pages Web CE69CA15610F3C8E3B09F701E337D01D GROBID - A machine learning software for extracting information from scholarly documents Annotation Web Sémantique Ontologie

L'annotation d'une page web constitue l'outil qui permet d'associer une sémantique au contenu de la page. Enrichir le partage d'information, améliorer les échanges et augmenter l'interopérabilité sur le web sont les principaux objectifs. En effet, avec la grande masse de données gérées à travers le monde et surtout avec l'avènement du web, l'annotation manuelle de ces pages est impossible. Dans cet article nous nous intéressons à l'annotation semi-automatique de page web, nous présentons un système d'annotation sémantique de pages web basé sur l'utilisation d'une ontologie. Notre approche consiste à relier les mots clés représentant la page à annoter aux concepts de l'ontologie pour aider l'auteur à réaliser l'annotation. Les mots qui entrent dans la composition de l'annotation sont déterminés à partir d'une analyse mixte : le calcul du degré de similarité et le calcul de la fréquence.

Introduction

Le Web Sémantique essai de répondre à la nécessité d'accéder seulement à l'information directement utilisable. Cette problématique est née du fait que les moteurs de recherches n'utilisent que le mot pour découvrir l'objet de la requête d'un usagé. Une solution serait l'ajout d'une couche sémantique. L'objet de la recherche devient alors un contenu i .e un sens. Cette solution n'est possible qu'a la condition que chaque document soit doté d'une couche sémantique. L'annotation en est l'une de ces solutions. Annoter c'est accompagner un texte de notes, de remarques, des explications, de commentaires pour aider leurs lecteurs à le comprendre. Actuellement et avec ce grand volume d'information, il est difficile d'annoter manuellement des millions de ressources mises à la disposition des utilisateurs. L'indexation d'un texte [8], consiste à repérer dans son contenu certains mots ou expressions particulièrement significatifs (Appelés termes d'indexation) dans un contexte donné, et à créer un lien entre ces termes et le texte d'origine. Il existe trois types d'annotation, manuelle : lorsque le document est analysé par un spécialiste du domaine ou un documentaliste, automatique : lorsque cette tâche est réalisée complètement par la machine, et semi automatique lorsque une partie se faite automatiquement et l'intervention du spécialiste est nécessaire pour l'autre partie.

Selon Salton [9], l'indexation manuelle peut conduire à deux indexations différentes d'une même page. L'indexation sémantique prend en compte la sémantique des mots, Desmontils [3] a indexé une page avec des mots clés attachés à une ontologie. Yan Bodain [13] a proposé un outil d'annotation KATIA qui permet d'annoter une page web, en sélectionnant une région de texte et en choisissant l'élément de l'ontologie correspondant dans l'arbre hyperbolique. Baz [2] a présenté un modèle d'annotation qui construit un noyau sémantique pour chaque document avec les concepts et leur proximité. L'annotation des documents en utilisant des ontologies de domaine est pratiquée dans le domaine biopuces [5], le domaine médical, Lylia [6] a utilisé la technique de propagation des annotations sur les documents en utilisant une ontologie, Amardeilh [1]

L'approche

La tâche de notre système consiste à prendre en entrée une page web et fournir en sortie le même contenu enrichi par des annotations sémantiques basées sur des représentations de la connaissance plus ou moins formelles. Afin de réaliser cette tâche, nous nous appuyons sur le contenu qui se traduit par les mots clés qui représentent le mieux cette page. Les différentes étapes de l'approche sont schématisées dans la figure 1.

L'analyse linguistique

Consiste à extraire les termes composants la page web. Le traitement linguistique représente le document à annoter par un ensemble de termes simples et importants. Cette extraction est le résultat d'un nettoyage de la page et de la segmentation du texte.

Sélection des mots clés candidats

Vise à déterminer l'ensemble des mots clés qui représente mieux la page web, cet ensemble est l'union de deux sous ensembles résultats de l'analyse sémantique et l'analyse statistique

L'analyse sémantique) 2 ( ) 1 ( ) ( * 2 ) 2 , 1 ( C depth C depth C depth C C Consim C C   (1)

Où C est le PPG de C1 et C2 (en nombre d'arcs), depth (C) est le nombre d'arcs qui sépare C de la racine et depthc (Ci) avec i le nombre d'arcs qui séparent Ci de la racine en passant par C. Dans cette phase , un mot sera acceptée si et seulement s'il est fortement en relation avec d'autres mots de cette page. Cette décision dépend du choix d'un seuil défini par l'utilisateur Ce résultat est un ensemble poids_sem. Le résultat de cette étape est un ensemble de mots nommé degré_signif Les mots clés candidats = poids_sem  degré_signif

L'analyse statistique

L'extraction des concepts candidats

Dans cette étape on utilise une Ontologie de domaine, nous avons fait un passage des mots clés candidats à l'ontologie pour définir les concepts correspondants. A chaque passage d'un terme à l'ontologie, un ensemble de concepts sera présenté aux auteurs pour choisir les concepts à utiliser dans l'étape de l'annotation. Cette étape est semi-automatique, la recherche et la proposition se fait par notre système et le choix des concepts les plus significatifs reste aux auteurs. L'automatisation de cette tâche fait l'objet de plusieurs recherches

L'annotation

C'est la dernière phase, elle consiste à associer à chaque mot clé des concepts de l'ontologie (noeuds). Après la proposition des concepts candidats, et le choix effectué par l'auteur dans l'étape précédente, une association entre ces mots et ces concepts élus sera stockée dans un fichier RDF correspond à la page.

Expérimentations et résultats

Nous allons montrer, en utilisant un ensemble de pages web l'intérêt de la démarche que nous avons proposé pour l'annotation semi-automatique des pages web. Pour cela nous utilisons 21 pages annotées généralement par des auteurs, notre démarche consiste à comparer l'annotation obtenue par notre approche qui utilise une analyse sémantique et une analyse statistique pour la sélection des mots clés candidats avec celle obtenue par l'utilisation de la technique de calcul de similarité uniquement dans l'étape de l'extraction des mots clés. Dans cette étape d'évaluation on a utilisé différentes Ontologie selon le domaine de la page utilisée pour l'évaluation. nous avons utilisé quatre autre ontologie pour l'évaluation, La figure 2

Fig. 1 .1Fig. 1. Schéma synoptique de l'approche proposée

Cette analyse consiste à Déterminer le poids d'un mot dans la page web, ce poids sémantique est calculé en se basant sur la mesure de similarité. Des mesures de proximité sémantique ont été proposées dans la littérature (une douzaine) utilisant des structures de réseaux sémantiques ou hiérarchiques : -Mesure basée sur le chemin (path based measures) entre les deux concepts à comparer telles que définies par Rada, Leacock ou Jiang en 1997. -Mesure basée sur la notion de contenu d'information (Information Content ou IC) telle que celle définie par Wu et Palmer [12] et Resnik. -Mesure basée sur une combinaison du chemin et du contenu d'information par D. Lin en 98. -Mesure basée sur l'algorithme de Lesk que Patwardhan, Banerjee et Pederson en 2003 adapté à WordNet. Nous avons utilisé la mesure de Wu-Palmer, cette mesure a l'avantage d'être simple à implémenter et d'avoir d'aussi de bonnes performances que les autres mesures de similarité selon D. Lin. Son principe est le suivant : Dans un domaine de concepts, la similarité est définie par rapport à la distance qui sépare deux concepts dans la hiérarchie et également par leur position par rapport à la racine. La similarité entre C1 et C2 est :

Déterminer l'importance d'un terme dans une page web, dans cette analyse nous avons utilisé la technique de pondération des termes car elle permet d'affecter aux termes d'un document, un poids pour traduire son importance dans le document, donc son degré d'informativité. Dans cette technique on s'intéresse à la pondération locale qui mesure la représentativité locale d'un terme. La fonction utilisée est la fonction normalisée qui permet de réduire les différences entre les valeurs associées aux termes du document. Elle est donnée par la formule suivante : grande valeur de ij tf des termes du document Dj.

-présente l'ontologie du domaine « Recherche » un extrait de PROTEGE2.0.. Afin de représenter le résultat, nous avons défini un indice de qualité d'annotation : Ac : nombre d'annotations correctes par page ; -Ae : nombre d'annotations par page. Le tableau 3.1 et la figure3 représentent les résultats de la comparaison pour les 21 pages évaluées et la figure 4 présente un extrait du fichier RDF de l'annotation résultat

Fig. 2 .2Fig. 2. Extrait de l'ontologie du domaine « Recherche ».

Table 1 .1Les résultats de la comparaisonComme perspectives, nous projetons d'appliquer notre méthode sur un plus grand nombre de page Web et d'une complexité plus élevée afin de faire une étude comparative effective. Nous travaillons sur l'intégration des connaissances de l'utilisateur dans le processus d'annotation et l'exploitation de l'annotation dans les systèmes de recherche d'informations.MéthodeIqaA-calcul de similarité0.62B-calcul de similarité + calcul de fréquence0.71

<rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:Inst="D:/annotation/Ontologies/Institute#"> <rdf:Description rdf:about="file:/D:/Annotation/Exemples/univ.htm"> <rdf:type rdf:resource=" D:/annotation/Ontologies/Institute# "/

Web Sémantique et Informatique Linguistique: propositions méthodologiques et réalisation d'une plateforme logicielle Amardeilh 2007 institut de recherche en informatique de toulouse Indexation conceptuelle guidée par ontologie pour la recherche d'information MBaziz 2005 Institut de recherche en informatique de Toulouse, université Paul Sabatier PhD thesis Indexation sémantique de documents sur le web : application aux ressources humaines JacquinE CDesmontils MorinE Proceedings of Journées de l'AS-CNRS Web sémantique Journées de l'AS-CNRS Web sémantique Octobre 2002 Une ontologie pour le lexique arabe, in proceeding du 2 ème congrès international de "l'ingénierie de la langue arabe et de l'ingénierie de la langue NDoumi Et Lehireche 2005 CRSTDLA UA Annotations sémantiques pour le domaine des biopuces .KKhelif Dieng-Kuntz Proceedings of 15 èmes journées francophones d'ingénierie des connaissances 15 èmes journées francophones d'ingénierie des connaissances 2004 Annotation de documents par le contexte de citation basée sur une ontologie Lylia 2006 On relevance weights with little relevance information S ERoberston Walker proceeding of the 20th annual international ACM SIGIR conference on Research and development in information retrieval eeding of the 20th annual international ACM SIGIR conference on Research and development in information retrieval ACM press 1997 A comparaison between manual and automatic indexing methods Salton Proceedings of Journal of American documentation Journal of American documentation 1971 Another look at automatic text-retrieval systems Salton Commun. ACM 29 7 1986 Adapting Word Net to the Medical Domain using Lexicosyntactic Patterns in the Ohsumed Corpus AToumouh ALehireche DWiddows Malki 4th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA-06)

Dubai/Sharjah, UAE

2006 Ongoing Developments in Automatically Adapting Lexical Resources to the Biomedical Domain DWiddows AToumouh LehirecheBDorow International Conference on Language Resources And Evaluation

Italy; LREC

2006 verb semantic and lexical selection Wu Palmer proceedings of the 32nd annual meeting of the associations for computational linguistics the 32nd annual meeting of the associations for computational linguistics 1994 Logiciel d'annotation pour la conception de cours sur le Web sémantique YanBodain 2006 IHM