Annotation Sémantique De Pages Web BENYAHIA Kadda1, LEHIRECHE Ahmed1, LATRECHE Abdelkrim1 1 Laboratoire EEDIS, Université Djillali Liabes de Sidi Bel Abbes , ALGERIE benyahiaka@gmail.com Abstract. L’annotation d’une page web constitue l’outil qui permet d’associer une sémantique au contenu de la page. Enrichir le partage d’information, améliorer les échanges et augmenter l’interopérabilité sur le web sont les principaux objectifs. En effet, avec la grande masse de données gérées à travers le monde et surtout avec l’avènement du web, l’annotation manuelle de ces pages est impossible. Dans cet article nous nous intéressons à l’annotation semi-automatique de page web, nous présentons un système d’annotation sémantique de pages web basé sur l’utilisation d’une ontologie. Notre approche consiste à relier les mots clés représentant la page à annoter aux concepts de l’ontologie pour aider l’auteur à réaliser l’annotation. Les mots qui entrent dans la composition de l’annotation sont déterminés à partir d’une analyse mixte : le calcul du degré de similarité et le calcul de la fréquence. Keywords: Annotation, Web Sémantique, Ontologie, Degré de Similarité, Calcul de la Fréquence, RDF. 1 Introduction Le Web Sémantique essai de répondre à la nécessité d’accéder seulement à l’information directement utilisable. Cette problématique est née du fait que les moteurs de recherches n’utilisent que le mot pour découvrir l’objet de la requête d’un usagé. Une solution serait l’ajout d’une couche sémantique. L’objet de la recherche devient alors un contenu i .e un sens. Cette solution n’est possible qu’a la condition que chaque document soit doté d’une couche sémantique. L’annotation en est l’une de ces solutions. Annoter c’est accompagner un texte de notes, de remarques, des explications, de commentaires pour aider leurs lecteurs à le comprendre. Actuellement et avec ce grand volume d’information, il est difficile d’annoter manuellement des millions de ressources mises à la disposition des utilisateurs. L’indexation d’un texte [8], consiste à repérer dans son contenu certains mots ou expressions particulièrement significatifs (Appelés termes d’indexation) dans un contexte donné, et à créer un lien entre ces termes et le texte d’origine. Il existe trois types d’annotation, manuelle : lorsque le document est analysé par un spécialiste du domaine ou un documentaliste, automatique : lorsque cette tâche est réalisée complètement par la machine, et semi automatique lorsque une partie se faite automatiquement et l’intervention du spécialiste est nécessaire pour l’autre partie. Selon Salton [9], l’indexation manuelle peut conduire à deux indexations différentes d’une même page. L’indexation sémantique prend en compte la sémantique des mots, Desmontils [3] a indexé une page avec des mots clés attachés à une ontologie. Yan Bodain [13] a proposé un outil d’annotation KATIA qui permet d’annoter une page web, en sélectionnant une région de texte et en choisissant l’élément de l’ontologie correspondant dans l’arbre hyperbolique. Baz [2] a présenté un modèle d’annotation qui construit un noyau sémantique pour chaque document avec les concepts et leur proximité. L’annotation des documents en utilisant des ontologies de domaine est pratiquée dans le domaine biopuces [5], le domaine médical, Lylia [6] a utilisé la technique de propagation des annotations sur les documents en utilisant une ontologie, Amardeilh [1] a présenté un outil d’annotation Ontopop qui est basé sur la combinaison des outils d’extraction d’information (EI) avec les outils de représentation des connaissances du Web service. La plupart de ses systèmes utilisent le poids sémantique des mots clés de la page dans leurs démarches d’annotation. Dans cet article nous présentons un système d’annotation basé sur :1) l’extraction des mots selon leurs poids sémantiques et leurs valeurs statistiques dans la page (2), ces mots sont associés aux concepts de l’ontologie. Le reste de cet article est organisé comme suit : la Section 2 introduit notre démarche d’annotation de pages web. Nous présentons l’expérimentation dans la Section 3, et nous finirons par une conclusion et des perspectives dans la Section 4. 2 L’approche La tâche de notre système consiste à prendre en entrée une page web et fournir en sortie le même contenu enrichi par des annotations sémantiques basées sur des représentations de la connaissance plus ou moins formelles. Afin de réaliser cette tâche, nous nous appuyons sur le contenu qui se traduit par les mots clés qui représentent le mieux cette page. Les différentes étapes de l’approche sont schématisées dans la figure 1. 2.1 L’analyse linguistique Consiste à extraire les termes composants la page web. Le traitement linguistique représente le document à annoter par un ensemble de termes simples et importants. Cette extraction est le résultat d’un nettoyage de la page et de la segmentation du texte. Mots identifiés Page web à annoter m1,m2,  Extraction des ……… L’analyse linguistique mot ……… …mn  Analyse Extraction des mots clés Analyse statistique sémantique candidats Le résultat de chaque analyse est un sous ensemble, l’union de ses  sous ensembles est le résultat de cette phase mc1 , mc2 , …………mcn Ontologie  Extraction des concepts candidats Pour chaque mot candidat, plusieurs concepts (nœuds) sont proposés et la Mc1 : c1,c2,……cm sélection reste aux auteurs Mc2 :ci, ci+1 ,….cn  A chaque mot candidat, on associé des concepts de L’annotation l’ontologie, cette association sera stockée dans le fichier RDF correspondant à la page Page annotée Fig. 1. Schéma synoptique de l’approche proposée 2.2 Sélection des mots clés candidats Vise à déterminer l’ensemble des mots clés qui représente mieux la page web, cet ensemble est l’union de deux sous ensembles résultats de l’analyse sémantique et l’analyse statistique 2.2.1 L’analyse sémantique Cette analyse consiste à Déterminer le poids d’un mot dans la page web, ce poids sémantique est calculé en se basant sur la mesure de similarité. Des mesures de proximité sémantique ont été proposées dans la littérature (une douzaine) utilisant des structures de réseaux sémantiques ou hiérarchiques : - Mesure basée sur le chemin (path based measures) entre les deux concepts à comparer telles que définies par Rada, Leacock ou Jiang en 1997. - Mesure basée sur la notion de contenu d'information (Information Content ou IC) telle que celle définie par Wu et Palmer [12] et Resnik. - Mesure basée sur une combinaison du chemin et du contenu d'information par D. Lin en 98. - Mesure basée sur l'algorithme de Lesk que Patwardhan, Banerjee et Pederson en 2003 adapté à WordNet. Nous avons utilisé la mesure de Wu-Palmer, cette mesure a l'avantage d'être simple à implémenter et d'avoir d’aussi de bonnes performances que les autres mesures de similarité selon D. Lin. Son principe est le suivant : Dans un domaine de concepts, la similarité est définie par rapport à la distance qui sépare deux concepts dans la hiérarchie et également par leur position par rapport à la racine. La similarité entre C1 et C2 est : 2 * depth (C ) (1) Consim (C1, C 2)  depth C (C1)  depth C (C 2) Où C est le PPG de C1 et C2 (en nombre d'arcs), depth (C) est le nombre d'arcs qui sépare C de la racine et depthc (Ci) avec i le nombre d'arcs qui séparent Ci de la racine en passant par C. Dans cette phase , un mot sera acceptée si et seulement s’il est fortement en relation avec d’autres mots de cette page. Cette décision dépend du choix d’un seuil défini par l’utilisateur Ce résultat est un ensemble poids_sem. 2.2.2 L’analyse statistique Déterminer l’importance d’un terme dans une page web, dans cette analyse nous avons utilisé la technique de pondération des termes car elle permet d'affecter aux termes d'un document, un poids pour traduire son importance dans le document, donc son degré d'informativité. Dans cette technique on s’intéresse à la pondération locale qui mesure la représentativité locale d’un terme. La fonction utilisée est la fonction normalisée qui permet de réduire les différences entre les valeurs associées aux termes du document. Elle est donnée par la formule suivante : tf ij (2) 0.5  0.5 max tDj (tf ij ) Où max ti D j (tf ij ) est la plus grande valeur de tf ij des termes du document Dj. Le résultat de cette étape est un ensemble de mots nommé degré_signif Les mots clés candidats = poids_sem  degré_signif 2.3 L’extraction des concepts candidats Dans cette étape on utilise une Ontologie de domaine, nous avons fait un passage des mots clés candidats à l’ontologie pour définir les concepts correspondants. A chaque passage d’un terme à l’ontologie, un ensemble de concepts sera présenté aux auteurs pour choisir les concepts à utiliser dans l’étape de l’annotation. Cette étape est semi-automatique, la recherche et la proposition se fait par notre système et le choix des concepts les plus significatifs reste aux auteurs. L’automatisation de cette tâche fait l’objet de plusieurs recherches 2.4 L’annotation C’est la dernière phase, elle consiste à associer à chaque mot clé des concepts de l’ontologie (nœuds). Après la proposition des concepts candidats, et le choix effectué par l’auteur dans l’étape précédente, une association entre ces mots et ces concepts élus sera stockée dans un fichier RDF correspond à la page. 3 Expérimentations et résultats Nous allons montrer, en utilisant un ensemble de pages web l’intérêt de la démarche que nous avons proposé pour l’annotation semi-automatique des pages web. Pour cela nous utilisons 21 pages annotées généralement par des auteurs, notre démarche consiste à comparer l’annotation obtenue par notre approche qui utilise une analyse sémantique et une analyse statistique pour la sélection des mots clés candidats avec celle obtenue par l’utilisation de la technique de calcul de similarité uniquement dans l’étape de l’extraction des mots clés. Dans cette étape d’évaluation on a utilisé différentes Ontologie selon le domaine de la page utilisée pour l’évaluation. nous avons utilisé quatre autre ontologie pour l’évaluation, La figure 2 présente l’ontologie du domaine « Recherche » un extrait de PROTEGE2.0.. Afin de représenter le résultat, nous avons défini un indice de qualité d’annotation : Ac (3) Iqa   [0,1] Ae – Ac : nombre d’annotations correctes par page ; – Ae : nombre d’annotations par page. Le tableau 3.1 et la figure3 représentent les résultats de la comparaison pour les 21 pages évaluées et la figure 4 présente un extrait du fichier RDF de l’annotation résultat Fig. 2. Extrait de l’ontologie du domaine « Recherche ». Table 1. Les résultats de la comparaison Méthode Iqa A- calcul de similarité 0.62 0.71 B- calcul de similarité + calcul de fréquence 100% 90% 80% 70% 60% annotations 50% fausses 40% 71% annotations 30% 62% correctes 20% 10% 0% A B Fig. 3. Représentation Des Résultats. Mathematics Computer_science Commerce Semantic_Web Fig. 4. Un extrait d’annotation Rdf 4 Conclusion Et Perspectives Dans cet article nous nous sommes intéressés à l’annotation semi-automatique d’une page web. Nous proposons une démarche basée sur un calcul sémantique et un calcul statistique dans l’étape d’extraction des mots candidats de la page à annoter qui seront ensuite relié à une ontologie de domaine par l’intervention de l’auteur de la page. Les résultats des expérimentations donnent 71% d’annotations correctes. Ces résultats sont très encourageants. La démarche que nous proposons offre des résultats d’annotation très intéressants tout en satisfaisant le critère du passage à l’échelle qui est un point très crucial dans un contexte ou la masse de données est très importante. Comme perspectives, nous projetons d’appliquer notre méthode sur un plus grand nombre de page Web et d’une complexité plus élevée afin de faire une étude comparative effective. Nous travaillons sur l’intégration des connaissances de l’utilisateur dans le processus d’annotation et l’exploitation de l’annotation dans les systèmes de recherche d’informations. Références 1. Amardeilh.F, Web Sémantique et Informatique Linguistique: propositions méthodologiques et réalisation d’une plateforme logicielle, PhD thesis, institut de recherche en informatique de toulouse 2007 2. Baziz M, Indexation conceptuelle guidée par ontologie pour la recherche d’information. PhD thesis, Institut de recherche en informatique de Toulouse, université Paul Sabatier, 2005. 3. Desmontils.E , Jacquin.C, and Morin.E. Indexation sémantique de documents sur le web : application aux ressources humaines. In Proceedings of Journées de l’AS-CNRS Web sémantique, Octobre 2002. 4. Doumi N. et Lehireche.A, Une ontologie pour le lexique arabe, in proceeding du 2ème congrès international de "l'ingénierie de la langue arabe et de l'ingénierie de la langue", CRSTDLA, UA, 2005. 5. Khelif.K and Dieng-Kuntz. R, Annotations sémantiques pour le domaine des biopuces. In Proceedings of 15èmes journées francophones d’ingénierie des connaissances, 2004. 6. Lylia.A, Annotation de documents par le contexte de citation basée sur une ontologie. 2006 7. Roberston.S.E et Walker.S, On relevance weights with little relevance information. In proceeding of the 20th annual international ACM SIGIR conference on Research and development in information retrieval, pages 16-24. ACM press, 1997. 8. Salton.G , A comparaison between manual and automatic indexing methods. In Proceedings of Journal of American documentation, 1971. 9. Salton.G , Another look at automatic text-retrieval systems. Commun. ACM, 29(7) : 648–656, 1986. 10.Toumouh.A, Lehireche.A, Widdows.D, Malki.M, Adapting Word Net to the Medical Domain using Lexicosyntactic Patterns in the Ohsumed Corpus: 4th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA-06), , Dubai/Sharjah, UAE. 2006. 11.Widdows.D, Toumouh.A, Dorow.B, Lehireche.A, Ongoing Developments in Automatically Adapting Lexical Resources to the Biomedical Domain, International Conference on Language Resources And Evaluation, Italy, LREC 2006. 12.Wu.z et .Palmer.M, verb semantic and lexical selection, proceedings of the 32nd annual meeting of the associations for computational linguistics. Pages133-138, 1994 13. Yan Bodain, Logiciel d’annotation pour la conception de cours sur le Web sémantique, IHM 2006