=Paper=
{{Paper
|id=Vol-547/paper-72
|storemode=property
|title=Annotation Sémantique De Pages Web
|pdfUrl=https://ceur-ws.org/Vol-547/54.pdf
|volume=Vol-547
|dblpUrl=https://dblp.org/rec/conf/ciia/BenyahiaLL09
}}
==Annotation Sémantique De Pages Web==
Annotation Sémantique De Pages Web
BENYAHIA Kadda1, LEHIRECHE Ahmed1, LATRECHE Abdelkrim1
1
Laboratoire EEDIS, Université Djillali Liabes de Sidi Bel Abbes , ALGERIE
benyahiaka@gmail.com
Abstract. L’annotation d’une page web constitue l’outil qui permet d’associer
une sémantique au contenu de la page. Enrichir le partage d’information,
améliorer les échanges et augmenter l’interopérabilité sur le web sont les
principaux objectifs. En effet, avec la grande masse de données gérées à travers
le monde et surtout avec l’avènement du web, l’annotation manuelle de ces
pages est impossible. Dans cet article nous nous intéressons à l’annotation
semi-automatique de page web, nous présentons un système d’annotation
sémantique de pages web basé sur l’utilisation d’une ontologie. Notre approche
consiste à relier les mots clés représentant la page à annoter aux concepts de
l’ontologie pour aider l’auteur à réaliser l’annotation. Les mots qui entrent dans
la composition de l’annotation sont déterminés à partir d’une analyse mixte : le
calcul du degré de similarité et le calcul de la fréquence.
Keywords: Annotation, Web Sémantique, Ontologie, Degré de Similarité,
Calcul de la Fréquence, RDF.
1 Introduction
Le Web Sémantique essai de répondre à la nécessité d’accéder seulement à
l’information directement utilisable. Cette problématique est née du fait que les
moteurs de recherches n’utilisent que le mot pour découvrir l’objet de la requête d’un
usagé. Une solution serait l’ajout d’une couche sémantique. L’objet de la recherche
devient alors un contenu i .e un sens. Cette solution n’est possible qu’a la condition
que chaque document soit doté d’une couche sémantique. L’annotation en est l’une de
ces solutions.
Annoter c’est accompagner un texte de notes, de remarques, des explications, de
commentaires pour aider leurs lecteurs à le comprendre. Actuellement et avec ce
grand volume d’information, il est difficile d’annoter manuellement des millions de
ressources mises à la disposition des utilisateurs.
L’indexation d’un texte [8], consiste à repérer dans son contenu certains mots ou
expressions particulièrement significatifs (Appelés termes d’indexation) dans un
contexte donné, et à créer un lien entre ces termes et le texte d’origine. Il existe trois
types d’annotation, manuelle : lorsque le document est analysé par un spécialiste du
domaine ou un documentaliste, automatique : lorsque cette tâche est réalisée
complètement par la machine, et semi automatique lorsque une partie se faite
automatiquement et l’intervention du spécialiste est nécessaire pour l’autre partie.
Selon Salton [9], l’indexation manuelle peut conduire à deux indexations différentes
d’une même page.
L’indexation sémantique prend en compte la sémantique des mots, Desmontils [3] a
indexé une page avec des mots clés attachés à une ontologie. Yan Bodain [13] a
proposé un outil d’annotation KATIA qui permet d’annoter une page web, en
sélectionnant une région de texte et en choisissant l’élément de l’ontologie
correspondant dans l’arbre hyperbolique. Baz [2] a présenté un modèle d’annotation
qui construit un noyau sémantique pour chaque document avec les concepts et leur
proximité. L’annotation des documents en utilisant des ontologies de domaine est
pratiquée dans le domaine biopuces [5], le domaine médical, Lylia [6] a utilisé la
technique de propagation des annotations sur les documents en utilisant une
ontologie, Amardeilh [1] a présenté un outil d’annotation Ontopop qui est basé sur la
combinaison des outils d’extraction d’information (EI) avec les outils de
représentation des connaissances du Web service.
La plupart de ses systèmes utilisent le poids sémantique des mots clés de la page dans
leurs démarches d’annotation.
Dans cet article nous présentons un système d’annotation basé sur :1) l’extraction des
mots selon leurs poids sémantiques et leurs valeurs statistiques dans la page (2), ces
mots sont associés aux concepts de l’ontologie.
Le reste de cet article est organisé comme suit : la Section 2 introduit notre démarche
d’annotation de pages web. Nous présentons l’expérimentation dans la Section 3, et
nous finirons par une conclusion et des perspectives dans la Section 4.
2 L’approche
La tâche de notre système consiste à prendre en entrée une page web et fournir en
sortie le même contenu enrichi par des annotations sémantiques basées sur des
représentations de la connaissance plus ou moins formelles.
Afin de réaliser cette tâche, nous nous appuyons sur le contenu qui se traduit par les
mots clés qui représentent le mieux cette page.
Les différentes étapes de l’approche sont schématisées dans la figure 1.
2.1 L’analyse linguistique
Consiste à extraire les termes composants la page web. Le traitement linguistique
représente le document à annoter par un ensemble de termes simples et importants.
Cette extraction est le résultat d’un nettoyage de la page et de la segmentation du
texte.
Mots identifiés
Page web
à
annoter m1,m2,
Extraction des ……… L’analyse linguistique
mot ………
…mn
Analyse
Extraction des mots clés Analyse
statistique sémantique
candidats
Le résultat de chaque
analyse est un sous
ensemble, l’union de ses
sous ensembles est le
résultat de cette phase mc1 , mc2 ,
…………mcn
Ontologie
Extraction des
concepts candidats
Pour chaque mot candidat,
plusieurs concepts (nœuds)
sont proposés et la
Mc1 : c1,c2,……cm sélection reste aux auteurs
Mc2 :ci, ci+1 ,….cn
A chaque mot candidat, on
associé des concepts de L’annotation
l’ontologie, cette association
sera stockée dans le fichier
RDF correspondant à la page
Page annotée
Fig. 1. Schéma synoptique de l’approche proposée
2.2 Sélection des mots clés candidats
Vise à déterminer l’ensemble des mots clés qui représente mieux la page web, cet
ensemble est l’union de deux sous ensembles résultats de l’analyse sémantique et
l’analyse statistique
2.2.1 L’analyse sémantique
Cette analyse consiste à Déterminer le poids d’un mot dans la page web, ce poids
sémantique est calculé en se basant sur la mesure de similarité.
Des mesures de proximité sémantique ont été proposées dans la littérature (une
douzaine) utilisant des structures de réseaux sémantiques ou hiérarchiques :
- Mesure basée sur le chemin (path based measures) entre les deux concepts à
comparer telles que définies par Rada, Leacock ou Jiang en 1997.
- Mesure basée sur la notion de contenu d'information (Information Content ou IC)
telle que celle définie par Wu et Palmer [12] et Resnik.
- Mesure basée sur une combinaison du chemin et du contenu d'information par
D. Lin en 98.
- Mesure basée sur l'algorithme de Lesk que Patwardhan, Banerjee et Pederson en
2003 adapté à WordNet.
Nous avons utilisé la mesure de Wu-Palmer, cette mesure a l'avantage d'être simple à
implémenter et d'avoir d’aussi de bonnes performances que les autres mesures de
similarité selon D. Lin. Son principe est le suivant :
Dans un domaine de concepts, la similarité est définie par rapport à la distance qui
sépare deux concepts dans la hiérarchie et également par leur position par rapport à la
racine. La similarité entre C1 et C2 est :
2 * depth (C ) (1)
Consim (C1, C 2)
depth C (C1) depth C (C 2)
Où C est le PPG de C1 et C2 (en nombre d'arcs), depth (C) est le nombre d'arcs qui
sépare C de la racine et depthc (Ci) avec i le nombre d'arcs qui séparent Ci de la
racine en passant par C.
Dans cette phase , un mot sera acceptée si et seulement s’il est fortement en relation
avec d’autres mots de cette page. Cette décision dépend du choix d’un seuil défini par
l’utilisateur Ce résultat est un ensemble poids_sem.
2.2.2 L’analyse statistique
Déterminer l’importance d’un terme dans une page web, dans cette analyse nous
avons utilisé la technique de pondération des termes car elle permet d'affecter aux
termes d'un document, un poids pour traduire son importance dans le document, donc
son degré d'informativité. Dans cette technique on s’intéresse à la pondération locale
qui mesure la représentativité locale d’un terme. La fonction utilisée est la fonction
normalisée qui permet de réduire les différences entre les valeurs associées aux
termes du document. Elle est donnée par la formule suivante :
tf ij (2)
0.5 0.5
max tDj (tf ij )
Où max ti D j (tf ij ) est la plus grande valeur de tf ij des termes du document Dj.
Le résultat de cette étape est un ensemble de mots nommé degré_signif
Les mots clés candidats = poids_sem degré_signif
2.3 L’extraction des concepts candidats
Dans cette étape on utilise une Ontologie de domaine, nous avons fait un passage des
mots clés candidats à l’ontologie pour définir les concepts correspondants.
A chaque passage d’un terme à l’ontologie, un ensemble de concepts sera présenté
aux auteurs pour choisir les concepts à utiliser dans l’étape de l’annotation.
Cette étape est semi-automatique, la recherche et la proposition se fait par notre
système et le choix des concepts les plus significatifs reste aux auteurs.
L’automatisation de cette tâche fait l’objet de plusieurs recherches
2.4 L’annotation
C’est la dernière phase, elle consiste à associer à chaque mot clé des concepts de
l’ontologie (nœuds).
Après la proposition des concepts candidats, et le choix effectué par l’auteur dans
l’étape précédente, une association entre ces mots et ces concepts élus sera stockée
dans un fichier RDF correspond à la page.
3 Expérimentations et résultats
Nous allons montrer, en utilisant un ensemble de pages web l’intérêt de la démarche
que nous avons proposé pour l’annotation semi-automatique des pages web.
Pour cela nous utilisons 21 pages annotées généralement par des auteurs, notre
démarche consiste à comparer l’annotation obtenue par notre approche qui utilise une
analyse sémantique et une analyse statistique pour la sélection des mots clés candidats
avec celle obtenue par l’utilisation de la technique de calcul de similarité uniquement
dans l’étape de l’extraction des mots clés.
Dans cette étape d’évaluation on a utilisé différentes Ontologie selon le domaine de la
page utilisée pour l’évaluation. nous avons utilisé quatre autre ontologie pour
l’évaluation, La figure 2 présente l’ontologie du domaine « Recherche » un extrait de
PROTEGE2.0..
Afin de représenter le résultat, nous avons défini un indice de qualité d’annotation :
Ac (3)
Iqa [0,1]
Ae
– Ac : nombre d’annotations correctes par page ;
– Ae : nombre d’annotations par page.
Le tableau 3.1 et la figure3 représentent les résultats de la comparaison pour les 21
pages évaluées et la figure 4 présente un extrait du fichier RDF de l’annotation
résultat
Fig. 2. Extrait de l’ontologie du domaine « Recherche ».
Table 1. Les résultats de la comparaison
Méthode Iqa
A- calcul de similarité
0.62
0.71
B- calcul de similarité + calcul de fréquence
100%
90%
80%
70%
60% annotations
50% fausses
40% 71% annotations
30% 62% correctes
20%
10%
0%
A B
Fig. 3. Représentation Des Résultats.
Mathematics
Computer_science
Commerce
Semantic_Web
Fig. 4. Un extrait d’annotation Rdf
4 Conclusion Et Perspectives
Dans cet article nous nous sommes intéressés à l’annotation semi-automatique d’une
page web. Nous proposons une démarche basée sur un calcul sémantique et un calcul
statistique dans l’étape d’extraction des mots candidats de la page à annoter qui
seront ensuite relié à une ontologie de domaine par l’intervention de l’auteur de la
page.
Les résultats des expérimentations donnent 71% d’annotations correctes. Ces
résultats sont très encourageants. La démarche que nous proposons offre des résultats
d’annotation très intéressants tout en satisfaisant le critère du passage à l’échelle qui
est un point très crucial dans un contexte ou la masse de données est très importante.
Comme perspectives, nous projetons d’appliquer notre méthode sur un plus grand
nombre de page Web et d’une complexité plus élevée afin de faire une étude
comparative effective.
Nous travaillons sur l’intégration des connaissances de l’utilisateur dans le processus
d’annotation et l’exploitation de l’annotation dans les systèmes de recherche
d’informations.
Références
1. Amardeilh.F, Web Sémantique et Informatique Linguistique: propositions méthodologiques
et réalisation d’une plateforme logicielle, PhD thesis, institut de recherche en informatique
de toulouse 2007
2. Baziz M, Indexation conceptuelle guidée par ontologie pour la recherche d’information. PhD
thesis, Institut de recherche en informatique de Toulouse, université Paul Sabatier, 2005.
3. Desmontils.E , Jacquin.C, and Morin.E. Indexation sémantique de documents sur le web :
application aux ressources humaines. In Proceedings of Journées de l’AS-CNRS Web
sémantique, Octobre 2002.
4. Doumi N. et Lehireche.A, Une ontologie pour le lexique arabe, in proceeding du 2ème
congrès international de "l'ingénierie de la langue arabe et de l'ingénierie de la langue",
CRSTDLA, UA, 2005.
5. Khelif.K and Dieng-Kuntz. R, Annotations sémantiques pour le domaine des biopuces. In
Proceedings of 15èmes journées francophones d’ingénierie des connaissances, 2004.
6. Lylia.A, Annotation de documents par le contexte de citation basée sur une ontologie. 2006
7. Roberston.S.E et Walker.S, On relevance weights with little relevance information. In
proceeding of the 20th annual international ACM SIGIR conference on Research and
development in information retrieval, pages 16-24. ACM press, 1997.
8. Salton.G , A comparaison between manual and automatic indexing methods. In Proceedings
of Journal of American documentation, 1971.
9. Salton.G , Another look at automatic text-retrieval systems. Commun. ACM, 29(7) :
648–656, 1986.
10.Toumouh.A, Lehireche.A, Widdows.D, Malki.M, Adapting Word Net to the Medical
Domain using Lexicosyntactic Patterns in the Ohsumed Corpus: 4th ACS/IEEE
International Conference on Computer Systems and Applications (AICCSA-06), ,
Dubai/Sharjah, UAE. 2006.
11.Widdows.D, Toumouh.A, Dorow.B, Lehireche.A, Ongoing Developments in Automatically
Adapting Lexical Resources to the Biomedical Domain, International Conference on
Language Resources And Evaluation, Italy, LREC 2006.
12.Wu.z et .Palmer.M, verb semantic and lexical selection, proceedings of the 32nd annual
meeting of the associations for computational linguistics. Pages133-138, 1994
13. Yan Bodain, Logiciel d’annotation pour la conception de cours sur le Web sémantique,
IHM 2006