<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="fr">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Annotation Sémantique De Pages Web</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author role="corresp">
							<persName><forename type="first">Benyahia</forename><surname>Kadda</surname></persName>
							<email>benyahiaka@gmail.com</email>
							<affiliation key="aff0">
								<orgName type="laboratory">Laboratoire EEDIS</orgName>
								<orgName type="institution">Université Djillali Liabes de Sidi Bel Abbes</orgName>
								<address>
									<country>ALGERIE</country>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">Lehireche</forename><surname>Ahmed</surname></persName>
							<affiliation key="aff0">
								<orgName type="laboratory">Laboratoire EEDIS</orgName>
								<orgName type="institution">Université Djillali Liabes de Sidi Bel Abbes</orgName>
								<address>
									<country>ALGERIE</country>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">Latreche</forename><surname>Abdelkrim</surname></persName>
							<affiliation key="aff0">
								<orgName type="laboratory">Laboratoire EEDIS</orgName>
								<orgName type="institution">Université Djillali Liabes de Sidi Bel Abbes</orgName>
								<address>
									<country>ALGERIE</country>
								</address>
							</affiliation>
						</author>
						<author>
							<affiliation key="aff1">
								<orgName type="department" key="dep1">Calcul de la Fréquence</orgName>
								<orgName type="department" key="dep2">RDF</orgName>
								<orgName type="laboratory">Degré de Similarité</orgName>
							</affiliation>
						</author>
						<title level="a" type="main">Annotation Sémantique De Pages Web</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">CE69CA15610F3C8E3B09F701E337D01D</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T00:19+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<textClass>
				<keywords>
					<term>Annotation</term>
					<term>Web Sémantique</term>
					<term>Ontologie</term>
				</keywords>
			</textClass>
			<abstract>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>L'annotation d'une page web constitue l'outil qui permet d'associer une sémantique au contenu de la page. Enrichir le partage d'information, améliorer les échanges et augmenter l'interopérabilité sur le web sont les principaux objectifs. En effet, avec la grande masse de données gérées à travers le monde et surtout avec l'avènement du web, l'annotation manuelle de ces pages est impossible. Dans cet article nous nous intéressons à l'annotation semi-automatique de page web, nous présentons un système d'annotation sémantique de pages web basé sur l'utilisation d'une ontologie. Notre approche consiste à relier les mots clés représentant la page à annoter aux concepts de l'ontologie pour aider l'auteur à réaliser l'annotation. Les mots qui entrent dans la composition de l'annotation sont déterminés à partir d'une analyse mixte : le calcul du degré de similarité et le calcul de la fréquence.</p></div>
			</abstract>
		</profileDesc>
	</teiHeader>
	<text xml:lang="fr">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1">Introduction</head><p>Le Web Sémantique essai de répondre à la nécessité d'accéder seulement à l'information directement utilisable. Cette problématique est née du fait que les moteurs de recherches n'utilisent que le mot pour découvrir l'objet de la requête d'un usagé. Une solution serait l'ajout d'une couche sémantique. L'objet de la recherche devient alors un contenu i .e un sens. Cette solution n'est possible qu'a la condition que chaque document soit doté d'une couche sémantique. L'annotation en est l'une de ces solutions. Annoter c'est accompagner un texte de notes, de remarques, des explications, de commentaires pour aider leurs lecteurs à le comprendre. Actuellement et avec ce grand volume d'information, il est difficile d'annoter manuellement des millions de ressources mises à la disposition des utilisateurs. L'indexation d'un texte <ref type="bibr" target="#b7">[8]</ref>, consiste à repérer dans son contenu certains mots ou expressions particulièrement significatifs (Appelés termes d'indexation) dans un contexte donné, et à créer un lien entre ces termes et le texte d'origine. Il existe trois types d'annotation, manuelle : lorsque le document est analysé par un spécialiste du domaine ou un documentaliste, automatique : lorsque cette tâche est réalisée complètement par la machine, et semi automatique lorsque une partie se faite automatiquement et l'intervention du spécialiste est nécessaire pour l'autre partie.</p><p>Selon Salton <ref type="bibr" target="#b8">[9]</ref>, l'indexation manuelle peut conduire à deux indexations différentes d'une même page. L'indexation sémantique prend en compte la sémantique des mots, Desmontils <ref type="bibr" target="#b2">[3]</ref> a indexé une page avec des mots clés attachés à une ontologie. Yan Bodain <ref type="bibr" target="#b12">[13]</ref> a proposé un outil d'annotation KATIA qui permet d'annoter une page web, en sélectionnant une région de texte et en choisissant l'élément de l'ontologie correspondant dans l'arbre hyperbolique. Baz <ref type="bibr" target="#b1">[2]</ref> a présenté un modèle d'annotation qui construit un noyau sémantique pour chaque document avec les concepts et leur proximité. L'annotation des documents en utilisant des ontologies de domaine est pratiquée dans le domaine biopuces <ref type="bibr" target="#b4">[5]</ref>, le domaine médical, Lylia <ref type="bibr" target="#b5">[6]</ref> a utilisé la technique de propagation des annotations sur les documents en utilisant une ontologie, Amardeilh <ref type="bibr" target="#b0">[1]</ref>  </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2">L'approche</head><p>La tâche de notre système consiste à prendre en entrée une page web et fournir en sortie le même contenu enrichi par des annotations sémantiques basées sur des représentations de la connaissance plus ou moins formelles. Afin de réaliser cette tâche, nous nous appuyons sur le contenu qui se traduit par les mots clés qui représentent le mieux cette page. Les différentes étapes de l'approche sont schématisées dans la figure 1.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.1">L'analyse linguistique</head><p>Consiste à extraire les termes composants la page web. Le traitement linguistique représente le document à annoter par un ensemble de termes simples et importants. Cette extraction est le résultat d'un nettoyage de la page et de la segmentation du texte. </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.2">Sélection des mots clés candidats</head><p>Vise à déterminer l'ensemble des mots clés qui représente mieux la page web, cet ensemble est l'union de deux sous ensembles résultats de l'analyse sémantique et l'analyse statistique </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.2.1">L'analyse sémantique</head><formula xml:id="formula_0">) 2 ( ) 1 ( ) ( * 2 ) 2 , 1 ( C depth C depth C depth C C Consim C C   (1)</formula><p>Où C est le PPG de C1 et C2 (en nombre d'arcs), depth (C) est le nombre d'arcs qui sépare C de la racine et depthc (Ci) avec i le nombre d'arcs qui séparent Ci de la racine en passant par C. Dans cette phase , un mot sera acceptée si et seulement s'il est fortement en relation avec d'autres mots de cette page. Cette décision dépend du choix d'un seuil défini par l'utilisateur Ce résultat est un ensemble poids_sem. Le résultat de cette étape est un ensemble de mots nommé degré_signif Les mots clés candidats = poids_sem  degré_signif</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.2.2">L'analyse statistique</head></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.3">L'extraction des concepts candidats</head><p>Dans cette étape on utilise une Ontologie de domaine, nous avons fait un passage des mots clés candidats à l'ontologie pour définir les concepts correspondants. A chaque passage d'un terme à l'ontologie, un ensemble de concepts sera présenté aux auteurs pour choisir les concepts à utiliser dans l'étape de l'annotation. Cette étape est semi-automatique, la recherche et la proposition se fait par notre système et le choix des concepts les plus significatifs reste aux auteurs. L'automatisation de cette tâche fait l'objet de plusieurs recherches</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.4">L'annotation</head><p>C'est la dernière phase, elle consiste à associer à chaque mot clé des concepts de l'ontologie (noeuds). Après la proposition des concepts candidats, et le choix effectué par l'auteur dans l'étape précédente, une association entre ces mots et ces concepts élus sera stockée dans un fichier RDF correspond à la page.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3">Expérimentations et résultats</head><p>Nous allons montrer, en utilisant un ensemble de pages web l'intérêt de la démarche que nous avons proposé pour l'annotation semi-automatique des pages web. Pour cela nous utilisons 21 pages annotées généralement par des auteurs, notre démarche consiste à comparer l'annotation obtenue par notre approche qui utilise une analyse sémantique et une analyse statistique pour la sélection des mots clés candidats avec celle obtenue par l'utilisation de la technique de calcul de similarité uniquement dans l'étape de l'extraction des mots clés. Dans cette étape d'évaluation on a utilisé différentes Ontologie selon le domaine de la page utilisée pour l'évaluation. nous avons utilisé quatre autre ontologie pour l'évaluation, La figure <ref type="figure" target="#fig_4">2</ref>    </p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>Fig. 1 .</head><label>1</label><figDesc>Fig. 1. Schéma synoptique de l'approche proposée</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_1"><head></head><label></label><figDesc>Cette analyse consiste à Déterminer le poids d'un mot dans la page web, ce poids sémantique est calculé en se basant sur la mesure de similarité. Des mesures de proximité sémantique ont été proposées dans la littérature (une douzaine) utilisant des structures de réseaux sémantiques ou hiérarchiques : -Mesure basée sur le chemin (path based measures) entre les deux concepts à comparer telles que définies par Rada, Leacock ou Jiang en 1997. -Mesure basée sur la notion de contenu d'information (Information Content ou IC) telle que celle définie par Wu et Palmer [12] et Resnik. -Mesure basée sur une combinaison du chemin et du contenu d'information par D. Lin en 98. -Mesure basée sur l'algorithme de Lesk que Patwardhan, Banerjee et Pederson en 2003 adapté à WordNet. Nous avons utilisé la mesure de Wu-Palmer, cette mesure a l'avantage d'être simple à implémenter et d'avoir d'aussi de bonnes performances que les autres mesures de similarité selon D. Lin. Son principe est le suivant : Dans un domaine de concepts, la similarité est définie par rapport à la distance qui sépare deux concepts dans la hiérarchie et également par leur position par rapport à la racine. La similarité entre C1 et C2 est :</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_2"><head></head><label></label><figDesc>Déterminer l'importance d'un terme dans une page web, dans cette analyse nous avons utilisé la technique de pondération des termes car elle permet d'affecter aux termes d'un document, un poids pour traduire son importance dans le document, donc son degré d'informativité. Dans cette technique on s'intéresse à la pondération locale qui mesure la représentativité locale d'un terme. La fonction utilisée est la fonction normalisée qui permet de réduire les différences entre les valeurs associées aux termes du document. Elle est donnée par la formule suivante : grande valeur de ij tf des termes du document Dj.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_3"><head>-</head><label></label><figDesc>présente l'ontologie du domaine « Recherche » un extrait de PROTEGE2.0.. Afin de représenter le résultat, nous avons défini un indice de qualité d'annotation : Ac : nombre d'annotations correctes par page ; -Ae : nombre d'annotations par page. Le tableau 3.1 et la figure3 représentent les résultats de la comparaison pour les 21 pages évaluées et la figure 4 présente un extrait du fichier RDF de l'annotation résultat</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_4"><head>Fig. 2 .</head><label>2</label><figDesc>Fig. 2. Extrait de l'ontologie du domaine « Recherche ».</figDesc><graphic coords="6,200.87,303.86,184.88,229.50" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_1"><head>Table 1 .</head><label>1</label><figDesc>Les résultats de la comparaisonComme perspectives, nous projetons d'appliquer notre méthode sur un plus grand nombre de page Web et d'une complexité plus élevée afin de faire une étude comparative effective. Nous travaillons sur l'intégration des connaissances de l'utilisateur dans le processus d'annotation et l'exploitation de l'annotation dans les systèmes de recherche d'informations.</figDesc><table><row><cell>Méthode</cell><cell>Iqa</cell></row><row><cell>A-calcul de similarité</cell><cell>0.62</cell></row><row><cell>B-calcul de similarité + calcul de fréquence</cell><cell>0.71</cell></row></table><note>&lt;rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:Inst="D:/annotation/Ontologies/Institute#"&gt; &lt;rdf:Description rdf:about="file:/D:/Annotation/Exemples/univ.htm"&gt; &lt;rdf:type rdf:resource=" D:/annotation/Ontologies/Institute# "/</note></figure>
		</body>
		<back>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<monogr>
		<title level="m" type="main">Web Sémantique et Informatique Linguistique: propositions méthodologiques et réalisation d&apos;une plateforme logicielle</title>
		<author>
			<persName><surname>Amardeilh</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2007">2007</date>
		</imprint>
	</monogr>
	<note type="report_type">institut de recherche en informatique de toulouse</note>
</biblStruct>

<biblStruct xml:id="b1">
	<monogr>
		<title level="m" type="main">Indexation conceptuelle guidée par ontologie pour la recherche d&apos;information</title>
		<author>
			<persName><forename type="first">M</forename><surname>Baziz</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2005">2005</date>
		</imprint>
		<respStmt>
			<orgName>Institut de recherche en informatique de Toulouse, université Paul Sabatier</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">PhD thesis</note>
</biblStruct>

<biblStruct xml:id="b2">
	<analytic>
		<title level="a" type="main">Indexation sémantique de documents sur le web : application aux ressources humaines</title>
		<author>
			<persName><forename type="first">Jacquin</forename><forename type="middle">E C</forename><surname>Desmontils</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Morin</forename><forename type="middle">E</forename></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proceedings of Journées de l&apos;AS-CNRS Web sémantique</title>
				<meeting>Journées de l&apos;AS-CNRS Web sémantique</meeting>
		<imprint>
			<date type="published" when="2002-10">Octobre 2002</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b3">
	<monogr>
		<title level="m" type="main">Une ontologie pour le lexique arabe, in proceeding du 2 ème congrès international de &quot;l&apos;ingénierie de la langue arabe et de l&apos;ingénierie de la langue</title>
		<author>
			<persName><forename type="first">N</forename><surname>Doumi</surname></persName>
		</author>
		<author>
			<persName><surname>Et Lehireche</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2005">2005</date>
			<publisher>CRSTDLA</publisher>
			<pubPlace>UA</pubPlace>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b4">
	<analytic>
		<title level="a" type="main">Annotations sémantiques pour le domaine des biopuces</title>
		<author>
			<persName><forename type="first">.</forename><forename type="middle">K</forename><surname>Khelif</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Dieng-Kuntz</forename></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proceedings of 15 èmes journées francophones d&apos;ingénierie des connaissances</title>
				<meeting>15 èmes journées francophones d&apos;ingénierie des connaissances</meeting>
		<imprint>
			<date type="published" when="2004">2004</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<monogr>
		<title level="m" type="main">Annotation de documents par le contexte de citation basée sur une ontologie</title>
		<author>
			<persName><surname>Lylia</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<analytic>
		<title level="a" type="main">On relevance weights with little relevance information</title>
		<author>
			<persName><forename type="middle">S E</forename><surname>Roberston</surname></persName>
		</author>
		<author>
			<persName><surname>Walker</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">proceeding of the 20th annual international ACM SIGIR conference on Research and development in information retrieval</title>
				<meeting>eeding of the 20th annual international ACM SIGIR conference on Research and development in information retrieval</meeting>
		<imprint>
			<publisher>ACM press</publisher>
			<date type="published" when="1997">1997</date>
			<biblScope unit="page" from="16" to="24" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<analytic>
		<title level="a" type="main">A comparaison between manual and automatic indexing methods</title>
		<author>
			<persName><surname>Salton</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proceedings of Journal of American documentation</title>
				<meeting>Journal of American documentation</meeting>
		<imprint>
			<date type="published" when="1971">1971</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<analytic>
		<title level="a" type="main">Another look at automatic text-retrieval systems</title>
		<author>
			<persName><surname>Salton</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Commun. ACM</title>
		<imprint>
			<biblScope unit="volume">29</biblScope>
			<biblScope unit="issue">7</biblScope>
			<biblScope unit="page" from="648" to="656" />
			<date type="published" when="1986">1986</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<analytic>
		<title level="a" type="main">Adapting Word Net to the Medical Domain using Lexicosyntactic Patterns in the Ohsumed Corpus</title>
		<author>
			<persName><forename type="middle">A</forename><surname>Toumouh</surname></persName>
		</author>
		<author>
			<persName><forename type="middle">A</forename><surname>Lehireche</surname></persName>
		</author>
		<author>
			<persName><forename type="middle">D</forename><surname>Widdows</surname></persName>
		</author>
		<author>
			<persName><surname>Malki</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">4th ACS/IEEE International Conference on Computer Systems and Applications (AICCSA-06)</title>
				<meeting><address><addrLine>Dubai/Sharjah, UAE</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<analytic>
		<title level="a" type="main">Ongoing Developments in Automatically Adapting Lexical Resources to the Biomedical Domain</title>
		<author>
			<persName><forename type="middle">D</forename><surname>Widdows</surname></persName>
		</author>
		<author>
			<persName><forename type="middle">A</forename><surname>Toumouh</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Lehireche</forename><forename type="middle">B</forename><surname>Dorow</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">International Conference on Language Resources And Evaluation</title>
				<meeting><address><addrLine>Italy; LREC</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b11">
	<analytic>
		<title level="a" type="main">verb semantic and lexical selection</title>
		<author>
			<persName><surname>Wu</surname></persName>
		</author>
		<author>
			<persName><surname>Palmer</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">proceedings of the 32nd annual meeting of the associations for computational linguistics</title>
				<meeting>the 32nd annual meeting of the associations for computational linguistics</meeting>
		<imprint>
			<date type="published" when="1994">1994</date>
			<biblScope unit="page" from="133" to="138" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<monogr>
		<title level="m" type="main">Logiciel d&apos;annotation pour la conception de cours sur le Web sémantique</title>
		<author>
			<persName><forename type="first">Yan</forename><surname>Bodain</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2006">2006</date>
			<pubPlace>IHM</pubPlace>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
