<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="fr">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">Fouzi</forename><surname>Harrag</surname></persName>
							<affiliation key="aff0">
								<orgName type="department">Département d&apos;informatique</orgName>
								<orgName type="institution">Université Farhat Abbas</orgName>
							</affiliation>
							<affiliation key="aff1">
								<orgName type="institution">Sétif -Algérie</orgName>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">Mohamed</forename><surname>Benmohammed</surname></persName>
							<affiliation key="aff2">
								<orgName type="department">Département d&apos;informatique</orgName>
								<orgName type="institution">Université Mentouri</orgName>
								<address>
									<settlement>Constantine, Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<title level="a" type="main">Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">E5CF7F4B90AFC2367891EA90C006166B</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T00:20+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>Le besoin d'avoir un système de segmentation thématique des textes arabes a p o u r b u t d ' améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de r e c h e r c h e d ' i n f o r ma t i o n . Dans cet article, nous présentons une étude comparative des algorithmes TextTiling et C99 pour la segmentation thématique des textes arabes. Nous évaluons la performance de ces deux algorithmes en utilisant les mesures classiques Rappel et Précision et la méthode des Jugements des Lecteurs récemment introduite.</p></div>
			</abstract>
		</profileDesc>
	</teiHeader>
	<text xml:lang="fr">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1">Introduction</head><p>La segmentation thématique est une nouvelle technique pour l ' amélioration de l'accès à l ' information, elle peut être définie comme la tâche de subdivisi o n d ' un document en plusieurs paragraphes thématiquement cohérents. En recherche d'information par exemple, avoir des documents thématiquement segmentés peut résulter en la récupération des segments de texte courts et pertinents qui correspondent directement à la requête d'un utilisateur au lieu de longs documents examiné avec soin par l ' utilisateur pour trouver l'objet de son intérêt. Avoir des documents thématiquement segmentés peut aussi aider dans la tâche de résumé automatique des textes puisque un meilleur résumé peut être obtenu de la fusion des différents segments constituant le document <ref type="bibr" target="#b6">[7]</ref>. Au temps où un nombre considérable de recherches a é t é c o n s a c r é à l ' é t u d ecette technique pour les langues anglaise et française, peu l'ont étudié pour d ' autres langues et presque personne, à l ' e x c e p t i o n d e <ref type="bibr" target="#b6">[7]</ref> et <ref type="bibr">[12]</ref>, n ' a é t u d i é c e t t e t e c h n i q u e pour langue arabe. Le manque de recherche dans ce domaine nous a poussés à adopter les deux algorithmes de segmentation thématique TextTiling et C99 pour une telle langue. Cet article est organisé comme suit: la Section 2 présents u n é t a t d e l ' a r t d a n s l e d o ma i n e ; la Section 3 présents une vue d'ensemble des approches implémentés; les résultats et leur discussion sont rapportées dans la Section 4; finalement la Section 5 conclut l' a r t i c l e .</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2">Travaux antérieurs</head><p>Les approches qui adressent le problème de segmentation thématique peuvent être classées en deux classes : les approches à base de connaissance et les approches à base de mot. Les systèmes à base de connaissance, comme dans <ref type="bibr" target="#b10">[11]</ref>, exige un grand effort ma n u e l d e l ' i n g é n i e r ie de connaissance pour la créa t i o n d ' u n e base de connaissance (réseau sémantique et/ou de Frames). Ceci est seulement réalisable dans quelques domaines très restreints. Pour dépasser cette limitation, et pour traiter une grande quantité de textes, les approches à base de mot ont été développées. <ref type="bibr" target="#b11">[13]</ref> et <ref type="bibr" target="#b19">[20]</ref> fait usage de la distribution des mots dans un texte pour trouver une segmentation thématique. Ces travaux sont bien adaptés à des textes techniques ou scientifiques caractérisés par un vocabulaire spécifique.</p><p>Pour traiter des textes narratifs ou explicatifs tels que les articles des journaux, les approches <ref type="bibr" target="#b16">[17]</ref> et <ref type="bibr" target="#b21">[22]</ref> sont basées sur la cohésion lexicale calculée à partir d'un réseau lexical. Ces méthodes dépendent de la présence du vocabulaire du texte à l'intérieur de leur réseau. Donc, pour éviter toute restriction de domaines dans tels genres de textes, <ref type="bibr" target="#b19">[20]</ref> a présenté une méthode mixte qui augmente un système basée sur la distribution des mots, en utilisant les connaissances représentés par un réseau lexical de cooccurrences construit automatiquement à partir d'un corpus.</p><p>Les autres approches Existantes de segmentation thématique peuvent être classées dans deux groupes principaux: les approches à base de cohésion lexicale et les approches à base d ' a t t r i b u t s . Les approches à base de cohésion lexicale dépendent de la tendance des unités thématiques à lier ensemble. En outre, les approches qui mesurent ce type de cohésion peuvent être divisées en deux catégories: les approches à base de similarité où les modèles de répétitions syntactiques sont utilisés pour indiquer la cohésion et les approches à base de chaînes lexicales où autres aspects de cohésion lexicale (comme les relations entre termes) sont aussi analysé <ref type="bibr" target="#b2">[3]</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3">Approches implémentés</head><p>Dans cette section, deux algorithmes de segmentation thématique des textes sont décrits: TextTiling <ref type="bibr" target="#b11">[13]</ref> et C99 <ref type="bibr" target="#b4">[5]</ref>. Les deux systèmes sont basés sur la cohésion lexicale. L'algorithme TextTiling utilise la mesure de similarité Cosine entre les vecteurs des termes pour mesurer la densité de la cohésion entre blocs adjacents. L'algorithme C99 utilise aussi la mesure de similarité Cosine pour déterminer des ressemblances parmi les phrases du texte puis il projette ceux-ci graphiquement. Il applique alors des techniques de traitement d'image pour déterminer des frontières thématiques.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3.1">Pré-traitement des textes</head><p>L'étape de pré-traitement traite l e s f l u x d ' e n t r é een enlevant les étiquettes et les ponctuations et en transformant les termes en lemmes. En premier lieu, nous allons construire des blocs de texte appelés « séquences lexicales ». Le texte de l'entrée est simplement une séquence de caractères avant le pré-traitement. C'est la responsabilité du pré-processor de transformer cette séquence en unités sémantiques dans la phase d ' a n a l y s e l e x i c a l e . Ces unités peuvent être des mots simples tels que les mots programme et création, ou des expressions composées telles que Les États-Unis (par opposition à États et Unis).</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3.2">L ' Al g o r i t h meTextTiling</head><p>L'algorithme TextTiling, pour la découverte des structures thématiques en utilisant la répétition des termes, se décompose de trois parties principales <ref type="bibr" target="#b11">[13]</ref>:</p><p> Le découpage physique.  Détermination de la similarité.  Identification des frontières.</p><p>C' est l' un des travaux fondateurs dans le domaine de la détection de thème, TextTiling réalise le découpage d' un texte en unités de discours multi paragraphe cohérentes qui reflète la structure thématique du texte cf. Figure <ref type="figure" target="#fig_0">1</ref>. Cet algorithme utilise la fréquence lexicale indépendamment du domaine et la distributivité pour reconnaitre l' interaction de thèmes simultanés multiples. Elle se base sur un modèle d' espace vectoriel qui détermine la similarité entre des groupes voisins de phrases et place une coupure entre des blocs voisins dissimilaires.</p><p>La première étape est le découpage physique Elle se base sur une mesure de similarité lexicale. Les lemmes issus du texte prétraites sont groupes en pseudo phrases, c'est-adire un ensemble de lemmes adjacents (20 dans l'article), qui sont elles-mêmes regroupées en bloc de Taille fixée par l'utilisateur (cf. Figure <ref type="figure" target="#fig_0">1</ref>). Cette taille des segments est variable, elle peut aller de 3 à 5 pseudo phrases a un paragraphe. En général, on prend la moyenne de la longueur des Paragraphes. Les paragraphes réels ainsi que les phrases ne sont pas pris car leur longueur Peut être fortement irrégulière conduisant à des comparaisons déséquilibrées.</p><p>La deuxième étape est le calcul de la similarité entre blocs adjacents La similarité entre des blocs de pseudo phrase adjacents est calculée cf. Figure <ref type="figure" target="#fig_0">1</ref> par Une mesure du cosinus cf. Equation 1 : étant donne des blocs de textes b1 et b2,</p><formula xml:id="formula_0">    t 2 b2 t, t 2 b1 t, t b2 t, b1 t, W W W W Score(i) (1)</formula><p>Où t s ' é t e n d à l ' e n s e mb l e d e s t e r me s d a n s l e d o c u me n t e t w t,b1 est le poids tf.idf assigné au terme t dans le bloc b1. tf.idf correspond au nombre de lemmes communs et au n o mb r e d e f o i s q u ' i l s a p p a r a i s s e n t dans le texte tout entier. Donc, si le score de la similarité entre deux blocs est élève, alors non seulement les Blocs ont des termes en c o mmu n , ma i s l e s t e r me s q u ' i l s o n t e n c o mmu n s o n t r e l a t i v e me n trares en ce qui concerne le reste du document. L' évidence de la réciproque n' est pas aussi concluante : si des blocs adjacents ont une mesure de similarité faible, cela ne signifie pas n é c e s s a i r e me n t q u ' i l s n e s e t i e n n e n t p a s e n s e mb l e ; c e p e n d a n t , e n p r a t i q u e c e t t e évidence négative est souvent justifiée. précédant.  On c o n t i n u e j u s q u ' à c e q u e l e s c o r e s o i t p l u s b a s q u e c e l u i d é j à e x a mi n e r.  Ensuite, on soustrait le score de similarité du creux initial avec le score maximum de similarité rencontre.  Cette procédure est répétée pour les creux entre les blocs suivant le premier creux.  Enfin, la somme des deux différences est calculée.</p><p>Cette valeur est le score de cohésion pour le premier creux examine, les scores de cohésion ne sont calcules que pour les creux qui sont des minimaux locaux pour la fonction de similarité. Les limites, c' est-a-dire les zones de changements de thèmes, sont déterminées en localisant les portions les plus basses des vallées dans le graphique résultant. En d' autres termes, les creux avec de fort score de cohésion sont sélectionnes comme les endroits de rupture de thèmes. Cette coupure est ajustée a la fin d' un paragraphe. Ceci permet d' éliminer les coupures très proches l' une de l' autre.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3.3">L ' a l g o r i t h me C99</head><p>Cet algorithme proposé par <ref type="bibr" target="#b4">[5]</ref> utilise une mesure de similarité entre chaque unité t e x t u e l l e . L ' i d é e d e b a s e d e c e t t e mé t h o d e e s t q u e l e s me s u r e s d e s i mi l a r i t é e ntre des segments de textes courts sont statistiquement insignifiantes, et que donc seul des classements locaux (voir ci-dessous) sont à considérer pour ensuite appliquer un algorithme de catégorisation sur la matrice de similarité. Dans un premier temps, une matrice de similarité est donc construite, représentant la s i mi l a r i t é e n t r e t o u t e s l e s p h r a s e s d u t e x t e à l ' a i d e d e l a me s u r e d e s i mi l a r i t éCosinus, calculée pour chaque paire de phrases du texte, en utilisant chaque mot commun entre les phrases, et après « nettoyage » du texte : suppression des mots vides et lemmatisation. On e f f e c t u e e n s u i t e u n « c l a s s e me n t l o c a l » , e n d é t e r mi n a n t p o u r c h a q u e p a i r e d ' u n i t é s textuelles, le rang de sa mesure de similarité par rapport à ses m × n − 1voisins, m × n étant le ma s q u e d e c l a s s e me n t c h o i s i . L e r a n g e s t l e n o mb r e d ' é l é me n t s v o i s i n s a y a n t une mesure de s i mi l a r i t é p l u s f a i b l e , c o n s e r v é s o u s l a f o r me d ' u n r a t i o r a f i n d e p r e n d r e en compte les effets de bord. (</p><p>Enfin, la dernière étape détermine les limites de chaque segment de la même manière q u e l ' a l g o r i t h meDotplotting <ref type="bibr" target="#b23">[24]</ref> emploie la maximisation. En effet on cherche à déterminer quelle configuration offre la plus grande densité, en recherchant une nouvelle limite thématique à chaque étape. Les segments sont alors représentés par des carrés le long de la diagonale de la matrice de similarité modifiée avec les classements locaux. Pour chaque segment de la répartition proposée à une étape de la segmentation on considère son aire notée a k et son poids s k qui e s t l a s o mme d e s t o u s l e s r a n g s d e s p h r a s e s q u ' i l c o n t i e n t . On c a l c u l e alors la densité D de la configuration avec :</p><formula xml:id="formula_2">     m 1 k k m 1 k k a s D . (<label>3</label></formula><formula xml:id="formula_3">)</formula><p>L ' a l g o r i t h me s ' a r r ê t e l o r s q u e l a d e n s i t é d e l a me i l l e u r e r é p a r t i t i o n p r o p o s é e e s t suffisamment faible, ou si le nombre de frontières thématiques est déjà déterminé, l o r s q u ' i l e s t a t t e i n t . </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.2">Le Corpus d ' é v a l u a t i o n</head><p>Pour l'évaluation des deux algorithmes TextTiling et C99, on se base sur les jugements de sept lecteurs, chaque lecteur parmi les sept a fait la lecture et la segmentation manuelle de 5 textes arabes traitant des sujets de deux domaines différents (Littérature, Médecine). Les textes utilisés pour cette évaluation ont une longueur moyenne entre 600 et 2000 mots. Les lecteurs ont été invités simplement à délimiter les paragraphes auxquels il y a un changement de thème, cette délimitation restera subjective pour chaque lecteur.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.3">Méthode de Jugements des Lecteurs:</head><p>Le schéma de la figure (Fig. <ref type="figure" target="#fig_3">3</ref>) montre les limites faites par les sept lecteurs sur les textes. Ce schéma nous aide à illustrer les tendances générales des évaluations des lecteurs, et également à montrer où/et combien de fois ils sont en accord ou en désaccord. Par exemple, tous les lecteurs sauf le quatrième ont marqué une frontière au paragraphe 7. Ce lecteur en désaccord avec les autres a délimité la frontière au paragraphe 1 0 . L ' e n s e mb l e d e s f r o n t i è r e s p o u r l e s q u e l l e s l e s l e c t e u r s s o n t t o u s e n accord sont les suivants: {12, 20, 22, 31, 33, 37, 38, 50}. Par contre, il y a un désaccord pour les frontières suivantes: {1, 15, 18, 41,43, 44, 45 …} . , si quatre ou plus sur sept lecteurs marquent la même frontière, la segmentation s'avérée. Mais, deux années après <ref type="bibr" target="#b17">[18]</ref>, ont montré que trois lecteurs sont considérés suffisamment pour classifier ce point comme une frontière "principale". <ref type="bibr" target="#b3">[4]</ref> et <ref type="bibr" target="#b13">[14]</ref> précisent l'importance de tenir en compte l ' a c c o r d f o r t u i t e t p r é v u e n c a l c u l a n t si les lecteurs convenir de manière significative. A c e t t e f i n , I l s c o n s e i l l e n t d ' u t i l i s e r l e coefficient de Kappa (K). S'accorder à <ref type="bibr" target="#b3">[4]</ref>, K mesure par paires l'accord parmi un e n s e mb l e d e l e c t e u r s f a i s a n t d e s c a t é g o r i e s d e j u g e me n t s , c a l c u l a n t s e l o n l ' é q u a t i o n ( 4 )</p><p>.</p><p>Où P (A) est la proportion de fois que les lecteurs conviennent et P(E) est la proportion de fois où on s'attendrait à ce qu'ils conviennent par hasard. Le coefficient peut être calculé en faisant par paires des comparaisons contre un expert ou en comparant à une décision de groupe. <ref type="bibr" target="#b3">[4]</ref> déclare également que si K &gt; 0.8 ceci signale que la segmentation est bonne, et si K &gt; 0. 67 et K &lt; 0.8 cela permet de donner des conclusions expérimentales acceptables. Les coefficients trouvés par <ref type="bibr" target="#b13">[14]</ref> se sont étendus du 0.43 au 0.68 pour trois lecteurs, et ceux trouvées par <ref type="bibr" target="#b3">[4]</ref> sont étendus du 0.65 à 0.90 pour quatre lecteurs segmentant des phrases.</p><p>Dans notre évaluation, nous concéderons que trois jugements en accord sont a c c e p t a b l e s p o u r c o n s i d é r e r l a f r o n t i è r e j u s t e . A p a r t i r d e l a f i g u r e ( F i g . .</p><p>(</p><formula xml:id="formula_5">)<label>5</label></formula><p>Tandis que le rappel est défini comme:  <ref type="bibr" target="#b10">[11]</ref>. Le tableau 2 présente les valeurs de rappel et de précision pour cinq textes du corpus de référence segmentés par l ' a l g o r i t h me TextTiling. On voit bien que les valeurs de rappel pour cet algorithme sont très basses, allant de 0. 0 0 j u s q u ' à 0 . 6 0 , t a n d i s q u e les valeurs de précision sont hautes, allant de 0.40 j u s q u ' à 1.00. </p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>Fig. 1 .</head><label>1</label><figDesc>Fig. 1. Principe de l ' a l g o r i t h me TextTiling</figDesc><graphic coords="4,124.91,238.81,345.59,277.67" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_2"><head>Fig. 2 .4 Résultats et discussion 4 . 1 i t è r e s d ' é v a l u a t i o n L ' é v a l u a t i o n d e l a s e g me n t a t i o n t h é ma t i q u e p e u t s e f a i r e d e p l u s i e u r s ma n i è r e s :</head><label>241s</label><figDesc>Fig. 2. Principe d e l ' a l g o r i t h me C99.</figDesc><graphic coords="6,126.35,270.37,342.71,321.11" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_3"><head>Fig. 3 .</head><label>3</label><figDesc>Fig.3. L e s r u p t u r e s mi s e s p a r l e s l e c t e u r s e t l ' a l g o r i t h me TextTiling D' a p r è s<ref type="bibr" target="#b23">[ 24]</ref>, si quatre ou plus sur sept lecteurs marquent la même frontière, la segmentation s'avérée. Mais, deux années après<ref type="bibr" target="#b17">[18]</ref>, ont montré que trois lecteurs sont considérés suffisamment pour classifier ce point comme une frontière "principale".<ref type="bibr" target="#b3">[4]</ref> et<ref type="bibr" target="#b13">[14]</ref> précisent l'importance de tenir en compte l ' a c c o r d f o r t u i t e t p r é v u e n c a l c u l a n t si les lecteurs convenir de manière significative. A c e t t e f i n , I l s c o n s e i l l e n t d ' u t i l i s e r l e coefficient de Kappa (K). S'accorder à<ref type="bibr" target="#b3">[4]</ref>, K mesure par paires l'accord parmi un e n s e mb l e d e l e c t e u r s f a i s a n t d e s c a t é g o r i e s d e j u g e me n t s , c a l c u l a n t s e l o n l ' é q u a t i o n<ref type="bibr" target="#b3">( 4 )</ref> </figDesc><graphic coords="8,125.15,147.37,345.11,173.51" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_4"><head></head><label></label><figDesc>Rappel et Précision pour les deux algorithmes nous donnent une idée générale s u r l ' é c h e c d e c e s d e u x me s u r e s traditionnelles d e l a r e c h e r c h e d ' i n f o r ma t i o n d a n s l a t a c h e d ' é v a l u a t i o n d e s performances des systèmes de segmentation</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_0"><head>Table 1 .</head><label>1</label><figDesc>Résultats de calcul du coefficient Kappa Dans l' e xpérience suivante, les deux mesures rappel et précision, classiquement utilisés dans la recherche d'information, détaillés dans<ref type="bibr" target="#b0">[1]</ref>, ont aussi été employés pour évaluer les algorithmes de segmentation. Dans le contexte de segmentation thématique, la précision est définie comme:</figDesc><table><row><cell>3 ) l ' e n s e mb l e</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_1"><head>Table 2 .</head><label>2</label><figDesc>Rappel et Précision pour 5 textes segmentés a v e c l ' a l g o r i t h me TextTilingLe tableau 4 présente les résultats de comparaison entre les deux algorithmes et les jugements des lecteurs. Pour les algorithmes, TextTiling a la meilleure valeur pour la précision; il dépasse 0.84 mais il a la plus mauvaise valeur pour rappel qui est égale 0.15. C99 a la plus mauvaise valeur de précision 0.45 mais il a la meilleure valeur pour le rappel; il dépasse 0.54. TextTiling et C99 paraissent avoir des difficultés à s ' adapter avec le nombre de frontières à découvrir; la longueur du texte a un grand impact sur leur nombre de frontières détectées. L ' a l g o r i t h me C99 paraît être plus effectif aux textes arabes.</figDesc><table><row><cell>Texte</cell><cell>Nombre total de</cell><cell>Nombre de frontières en</cell><cell cols="2">Rappel Précision</cell></row><row><cell></cell><cell>frontières</cell><cell>accords</cell><cell></cell><cell></cell></row><row><cell>1</cell><cell>6</cell><cell>6</cell><cell>0.00</cell><cell>1.00</cell></row><row><cell>2</cell><cell>4</cell><cell>4</cell><cell>0.00</cell><cell>1.00</cell></row><row><cell>3</cell><cell>3</cell><cell>2</cell><cell>0.33</cell><cell>0.66</cell></row><row><cell>4</cell><cell>5</cell><cell>2</cell><cell>0.60</cell><cell>0.40</cell></row><row><cell>5</cell><cell>1</cell><cell>1</cell><cell>0.00</cell><cell>1.00</cell></row><row><cell cols="5">Cependant, ces valeurs ne prennent pas en compte le fait que l' a l g o r i t h me TextTiling</cell></row><row><cell cols="5">ma l g r é q u ' i l é c h o u e d a n s l a d é t e c t i o n c o r r e c t e d e s f r o n t i è r e s , i l n e ma n q u ede</cell></row><row><cell cols="5">détecter toutes les frontières. Le tableau 3 présente les valeurs de rappel et de</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_2"><head>Table 4 .</head><label>4</label><figDesc>Comparaison des algorithmes avec les jugements des lecteursDans cet article, une analyse comparative de deux algorithmes de segmentation thématique des textes arabes est présentée. Pour évaluer les performances de chaque algorithme sur des corpus arabe, chacun a été appliqué sur un ensemble de textes arabes et les résultats ont été comparés. Nous avons confirmé dans cet article que la tâche de segmentation est dure à évaluer parce que les objectifs peuvent varier. Globalement l'algorithme TextTiling paraît être plus adapté à la langue arabe que celui de C99. Pour aller plus loin dans les expérimentations, nous devrions essayer un nouvel algorithme qui mélange une méthode supervisée avec une autre non supervisée, et faire de nouvelles comparaisons entre les approches statistiques et linguistiques. Finalement, notre travail montre qu'avec seulement des petites améliorations, les algorithmes existants pour segmenter des textes anglais, sont adaptables pour les textes arabes.</figDesc><table><row><cell>Segmentation</cell><cell>Rappel</cell><cell>Précision</cell></row><row><cell>TextTiling</cell><cell>0.18</cell><cell>0.81</cell></row><row><cell>C99</cell><cell>0.54</cell><cell>0.45</cell></row><row><cell cols="2">Les jugements des lecteurs 0.15</cell><cell>0.84</cell></row><row><cell>5 Conclusion</cell><cell></cell><cell></cell></row></table></figure>
		</body>
		<back>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<monogr>
		<author>
			<persName><forename type="first">R</forename><surname>Baeza-Yates</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Ribeiro-Ne T</surname></persName>
		</author>
		<title level="m">Mo d e r n I n f o r ma t i o n R e t r i e v a l</title>
				<imprint>
			<publisher>ACM Press</publisher>
			<date type="published" when="1999">1999</date>
		</imprint>
	</monogr>
	<note>Ad d i s o</note>
</biblStruct>

<biblStruct xml:id="b1">
	<analytic>
		<title level="a" type="main">r , a n d J . L a f f e r t</title>
		<author>
			<persName><forename type="first">D</forename><surname>Beeferman</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>B E R G E</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Machine Learning</title>
				<imprint>
			<date type="published" when="1999">1999</date>
			<biblScope unit="volume">34</biblScope>
			<biblScope unit="page" from="177" to="210" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<monogr>
		<title level="m">p r e s e n t e d a t C I KM</title>
				<meeting><address><addrLine>McLean, Virginia, USA</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2002">2002</date>
		</imprint>
	</monogr>
	<note>n a l y s i s</note>
</biblStruct>

<biblStruct xml:id="b3">
	<analytic>
		<title level="a" type="main">c</title>
	</analytic>
	<monogr>
		<title level="j">Computational Linguistics</title>
		<imprint>
			<biblScope unit="volume">22</biblScope>
			<biblScope unit="issue">2</biblScope>
			<biblScope unit="page" from="249" to="254" />
			<date type="published" when="1996">1996</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b4">
	<analytic>
		<title level="a" type="main">Ad v a n c e s i n d o ma i n i n d e p e n d e n t l i n e a r t e x t s e g me n t a t i o n , &quot; p r e s e n t e d a t t</title>
		<author>
			<persName><forename type="first">F</forename></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">h e f i r s t conference on North American chapter of the Association for Computational Linguistics (NAACL)</title>
				<meeting><address><addrLine>Seattle, Washington</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2000">2000</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<monogr>
		<author>
			<persName><forename type="first">Y</forename><surname>Da</surname></persName>
		</author>
		<title level="m">the 40th Annual Meeting of the Association for the Computational Linguistics</title>
				<imprint>
			<date type="published" when="2002">2002</date>
			<biblScope unit="page" from="47" to="54" />
		</imprint>
	</monogr>
	<note>ACL-02)</note>
</biblStruct>

<biblStruct xml:id="b6">
	<analytic>
		<title level="a" type="main">t Segmentation Algorithms on Arabic News Stori e s</title>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">A</forename><surname>El-Shayeb</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">I E E E I n t e r n a t i o n a l C o n f e r e n c e on Information Reuse and Integration</title>
				<imprint>
			<date type="published" when="2007-08">Aug, 2007</date>
			<biblScope unit="page" from="441" to="446" />
		</imprint>
	</monogr>
	<note>P r o c</note>
</biblStruct>

<biblStruct xml:id="b7">
	<monogr>
		<title level="m">I n P r o c e e d i n g s o f t h e 3 6 t h An n u a l Me e t i n g o f t he ACL</title>
				<imprint>
			<date type="published" when="1998">1998</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<analytic>
		<title level="a" type="main">Discourse segmentation of multiparty conversation</title>
		<author>
			<persName><forename type="first">M</forename><surname>Galley</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><surname>Mckeown</surname></persName>
		</author>
		<author>
			<persName><forename type="first">E</forename><surname>Fosler-Lussier</surname></persName>
		</author>
		<author>
			<persName><forename type="first">H</forename><surname>Jing</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proceedings of the 41st Annual Meeting of ACL</title>
				<meeting>the 41st Annual Meeting of ACL<address><addrLine>Sapporo, Japan</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2003">2003</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<analytic>
		<title level="a" type="main">What is a word, what is a sentence? Problems of tokenization</title>
		<author>
			<persName><forename type="first">G</forename><surname>Grefenstette</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Tapanainen</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proceedings of the 3rd Conference on Computational Lexicography and Text Research (COMPLEX-94)</title>
				<meeting>the 3rd Conference on Computational Lexicography and Text Research (COMPLEX-94)<address><addrLine>Budapest, Hungary</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1994">1994</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<analytic>
		<title level="a" type="main">At t e n t i o n , I n t e n t i o n s a n d t h e S t r u c t u r e o f Di s c o u r s e</title>
		<author>
			<persName><forename type="first">B</forename><forename type="middle">J</forename><surname>Gr O S Z</surname></persName>
		</author>
		<author>
			<persName><forename type="first">;</forename><forename type="middle">L</forename><surname>S I D N E R</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Computational Linguistics</title>
		<imprint>
			<biblScope unit="volume">12</biblScope>
			<biblScope unit="page" from="175" to="204" />
			<date type="published" when="1986">1986</date>
		</imprint>
	</monogr>
	<note>a n d C</note>
</biblStruct>

<biblStruct xml:id="b11">
	<analytic>
		<title level="a" type="main">x t T i l i n g : S e g me n t i n g t e x t i n t o mu l t i p a r a g r a p h s u b t o p i c p a s s a g e s</title>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">A</forename><surname>He A R</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Computational Linguistics</title>
		<imprint>
			<biblScope unit="volume">23</biblScope>
			<biblScope unit="page" from="33" to="64" />
			<date type="published" when="1997">1997</date>
		</imprint>
	</monogr>
	<note>T e</note>
</biblStruct>

<biblStruct xml:id="b12">
	<analytic>
		<title level="a" type="main">o r e a n d Ma r i l y n Wa l k e r , e d i t o r s , E mp i r i c a l Methods in Discourse: Interpretation &amp; Generation</title>
		<author>
			<persName><forename type="first">A</forename></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename></persName>
		</author>
		<idno>SS-95~06</idno>
	</analytic>
	<monogr>
		<title level="m">AAAI Technical Report</title>
				<meeting><address><addrLine>Menlo Park, CA</addrLine></address></meeting>
		<imprint>
			<publisher>AAAI Press</publisher>
			<date type="published" when="1995">1995</date>
		</imprint>
	</monogr>
	<note>p t a s k c o r p u s</note>
</biblStruct>

<biblStruct xml:id="b13">
	<monogr>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">Y</forename><surname>Ka N</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">L</forename><surname>Kl A V A N S , A N D</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><forename type="middle">R</forename><surname>Mc Ke O Wn</surname></persName>
		</author>
		<title level="m">p r e s e n t e d a t t h e I n t e r n a t i o n a l Wo r k s h o p o f Ve r yLarge Corpora (WVLC 6)</title>
				<meeting><address><addrLine>Montreal</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1999">1999</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<analytic>
		<title level="a" type="main">t u r e -b a s e d s e g me n t a t i o n o f n a r r a t i v e d o c u me n t s , &quot; p r e s e n t e d at the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing</title>
		<author>
			<persName><forename type="first">D</forename><surname>Ka U C H A K A N D F . C H E N</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">F e a</title>
				<meeting><address><addrLine>Ann Arbor, MI, USA</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2005">2005</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<monogr>
		<author>
			<persName><forename type="first">H. Kozi</forename><surname>Ma</surname></persName>
		</author>
		<title level="m">I n P r o c e e d i n g s o f ACL&apos;93</title>
				<meeting><address><addrLine>Ohio, Japan</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1993">1993</date>
			<biblScope unit="page" from="286" to="288" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b16">
	<monogr>
		<title level="m" type="main">I n P r o c e e d i n g s o f t h e 3 3 r d Me e t i n gof Association for Computational Linguistics</title>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">J</forename><surname>L I T Ma N A N D</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><forename type="middle">J</forename></persName>
		</author>
		<imprint>
			<date type="published" when="1993-06">June. 1993</date>
			<biblScope unit="page" from="108" to="115" />
		</imprint>
	</monogr>
	<note>f o r d i s c o u r s e s e g me n t a t i o n</note>
</biblStruct>

<biblStruct xml:id="b17">
	<monogr>
		<title level="m">c s</title>
				<meeting><address><addrLine>Kyoto, Japan</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1994">1994</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b18">
	<monogr>
		<title level="m">h Annual International ACM-SIGIR Conference on Research and Development in Information Retrieval</title>
				<meeting><address><addrLine>Seattle, Washington, USA</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1995">1995</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b19">
	<monogr>
		<title/>
		<author>
			<persName><forename type="first">G</forename><forename type="middle">A</forename><surname>Miller</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Beckwith</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>F E L L B A U M</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Gr O S S</surname></persName>
		</author>
		<imprint/>
	</monogr>
	<note>a n d K. Mi l l e r</note>
</biblStruct>

<biblStruct xml:id="b20">
	<monogr>
		<title level="m" type="main">t i o n s a s a n i n d i c a t o r o f t h e s t r u c t u r e o f t e x t , &quot; C o mp u t a t i o n a l L i n g u i s t i c s</title>
		<author>
			<persName><forename type="first">J</forename><surname>Mo R R</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1991">1991</date>
			<biblScope unit="volume">17</biblScope>
			<biblScope unit="page" from="21" to="48" />
		</imprint>
	</monogr>
	<note>i s a n d G. Hi r s t. L e x i c a l c o h e s i o n c o mp u t e d b y t h e s a u r u s r e l a</note>
</biblStruct>

<biblStruct xml:id="b21">
	<monogr>
		<title level="m">I n Proceedings of the 4th Conference on Applied Natural Language Processing</title>
				<meeting><address><addrLine>Stuttgart, Germany</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1994-10">October. 1994</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b22">
	<analytic>
		<title level="a" type="main">Intention-based segmentation: Human reliability and c o r r e l a t i o n wi t h l i n g u i s t i c c u e s &quot; . I n P r o c e e d i n g s o f t h e 3 1 s t An n u a l Me e t i n g</title>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">J</forename><surname>L I T Ma N</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">p a g e s</title>
		<imprint>
			<biblScope unit="volume">1</biblScope>
			<biblScope unit="issue">4</biblScope>
			<biblScope unit="page" from="8" to="155" />
			<date type="published" when="1993">1993</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b23">
	<monogr>
		<author>
			<persName><forename type="first">J</forename><surname>R E Y N A R</surname></persName>
		</author>
		<title level="m">C omputer and Information Science</title>
				<meeting><address><addrLine>Pennsylvania, USA</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1998">1998</date>
		</imprint>
		<respStmt>
			<orgName>University of Pennsylvania</orgName>
		</respStmt>
	</monogr>
	<note>P h . D. t h e s i s</note>
</biblStruct>

<biblStruct xml:id="b24">
	<monogr>
		<title level="m" type="main">AI C o mmu n i c a t i o n s</title>
		<author>
			<persName><forename type="first">N</forename><surname>S T O K E S</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>C A R T H Y , A N D</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><forename type="middle">F</forename><surname>Me A T O N , ; S E L E C T</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2004">2004</date>
			<biblScope unit="volume">1</biblScope>
			<biblScope unit="page" from="3" to="12" />
		</imprint>
	</monogr>
	<note>m</note>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
