<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Étude Comparative des Algorithmes de Segmentation Thématique Pour la Langue Arabe</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Fouzi Harrag</string-name>
          <email>hfouzi2001@yahoo.fr</email>
          <xref ref-type="aff" rid="aff0">0</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Mohamed BenMohammed</string-name>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Département d'informatique Université Farhat Abbas Sétif -Algérie</institution>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Département d'informatique Université Mentouri</institution>
          ,
          <addr-line>Constantine, Algérie</addr-line>
        </aff>
      </contrib-group>
      <abstract>
        <p>Résumé. Le besoin d'avoir un système de segmentation thématique des textes arabes apourbutd'améliorer les fonctionnalités de la Recherche d'Information Arabe (RIA). La segmentation thématique des textes a été utilisée pour améliorer la précision des processus subséquents telle que les systèmes de résumé automatique, les systèmes de Question/Réponses et les systèmes de recherche d'information. Dans cet article, nous présentons une étude comparative des algorithmes TextTiling et C99 pour la segmentation thématique des textes arabes. Nous évaluons la performance de ces deux algorithmes en utilisant les mesures classiques Rappel et Précision et la méthode des Jugements des Lecteurs récemment introduite.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>1 Introduction</title>
      <p>
        La segmentation thématique est une nouvelle technique pour l’amélioration de
l'accès à l’information, elle peut être définie comme la tâche de subdivisiond’un
document en plusieurs paragraphes thématiquement cohérents. En recherche
d'information par exemple, avoir des documents thématiquement segmentés peut
résulter en la récupération des segments de texte courts et pertinents qui
correspondent directement à la requête d'un utilisateur au lieu de longs documents
examiné avec soin par l’utilisateur pour trouver l'objet de son intérêt. Avoir des
documents thématiquement segmentés peut aussi aider dans la tâche de résumé
automatique des textes puisque un meilleur résumé peut être obtenu de la fusion des
différents segments constituant le document [
        <xref ref-type="bibr" rid="ref7">7</xref>
        ]. Au temps où un nombre considérable
de recherches a étéconsacréàl’étudecette technique pour les langues anglaise et
française, peu l'ont étudié pour d’autres langues et presque personne, àl’exceptionde
[
        <xref ref-type="bibr" rid="ref7">7</xref>
        ] et [
        <xref ref-type="bibr" rid="ref12">12</xref>
        ], n’aétudiécettetechniquepour langue arabe. Le manque de recherche
dans ce domaine nous a poussés à adopter les deux algorithmes de segmentation
thématique TextTiling et C99 pour une telle langue. Cet article est organisé comme
suit: la Section 2 présents unétatdel’artdansledomaine; la Section 3 présents une
vue d'ensemble des approches implémentés; les résultats et leur discussion sont
rapportées dans la Section 4; finalement la Section 5 conclut l’article.
      </p>
    </sec>
    <sec id="sec-2">
      <title>2 Travaux antérieurs</title>
      <p>
        Les approches qui adressent le problème de segmentation thématique peuvent être
classées en deux classes : les approches à base de connaissance et les approches à base
de mot. Les systèmes à base de connaissance, comme dans [
        <xref ref-type="bibr" rid="ref11">11</xref>
        ], exige un grand effort
manueldel’ingénierie de connaissance pour la créationd’unebase de connaissance
(réseau sémantique et/ou de Frames). Ceci est seulement réalisable dans quelques
domaines très restreints. Pour dépasser cette limitation, et pour traiter une grande
quantité de textes, les approches à base de mot ont été développées. [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ] et [20] fait
usage de la distribution des mots dans un texte pour trouver une segmentation
thématique. Ces travaux sont bien adaptés à des textes techniques ou scientifiques
caractérisés par un vocabulaire spécifique.
      </p>
      <p>
        Pour traiter des textes narratifs ou explicatifs tels que les articles des journaux, les
approches [
        <xref ref-type="bibr" rid="ref18">17</xref>
        ] et [22] sont basées sur la cohésion lexicale calculée à partir d'un réseau
lexical. Ces méthodes dépendent de la présence du vocabulaire du texte à l'intérieur de
leur réseau. Donc, pour éviter toute restriction de domaines dans tels genres de textes,
[20] a présenté une méthode mixte qui augmente un système basée sur la distribution
des mots, en utilisant les connaissances représentés par un réseau lexical de
cooccurrences construit automatiquement à partir d'un corpus.
      </p>
      <p>
        Les autres approches Existantes de segmentation thématique peuvent être classées
dans deux groupes principaux: les approches à base de cohésion lexicale et les
approches à base d’attributs.Les approches à base de cohésion lexicale dépendent de la
tendance des unités thématiques à lier ensemble. En outre, les approches qui mesurent
ce type de cohésion peuvent être divisées en deux catégories: les approches à base de
similarité où les modèles de répétitions syntactiques sont utilisés pour indiquer la
cohésion et les approches à base de chaînes lexicales où autres aspects de cohésion
lexicale (comme les relations entre termes) sont aussi analysé [
        <xref ref-type="bibr" rid="ref3">3</xref>
        ].
      </p>
    </sec>
    <sec id="sec-3">
      <title>3 Approches implémentés</title>
      <p>
        Dans cette section, deux algorithmes de segmentation thématique des textes sont
décrits: TextTiling [
        <xref ref-type="bibr" rid="ref13">13</xref>
        ] et C99 [
        <xref ref-type="bibr" rid="ref5">5</xref>
        ]. Les deux systèmes sont basés sur la cohésion
lexicale. L'algorithme TextTiling utilise la mesure de similarité Cosine entre les
vecteurs des termes pour mesurer la densité de la cohésion entre blocs adjacents.
L'algorithme C99 utilise aussi la mesure de similarité Cosine pour déterminer des
ressemblances parmi les phrases du texte puis il projette ceux-ci graphiquement. Il
applique alors des techniques de traitement d'image pour déterminer des frontières
thématiques.
      </p>
      <sec id="sec-3-1">
        <title>3.1 Pré-traitement des textes</title>
        <p>L'étape de pré-traitement traite lesfluxd’entréeen enlevant les étiquettes et les
ponctuations et en transformant les termes en lemmes. En premier lieu, nous allons
construire des blocs de texte appelés « séquences lexicales ». Le texte de l'entrée est
simplement une séquence de caractères avant le pré-traitement. C'est la responsabilité
du pré-processor de transformer cette séquence en unités sémantiques dans la phase
d’analyselexicale. Ces unités peuvent être des mots simples tels que les mots
programme et création, ou des expressions composées telles que Les États-Unis (par
opposition à États et Unis).
3.2</p>
        <sec id="sec-3-1-1">
          <title>L’AlgorithmeTextTiling</title>
          <p>
            L'algorithme TextTiling, pour la découverte des structures thématiques en utilisant
la répétition des termes, se décompose de trois parties principales [
            <xref ref-type="bibr" rid="ref13">13</xref>
            ]:
 Le découpage physique.
 Détermination de la similarité.
          </p>
          <p> Identification des frontières.</p>
          <p>C’est l’un des travaux fondateurs dans le domaine de la détection de thème, TextTiling
réalise le découpage d’un texte en unités de discours multi paragraphe cohérentes qui
reflète la structure thématique du texte cf. Figure 1. Cet algorithme utilise la fréquence
lexicale indépendamment du domaine et la distributivité pour reconnaitre l ’interaction
de thèmes simultanés multiples. Elle se base sur un modèle d’espace vectoriel qui
détermine la similarité entre des groupes voisins de phrases et place une coupure entre
des blocs voisins dissimilaires.</p>
          <p>La première étape est le découpage physique Elle se base sur une mesure de similarité
lexicale. Les lemmes issus du texte prétraites sont groupes en pseudo phrases,
c'est-adire un ensemble de lemmes adjacents (20 dans l’article), qui sont elles-mêmes
regroupées en bloc de Taille fixée par l’utilisateur (cf. Figure 1). Cette taille des
segments est variable, elle peut aller de 3 à 5 pseudo phrases a un paragraphe. En
général, on prend la moyenne de la longueur des Paragraphes. Les paragraphes réels
ainsi que les phrases ne sont pas pris car leur longueur Peut être fortement irrégulière
conduisant à des comparaisons déséquilibrées.</p>
          <p>La deuxième étape est le calcul de la similarité entre blocs adjacents La similarité entre
des blocs de pseudo phrase adjacents est calculée cf. Figure 1 par Une mesure du
cosinus cf. Equation 1 : étant donne des blocs de textes b1 et b2,</p>
          <p>Score(i) 
W t,b1W t,b2
t
W t,b1 2 W t,b2 2
t t
(1)
Où t s’étendàl’ensembledestermesdansledocumentetwt,b1 est le poids tf.idf assigné
au terme t dans le bloc b1. tf.idf correspond au nombre de lemmes communs et au
nombredefoisqu’ilsapparaissentdans le texte tout entier. Donc, si le score de la
similarité entre deux blocs est élève, alors non seulement les Blocs ont des termes en
commun,maislestermesqu’ilsontencommunsontrelativementrares en ce qui
concerne le reste du document. L’évidence de la réciproque n’est pas aussi concluante :
si des blocs adjacents ont une mesure de similarité faible, cela ne signifie pas
nécessairementqu’ilsnesetiennentpasensemble;cependant,enpratiquecette
évidence négative est souvent justifiée.
La troisième étape estl’extraction des zones thématiques, à partir de ce score, le calcul
d’un score de cohésion (ou de profondeur) est effectue qui quantifie la similarité entre
un bloc et les blocs voisins. En terme de graphe de score de Similarité, un score de
cohésion peut être représente comme la somme des différences entre le sommet du pic
et les creux des vallées voisines. Le calcul des scores de cohésion procède comme suit:
 on commence au premier creux entre 2 blocs et,
 on mémorise le score de similarité associée avec les blocs de chaque cote du
creux.
 On vérifie le score de similarité du creux précédant,
 Sic’estplushaut,oncontinueetonexaminelescoredesimilaritéducreux
précédant.
 Oncontinuejusqu’àcequelescoresoitplusbasqueceluidéjàexaminer.
 Ensuite, on soustrait le score de similarité du creux initial avec le score
maximum de similarité rencontre.
 Cette procédure est répétée pour les creux entre les blocs suivant le premier
creux.</p>
          <p> Enfin, la somme des deux différences est calculée.</p>
          <p>Cette valeur est le score de cohésion pour le premier creux examine, les scores de
cohésion ne sont calcules que pour les creux qui sont des minimaux locaux pour la
fonction de similarité. Les limites, c’est-a-dire les zones de changements de thèmes,
sont déterminées en localisant les portions les plus basses des vallées dans le graphique
résultant. En d’autres termes, les creux avec de fort score de cohésion sont sélectionnes
comme les endroits de rupture de thèmes. Cette coupure est ajustée a la fin d’un
paragraphe. Ceci permet d’éliminer les coupures très proches l’une de l’autre.
3.3</p>
        </sec>
        <sec id="sec-3-1-2">
          <title>L’algorithmeC99</title>
          <p>
            Cet algorithme proposé par [
            <xref ref-type="bibr" rid="ref5">5</xref>
            ] utilise une mesure de similarité entre chaque unité
textuelle.L’idéedebasedecetteméthodeestquelesmesuresdesimilaritéentre des
segments de textes courts sont statistiquement insignifiantes, et que donc seul des
classements locaux (voir ci-dessous) sont à considérer pour ensuite appliquer un
algorithme de catégorisation sur la matrice de similarité.
          </p>
          <p>Dans un premier temps, une matrice de similarité est donc construite, représentant la
similaritéentretouteslesphrasesdutexteàl’aidedelamesuredesimilaritéCosinus,
calculée pour chaque paire de phrases du texte, en utilisant chaque mot commun entre
les phrases, et après « nettoyage » du texte : suppression des mots vides et
lemmatisation.</p>
          <p>Oneffectueensuiteun«classementlocal»,endéterminantpourchaquepaired’unités
textuelles, le rang de sa mesure de similarité par rapport à ses m × n −1voisins, m × n
étant le masquedeclassementchoisi.Lerangestlenombred’élémentsvoisinsayant
une mesure de similaritéplusfaible,conservésouslaformed’unratiorafindeprendre
en compte les effets de bord.</p>
          <p>r </p>
          <p>rang
# de voisins dans le masque
.</p>
          <p>(2)
Enfin, la dernière étape détermine les limites de chaque segment de la même manière
quel’algorithmeDotplotting [24] emploie la maximisation. En effet on cherche à
déterminer quelle configuration offre la plus grande densité, en recherchant une
nouvelle limite thématique à chaque étape.</p>
          <p>Les segments sont alors représentés par des carrés le long de la diagonale de la matrice
de similarité modifiée avec les classements locaux. Pour chaque segment de la
répartition proposée à une étape de la segmentation on considère son aire notée ak et
son poids sk qui estlasommedestouslesrangsdesphrasesqu’ilcontient.Oncalcule
alors la densité D de la configuration avec :
m
sk
D km1
ak
k1
L’algorithmes’arrêtelorsqueladensitédelameilleurerépartitionproposéeest
suffisamment faible, ou si le nombre de frontières thématiques est déjà déterminé,
lorsqu’ilestatteint.</p>
        </sec>
        <sec id="sec-3-1-3">
          <title>4.1 Critèresd’évaluation</title>
          <p>
            L’évaluationdelasegmentationthématiquepeutsefairedeplusieursmanières:
 Par comparaison avec des jugements humains : aucun corpus segmenté de
taillesuffisanten’estcependantdisponible à ce jour ; des propositions ont été
faitespourlaconstitutiond’untelcorpusetpourévaluerlaqualitédes
jugements humains [
            <xref ref-type="bibr" rid="ref4">4</xref>
            ] [
            <xref ref-type="bibr" rid="ref13">13</xref>
            ] [24].

          </p>
          <p>Parrapportàdesmarquesdéposéesparl’auteurdutexte(cetteprocédure
n’estpasfiablecartoutesegmentation est subjective [24], la position des
marques de segmentation dépend du point de vue du lecteur) ;
 Par rapport à des marques « certaines » à retrouver (limites entre documents
d’uncorpusparexemple);
 Par son impact sur une tâche particulière (évaluation fonctionnelle), la
recherche d'informations par exemple.</p>
        </sec>
        <sec id="sec-3-1-4">
          <title>4.2 Le Corpus d’évaluation</title>
          <p>Pour l'évaluation des deux algorithmes TextTiling et C99, on se base sur les jugements
de sept lecteurs, chaque lecteur parmi les sept a fait la lecture et la segmentation
manuelle de 5 textes arabes traitant des sujets de deux domaines différents (Littérature,
Médecine). Les textes utilisés pour cette évaluation ont une longueur moyenne entre
600 et 2000 mots. Les lecteurs ont été invités simplement à délimiter les paragraphes
auxquels il y a un changement de thème, cette délimitation restera subjective pour
chaque lecteur.</p>
        </sec>
      </sec>
      <sec id="sec-3-2">
        <title>4.3 Méthode de Jugements des Lecteurs:</title>
        <p>
          Le schéma de la figure (Fig.3) montre les limites faites par les sept lecteurs sur les
textes. Ce schéma nous aide à illustrer les tendances générales des évaluations des
lecteurs, et également à montrer où/et combien de fois ils sont en accord ou en
désaccord. Par exemple, tous les lecteurs sauf le quatrième ont marqué une frontière au
paragraphe 7. Ce lecteur en désaccord avec les autres a délimité la frontière au
paragraphe 10.L’ensembledes frontières pourlesquellesleslecteurssonttousen
accord sont les suivants: {12, 20, 22, 31, 33, 37, 38, 50}. Par contre, il y a un désaccord
pour les frontières suivantes: {1, 15, 18, 41,43, 44, 45 …}.
D’après[24], si quatre ou plus sur sept lecteurs marquent la même frontière, la
segmentation s'avérée. Mais, deux années après [18], ont montré que trois lecteurs sont
considérés suffisamment pour classifier ce point comme une frontière "principale". [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ]
et [
          <xref ref-type="bibr" rid="ref15">14</xref>
          ] précisent l'importance de tenir en compte l’accordfortuitetprévuencalculant
si les lecteurs convenir de manière significative. A cettefin,Ilsconseillentd‘utiliserle
coefficient de Kappa (K). S'accorder à [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ], K mesure par paires l'accord parmi un
ensembledelecteursfaisantdescatégoriesdejugements,calculantselonl’équation(4)
K 
        </p>
        <p>P A P E 
1 P E 
.</p>
        <p>
          (4)
Où P (A) est la proportion de fois que les lecteurs conviennent et P(E) est la proportion
de fois où on s'attendrait à ce qu'ils conviennent par hasard. Le coefficient peut être
calculé en faisant par paires des comparaisons contre un expert ou en comparant à une
décision de groupe. [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ] déclare également que si K &gt; 0.8 ceci signale que la
segmentation est bonne, et si K &gt; 0. 67 et K &lt; 0.8 cela permet de donner des
conclusions expérimentales acceptables. Les coefficients trouvés par [
          <xref ref-type="bibr" rid="ref15">14</xref>
          ] se sont
étendus du 0.43 au 0.68 pour trois lecteurs, et ceux trouvées par [
          <xref ref-type="bibr" rid="ref4">4</xref>
          ] sont étendus du
0.65 à 0.90 pour quatre lecteurs segmentant des phrases.
        </p>
        <p>
          Dans notre évaluation, nous concéderons que trois jugements en accord sont
acceptablespourconsidérerlafrontièrejuste.Apartirdelafigure(Fig.3)l’ensemble
des frontières acceptables est le suivant : {1, 3, 5, 7, 12, 14, 15, 16, 18, 20, 22, 23, 29,
31, 33, 34, 37, 38, 50}. A partir du schéma de la même figure on peut calculer le
coefficient Kappa comme il est montré dans le tableau 1 ci-dessous, la comparaison de
nos résultats avec celles obtenus par Hearst [
          <xref ref-type="bibr" rid="ref13">13</xref>
          ] àpartirde l’application de
l’algorithme TextTiling sur un corpus anglais a montré que notre segmentation est
acceptable.
        </p>
      </sec>
      <sec id="sec-3-3">
        <title>4.4 Méthode de Rappel / Précision:</title>
        <p>
          Dans l’expérience suivante, les deux mesures rappel et précision, classiquement
utilisés dans la recherche d'information, détaillés dans [
          <xref ref-type="bibr" rid="ref1">1</xref>
          ], ont aussi été employés
pour évaluer les algorithmes de segmentation. Dans le contexte de segmentation
thématique, la précision est définie comme:
Tandis que le rappel est défini comme:
        </p>
        <p>P </p>
        <p>Nombre de frontières correctement détectées par le système</p>
        <p>nombre totale de frontières générées par le système
R </p>
        <p>
          Nombre de frontières correctement détectées par le système
nombre totale des frontières de référence
Les valeurs de Rappel et Précision pour les deux algorithmes nous donnent une idée
générale surl’échecdecesdeuxmesurestraditionnellesdelarecherched’information
danslatached’évaluationdesperformances des systèmes de segmentation [
          <xref ref-type="bibr" rid="ref11">11</xref>
          ]. Le
tableau 2 présente les valeurs de rappel et de précision pour cinq textes du corpus de
référence segmentés par l’algorithmeTextTiling. On voit bien que les valeurs de
rappel pour cet algorithme sont très basses, allant de 0.00jusqu’à0.60,tandisqueles
valeurs de précision sont hautes, allant de 0.40 jusqu’à1.00.
Cependant, ces valeurs ne prennent pas en compte le fait que l’algorithmeTextTiling
malgréqu’iléchouedansladétectioncorrectedesfrontières, ilnemanquede
détecter toutes les frontières. Le tableau 3 présente les valeurs de rappel et de
précision pour les cinq textes segmentés par l’algorithme C99. On remarque que
l’algorithme C99 a de hautes valeurs du rappel, 0.33, 0.40, 0.50 et 1 respectivement,
Alors que Les valeurs de précision sont entre 0.50 et 0.66.
Le tableau 4 présente les résultats de comparaison entre les deux algorithmes et les
jugements des lecteurs. Pour les algorithmes, TextTiling a la meilleure valeur pour la
précision; il dépasse 0.84 mais il a la plus mauvaise valeur pour rappel qui est égale
0.15. C99 a la plus mauvaise valeur de précision 0.45 mais il a la meilleure valeur
pour le rappel; il dépasse 0.54. TextTiling et C99 paraissent avoir des difficultés à
s’adapter avec le nombre de frontières à découvrir; la longueur du texte a un grand
impact sur leur nombre de frontières détectées. L’algorithmeC99 paraît être plus
effectif aux textes arabes.
Dans cet article, une analyse comparative de deux algorithmes de segmentation
thématique des textes arabes est présentée. Pour évaluer les performances de chaque
algorithme sur des corpus arabe, chacun a été appliqué sur un ensemble de textes
arabes et les résultats ont été comparés. Nous avons confirmé dans cet article que la
tâche de segmentation est dure à évaluer parce que les objectifs peuvent varier.
Globalement l'algorithme TextTiling paraît être plus adapté à la langue arabe que
celui de C99. Pour aller plus loin dans les expérimentations, nous devrions essayer un
nouvel algorithme qui mélange une méthode supervisée avec une autre non
supervisée, et faire de nouvelles comparaisons entre les approches statistiques et
linguistiques. Finalement, notre travail montre qu'avec seulement des petites
améliorations, les algorithmes existants pour segmenter des textes anglais, sont
adaptables pour les textes arabes.
18. O.ManabuandH.Takeo,“Wordsensedisambiguationandtextsegmentationbasedon
lexicalcohesion,”presentedatTheInternationalConferenceonComputationalLinguistics,
Kyoto, Japan, 1994.
19. N.Masson,“AnAutomaticMethodforDocumentStructuring,”InProceedingsofthe18th
Annual International ACM-SIGIR Conference on Research and Development in
Information Retrieval, Seattle, Washington, USA, 1995.
20. G. A. Miller, R. Beckwith, C. Fellbaum,D.Gross,andK.Miller,“Fivepaperson
        </p>
        <p>Wordnet,”CognitiveScienceLaboratory,Technicalreport1990.
21. J.MorrisandG.Hirst,“Lexicalcohesioncomputedbythesaurusrelationsasanindicator
ofthestructureoftext,”ComputationalLinguistics, vol. 17(1), pp. 21 - 48, 1991.
22. D.D.Palmerand M.A.Hearst,“Adaptive sentence boundary disambiguation,” In
Proceedings of the 4th Conference on Applied Natural Language Processing, Stuttgart,
Germany, October. 1994.
23. J.R.PassonneauandD.J.Litman.“Intention-based segmentation: Human reliability and
correlationwithlinguisticcues”.InProceedingsofthe31stAnnualMeeting,pages148155. 1993.
24. J.Reynar,“TopicSegmentation:AlgorithmsandApplication,”Ph.D.thesis,Computer and</p>
        <p>Information Science. University of Pennsylvania, Pennsylvania, USA, 1998.
25. N.Stokes,J.Carthy,andA.F.Smeaton,“SeLeCT:alexicalcohesionbasednewsstory
segmentationsystem,”AICommunications,vol.17,pp.3- 12, 2004.</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          1.
          <string-name>
            <given-names>R.</given-names>
            <surname>Baeza-Yates</surname>
          </string-name>
          and
          <string-name>
            <given-names>B.</given-names>
            <surname>Ribeiro-Neto</surname>
          </string-name>
          ,“ModernInformationRetrieval”.Addison-Wesley, ACM Press,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          2.
          <string-name>
            <given-names>D.</given-names>
            <surname>Beeferman</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Berger</surname>
          </string-name>
          ,andJ.Lafferty,“Statisticalmodelsfortextsegmentation,”
          <source>Machine Learning</source>
          , vol.
          <volume>34</volume>
          , pp.
          <fpage>177</fpage>
          -
          <lpage>210</lpage>
          ,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          3.
          <string-name>
            <given-names>T.</given-names>
            <surname>Brants</surname>
          </string-name>
          ,
          <string-name>
            <given-names>F.</given-names>
            <surname>Chen</surname>
          </string-name>
          ,andI.Tsochantaridis,“
          <article-title>Topic-based document segmentation with probabilisticlatentsemanticanalysis,”presentedatCIKM, McLean, Virginia</article-title>
          , USA,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          4.
          <string-name>
            <surname>J. Carletta.</surname>
          </string-name>
          “
          <article-title>Assessing agreement on classification tasks: The kappa statistic”</article-title>
          .
          <source>Computational Linguistics</source>
          ,
          <volume>22</volume>
          (
          <issue>2</issue>
          ):
          <fpage>249</fpage>
          -
          <lpage>254</lpage>
          .
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          5.
          <string-name>
            <given-names>F.</given-names>
            <surname>Choi</surname>
          </string-name>
          ,“Advancesindomainindependentlineartextsegmentation,”
          <article-title>presentedatthefirst conference on North American chapter of the Association for Computational Linguistics (NAACL</article-title>
          ), Seattle, Washington,
          <year>2000</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          6.
          <string-name>
            <given-names>K.</given-names>
            <surname>Darwish</surname>
          </string-name>
          ,“
          <article-title>Building a Shallow Arabic MorphologicalAnalyzerin One Day,” Proceedings of the workshop on Computational Approaches to Semitic Language, in the 40th Annual Meeting of the Association for the Computational Linguistics, (</article-title>
          <source>ACL-02)</source>
          , pp.
          <fpage>47</fpage>
          -
          <lpage>54</lpage>
          .
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          7.
          <string-name>
            <given-names>M. A.</given-names>
            <surname>El-Shayeb</surname>
          </string-name>
          ,
          <string-name>
            <given-names>S. R.</given-names>
            <surname>El-BeltagyandA.Rafea</surname>
          </string-name>
          ,“ComparativeAnalysisofDifferentText Segmentation Algorithms on Arabic News Stories,
          <source>”Proc.IEEEInternationalConference on Information Reuse and Integration</source>
          , pp.
          <fpage>441</fpage>
          -
          <lpage>446</lpage>
          , Aug,
          <year>2007</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          8.
          <string-name>
            <given-names>O.</given-names>
            <surname>Ferrat</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>GrauandN</surname>
          </string-name>
          .Masson,“Thematicsegmentationoftexts:twomethodsfortwo kindsoftexts,”
          <source>InProceedingsofthe36thAnnualMeetingofthe ACL</source>
          ,
          <year>1998</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          9.
          <string-name>
            <given-names>M.</given-names>
            <surname>Galley</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>McKeown</surname>
          </string-name>
          ,
          <string-name>
            <surname>E.</surname>
          </string-name>
          <article-title>Fosler-lussier, and</article-title>
          <string-name>
            <given-names>H.</given-names>
            <surname>Jing</surname>
          </string-name>
          .
          <article-title>Discourse segmentation of multiparty conversation</article-title>
          .
          <source>In: Proceedings of the 41st Annual Meeting of ACL</source>
          , Sapporo, Japan,
          <year>2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          10. G. Grefenstette, and
          <string-name>
            <given-names>P.</given-names>
            <surname>Tapanainen</surname>
          </string-name>
          .
          <article-title>What is a word, what is a sentence? Problems of tokenization</article-title>
          .
          <source>In: Proceedings of the 3rd Conference on Computational Lexicography and Text Research (COMPLEX-94)</source>
          , Budapest, Hungary,
          <year>1994</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          11.
          <string-name>
            <given-names>B.J.</given-names>
            <surname>GroszandC</surname>
          </string-name>
          .L.Sidner,“Attention,IntentionsandtheStructureofDiscourse,” Computational Linguistics, vol.
          <volume>12</volume>
          , pp.
          <fpage>175</fpage>
          -
          <lpage>204</lpage>
          ,
          <year>1986</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          12.
          <string-name>
            <surname>Hasnah</surname>
          </string-name>
          ,“FullTextProcessingandRetrieval:WeightRankingTextStructuring,and PassageRetrievalforArabicDocuments,”
          <string-name>
            <surname>Ph</surname>
          </string-name>
          .D.thesis,IllinoisInstituteofTechnology.
          <year>1996</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          13.
          <string-name>
            <surname>M.</surname>
          </string-name>
          <article-title>A</article-title>
          .Hearst,“TextTiling:Segmenting textinto multiparagraph subtopicpassages,
          <source>” Computational Linguistics</source>
          , vol.
          <volume>23</volume>
          , pp.
          <fpage>33</fpage>
          -
          <lpage>64</lpage>
          ,
          <year>1997</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          <string-name>
            <given-names>A.</given-names>
            <surname>IsardandJ</surname>
          </string-name>
          .Carletta“
          <article-title>Replicabilityoftransactionandactioncodinginthemaptask corpus”</article-title>
          .InJohannaMooreandMarilynWalker,editors,
          <source>Empirical Methods in Discourse: Interpretation &amp; Generation, AAAI Technical Report</source>
          SS-
          <volume>95</volume>
          ~
          <fpage>06</fpage>
          . AAAI Press, Menlo Park, CA.
          <year>1995</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          14.
          <string-name>
            <surname>M.Y.Kan</surname>
            ,
            <given-names>J.L.</given-names>
          </string-name>
          <string-name>
            <surname>Klavans</surname>
          </string-name>
          ,andK.R.McKeown,“Linearsegmentationandsegment relevance,
          <source>”presentedattheInternationalWorkshopofVeryLarge Corpora (WVLC 6)</source>
          , Montreal,
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          15. D.KauchakandF.Chen,“
          <article-title>Feature-basedsegmentationofnarrativedocuments,”presented at the ACL Workshop on Feature Engineering for Machine Learning in Natural Language Processing</article-title>
          , Ann Arbor, MI, USA,
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          16. H. Kozima,“TextSegmentationBasedonSimilaritybetweenWords,”
          <source>InProceedingsof ACL'93</source>
          , pp.
          <fpage>286</fpage>
          -
          <lpage>288</lpage>
          , Ohio, Japan,
          <year>1993</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          17.
          <string-name>
            <surname>D.J.LitmanandR</surname>
          </string-name>
          .J.Passonneau.“
          <article-title>Combiningmultipleknowledgesourcesfordiscourse segmentation”.InProceedingsofthe33rdMeetingof Association for Computational Linguistics</article-title>
          ., pages
          <fpage>108</fpage>
          -
          <lpage>115</lpage>
          , June.
          <year>1993</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>