Étude Comparative des Algorithmes de Segmentation
           Thématique Pour la Langue Arabe

                      Fouzi Harrag ¹, Mohamed BenMohammed ²

                               ¹ Département d'informatique
                                  Université Farhat Abbas
                                      Sétif –Algérie
                                   hfouzi2001@yahoo.fr

                               ² Département d'informatique
                                   Université Mentouri,
                                   Constantine, Algérie
                                 ben_moh123@yahoo.com


       Résumé. Le besoin d'avoir un système de segmentation thématique des textes
       arabes apourbutd’   améliorer les fonctionnalités de la Recherche d'Information
       Arabe (RIA). La segmentation thématique des textes a été utilisée pour
       améliorer la précision des processus subséquents telle que les systèmes de
       résumé automatique, les systèmes de Question/Réponses et les systèmes de
       rec herche d’ i
                     nfor mation. Dans cet article, nous présentons une étude
       comparative des algorithmes TextTiling et C99 pour la segmentation thématique
       des textes arabes. Nous évaluons la performance de ces deux algorithmes en
       utilisant les mesures classiques Rappel et Précision et la méthode des
       Jugements des Lecteurs récemment introduite.


1 Introduction

    La segmentation thématique est une nouvelle technique pour l       ’amélioration de
l'accès à l’information, elle peut être définie comme la tâche de subdivisi    ond’  un
document en plusieurs paragraphes thématiquement cohérents. En recherche
d'information par exemple, avoir des documents thématiquement segmentés peut
résulter en la récupération des segments de texte courts et pertinents qui
correspondent directement à la requête d'un utilisateur au lieu de longs documents
examiné avec soin par l    ’utilisateur pour trouver l'objet de son intérêt. Avoir des
documents thématiquement segmentés peut aussi aider dans la tâche de résumé
automatique des textes puisque un meilleur résumé peut être obtenu de la fusion des
différents segments constituant le document [7]. Au temps où un nombre considérable
de recherches a é  téc  onsacréàl   ’étudecette technique pour les langues anglaise et
française, peu l'ont étudié pour d’ autres langues et presque personne, àl’
                                                                          e xcept i
                                                                                  onde
[7] et [12], n ’
               aé  t
                   u diéc ettet e chniqu epour langue arabe. Le manque de recherche
dans ce domaine nous a poussés à adopter les deux algorithmes de segmentation
thématique TextTiling et C99 pour une telle langue. Cet article est organisé comme
suit: la Section 2 présents u
                            né  tatdel’a rtda nsl edoma  i
                                                         n e; la Section 3 présents une
vue d'ensemble des approches implémentés; les résultats et leur discussion sont
rapportées dans la Section 4; finalement la Section 5 conclut l’art
                                                                  icle.


2 Travaux antérieurs

    Les approches qui adressent le problème de segmentation thématique peuvent être
classées en deux classes : les approches à base de connaissance et les approches à base
de mot. Les systèmes à base de connaissance, comme dans [11], exige un grand effort
ma nu eld el ’i
              n génierie de connaissance pour la créa t
                                                      iond’  unebase de connaissance
(réseau sémantique et/ou de Frames). Ceci est seulement réalisable dans quelques
domaines très restreints. Pour dépasser cette limitation, et pour traiter une grande
quantité de textes, les approches à base de mot ont été développées. [13] et [20] fait
usage de la distribution des mots dans un texte pour trouver une segmentation
thématique. Ces travaux sont bien adaptés à des textes techniques ou scientifiques
caractérisés par un vocabulaire spécifique.
    Pour traiter des textes narratifs ou explicatifs tels que les articles des journaux, les
approches [17] et [22] sont basées sur la cohésion lexicale calculée à partir d'un réseau
lexical. Ces méthodes dépendent de la présence du vocabulaire du texte à l'intérieur de
leur réseau. Donc, pour éviter toute restriction de domaines dans tels genres de textes,
[20] a présenté une méthode mixte qui augmente un système basée sur la distribution
des mots, en utilisant les connaissances représentés par un réseau lexical de co-
occurrences construit automatiquement à partir d'un corpus.
    Les autres approches Existantes de segmentation thématique peuvent être classées
dans deux groupes principaux: les approches à base de cohésion lexicale et les
approches à base d’a t
                     tri
                       bu ts. Les approches à base de cohésion lexicale dépendent de la
tendance des unités thématiques à lier ensemble. En outre, les approches qui mesurent
ce type de cohésion peuvent être divisées en deux catégories: les approches à base de
similarité où les modèles de répétitions syntactiques sont utilisés pour indiquer la
cohésion et les approches à base de chaînes lexicales où autres aspects de cohésion
lexicale (comme les relations entre termes) sont aussi analysé [3].


3 Approches implémentés

    Dans cette section, deux algorithmes de segmentation thématique des textes sont
décrits: TextTiling [13] et C99 [5]. Les deux systèmes sont basés sur la cohésion
lexicale. L'algorithme TextTiling utilise la mesure de similarité Cosine entre les
vecteurs des termes pour mesurer la densité de la cohésion entre blocs adjacents.
L'algorithme C99 utilise aussi la mesure de similarité Cosine pour déterminer des
ressemblances parmi les phrases du texte puis il projette ceux-ci graphiquement. Il
applique alors des techniques de traitement d'image pour déterminer des frontières
thématiques.
3.1 Pré-traitement des textes

   L'étape de pré-traitement traite l
                                    e sf l
                                         uxd’ entréeen enlevant les étiquettes et les
ponctuations et en transformant les termes en lemmes. En premier lieu, nous allons
construire des blocs de texte appelés « séquences lexicales ». Le texte de l'entrée est
simplement une séquence de caractères avant le pré-traitement. C'est la responsabilité
du pré-processor de transformer cette séquence en unités sémantiques dans la phase
d’analysel  exicale. Ces unités peuvent être des mots simples tels que les mots
programme et création, ou des expressions composées telles que Les États-Unis (par
opposition à États et Unis).


3.2    L’
        Algor
            ithmeTextTiling

    L'algorithme TextTiling, pour la découverte des structures thématiques en utilisant
la répétition des termes, se décompose de trois parties principales [13]:
       Le découpage physique.
       Détermination de la similarité.
       Identification des frontières.
C’ est l’un des travaux fondateurs dans le domaine de la détection de thème, TextTiling
réalise le découpage d’  un texte en unités de discours multi paragraphe cohérentes qui
reflète la structure thématique du texte cf. Figure 1. Cet algorithme utilise la fréquence
lexicale indépendamment du domaine et la distributivité pour reconnaitre l’     interaction
de thèmes simultanés multiples. Elle se base sur un modèle d’       espace vectoriel qui
détermine la similarité entre des groupes voisins de phrases et place une coupure entre
des blocs voisins dissimilaires.
La première étape est le découpage physique Elle se base sur une mesure de similarité
lexicale. Les lemmes issus du texte prétraites sont groupes en pseudo phrases, c'est-a-
dire un ensemble de lemmes adjacents (20 dans l’article), qui sont elles-mêmes
regroupées en bloc de Taille fixée par l’utilisateur (cf. Figure 1). Cette taille des
segments est variable, elle peut aller de 3 à 5 pseudo phrases a un paragraphe. En
général, on prend la moyenne de la longueur des Paragraphes. Les paragraphes réels
ainsi que les phrases ne sont pas pris car leur longueur Peut être fortement irrégulière
conduisant à des comparaisons déséquilibrées.
La deuxième étape est le calcul de la similarité entre blocs adjacents La similarité entre
des blocs de pseudo phrase adjacents est calculée cf. Figure 1 par Une mesure du
cosinus cf. Equation 1 : étant donne des blocs de textes b1 et b2,

                                              W      t,b1    W t,b2                   (1)
                           Score(i)          t

                                        W                    W
                                                          2                    2
                                                  t, b1                t, b2
                                          t                   t


Où t s’
      étendàl ’ensembl ed est e r
                                me  sda nsledocume nte
                                                     twt,b1 est le poids tf.idf assigné
au terme t dans le bloc b1. tf.idf correspond au nombre de lemmes communs et au
nombr  edef  oi squ ’
                    ilsa pparaisse ntdans le texte tout entier. Donc, si le score de la
similarité entre deux blocs est élève, alors non seulement les Blocs ont des termes en
commu   n,ma  isl esterme squ  ’il
                                 son  te nc  ommu  ns  ontrelativeme n trares en ce qui
concerne le reste du document. L’  évidence de la réciproque n’est pas aussi concluante :
si des blocs adjacents ont une mesure de similarité faible, cela ne signifie pas
néces saireme ntqu  ’
                    ilsn es et  ienne ntpa se  nsembl e;c  ep enda nt,e npr  ati
                                                                               quec  ett
                                                                                       e
évidence négative est souvent justifiée.


                         Fig. 1. Principe del
                                            ’al
                                              gor
                                                it
                                                 hmeTextTiling


La troisième étape e  s
                      tl ’extraction des zones thématiques, à partir de ce score, le calcul
d’un score de cohésion (ou de profondeur) est effectue qui quantifie la similarité entre
un bloc et les blocs voisins. En terme de graphe de score de Similarité, un score de
cohésion peut être représente comme la somme des différences entre le sommet du pic
et les creux des vallées voisines. Le calcul des scores de cohésion procède comme suit:
     on commence au premier creux entre 2 blocs et,
     on mémorise le score de similarité associée avec les blocs de chaque cote du
      creux.
     On vérifie le score de similarité du creux précédant,
     Sic ’estp  l
                 ushaut,onc  on t
                                inuee tone  x amin eles  c
                                                         ored es imi l
                                                                     aritéduc   r
                                                                                eux
      précédant.
     Onc  on t
              in uej
                   usqu’àc equ  elescores oitp lusba squ ec eluidéjàe xami ner.
     Ensuite, on soustrait le score de similarité du creux initial avec le score
      maximum de similarité rencontre.
     Cette procédure est répétée pour les creux entre les blocs suivant le premier
      creux.
     Enfin, la somme des deux différences est calculée.
Cette valeur est le score de cohésion pour le premier creux examine, les scores de
cohésion ne sont calcules que pour les creux qui sont des minimaux locaux pour la
fonction de similarité. Les limites, c’est-a-dire les zones de changements de thèmes,
sont déterminées en localisant les portions les plus basses des vallées dans le graphique
résultant. En d’
               autres termes, les creux avec de fort score de cohésion sont sélectionnes
comme les endroits de rupture de thèmes. Cette coupure est ajustée a la fin d’         un
paragraphe. Ceci permet d’ éliminer les coupures très proches l’ une de l’autre.


3.3 L’
     alg
       ori
         thmeC99

Cet algorithme proposé par [5] utilise une mesure de similarité entre chaque unité
textue l
       le.L’  idéedeb   asedec ettemé  thodee  stqu  elesme  su resdes i
                                                                       mila
                                                                          rit
                                                                            ée ntre des
segments de textes courts sont statistiquement insignifiantes, et que donc seul des
classements locaux (voir ci-dessous) sont à considérer pour ensuite appliquer un
algorithme de catégorisation sur la matrice de similarité.
Dans un premier temps, une matrice de similarité est donc construite, représentant la
simila ri
        tée  ntretou t
                     esl esph r
                              as esdut  exteàl  ’aidedel ame   sured esimi
                                                                         lar
                                                                           itéCosinus,
calculée pour chaque paire de phrases du texte, en utilisant chaque mot commun entre
les phrases, et après « nettoyage » du texte : suppression des mots vides et
lemmatisation.
One  ffectu ee n su
                  iteu n«c lasseme n tlocal» ,e ndé  t
                                                     ermin an tpou rchaquepaired’ uni
                                                                                    tés
textuelles, le rang de sa mesure de similarité par rapport à ses m × n −1voisins, m × n
étant le ma  squ edec lasseme ntc hoisi.Ler  an ge stlen ombr  ed’ él
                                                                    éme nt
                                                                         svoisinsa yant
une mesure de s   i
                  mi l
                     a ri
                        téplusf ai
                                 b l
                                   e ,con s
                                          e rvés ou slafo rmed  ’unra t
                                                                      iorafi
                                                                           nd ep rendre
en compte les effets de bord.

                                          rang                         .             (2)
                            r
                              # de voisins dans le masque


Enfin, la dernière étape détermine les limites de chaque segment de la même manière
quel  ’algorit
             h meDotplotting [24] emploie la maximisation. En effet on cherche à
déterminer quelle configuration offre la plus grande densité, en recherchant une
nouvelle limite thématique à chaque étape.
Les segments sont alors représentés par des carrés le long de la diagonale de la matrice
de similarité modifiée avec les classements locaux. Pour chaque segment de la
répartition proposée à une étape de la segmentation on considère son aire notée ak et
son poids sk qui e stlas ommede   st ou slesr a
                                              ngsd
                                                 esph
                                                    ras
                                                      esqu
                                                         ’ilc
                                                            ont
                                                              ie
                                                               nt.Onc
                                                                    alc
                                                                      ule
alors la densité D de la configuration avec :
                                        m

                                       s     k              .               (3)
                                   D km1
                                       a
                                       k 1
                                              k


L’a l
    g or
       ith
         me s ’arrêtel orsqu elad ensit
                                      éd  el  a me ill
                                                     eur
                                                       er  éparti
                                                                tion p roposéee st
suffisamment faible, ou si le nombre de frontières thématiques est déjà déterminé,
lorsqu ’
       iles
          tatteint.


                        Fig. 2. Principe del
                                           ’al
                                             gor
                                               it
                                                hmeC99.
4 Résultats et discussion

4.1 Cr
     itè
       resd’
           éval
              uat
                ion
L’
 éva
   lua
     tiond
         elas
            egme
               nta
                 ti
                  ont
                    héma
                       tiqu
                          epe
                            uts
                              efa
                                ired
                                   epl
                                     usi
                                       eur
                                         sma
                                           niè
                                             res:
     Par comparaison avec des jugements humains : aucun corpus segmenté de
      tai
        llesuf
             fisanten’estc ep e
                              n da ntdisponible à ce jour ; des propositions ont été
      fait
         espou rl ac onstit
                          u ti
                             ond’  u nt elco rpuse  tp ou ré  valuerlaqu   ali
                                                                             téde  s
      jugements humains [4] [13] [24].
     Pa
       rr appo r
               tàd  esma  rque sdépos éespa rl ’auteurdut   exte(  c
                                                                   ett
                                                                     eprocédure
      n’
       estp asf iablecart outesegmentation est subjective [24], la position des
      marques de segmentation dépend du point de vue du lecteur) ;
     Par rapport à des marques « certaines » à retrouver (limites entre documents
      d’unc orpu sp arexemple);
     Par son impact sur une tâche particulière (évaluation fonctionnelle), la
      recherche d'informations par exemple.
4.2 Le Corpus d’
               éva
                 luat
                    ion
Pour l'évaluation des deux algorithmes TextTiling et C99, on se base sur les jugements
de sept lecteurs, chaque lecteur parmi les sept a fait la lecture et la segmentation
manuelle de 5 textes arabes traitant des sujets de deux domaines différents (Littérature,
Médecine). Les textes utilisés pour cette évaluation ont une longueur moyenne entre
600 et 2000 mots. Les lecteurs ont été invités simplement à délimiter les paragraphes
auxquels il y a un changement de thème, cette délimitation restera subjective pour
chaque lecteur.

4.3 Méthode de Jugements des Lecteurs:
Le schéma de la figure (Fig.3) montre les limites faites par les sept lecteurs sur les
textes. Ce schéma nous aide à illustrer les tendances générales des évaluations des
lecteurs, et également à montrer où/et combien de fois ils sont en accord ou en
désaccord. Par exemple, tous les lecteurs sauf le quatrième ont marqué une frontière au
paragraphe 7. Ce lecteur en désaccord avec les autres a délimité la frontière au
paragraphe 1  0.L’  ensembl ed  esf  rontière
                                            s pou   rl es
                                                        qu ell
                                                             e slesl ec te urss on ttouse n
accord sont les suivants: {12, 20, 22, 31, 33, 37, 38, 50}. Par contre, il y a un désaccord
pour les frontières suivantes: {1, 15, 18, 41,43, 44, 45 …}  .
             Fig. 3. Le
                      srup
                         tur
                           esmi
                              sespa
                                  rle
                                    sle
                                      cte
                                        urse
                                           tl’
                                             alg
                                               ori
                                                 thmeTextTiling

D’ a près[  24], si quatre ou plus sur sept lecteurs marquent la même frontière, la
segmentation s'avérée. Mais, deux années après [18], ont montré que trois lecteurs sont
considérés suffisamment pour classifier ce point comme une frontière "principale". [4]
et [14] précisent l'importance de tenir en compte l ’acc
                                                       ordfor
                                                            tu i
                                                               te tpr évue  nc alculant
si les lecteurs convenir de manière significative. A c
                                                     ett
                                                       efin
                                                          ,Ilsc onse i
                                                                     llen td‘u t
                                                                               ili
                                                                                 s erle
coefficient de Kappa (K). S'accorder à [4], K mesure par paires l'accord parmi un
en sembl  edel  ecteur
                     sf ais
                          antdesc atég ori
                                         e sdej u gements
                                                        ,cal
                                                           culan tselonl ’équ ati
                                                                                on(  4)


                                       P 
                                          A P 
                                                E
                                 K                                    .             (4)
                                         1 P 
                                              E

Où P (A) est la proportion de fois que les lecteurs conviennent et P(E) est la proportion
de fois où on s'attendrait à ce qu'ils conviennent par hasard. Le coefficient peut être
calculé en faisant par paires des comparaisons contre un expert ou en comparant à une
décision de groupe. [4] déclare également que si K > 0.8 ceci signale que la
segmentation est bonne, et si K > 0. 67 et K < 0.8 cela permet de donner des
conclusions expérimentales acceptables. Les coefficients trouvés par [14] se sont
étendus du 0.43 au 0.68 pour trois lecteurs, et ceux trouvées par [4] sont étendus du
0.65 à 0.90 pour quatre lecteurs segmentant des phrases.

Dans notre évaluation, nous concéderons que trois jugements en accord sont
accep tablespou  rcon s
                      idé r
                          e rlaf  ronti
                                      èrej  ust
                                              e .A pa  rtirdel af ig ur
                                                                      e(  Fi
                                                                           g .3)l’en sembl e
des frontières acceptables est le suivant : {1, 3, 5, 7, 12, 14, 15, 16, 18, 20, 22, 23, 29,
31, 33, 34, 37, 38, 50}. A partir du schéma de la même figure on peut calculer le
coefficient Kappa comme il est montré dans le tableau 1 ci-dessous, la comparaison de
nos résultats avec celles obtenus par Hearst [13] à pa            r
                                                                  tird  el ’a pplic
                                                                                  a ti
                                                                                     on d  e
l’
 algorit
       h me TextTiling sur un corpus anglais a montré que notre segmentation est
acceptable.


                       Table 1. Résultats de calcul du coefficient Kappa


           P(A)           P(E)          K             K (H)          Remarque
           0.7894         0.2106        0.7332        0.647          Acceptable


4.4 Méthode de Rappel / Précision:
Dans l’  expérience suivante, les deux mesures rappel et précision, classiquement
utilisés dans la recherche d'information, détaillés dans [1], ont aussi été employés
pour évaluer les algorithmes de segmentation. Dans le contexte de segmentation
thématique, la précision est définie comme:

                 Nombre de frontières correctement détectées par le système       .   (5)
               P
                   nombre totale de frontières générées par le système

Tandis que le rappel est défini comme:
                  Nombre de frontières correctement détectées par le système      .   (6)
                R
                         nombre totale des frontières de référence


Les valeurs de Rappel et Précision pour les deux algorithmes nous donnent une idée
générale surl ’
              éc hecdec  esde uxme   su restraditionnellesdel arec
                                                                 h erched’ information
da nslat ached’  évaluati
                        onde  sperformances des systèmes de segmentation [11]. Le
tableau 2 présente les valeurs de rappel et de précision pour cinq textes du corpus de
référence segmentés par l  ’algor ithmeTextTiling. On voit bien que les valeurs de
rappel pour cet algorithme sont très basses, allant de 0.00ju squ’
                                                                 à0. 60,t andisqu eles
valeurs de précision sont hautes, allant de 0.40 jusqu’à1.00.

     Table 2. Rappel et Précision pour 5 textes segmentésa
                                                         vecl
                                                            ’al
                                                              gor
                                                                it
                                                                 hmeTextTiling

       Texte      Nombre total de       Nombre de frontières en    Rappel Précision
                  frontières            accords
       1          6                     6                          0.00    1.00
       2          4                     4                          0.00    1.00
       3          3                     2                          0.33    0.66
       4          5                     2                          0.60    0.40
       5          1                     1                          0.00    1.00


Cependant, ces valeurs ne prennent pas en compte le fait que l’
                                                              alg
                                                                orit
                                                                   hmeTextTiling
ma lgréqu’ ilé chou eda n sl adé tecti
                                     onc  or
                                           rect
                                              ede  sf ron ti
                                                           ères,i lnema  nqu ede
détecter toutes les frontières. Le tableau 3 présente les valeurs de rappel et de
précision pour les cinq textes segmentés par l   ’algorithme C99. On remarque que
l’
 algorithme C99 a de hautes valeurs du rappel, 0.33, 0.40, 0.50 et 1 respectivement,
Alors que Les valeurs de précision sont entre 0.50 et 0.66.

        Table 3. Ra
                  ppe
                    letPr
                        éci
                          si
                           onp
                             our5t
                                 ext
                                   ess
                                     egme
                                        nté
                                          sav
                                            ecl
                                              ’al
                                                gor
                                                  it
                                                   hmeC99

       Texte Nombre total de        Nombre de frontières en   Rappel      Précision
             frontières             accords
       1     6                      3                         0.50        0.50
       2     4                      2                         0.50        0.50
       3     3                      2                         0.33        0.66
       4     5                      3                         0.40        0.60
       5     1                      0                         1.00        0.00

Le tableau 4 présente les résultats de comparaison entre les deux algorithmes et les
jugements des lecteurs. Pour les algorithmes, TextTiling a la meilleure valeur pour la
précision; il dépasse 0.84 mais il a la plus mauvaise valeur pour rappel qui est égale
0.15. C99 a la plus mauvaise valeur de précision 0.45 mais il a la meilleure valeur
pour le rappel; il dépasse 0.54. TextTiling et C99 paraissent avoir des difficultés à
s’adapter avec le nombre de frontières à découvrir; la longueur du texte a un grand
impact sur leur nombre de frontières détectées. L’    al
                                                       g ori
                                                           thmeC99 paraît être plus
effectif aux textes arabes.

           Table 4. Comparaison des algorithmes avec les jugements des lecteurs

           Segmentation                 Rappel                         Précision
           TextTiling                   0.18                           0.81
           C99                          0.54                           0.45
           Les jugements des lecteurs   0.15                           0.84


5 Conclusion

Dans cet article, une analyse comparative de deux algorithmes de segmentation
thématique des textes arabes est présentée. Pour évaluer les performances de chaque
algorithme sur des corpus arabe, chacun a été appliqué sur un ensemble de textes
arabes et les résultats ont été comparés. Nous avons confirmé dans cet article que la
tâche de segmentation est dure à évaluer parce que les objectifs peuvent varier.
Globalement l'algorithme TextTiling paraît être plus adapté à la langue arabe que
celui de C99. Pour aller plus loin dans les expérimentations, nous devrions essayer un
nouvel algorithme qui mélange une méthode supervisée avec une autre non
supervisée, et faire de nouvelles comparaisons entre les approches statistiques et
linguistiques. Finalement, notre travail montre qu'avec seulement des petites
améliorations, les algorithmes existants pour segmenter des textes anglais, sont
adaptables pour les textes arabes.
Références

1. R. Baeza-Yates and B. Ribeiro-Ne          to,“ Mo  de r
                                                         nI  nfor ma tionRe  tri
                                                                               e val”.Addi  son-Wesley,
    ACM Press, 1999.
2. D. Beeferman, A. Be       rge r,a  ndJ  .La   ffert
                                                     y ,“ Sta t
                                                              istica lmode  lsf ort ex ts egme nta t
                                                                                                   ion,”
    Machine Learning, vol. 34, pp. 177 - 210, 1999.
3. T.Br    a nts,F.Che   n,a  nd I  .Ts  oc ha ntaridis,“ Topi c-based document segmentation with
    pro ba bilist
                icl atentse ma ntica  na l
                                         ys is,
                                              ”pr  esenteda  tCI KM, McLean, Virginia, USA, 2002.
4. J . Ca   rlett
                a .“  As s
                         es si
                             ng a   g reeme  nt on c    lassification t  asks: The ka    ppa s  tati
                                                                                                   stic”
                                                                                                       .
    Computational Linguistics, 22(2):249-254. 1996.
5. F.Ch    oi,“ Adv a ncesi ndoma   ini  nde pe nde ntlineart ex ts egme nt at
                                                                             ion,”pr e s
                                                                                       e nteda tthef irs
                                                                                                       t
    conference on North American chapter of the Association for Computational Linguistics
    (NAACL), Seattle, Washington, 2000.
6. K.Da      rwis h,“  Building a Sha     ll
                                           ow Ar     a
                                                     bic Mor   p hol og i
                                                                        ca lAna  lyzeri  n One Da    y ,
                                                                                                       ”
    Proceedings of the workshop on Computational Approaches to Semitic Language, in the
    40th Annual Meeting of the Association for the Computational Linguistics, (ACL-02), pp.
    47 - 54. 2002.
7. M. A. El-Shayeb, S. R. El-Be       ltagya  ndA.Ra    fea,“ Compa   ra t
                                                                         iveAna  lysisofDi  fferentTe xt
    Segmentation Algorithms on Arabic News Stori            es,”Pr  oc.I EEEI  nt e
                                                                                  rna ti
                                                                                       o nalCo nf erence
    on Information Reuse and Integration, pp. 441 - 446, Aug, 2007.
8. O.Fe    rra t
               ,B.Gr   aua ndN.Ma     s son,“ The  ma ti
                                                       cs e gme nt ationoft  exts:twome   thodsf  ortwo
    kindsoft   ex ts,
                    ”I nPr ocee ding soft  he3   6thAnnua  lMe   etingoft  he ACL, 1998.
9. M. Galley, K. McKeown, E. Fosler-lussier, and H. Jing. Discourse segmentation of multi-
    party conversation. In: Proceedings of the 41st Annual Meeting of ACL, Sapporo, Japan,
    2003.
10. G. Grefenstette, and P. Tapanainen. What is a word, what is a sentence? Problems of
    tokenization. In: Proceedings of the 3rd Conference on Computational Lexicography and
    Text Research (COMPLEX-94), Budapest, Hungary, 1994.
11. B.J   .Gr  osza  ndC.L.Si      dne r,“ At te nti
                                                   on,I  ntent i
                                                               onsa   ndt  heSt ruc t
                                                                                    ur eofDi   scours e,
                                                                                                       ”
    Computational Linguistics, vol. 12, pp. 175 - 204, 1986.
12. Ha s nah,“  Ful lTe  xtPr oc e ssing a  nd Re   tr
                                                     ieva l
                                                          :We   ig htRa   nking Te  xtSt  r
                                                                                          uc t
                                                                                             uring ,a nd
    Pa ssa geRe   tri
                    ev alforAr  a bicDoc   ume   nts,”Ph. D.t  he sis,I l
                                                                        linoisIns tit
                                                                                    uteofTe   chnol og y
                                                                                                       .
    1996.
13. M.A.He       a r
                   st,“ Te xtTiling :Se  gme   nting t exti nt o mul  tiparagraph s u btopicpa  ssage s,
                                                                                                       ”
    Computational Linguistics, vol. 23, pp. 33 - 64, 1997.
A. I sarda   ndJ   .Ca rle
                         tta“  Re pl icabilityoft    r
                                                     ans actiona  nda   ctionc odi ngi nt  hema   pt ask
    cor pus ” .InJ oha nnaMo   orea  ndMa    rilynWa   l
                                                       k er,e ditors,Empi   r
                                                                            ical Methods in Discourse:
    Interpretation & Generation, AAAI Technical Report SS-95~06. AAAI Press, Menlo Park,
    CA. 1995.
14. M.Y.Ka       n,J .L.Kl   ava ns ,a  ndK.R.Mc        Ke own,“   Li ne a
                                                                         rs  egme ntationa  nds  egme nt
    relev anc e ,
                ”pr e sent
                         e da tt heI   nterna tionalWor   kshopofVe      r
                                                                         yLarge Corpora (WVLC 6),
    Montreal, 1999.
15. D.Ka   uc ha ka ndF.Che   n,“  Fe a t
                                        ure -ba seds egme  ntationofna   r ra
                                                                            tivedoc ume  nts,”pr esented
    at the ACL Workshop on Feature Engineering for Machine Learning in Natural Language
    Processing, Ann Arbor, MI, USA, 2005.
16. H. Kozi   ma ,“ Te xtSe gme  nt ationBa   sedonSi   mi laritybe  twe enWor   ds,”I nPr oc eedingsof
    ACL'93, pp. 286 - 288, Ohio, Japan, 1993.
17. D.J  .Li  tma na ndR.J  .Pa  sso nne au.“  Combi  ningmul   tiplek  nowl edges our cesf ordi scourse
    segme   ntation”.I  nPr oc eedi ng soft   he33r   dMe   e t
                                                              ingof Association for Computational
    Linguistics., pages 108-115, June. 1993.
18. O.Ma   nabua  ndH.Ta   keo,“  Wor ds  ens edi sambig ua tiona ndt  exts egme  ntati
                                                                                      onba  s
                                                                                            edo n
    lexicalcohe sion,
                    ”pr es ent
                             e da tTheI  nt erna t
                                                 ionalCo  nfer e
                                                               nc eonComput     ationalLinguist
                                                                                              ics,
    Kyoto, Japan, 1994.
19. N.Ma  s s
            on,“ AnAut  oma  t
                             icMe   thodf orDoc   ume ntSt  r
                                                            uc turi
                                                                  ng ,”InPr  oc eedingsoft he18th
    Annual International ACM-SIGIR Conference on Research and Development in
    Information Retrieval, Seattle, Washington, USA, 1995.
20. G. A. Miller, R. Beckwith, C. Fe      l
                                          lba um,D.Gr     oss ,a nd K.Mi    ller,“ Fivepa person
    Wor dne t,
             ”Cog  nit
                     iveSc  ie
                             nc eLa  bor at
                                          or y,Te chnicalr epor t199 0.
21. J.Mor  ri
            sa ndG.Hi   r
                        s t,“Le x i
                                  c a
                                    lc ohe sionc  omput edbyt   hesaur usr elationsa sa nindicat
                                                                                               or
    ofthes tructureoft ext,”Comput   ationa lLi nguist
                                                     ics, vol. 17(1), pp. 21 - 48, 1991.
22. D.D.Pa   lme ra nd M.A.He       a r
                                      st,“  Ada  pti
                                                   ves e nt ence boun  da ry di sambi guati
                                                                                          on,”I n
    Proceedings of the 4th Conference on Applied Natural Language Processing, Stuttgart,
    Germany, October. 1994.
23. J.R.Pa  ssonne aua ndD.J   .Li tma n.“ Intention-based segmentation: Human reliability and
    correlati
            onwi  thlingui sti
                             cc  ue s
                                    ”.I nPr  oc eedi
                                                   ng soft  he31s  tAnn   ualMe  e ti
                                                                                    ng,pa ges148-
    155. 1993.
24. J.Re ynar,“ TopicSe gme  nta t
                                 ion:Al  gor i
                                             thmsa  ndAppl   icati
                                                                 on,”Ph   .
                                                                          D.t he sis,Computer and
    Information Science. University of Pennsylvania, Pennsylvania, USA, 1998.
25. N.St ok es,J .Ca r
                     thy,a  ndA.F.Sme     a ton,“ SeLe CT:al    exi
                                                                  ca lc ohe sionba  sedne wss t
                                                                                              ory
    segme ntations yst
                     em, ”AICommuni      ca ti
                                             o ns,vol.17,  pp.3- 12, 2004.