L’Unicode des Caractères Arabes : Etat de l’Art

                              Manel Daagi                                                               Sofiene Haboubi
      Signal and Document Processing Research Group                                     Signal and Document Processing Research Group
            National Engineering School of Tunis                                             National Engineering School of Tunis
           BP 37 Belvedere 1002, Tunis, Tunisia                                              BP 37 Belvedere 1002, Tunis, Tunisia
                  maneldaagi@gmail.com                                                           sofiene.haboubi@istmt.rnu.tn


Résumé —Cet article présente un aperçu de l’Unicode .Il                         a plus d’un million de caractères dans le monde entier qui ont
introduit et il résume ses principales caractéristiques ainsi les               besoin de codage, pour satisfaire les demandes croissantes des
problèmes engendrés par la langue arabe et les causes de                        langues industrielles, et pour permettre à d'autres langues
l’existence de ce standard.                                                     comme l’arabe et ses règles de liaisons d'apparaître sur un
                                                                                écran informatique.
    Keywords;unicode;ecriture arabe;analyse contextuel;affichage
bidirectionnel;ligature;arabic-forms-B; arabic-forms-A;                             Les jeux de caractères utilisés possédaient des architectures
                                                                                très différentes les uns des autres [2]. Pour plusieurs, la simple
                    I.     INTRODUCTION                                         détection des octets représentant un caractère était un processus
                                                                                contextuel complexe. Les jeux de caractères classiques ne
   Le standard Unicode se définit comme un système de                           pouvaient au mieux prendre en charge que quelques langues.
codage mettant en œuvre un mécanisme cohérant et universel
de codage des caractères .Il permet de pallier aux problèmes                        La prise en charge de plusieurs langues à la fois était
pour chaque langue. Il admet aux textes multilingues de                         difficile, voire impossible. Aucun jeu de caractères ne
coexister.                                                                      fournissait toutes les lettres, les signes de ponctuation et les
                                                                                symboles techniques en usage courant utilisés pour une seule
    Ainsi il vient de résoudre les problèmes des caractères                     langue.
arabes grâce à ces algorithmes : L’algorithme d’analyse
contextuelle qui permet de traiter les problèmes de ligatures,                      Ces problèmes ont obligés les constructeurs d’ordinateurs
ainsi il définit la forme correcte de chaque caractère selon leur               de créer un autre standard de codage, qui peut supporter ce
position dans un mot.                                                           nombre énorme de caractères, mais compatible avec les normes
                                                                                existantes, c’est la norme Unicode ou bien UCS.
    De plus, l’algorithme d’affichage bidirectionnel proposé
par Unicode définit le sens d’écriture des caractères arabe.
                                                                                                         III.   UNICODE
    Nous avons étudié l’existence de l’Unicode, les                                Le standard Unicode a été créé par un groupe de
caractéristiques et les problèmes engendrés par la langue arabe.                constructeurs d’ordinateurs en 1989[2]. Il permet de définir le
Et les formes d’encodage qui permet de représenter les                          codage pour la majorité des caractères utilisés par les langues
caractères d’un jeu de caractères codés.                                        du monde. Chaque caractère Unicode est associé à un point de
                                                                                code. Les points de code Unicode sont notés sous la
                        II.    POURQUOI UNICODE                                 forme U+nnnn, où nnnn est l'hexadécimal de point de code, ou
    Durant plusieurs années, les ordinateurs n’utilisaient que les              sous forme d'une chaîne de texte descriptive.
26 lettres de l’alphabet latin dans sa version anglaise. Les                       Il définit d’une manière cohérente le codage des textes
incompatibilités entre les claviers ont émergée : des                           multilingues [3] et facilite l’échange de données textuelles.
incompatibilités concernant les codes pages, des problèmes de
transmission électronique des textes, etc.                                          Grâce à Unicode, l’industrie informatique peut assurer la
                                                                                pérennité des données textuelles tout en évitant l’augmentation
   Par exemple, le système de codage ASCII standard ne                          de jeux de caractères et l’interopérabilité des données.
reconnaissait pas les accents du français. Ce standard a montré
son insuffisance, puisqu’il fonctionne sur 8 bits, c’est à dire                    L’Unicode simplifie le développement de logiciels et en
qu’il ne permet que 128 positions de codage. Actuellement, il y                 réduit les coûts. En effet, Unicode permet de coder tous les


    Identify applicable sponsor/s here. If no sponsors, delete this text box.
(sponsors)
                                     SIDOP’12 : 2nd Workshop on Signal and Document Processing
caractères utilisés par toutes les langues écrites du monde (plus          •    Avec ses 28 caractères de base la langue arabe possède
d’un million de caractères sont réservés à cet effet). Tous les                 78 formes graphiques, elle s’inscrit dans son intégralité
caractères, quelle que soit la langue dans laquelle ils sont                    graphique des caractères dits diacritiques.
utilisés, sont accessibles sans aucune séquence d’échappement.
                                                                           •    Admet un aspect cursif c'est-à-dire les différents
    Le codage de caractère Unicode traite les caractères                        caractères formant le mot sont liées entre eux ceci
alphabétiques, les caractères idéographiques et les symboles de                 cause souvent des problèmes au niveau de
manière équivalente.                                                            l’affichage.les lettres peuvent prendre différentes
    L’Unicode ajoute des règles de collation, de normalisation                  formes (isolés, initiale, médiane et finale) selon leur
des formes, de bidirectionnalité et de mise au point                            position dans le mot. Une analyse contextuelle est
d’algorithmes standards utilisant ces propriétés.                               nécessaire pour déterminer la forme appropriée [5].

A. Algorithme d’affichage bidirectionnel
    Il est inspiré d’une solution complète proposé par le
standard Unicode destiné à traiter les complications de
l’écriture de la langue arabe. Il définit pour chaque caractère le
sens de son écriture pour gérer les bris de texte mixte (arabe et
latin).
                                                                                         Figure 1. Les différentes formes du caractère Min ‫ﻡ‬
    Ainsi il permet de remplacer les caractères arabes par
leurs glyphes corrects [2].                                                •    L’analyse contextuelle dans la langue arabe est encore
                                                                                plus complexe, sa difficulté est la présence des
B. Algorithme d’Analyse Contextuelle                                            voyelles et autres signes diacritiques qui se place au-
                                                                                dessus ou au-dessous des lettres
        Cet algorithme proposé par le standard Unicode.
   Destinée essentiellement à traiter le problème de la liaison            •    L’écriture et la lecture de l’arabe s’effectuent de
   qui se trouve entre les caractères arabes et définir leur                    gauche à droite. Ceci est d’ordre d’introduire des
   forme correcte, quel que soit le type des caractères voisins,                algorithmes supplémentaires pour gérer le changement
   arabes ou bien autres.                                                       du sens d’affichage ou d’impression         dans les
       Il permet aussi de résoudre le problème de la ligature                   applications bilingues.
   arabe LAM-ALEF, et ceci pendant l’analyse de tous les                   •    Les formes minuscules et majuscules des caractères
   caractères [2].                                                              sont inexistantes.
C. Caractéristiques d’Unicode                                              •    La présence des ligatures : la ligature est un glyphe
       Le standard Unicode fut donc conçu pour être [4]:                        spécial qui est composé de deux ou plusieurs glyphes
                                                                                qui sont dues à la nature cursive de l’écriture arabe [5].
   •      Universel : Le répertoire doit être suffisamment étendu               Exemple : Lorsqu'un ‫( ﻝ‬forme initial ou médiane) est
          pour comprendre tous les caractères susceptibles d’être               suivi d'un alif (forme finale), il faut remplacer les deux
          utilisés dans les échanges de textes habituels, y                     lettres par la ligature ‫ﻻ‬.
          compris les principaux jeux de caractères
          internationaux, nationaux ou industriels.                          V. LES TYPES D’ENCODAGE POUR LA LANGUE ARABE
                                                                                    4B


   •       Efficace : Le texte brut doit être facile à analyser ; les      Le tableau ci-dessous fournit la liste des différents types
          logiciels ne doivent pas maintenir une variable d’état        d'encodage pour la langue arabe et leur nom utilisables sur
          ou rechercher des séquences d’échappement, la                 Internet et leur disponibilité sur Mac OS.
          synchronisation de caractère à partir de n’importe quel
          point dans le flux de caractères doit être rapide et non             TABLE I.        TYPES D’ENCODAGE POUR LA LANGUE ARABE
          ambigu.
                                                                               Type d’encodage        Nom commun               Information
   •      Uniforme : Un jeu de caractères de largeur fixe permet                                       sur Internet
          de trier, de repérer, d’afficher et d’éditer des textes          ISO    8859-6     (latin   ISO      8859-6
          efficacement.                                                    arabe)                     arabe
   •      Non ambigu : Toute valeur de 16 bits représente                  Cp 864(DOS Arabic)         Cp 864            Encode les formes de
          toujours le même caractère.                                                                                   présentation arabe
                                                                           Cp1256        (Windows     Windows 1256           Partiellement basé
    IV.     CARACTERISTIQUES ET PROBLEMES DE LA LANGUE                     Arabe)                     Cp1256              sur 8859-6, plus des
                                                                                                                              ajouts de C1
                               ARABE
                                                                           Mac OS Arabic              X-mac6Arabic

   Les caractéristiques qui distinguent la langue arabe des
autres langues sont :
                                   SIDOP’12 : 2nd Workshop on Signal and Document Processing
    I.    LA PLAGE DES CARACTERES ARABE DANS UNICODE                         TABLE II.         LES FORMES CONTEXTUELLES DU CARACTÈRE
                                                                                                           ‫ﻩ‬
A. La présentation Forme-A (FB50-FDFF)
                                                                                Le caractère             Les formes contextuelles des glyphes

   Elle contient des ligatures esthétiques ‫ﱂ‬et linguistiques. Elle
comprend aussi les codes des mots-ligatures exemple :
   U+FDF0 ‫ﷰ‬
                                                                                   FEE9                   FEEA FEEB        FEEC FEE9
   U+FDFA ‫ﷺ‬

B. La présentation forme-B (FE70-FEFF)
    10B


                                                                                                    REFERENCES
                                                                                                    1B


    Elle encode les formes d’espacement, des signes
diacritiques et les formes des lettres contextuelles.                [1]   ANDRE Jacques et GOOSSENS Michel. Codage des caractères et
                                                                           multilinguisme : de l'ASCII à Unicode et ISO/IEC-10646. In : Cahiers
    Un exemple typique: les formes de positions pour les lettres           GUTenberg n°20-mai 1995.pp.1-53
arabes. Ces lettres arabes peuvent avoir jusqu'à quatre formes       [2]   A. ABDELHADI, L. H. Mouss and O. KADRI, “Efficient Algorithms
en fonction de leur position. Selon le concept de principe                 for the integration of Arabic Language in Mobile Phone,” International
                                                                           Journal of Computer and Electrical Engineering, Vol. 3, No. 3, June
caractère et non glyphes il n’ya pas un propre code pour                   2011
chaque forme qui peut prendre dans des contextes variables.
                                                                     [3]   Jacques ANDRE et Michel GOOSSENS, « Codage des caractères et
    Pour des raisons historiques un nombre important des                   multi-linguisme : de l’ASCII à UNICODE et ISO/IEC-10646, » Cahiers
                                                                           GUTenberg no20 — mai 1995
formes de présentation a été encodé en Unicode en tant que des
                                                                     [4]   A. ABDELHADI et O. KADRI , “L’impact Informatique de
caractères de compatibilité.                                               l’Intégration de la Langue Arabe dans les Téléphones Mobiles,” IEEE
                                                                           SETIT 2009 International Conference: Sciences of Electronic,
                                                                           Technologies of Information and Telecommunications March 22-26,
                                                                           2009 – TUNISIA
                                                                     [5]   M.Eddahibi, “Etude et réalisation d’outils de codageet de composition
                                                                           du e-document mathématique arabe,” thèse octobre 2007.