<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>L'Unicode des Caractères Arabes : Etat de l'Art</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Manel Daagi</string-name>
          <email>maneldaagi@gmail.com</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Identify applicable sponsor/s here. If no sponsors</institution>
          ,
          <addr-line>delete this text box., sponsors</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Signal and Document Processing Research Group National Engineering School of Tunis BP 37 Belvedere 1002</institution>
          ,
          <addr-line>Tunis</addr-line>
          ,
          <country country="TN">Tunisia</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>Résumé -Cet article présente un aperçu de l'Unicode .Il introduit et il résume ses principales caractéristiques ainsi les problèmes engendrés par la langue arabe et les causes de l'existence de ce standard. a plus d'un million de caractères dans le monde entier qui ont besoin de codage, pour satisfaire les demandes croissantes des langues industrielles, et pour permettre à d'autres langues comme l'arabe et ses règles de liaisons d'apparaître sur un écran informatique.</p>
      </abstract>
      <kwd-group>
        <kwd>unicode</kwd>
        <kwd>ecriture arabe</kwd>
        <kwd>analyse contextuel</kwd>
        <kwd>affichage bidirectionnel</kwd>
        <kwd>ligature</kwd>
        <kwd>arabic-forms-B</kwd>
        <kwd>arabic-forms-A</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>INTRODUCTION</p>
      <p>Le standard Unicode se définit comme un système de
codage mettant en oeuvre un mécanisme cohérant et universel
de codage des caractères .Il permet de pallier aux problèmes
pour chaque langue. Il admet aux textes multilingues de
coexister.</p>
      <p>Ainsi il vient de résoudre les problèmes des caractères
arabes grâce à ces algorithmes : L’algorithme d’analyse
contextuelle qui permet de traiter les problèmes de ligatures,
ainsi il définit la forme correcte de chaque caractère selon leur
position dans un mot.</p>
      <p>De plus, l’algorithme d’affichage bidirectionnel proposé
par Unicode définit le sens d’écriture des caractères arabe.</p>
      <p>Nous avons étudié l’existence de l’Unicode, les
caractéristiques et les problèmes engendrés par la langue arabe.
Et les formes d’encodage qui permet de représenter les
caractères d’un jeu de caractères codés.</p>
      <p>II.</p>
      <p>POURQUOI UNICODE</p>
      <p>Durant plusieurs années, les ordinateurs n’utilisaient que les
26 lettres de l’alphabet latin dans sa version anglaise. Les
incompatibilités entre les claviers ont émergée : des
incompatibilités concernant les codes pages, des problèmes de
transmission électronique des textes, etc.</p>
      <p>Par exemple, le système de codage ASCII standard ne
reconnaissait pas les accents du français. Ce standard a montré
son insuffisance, puisqu’il fonctionne sur 8 bits, c’est à dire
qu’il ne permet que 128 positions de codage. Actuellement, il y</p>
      <p>Le standard Unicode a été créé par un groupe de
constructeurs d’ordinateurs en 1989[2]. Il permet de définir le
codage pour la majorité des caractères utilisés par les langues
du monde. Chaque caractère Unicode est associé à un point de
code. Les points de code Unicode sont notés sous la
forme U+nnnn, où nnnn est l'hexadécimal de point de code, ou
sous forme d'une chaîne de texte descriptive.</p>
      <p>Il définit d’une manière cohérente le codage des textes
multilingues [3] et facilite l’échange de données textuelles.</p>
      <p>Grâce à Unicode, l’industrie informatique peut assurer la
pérennité des données textuelles tout en évitant l’augmentation
de jeux de caractères et l’interopérabilité des données.</p>
      <p>L’Unicode simplifie le développement de logiciels et en
réduit les coûts. En effet, Unicode permet de coder tous les
caractères utilisés par toutes les langues écrites du monde (plus
d’un million de caractères sont réservés à cet effet). Tous les
caractères, quelle que soit la langue dans laquelle ils sont
utilisés, sont accessibles sans aucune séquence d’échappement.</p>
      <p>Le codage de caractère Unicode traite les caractères
alphabétiques, les caractères idéographiques et les symboles de
manière équivalente.</p>
      <p>L’Unicode ajoute des règles de collation, de normalisation
des formes, de bidirectionnalité et de mise au point
d’algorithmes standards utilisant ces propriétés.</p>
    </sec>
    <sec id="sec-2">
      <title>A. Algorithme d’affichage bidirectionnel</title>
      <p>Il est inspiré d’une solution complète proposé par le
standard Unicode destiné à traiter les complications de
l’écriture de la langue arabe. Il définit pour chaque caractère le
sens de son écriture pour gérer les bris de texte mixte (arabe et
latin).</p>
      <p>Ainsi il permet de remplacer les caractères arabes par
leurs glyphes corrects [2].</p>
    </sec>
    <sec id="sec-3">
      <title>B. Algorithme d’Analyse Contextuelle</title>
      <p>Cet algorithme proposé par le standard Unicode.
Destinée essentiellement à traiter le problème de la liaison
qui se trouve entre les caractères arabes et définir leur
forme correcte, quel que soit le type des caractères voisins,
arabes ou bien autres.</p>
      <p>Il permet aussi de résoudre le problème de la ligature
arabe LAM-ALEF, et ceci pendant l’analyse de tous les
caractères [2].</p>
    </sec>
    <sec id="sec-4">
      <title>C. Caractéristiques d’Unicode</title>
      <p>•
•
•
•</p>
      <p>Le standard Unicode fut donc conçu pour être [4]:
Universel : Le répertoire doit être suffisamment étendu
pour comprendre tous les caractères susceptibles d’être
utilisés dans les échanges de textes habituels, y
compris les principaux jeux de caractères
internationaux, nationaux ou industriels.</p>
      <p>Efficace : Le texte brut doit être facile à analyser ; les
logiciels ne doivent pas maintenir une variable d’état
ou rechercher des séquences d’échappement, la
synchronisation de caractère à partir de n’importe quel
point dans le flux de caractères doit être rapide et non
ambigu.</p>
      <p>Uniforme : Un jeu de caractères de largeur fixe permet
de trier, de repérer, d’afficher et d’éditer des textes
efficacement.</p>
      <p>Non ambigu : Toute valeur de 16 bits représente
toujours le même caractère.</p>
      <p>IV.</p>
      <p>CARACTERISTIQUES ET PROBLEMES DE LA LANGUE</p>
      <p>ARABE</p>
      <p>Les caractéristiques qui distinguent la langue arabe des
autres langues sont :
•
•
•
•
•
•</p>
      <p>Avec ses 28 caractères de base la langue arabe possède
78 formes graphiques, elle s’inscrit dans son intégralité
graphique des caractères dits diacritiques.</p>
      <p>Admet un aspect cursif c'est-à-dire les différents
caractères formant le mot sont liées entre eux ceci
cause souvent des problèmes au niveau de
l’affichage.les lettres peuvent prendre différentes
formes (isolés, initiale, médiane et finale) selon leur
position dans le mot. Une analyse contextuelle est
nécessaire pour déterminer la forme appropriée [5].
L’analyse contextuelle dans la langue arabe est encore
plus complexe, sa difficulté est la présence des
voyelles et autres signes diacritiques qui se place
audessus ou au-dessous des lettres
L’écriture et la lecture de l’arabe s’effectuent de
gauche à droite. Ceci est d’ordre d’introduire des
algorithmes supplémentaires pour gérer le changement
du sens d’affichage ou d’impression dans les
applications bilingues.</p>
      <p>Les formes minuscules et majuscules des caractères
sont inexistantes.</p>
      <p>La présence des ligatures : la ligature est un glyphe
spécial qui est composé de deux ou plusieurs glyphes
qui sont dues à la nature cursive de l’écriture arabe [5].
Exemple : Lorsqu'un ﻝ (forme initial ou médiane) est
suivi d'un alif (forme finale), il faut remplacer les deux
lettres par la ligature ﻻ.</p>
      <p>Le tableau ci-dessous fournit la liste des différents types
d'encodage pour la langue arabe et leur nom utilisables sur
Internet et leur disponibilité sur Mac OS.</p>
      <p>LA PLAGE DES CARACTERES ARABE DANS UNICODE</p>
    </sec>
    <sec id="sec-5">
      <title>La présentation Forme-A (FB50-FDFF)</title>
      <p>Elle contient des ligatures esthétiques ﱂet linguistiques. Elle
comprend aussi les codes des mots-ligatures exemple :
U+FDF0 ﷰ</p>
      <sec id="sec-5-1">
        <title>U+FDFA ﷺ</title>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>B. 10BLa présentation forme-B (FE70-FEFF)</title>
      <p>Elle encode les formes d’espacement,
diacritiques et les formes des lettres contextuelles.
des
signes</p>
      <p>Un exemple typique: les formes de positions pour les lettres
arabes. Ces lettres arabes peuvent avoir jusqu'à quatre formes
en fonction de leur position. Selon le concept de principe
caractère et non glyphes il n’ya pas un propre code pour
chaque forme qui peut prendre dans des contextes variables.</p>
      <p>Pour des raisons historiques un nombre important des
formes de présentation a été encodé en Unicode en tant que des
caractères de compatibilité.</p>
      <p>LES FORMES CONTEXTUELLES DU CARACTÈRE</p>
      <p>ﻩ
Le caractère</p>
      <p>Les formes contextuelles des glyphes
FEE9</p>
      <p>FEEA FEEB</p>
      <p>FEEC FEE9</p>
      <sec id="sec-6-1">
        <title>B1REFERENCES</title>
        <p>[1] ANDRE Jacques et GOOSSENS Michel. Codage des caractères et
multilinguisme : de l'ASCII à Unicode et ISO/IEC-10646. In : Cahiers
GUTenberg n°20-mai 1995.pp.1-53
[2] A. ABDELHADI, L. H. Mouss and O. KADRI, “Efficient Algorithms
for the integration of Arabic Language in Mobile Phone,” International
Journal of Computer and Electrical Engineering, Vol. 3, No. 3, June
2011
[3] Jacques ANDRE et Michel GOOSSENS, « Codage des caractères et
multi-linguisme : de l’ASCII à UNICODE et ISO/IEC-10646, » Cahiers
GUTenberg no20 — mai 1995
[4] A. ABDELHADI et O. KADRI , “L’impact Informatique de
l’Intégration de la Langue Arabe dans les Téléphones Mobiles,” IEEE
SETIT 2009 International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications March 22-26,
2009 – TUNISIA</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list />
  </back>
</article>