=Paper=
{{Paper
|id=None
|storemode=property
|title=L'Unicode des Caractères Arabes : Etat de l'Art
|pdfUrl=https://ceur-ws.org/Vol-845/paper-3.pdf
|volume=Vol-845
}}
==L'Unicode des Caractères Arabes : Etat de l'Art==
L’Unicode des Caractères Arabes : Etat de l’Art
Manel Daagi Sofiene Haboubi
Signal and Document Processing Research Group Signal and Document Processing Research Group
National Engineering School of Tunis National Engineering School of Tunis
BP 37 Belvedere 1002, Tunis, Tunisia BP 37 Belvedere 1002, Tunis, Tunisia
maneldaagi@gmail.com sofiene.haboubi@istmt.rnu.tn
Résumé —Cet article présente un aperçu de l’Unicode .Il a plus d’un million de caractères dans le monde entier qui ont
introduit et il résume ses principales caractéristiques ainsi les besoin de codage, pour satisfaire les demandes croissantes des
problèmes engendrés par la langue arabe et les causes de langues industrielles, et pour permettre à d'autres langues
l’existence de ce standard. comme l’arabe et ses règles de liaisons d'apparaître sur un
écran informatique.
Keywords;unicode;ecriture arabe;analyse contextuel;affichage
bidirectionnel;ligature;arabic-forms-B; arabic-forms-A; Les jeux de caractères utilisés possédaient des architectures
très différentes les uns des autres [2]. Pour plusieurs, la simple
I. INTRODUCTION détection des octets représentant un caractère était un processus
contextuel complexe. Les jeux de caractères classiques ne
Le standard Unicode se définit comme un système de pouvaient au mieux prendre en charge que quelques langues.
codage mettant en œuvre un mécanisme cohérant et universel
de codage des caractères .Il permet de pallier aux problèmes La prise en charge de plusieurs langues à la fois était
pour chaque langue. Il admet aux textes multilingues de difficile, voire impossible. Aucun jeu de caractères ne
coexister. fournissait toutes les lettres, les signes de ponctuation et les
symboles techniques en usage courant utilisés pour une seule
Ainsi il vient de résoudre les problèmes des caractères langue.
arabes grâce à ces algorithmes : L’algorithme d’analyse
contextuelle qui permet de traiter les problèmes de ligatures, Ces problèmes ont obligés les constructeurs d’ordinateurs
ainsi il définit la forme correcte de chaque caractère selon leur de créer un autre standard de codage, qui peut supporter ce
position dans un mot. nombre énorme de caractères, mais compatible avec les normes
existantes, c’est la norme Unicode ou bien UCS.
De plus, l’algorithme d’affichage bidirectionnel proposé
par Unicode définit le sens d’écriture des caractères arabe.
III. UNICODE
Nous avons étudié l’existence de l’Unicode, les Le standard Unicode a été créé par un groupe de
caractéristiques et les problèmes engendrés par la langue arabe. constructeurs d’ordinateurs en 1989[2]. Il permet de définir le
Et les formes d’encodage qui permet de représenter les codage pour la majorité des caractères utilisés par les langues
caractères d’un jeu de caractères codés. du monde. Chaque caractère Unicode est associé à un point de
code. Les points de code Unicode sont notés sous la
II. POURQUOI UNICODE forme U+nnnn, où nnnn est l'hexadécimal de point de code, ou
Durant plusieurs années, les ordinateurs n’utilisaient que les sous forme d'une chaîne de texte descriptive.
26 lettres de l’alphabet latin dans sa version anglaise. Les Il définit d’une manière cohérente le codage des textes
incompatibilités entre les claviers ont émergée : des multilingues [3] et facilite l’échange de données textuelles.
incompatibilités concernant les codes pages, des problèmes de
transmission électronique des textes, etc. Grâce à Unicode, l’industrie informatique peut assurer la
pérennité des données textuelles tout en évitant l’augmentation
Par exemple, le système de codage ASCII standard ne de jeux de caractères et l’interopérabilité des données.
reconnaissait pas les accents du français. Ce standard a montré
son insuffisance, puisqu’il fonctionne sur 8 bits, c’est à dire L’Unicode simplifie le développement de logiciels et en
qu’il ne permet que 128 positions de codage. Actuellement, il y réduit les coûts. En effet, Unicode permet de coder tous les
Identify applicable sponsor/s here. If no sponsors, delete this text box.
(sponsors)
SIDOP’12 : 2nd Workshop on Signal and Document Processing
caractères utilisés par toutes les langues écrites du monde (plus • Avec ses 28 caractères de base la langue arabe possède
d’un million de caractères sont réservés à cet effet). Tous les 78 formes graphiques, elle s’inscrit dans son intégralité
caractères, quelle que soit la langue dans laquelle ils sont graphique des caractères dits diacritiques.
utilisés, sont accessibles sans aucune séquence d’échappement.
• Admet un aspect cursif c'est-à-dire les différents
Le codage de caractère Unicode traite les caractères caractères formant le mot sont liées entre eux ceci
alphabétiques, les caractères idéographiques et les symboles de cause souvent des problèmes au niveau de
manière équivalente. l’affichage.les lettres peuvent prendre différentes
L’Unicode ajoute des règles de collation, de normalisation formes (isolés, initiale, médiane et finale) selon leur
des formes, de bidirectionnalité et de mise au point position dans le mot. Une analyse contextuelle est
d’algorithmes standards utilisant ces propriétés. nécessaire pour déterminer la forme appropriée [5].
A. Algorithme d’affichage bidirectionnel
Il est inspiré d’une solution complète proposé par le
standard Unicode destiné à traiter les complications de
l’écriture de la langue arabe. Il définit pour chaque caractère le
sens de son écriture pour gérer les bris de texte mixte (arabe et
latin).
Figure 1. Les différentes formes du caractère Min ﻡ
Ainsi il permet de remplacer les caractères arabes par
leurs glyphes corrects [2]. • L’analyse contextuelle dans la langue arabe est encore
plus complexe, sa difficulté est la présence des
B. Algorithme d’Analyse Contextuelle voyelles et autres signes diacritiques qui se place au-
dessus ou au-dessous des lettres
Cet algorithme proposé par le standard Unicode.
Destinée essentiellement à traiter le problème de la liaison • L’écriture et la lecture de l’arabe s’effectuent de
qui se trouve entre les caractères arabes et définir leur gauche à droite. Ceci est d’ordre d’introduire des
forme correcte, quel que soit le type des caractères voisins, algorithmes supplémentaires pour gérer le changement
arabes ou bien autres. du sens d’affichage ou d’impression dans les
Il permet aussi de résoudre le problème de la ligature applications bilingues.
arabe LAM-ALEF, et ceci pendant l’analyse de tous les • Les formes minuscules et majuscules des caractères
caractères [2]. sont inexistantes.
C. Caractéristiques d’Unicode • La présence des ligatures : la ligature est un glyphe
Le standard Unicode fut donc conçu pour être [4]: spécial qui est composé de deux ou plusieurs glyphes
qui sont dues à la nature cursive de l’écriture arabe [5].
• Universel : Le répertoire doit être suffisamment étendu Exemple : Lorsqu'un ( ﻝforme initial ou médiane) est
pour comprendre tous les caractères susceptibles d’être suivi d'un alif (forme finale), il faut remplacer les deux
utilisés dans les échanges de textes habituels, y lettres par la ligature ﻻ.
compris les principaux jeux de caractères
internationaux, nationaux ou industriels. V. LES TYPES D’ENCODAGE POUR LA LANGUE ARABE
4B
• Efficace : Le texte brut doit être facile à analyser ; les Le tableau ci-dessous fournit la liste des différents types
logiciels ne doivent pas maintenir une variable d’état d'encodage pour la langue arabe et leur nom utilisables sur
ou rechercher des séquences d’échappement, la Internet et leur disponibilité sur Mac OS.
synchronisation de caractère à partir de n’importe quel
point dans le flux de caractères doit être rapide et non TABLE I. TYPES D’ENCODAGE POUR LA LANGUE ARABE
ambigu.
Type d’encodage Nom commun Information
• Uniforme : Un jeu de caractères de largeur fixe permet sur Internet
de trier, de repérer, d’afficher et d’éditer des textes ISO 8859-6 (latin ISO 8859-6
efficacement. arabe) arabe
• Non ambigu : Toute valeur de 16 bits représente Cp 864(DOS Arabic) Cp 864 Encode les formes de
toujours le même caractère. présentation arabe
Cp1256 (Windows Windows 1256 Partiellement basé
IV. CARACTERISTIQUES ET PROBLEMES DE LA LANGUE Arabe) Cp1256 sur 8859-6, plus des
ajouts de C1
ARABE
Mac OS Arabic X-mac6Arabic
Les caractéristiques qui distinguent la langue arabe des
autres langues sont :
SIDOP’12 : 2nd Workshop on Signal and Document Processing
I. LA PLAGE DES CARACTERES ARABE DANS UNICODE TABLE II. LES FORMES CONTEXTUELLES DU CARACTÈRE
ﻩ
A. La présentation Forme-A (FB50-FDFF)
Le caractère Les formes contextuelles des glyphes
Elle contient des ligatures esthétiques ﱂet linguistiques. Elle
comprend aussi les codes des mots-ligatures exemple :
U+FDF0 ﷰ
FEE9 FEEA FEEB FEEC FEE9
U+FDFA ﷺ
B. La présentation forme-B (FE70-FEFF)
10B
REFERENCES
1B
Elle encode les formes d’espacement, des signes
diacritiques et les formes des lettres contextuelles. [1] ANDRE Jacques et GOOSSENS Michel. Codage des caractères et
multilinguisme : de l'ASCII à Unicode et ISO/IEC-10646. In : Cahiers
Un exemple typique: les formes de positions pour les lettres GUTenberg n°20-mai 1995.pp.1-53
arabes. Ces lettres arabes peuvent avoir jusqu'à quatre formes [2] A. ABDELHADI, L. H. Mouss and O. KADRI, “Efficient Algorithms
en fonction de leur position. Selon le concept de principe for the integration of Arabic Language in Mobile Phone,” International
Journal of Computer and Electrical Engineering, Vol. 3, No. 3, June
caractère et non glyphes il n’ya pas un propre code pour 2011
chaque forme qui peut prendre dans des contextes variables.
[3] Jacques ANDRE et Michel GOOSSENS, « Codage des caractères et
Pour des raisons historiques un nombre important des multi-linguisme : de l’ASCII à UNICODE et ISO/IEC-10646, » Cahiers
GUTenberg no20 — mai 1995
formes de présentation a été encodé en Unicode en tant que des
[4] A. ABDELHADI et O. KADRI , “L’impact Informatique de
caractères de compatibilité. l’Intégration de la Langue Arabe dans les Téléphones Mobiles,” IEEE
SETIT 2009 International Conference: Sciences of Electronic,
Technologies of Information and Telecommunications March 22-26,
2009 – TUNISIA
[5] M.Eddahibi, “Etude et réalisation d’outils de codageet de composition
du e-document mathématique arabe,” thèse octobre 2007.