L’Unicode des Caractères Arabes : Etat de l’Art Manel Daagi Sofiene Haboubi Signal and Document Processing Research Group Signal and Document Processing Research Group National Engineering School of Tunis National Engineering School of Tunis BP 37 Belvedere 1002, Tunis, Tunisia BP 37 Belvedere 1002, Tunis, Tunisia maneldaagi@gmail.com sofiene.haboubi@istmt.rnu.tn Résumé —Cet article présente un aperçu de l’Unicode .Il a plus d’un million de caractères dans le monde entier qui ont introduit et il résume ses principales caractéristiques ainsi les besoin de codage, pour satisfaire les demandes croissantes des problèmes engendrés par la langue arabe et les causes de langues industrielles, et pour permettre à d'autres langues l’existence de ce standard. comme l’arabe et ses règles de liaisons d'apparaître sur un écran informatique. Keywords;unicode;ecriture arabe;analyse contextuel;affichage bidirectionnel;ligature;arabic-forms-B; arabic-forms-A; Les jeux de caractères utilisés possédaient des architectures très différentes les uns des autres [2]. Pour plusieurs, la simple I. INTRODUCTION détection des octets représentant un caractère était un processus contextuel complexe. Les jeux de caractères classiques ne Le standard Unicode se définit comme un système de pouvaient au mieux prendre en charge que quelques langues. codage mettant en œuvre un mécanisme cohérant et universel de codage des caractères .Il permet de pallier aux problèmes La prise en charge de plusieurs langues à la fois était pour chaque langue. Il admet aux textes multilingues de difficile, voire impossible. Aucun jeu de caractères ne coexister. fournissait toutes les lettres, les signes de ponctuation et les symboles techniques en usage courant utilisés pour une seule Ainsi il vient de résoudre les problèmes des caractères langue. arabes grâce à ces algorithmes : L’algorithme d’analyse contextuelle qui permet de traiter les problèmes de ligatures, Ces problèmes ont obligés les constructeurs d’ordinateurs ainsi il définit la forme correcte de chaque caractère selon leur de créer un autre standard de codage, qui peut supporter ce position dans un mot. nombre énorme de caractères, mais compatible avec les normes existantes, c’est la norme Unicode ou bien UCS. De plus, l’algorithme d’affichage bidirectionnel proposé par Unicode définit le sens d’écriture des caractères arabe. III. UNICODE Nous avons étudié l’existence de l’Unicode, les Le standard Unicode a été créé par un groupe de caractéristiques et les problèmes engendrés par la langue arabe. constructeurs d’ordinateurs en 1989[2]. Il permet de définir le Et les formes d’encodage qui permet de représenter les codage pour la majorité des caractères utilisés par les langues caractères d’un jeu de caractères codés. du monde. Chaque caractère Unicode est associé à un point de code. Les points de code Unicode sont notés sous la II. POURQUOI UNICODE forme U+nnnn, où nnnn est l'hexadécimal de point de code, ou Durant plusieurs années, les ordinateurs n’utilisaient que les sous forme d'une chaîne de texte descriptive. 26 lettres de l’alphabet latin dans sa version anglaise. Les Il définit d’une manière cohérente le codage des textes incompatibilités entre les claviers ont émergée : des multilingues [3] et facilite l’échange de données textuelles. incompatibilités concernant les codes pages, des problèmes de transmission électronique des textes, etc. Grâce à Unicode, l’industrie informatique peut assurer la pérennité des données textuelles tout en évitant l’augmentation Par exemple, le système de codage ASCII standard ne de jeux de caractères et l’interopérabilité des données. reconnaissait pas les accents du français. Ce standard a montré son insuffisance, puisqu’il fonctionne sur 8 bits, c’est à dire L’Unicode simplifie le développement de logiciels et en qu’il ne permet que 128 positions de codage. Actuellement, il y réduit les coûts. En effet, Unicode permet de coder tous les Identify applicable sponsor/s here. If no sponsors, delete this text box. (sponsors) SIDOP’12 : 2nd Workshop on Signal and Document Processing caractères utilisés par toutes les langues écrites du monde (plus • Avec ses 28 caractères de base la langue arabe possède d’un million de caractères sont réservés à cet effet). Tous les 78 formes graphiques, elle s’inscrit dans son intégralité caractères, quelle que soit la langue dans laquelle ils sont graphique des caractères dits diacritiques. utilisés, sont accessibles sans aucune séquence d’échappement. • Admet un aspect cursif c'est-à-dire les différents Le codage de caractère Unicode traite les caractères caractères formant le mot sont liées entre eux ceci alphabétiques, les caractères idéographiques et les symboles de cause souvent des problèmes au niveau de manière équivalente. l’affichage.les lettres peuvent prendre différentes L’Unicode ajoute des règles de collation, de normalisation formes (isolés, initiale, médiane et finale) selon leur des formes, de bidirectionnalité et de mise au point position dans le mot. Une analyse contextuelle est d’algorithmes standards utilisant ces propriétés. nécessaire pour déterminer la forme appropriée [5]. A. Algorithme d’affichage bidirectionnel Il est inspiré d’une solution complète proposé par le standard Unicode destiné à traiter les complications de l’écriture de la langue arabe. Il définit pour chaque caractère le sens de son écriture pour gérer les bris de texte mixte (arabe et latin). Figure 1. Les différentes formes du caractère Min ‫ﻡ‬ Ainsi il permet de remplacer les caractères arabes par leurs glyphes corrects [2]. • L’analyse contextuelle dans la langue arabe est encore plus complexe, sa difficulté est la présence des B. Algorithme d’Analyse Contextuelle voyelles et autres signes diacritiques qui se place au- dessus ou au-dessous des lettres Cet algorithme proposé par le standard Unicode. Destinée essentiellement à traiter le problème de la liaison • L’écriture et la lecture de l’arabe s’effectuent de qui se trouve entre les caractères arabes et définir leur gauche à droite. Ceci est d’ordre d’introduire des forme correcte, quel que soit le type des caractères voisins, algorithmes supplémentaires pour gérer le changement arabes ou bien autres. du sens d’affichage ou d’impression dans les Il permet aussi de résoudre le problème de la ligature applications bilingues. arabe LAM-ALEF, et ceci pendant l’analyse de tous les • Les formes minuscules et majuscules des caractères caractères [2]. sont inexistantes. C. Caractéristiques d’Unicode • La présence des ligatures : la ligature est un glyphe Le standard Unicode fut donc conçu pour être [4]: spécial qui est composé de deux ou plusieurs glyphes qui sont dues à la nature cursive de l’écriture arabe [5]. • Universel : Le répertoire doit être suffisamment étendu Exemple : Lorsqu'un ‫( ﻝ‬forme initial ou médiane) est pour comprendre tous les caractères susceptibles d’être suivi d'un alif (forme finale), il faut remplacer les deux utilisés dans les échanges de textes habituels, y lettres par la ligature ‫ﻻ‬. compris les principaux jeux de caractères internationaux, nationaux ou industriels. V. LES TYPES D’ENCODAGE POUR LA LANGUE ARABE 4B • Efficace : Le texte brut doit être facile à analyser ; les Le tableau ci-dessous fournit la liste des différents types logiciels ne doivent pas maintenir une variable d’état d'encodage pour la langue arabe et leur nom utilisables sur ou rechercher des séquences d’échappement, la Internet et leur disponibilité sur Mac OS. synchronisation de caractère à partir de n’importe quel point dans le flux de caractères doit être rapide et non TABLE I. TYPES D’ENCODAGE POUR LA LANGUE ARABE ambigu. Type d’encodage Nom commun Information • Uniforme : Un jeu de caractères de largeur fixe permet sur Internet de trier, de repérer, d’afficher et d’éditer des textes ISO 8859-6 (latin ISO 8859-6 efficacement. arabe) arabe • Non ambigu : Toute valeur de 16 bits représente Cp 864(DOS Arabic) Cp 864 Encode les formes de toujours le même caractère. présentation arabe Cp1256 (Windows Windows 1256 Partiellement basé IV. CARACTERISTIQUES ET PROBLEMES DE LA LANGUE Arabe) Cp1256 sur 8859-6, plus des ajouts de C1 ARABE Mac OS Arabic X-mac6Arabic Les caractéristiques qui distinguent la langue arabe des autres langues sont : SIDOP’12 : 2nd Workshop on Signal and Document Processing I. LA PLAGE DES CARACTERES ARABE DANS UNICODE TABLE II. LES FORMES CONTEXTUELLES DU CARACTÈRE ‫ﻩ‬ A. La présentation Forme-A (FB50-FDFF) Le caractère Les formes contextuelles des glyphes Elle contient des ligatures esthétiques ‫ﱂ‬et linguistiques. Elle comprend aussi les codes des mots-ligatures exemple : U+FDF0 ‫ﷰ‬ FEE9 FEEA FEEB FEEC FEE9 U+FDFA ‫ﷺ‬ B. La présentation forme-B (FE70-FEFF) 10B REFERENCES 1B Elle encode les formes d’espacement, des signes diacritiques et les formes des lettres contextuelles. [1] ANDRE Jacques et GOOSSENS Michel. Codage des caractères et multilinguisme : de l'ASCII à Unicode et ISO/IEC-10646. In : Cahiers Un exemple typique: les formes de positions pour les lettres GUTenberg n°20-mai 1995.pp.1-53 arabes. Ces lettres arabes peuvent avoir jusqu'à quatre formes [2] A. ABDELHADI, L. H. Mouss and O. KADRI, “Efficient Algorithms en fonction de leur position. Selon le concept de principe for the integration of Arabic Language in Mobile Phone,” International Journal of Computer and Electrical Engineering, Vol. 3, No. 3, June caractère et non glyphes il n’ya pas un propre code pour 2011 chaque forme qui peut prendre dans des contextes variables. [3] Jacques ANDRE et Michel GOOSSENS, « Codage des caractères et Pour des raisons historiques un nombre important des multi-linguisme : de l’ASCII à UNICODE et ISO/IEC-10646, » Cahiers GUTenberg no20 — mai 1995 formes de présentation a été encodé en Unicode en tant que des [4] A. ABDELHADI et O. KADRI , “L’impact Informatique de caractères de compatibilité. l’Intégration de la Langue Arabe dans les Téléphones Mobiles,” IEEE SETIT 2009 International Conference: Sciences of Electronic, Technologies of Information and Telecommunications March 22-26, 2009 – TUNISIA [5] M.Eddahibi, “Etude et réalisation d’outils de codageet de composition du e-document mathématique arabe,” thèse octobre 2007.