Vers une interface pour l’enrichissement des requêtes
   en arabe dans un système de recherche d’information

                                Med El Amine Abderrahim

                       Université Abou Bekr Belkaid Tlemcen, Algérie
                             Faculté des sciences de l’ingénieur
                                 Département d’informatique
                                     BP 230 chetouane
                                  medamineabd@yahoo.fr


      Résumé. Dans le cadre de la Recherche d’Information (RI) pour les textes en
      langue arabe, nous proposons dans le présent article la réalisation d’une
      interface utilisateur qui emploi un analyseur morphologique pour récupérer les
      formes de base des mots arabe présents dans la requête de l’utilisateur, pour
      ensuite faire appel à WordNet Arabe pour enclencher le processus d’expansion.
      La requête ainsi étendue est envoyée à Google. Par ce modeste travail, nous
      espérons apporter un premier pas vers l’utilisation des méthodes linguistiques et
      des ressources lexicales pour l’enrichissement de requête dans un système de RI
      arabe.


      Mots Clés : Recherche d’Information Arabe, TALN Arabe, expansion de la
      requête, Wordnet Arabe.


      Abstract. This presentation focuses on the automatic expansion of Arabic
      request using morphological analyzer and Arabic Wordnet. The expanded
      request is sent to Google.


      Keywords: Arabic Information Retrieval, Arabic NLP, request expansion,
      Arabic Wordnet.


1. Introduction

Un Système de Recherche d’Information (SRI) repose sur les trois fonctions
suivantes : stocker, organiser (indexer) et rechercher des données (en réponse à des
requêtes utilisateurs). Il doit faire appel à trois types de connaissances:
      -   les connaissances sur les documents : ils regroupent les informations sur le
          contenu et le contenant ;
      -   les connaissances sur les utilisateurs ;
      -   et les connaissances sur le domaine d’application : ils permettent
          d’organiser les différents termes utilisés, on retrouve par exemple les
          dictionnaires, les thesaurus…

Dans le cadre de la recherche d’information pour les textes en langue arabe, la
récupération de mots clé est jugée insuffisante, car les termes utilisés dans la requête
peuvent présenter par rapport aux documents de la base, des différences sur plusieurs
plans, par exemple :
       - des variations morphologiques comme dans « ‫ » ﻣﺪرﺳﺔ‬et « ‫» ﻣﺪرﺳﺘﺎن‬, « ‫» ﺧﻴﻞ‬
          et « ‫; » ﺧﻴﻮل‬
       - des variations lexicales (on utilise pour le même sens des mots différents)
          comme dans le cas dans « ‫ » ﻓﺮس‬et « ‫; » ﺧﻴﻞ‬
       - des variations sémantiques comme dans le cas de « ‫ ﻣـﺮادف‬: ‫اﻟـﺤــﺠـﺮ‬
          ‫» اﻟﺼـﺨــﺮ‬       et « ‫ أﻧﺜﻰ اﻟﺨﻴـﻞ‬:‫» اﻟﺤـﺠﺮ‬.

L’utilisation des ontologies pour l’enrichissement (expansion) de la requête utilisateur
peut constituer une solution (parmi d’autres) pour résoudre le problème des variations
sémantiques, en effet, les ontologies offrent des ressources sous la forme de relations
sémantiques, ils permettent d’étendre le champ de recherche d’une requête, ce qui a
pour conséquence l’amélioration des résultats de la recherche. Par ailleurs l’utilisation
d’un analyseur morphologique peut suffire pour résoudre les deux premiers cas de
variations (morphologiques et lexicales).

L’utilisation des ontologies dans un SRI peut être envisagé à plusieurs niveaux :
       - avant d’être envoyée, la requête de l’utilisateur pourra être enrichie par les
           concepts jugés proches dans l’ontologie et ceci, par le biais de l’utilisation
           des relations comme la généralisation/spécialisation, la synonymie…
       - L’indexation des documents se fait en utilisant les concepts de l’ontologie
           et non pas les mots clés.
       - Le filtrage des documents selon un domaine particulier pour des profils
           d’utilisateur. [7], [8], [15], [13], [5], [19].

Il faut noter toutefois que la qualité des réponses obtenues par un SRI ne dépend pas
seulement de la qualité du processus l’appariement requête/documents mais aussi de
la requête formulée par l’utilisateur, d’où l’intérêt de la reformulation de la requête.
On distingue deux approches pour la reformulation d’une requête dans un SRI :
directe et indirecte.
       - Reformulation directe : elle consiste à ajouter de nouveaux termes à la
           requête initiale en s’appuyant sur des ressources lexicales comme les
           dictionnaires ou bien sur les liens de co-occurrences entre les termes.
       - Reformulation indirecte : En tenant compte d’une liste de documents déjà
           jugés sélectionnés, la requête est modifiée. Ce processus est appelé
           réinjection de la pertinence « relevance feed-back ».
Dans cette optique, les travaux sur les SRI pour les textes en arabe ne sont pas
nombreux à notre connaissance. Parmi ces travaux on trouve :
     - le système de [10]. Ce dernier adopte la notion de schème comme base pour
         lemmatiser les mots et les substituer par leurs lemmes dans les opérations
         d’indexation et de recherche.
     - Le système de [12]. Il propose d’assister l’utilisateur dans la formulation de
         sa requête par l’utilisation des modèles de n-gram. Pour les opérations
         d’indexation et de recherche, [12] utilise les services du moteur de
         recherche Google.

Cet article entre dans le cadre de l’assistance de l’utilisateur par l’amélioration de sa
requête (reformulation directe) en utilisant un analyseur morphologique et une
ressource lexicale (dans notre cas il s’agit de Wordnet Arabe). Dans ce qui suit nous
allons décrire l’architecture et le mode de fonctionnement de notre interface pour
l’enrichissement de la requête Arabe. Mais, commençant d’abord par une brève
description de notre analyseur morphologique ainsi que la ressource utilisée wordnet
arabe.


2. L’analyseur morphologique (AM)

 L’entrée de l’AM est une requête écrite en arabe. Un premier traitement consiste à
segmenter la requête en formes. Le séparateur blanc étant la marque des frontières des
formes, ce traitement ne devra donc poser aucun problème. La figure suivante (voir
figure 1) montre le principe de l’AM d’une requête qui se résume dans deux étapes :
       1. consultation du lexique des mots outils (mots vides) ;
       2. segmentation et analyse de la forme. L’opération de segmentation procède
          par l’accès aux différentes tables (clitiques et affixes) pour détecter la
          présence de proclitique, enclitique, préfixe et suffixe dans la forme. Le
          résultat étant un ensemble de cinq segments (proclitique, préfixe, radical,
          suffixe, enclitique). Par ailleurs, l’opération d’analyse effectue un accès au
          dictionnaire des formes simples pour vérifier l’existence du radical. S’il
          existe, l’analyseur lui associe l’ensemble de ses informations linguistiques
          (la base, racine…). [2].

   Donc, a l’issue de l’AM de la requête, l’analyseur produit un ensemble
d’informations (base, racine, catégorie grammaticale, ensemble de traits
syntaxiques…) qui représente la solution morphologique hors-contexte calculée dans
le modèle linguistique utilisé. Toutefois, ce qui nous intéresse dans le cadre de notre
étude est évidement l’ensemble des formes de base composant la requête initiale de
l’utilisateur. Le détaille de la procédure de l’analyse morphologique se trouve dans
[2].
                               Forme            Segmentation
                                                                                  Texte de
                                                                                 la requête

                          Dévoyellation                       Lexique des
                                                              mots outils


                 Consultation du lexique des mots outils
                                                                                      Matrices
                                                                    Tables des    de compatibilité
                                                                     Clitiques
              Une solution                      Lexique             et Affixes
              ou plusieurs                      Des bases
              sont trouvées.


                Segmentation et analyse
                 9 Identification des proclitiques
                 9 Identification des enclitiques
                 9     Identification des préfixes
                 9     Identification des suffixes
                 9     Identification des couples (proclitique, enclitique)
                 9     Identification des couples (préfixe, suffixe)
                 9     Identification des couples (suffixe, enclitique)
                 9     Validation et consultation des lexiques
                 9     Détermination des traits morpho-syntaxique


                      Une solution (Mi)
                      ou plusieurs sont                       Echec,
                      trouvées                                Forme
                                                              inconnue…


                                       Passer à la forme suivante


Fig. 1. Architecture générale de l’analyseur morphologique
3. Wordnet Arabe

   Wordnet Arabe est une base de données lexicale librement disponible pour l'arabe
standard. Cette base de données suit la conception et la méthodologie du Princeton
Wordnet pour l’anglais et d'EuroWordnet pour les langues européennes. Sa structure
est celle d’un thésaurus, il est organisé autour de la structure des synsets, c’est-à-dire
des ensembles de synonymes et de pointeurs décrivant des relations vers d’autres
synsets. Chaque mot peut appartenir à un ou plusieurs synsets, et à une ou plusieurs
catégories du discours. Ces catégories sont au nombre de quatre : nom, verbe, adjectif
et adverbe. Wordnet et donc un réseau lexical dont les synsets sont les nœuds et les
relations entre synsets sont les arcs. Il faut noter toutefois que Wordnet Arabe est une
des rares ressources pour la langue générale arabe disponible en ligne. Il compte
actuellement1 11269 synsets et 23481 mots. [14], [16], [11], [17], [20], [21].


4. Architecture et fonctionnement de l’interface

Notre interface de recherche (voir la figure 2) se compose de deux modules
importants : l’analyseur morphologique et le module de recherche des concepts à
partir de Wordnet. Par ailleurs il utilise deux ressources de données:
       - une base de données linguistique (contenant les différents lexiques ainsi que
          l’ensemble des clitiques et affixes propres à la langue arabe) utilisée par
          l’analyseur morphologique ; son contenu est détaillé dans [1], [2], [3].
       - Wordnet Arabe.

                                                     Requête en arabe
            Requête enrichie


                                         Formes de              Analyseur
               Validation par              base                Morphologique
                l’utilisateur


                                           Recherche des                Wordnet
                BDD Google                 concepts proches              Arabe


            Résultats
            1 :http://www......       Concepts proches
            2 :http://www......


Fig. 2. Architecture de l’interface de recherche


1Mars 2009 ; voir la page http://www.lsi.upc.edu/~mbertran/
La construction de la liste des concepts les plus proche de la forme de base passe donc
par Wordnet Arabe. Par exemple, à partir de la forme «‫ » درس‬on construit la liste
suivante (voir tableau 1).

Tableau 1. Concepts «‫ » درس‬à partir de Wordnet Arabe

             N°    Concepts «‫» درس‬
             1     ‫دَارِس‬,‫ﺑَﺎﺡِﺚ‬,‫ﻃَﺎﻟِﺐ‬
             2     ‫ ِﺕ ْﻠﻤِﻴﺬ‬,‫ ُﻣ َﺘ َﻌﻠﱢﻢ‬,‫دَارِس‬,‫ﻃَﺎﻟِﺐ‬
             3     ‫س‬
                   َ ‫َد َر‬
             4     ‫ َﺕ َﻌﱠﻠﻢ‬,‫ َﻗ َﺮَأ‬,‫س‬  َ ‫ َد َر‬,‫ﺧ َﺬ‬ َ ‫َأ‬
             5     ‫رَاﻋَﻰ‬,‫س‬      َ ‫ َد َر‬,‫ﺚ‬   َ ‫ﺤ‬ َ ‫َﺑ‬
             6     ‫ﺶ‬
                   َ ‫ﻧَﺎ َﻗ‬,‫ﺺ‬  َ ‫ﺤ‬      َ ‫ َﻓ‬,‫س‬
                                              َ ‫ َد َر‬,‫ﻞ‬َ ‫ﺡﱠﻠ‬
                                                            َ ,‫ﻦ‬ َ ‫َا َی‬
             7     ‫ﻈ َﺮ ﻓِﻲ‬   َ ‫ َﻧ‬,‫ﺺ‬َ ‫ﺤ‬     َ ‫ َﻓ‬,‫س‬
                                                   َ ‫ َد َر‬,‫ﻋ َﺘ َﺒ َﺮ‬
                                                                     ْ ‫ِإ‬
             8     ‫ ُﻣ َﻘﺮﱠر َﺕ ْﺪرِیﺴِﻲ‬,‫ ُﻣ َﻘﺮﱠر َﺕ ْﻌﻠِﻴﻤِﻲ‬,‫ ُﻣ َﻘﺮﱠر‬,‫ﺳﻴﱠﺔ‬         ِ ‫ َد ْورَة ِدرَا‬,‫ َد ْورَة‬,‫َدرْس‬
             9     ‫س‬
                   َ ‫َد ﱠر‬
             10    ‫ﻒ‬
                   َ ‫ َﺙ ﱠﻘ‬,‫ َر ﱠﺑﻰ‬,‫ب‬       َ ‫ ّه ﱠﺬ‬,‫س‬ َ ‫ َد ﱠر‬,‫ب‬    َ ‫ َد ﱠر‬,‫ﻋﱠﻠ َﻢ‬
                                                                                   َ
             11    ‫ َﺕ ْﻘﺮِیﺮ ِآﺘَﺎﺑِﻲ‬,‫ َﺕ ْﻘﺮِیﺮ‬,‫ِدرَاﺳَﺔ‬
             12    ‫دراﺳﺔ‬,‫ َﺑﺤْﺚ‬,‫ﺑﺤﺚ‬
             13    ‫َﻣ ْﺪ َرﺳَﺔ‬
             14    ‫ﺶ‬
                   َ ‫ َﺕﻨَﺎ َﻗ‬,‫ل‬ َ ‫ َﺕﺪَا َو‬,‫س‬ َ ‫ َﺕﺪَا َر‬,‫ﺚ‬َ ‫ﺡ‬  َ ‫ َﺕﺒَﺎ‬,‫ َﺕﺸَﺎ َو َر‬,‫ﺶ‬
                                                                                       َ ‫ﻧَﺎ َﻗ‬
             15    ‫ َﺕ ْﺪرِیﺲ‬,‫ َﺕ ْﺪرِیﺲ‬,‫ َﺕ ْﻌﻠِﻴﻢ‬,‫ﺕﻌﻠﻴﻢ‬


Après la saisie de la requête, le principe de fonctionnement de notre interface
comprend deux alternatives :
     - l’utilisateur ne veut pas utiliser le module d’enrichissement de la requête.
         C’est le cas le plus simple, il suffit donc d’envoyer la requête à Google.
         Pour cela, nous avons utilisé une API libre (disponible gratuitement en
         ligne) fourni par Google pour l’interrogation de sa base de données et la
         récupération des résultats.
     - L’utilisateur veut enrichir sa requête (voir la figure 2). Dans ce cas le texte
         de la requête est envoyé à l’analyseur morphologique pour produire une
         liste de formes de base qui va servir à générer une liste des concepts proches
         en utilisant wordnet arabe. La liste ainsi générée ainsi que le texte de la
         requête initiale forment le texte de la requête enrichi. Cette dernière est
         envoyée à Google après sa validation par l’utilisateur.
5. Discussion

Les systèmes de recherche d’information classiques traitent la requête de manière à
optimiser les temps de recherche et l’identification de documents selon des critères
d’appariement entre les mots contenus dans les requêtes utilisateurs (et uniquement
ceux-là) et ceux des documents.

Dans notre cas, nous nous intéressons à la formulation de requête : l’idée est donc
d’exploiter le contenu de wordnet arabe et d’un analyseur morphologique pour
reformuler et étendre des requêtes (par expansion) de manière à retrouver plus
précisément les bons documents.
Un problème est donc traité, il s’agit de palier le problème des variations lexicales,
autrement dit, notre interface interroge wordnet arabe pour récupérer des mots
différant lexicalement, mais reliés à ceux de la requête initiale par des relations
sémantiques, telles que la synonymie, la généralisation et la spécialisation.

Un problème que nous n’avons pas traité dans le cadre du présent travail s’est posé au
niveau du choix du sens (synset) à prendre dans le cas de la polysémie dans les mots
de la requête.

Le mode de fonctionnement de notre interface se résume ainsi : on commence la
phase d’expansion de la requête en analysant les mots de la requête à l’aide de
l’analyseur morphologique. wordnet arabe est ensuite interrogé pour récupérer une
liste des termes reliés à la requête par des relations de synonymie, généralisation et
spécialisation. L’ensemble des termes constitués par cette dernière liste ainsi que la
liste des mots de la requête initiale forme ainsi la requête enrichie qui sera validée par
l’utilisateur et envoyée au moteur de recherche Google.

L’évaluation de l’apport réel de l’enrichissement de la requête arabe est une tâche très
délicate et demande par conséquent beaucoup d’investigations. Toutefois si nous
allons se baser sur les études faites sur d’autres langues nous pouvons dire
que l’apport des ontologie dans le domaine de la RI se caractérise par :
       - réduction du silence dans les réponses aux requêtes utilisateurs ;
       - réduction du nombre des réponses bruitées ;
       - expression de la requête plus facilement (assistance dans la formulation de
          la requête);

Pour la confirmation de ces hypothèses, il nous reste maintenant les tâches suivantes :
      - fixer le nombre de concepts qui doivent être choisi pour chaque relation
          utilisée (synonymie, hypernymie, hyponymie…),
      - fixer le nombre de termes formant un concept d’extension résultant d’une
          relation sémantique,
      - fixer les poids à affecter aux mots des concepts résultant de l’extension,
      - l’étude de l’influence de l’utilisation des concepts composés de l’ontologie,
      - l’étude de l’apport de chaque relation sémantique utilisée dans le processus
          d’enrichissement.
6. Conclusion

Le processus de recherche d’information se compose de trois parties : construire la
requête, construire la réponse, évaluer la réponse. La qualité de la réponse dépend
largement de la qualité de la requête construite, ainsi, une requête clairement formulée
est beaucoup plus complexe que sa réponse. L’idée de cet article est d’exploiter une
ressource lexicale et un analyseur morphologique pour reformuler (par expansion) la
requête de l’utilisateur afin d’améliorer les résultats de la recherche. Pour tester cette
approche nous avons utilisé le moteur de recherche Google avec wordnet arabe.
Une amélioration possible de notre travail consiste à palier le problème des variations
morphologiques par l’exploitation des formes de base des mots de la requête produits
par l’analyseur morphologique pour déduire les formes dérivées.

Beaucoup de tests et d’améliorations restent à faire et comme perspective nous
sommes entrain de construire un corpus de texte arabe avec lequel nous pensons faire
une évaluation objective de l’apport réel de cette approche dans un SRI pour les textes
en langue arabe.


Bibliographie

1. Abderrahim, M. El A., & al.: Un modèle objet pour le traitement automatique de l’arabe
   voyellé ou non. JeTIC’2007. Bechar 21/22 avril (2007)
2. Abderrahim, M. A. : Un analyseur morphologique pour l’arabe voyellé ou non. SIIE’2008 :
   1ère Conférence Internationale, Systèmes d’Information et Intelligence Economique, SIIE
   2008 Hammamet – Tunisie, 14-16 Février 2008, Proceedings tome II, IHE éditions, ISBN
   9978-9973-868-20-6, pp. 324--339 (2008)
3. Abderrahim, M. A. : Vers un dictionnaire unifié pour le TALN arabe. 2ème Colloque
   International de Traductologie et TAL, Oran les 7 et 8 juin (2008)
4. Abderrahim, M. A.: Vers la recherche d’information de contenus en arabe fondée sur
   l’enrichissement des requêtes. SIIE’2009 : 2ème Conférence Internationale, Systèmes
   d’Information et Intelligence Economique, SIIE 2009 Hammamet – Tunisie, 12-14 Février
   2009, Proceedings IHE éditions, ISBN 9978-9973-868-21-3, pp. 598--607 (2009)
5. Abouenour, L., Bouzoubaa, K., Rosso, Paolo : Système de Question/Réponse dans le cadre
   d'une plateforme intégrée : cas de l'Arabe.Rencontre Nationale en Informatique :Outils et
   applications. RNIOA’08 Les 05, 06 et 07 Juin (2008)
6. Attia, M. A.: Arabic Tokenization System. ACL-Workshop on Computational Approaches to
   Semitic Languages. Prague. (2007)
7. Baziz, Mustapha: Application des Ontologies pour l’Expansion de Requêtes dans un
   Système de Recherche d’Informations. Rapport de DEA Informatique de l’Image et du
   Langage (2IL). Université Paul Sabatier & Institut National Polytechnique de Toulouse,
   Année 2001/2002 (2002)
8. Baziz, Mustapha : Indexation conceptuelle guidée par ontologie pour la recherche
   d’information. Thèse de doctorat, université Paul Sabatier (2005)
9. Ben Othmane, C. Z.: De la synthèse lexicographique à la détection et la correction des
   graphies fautives arabes. Thèse université de Paris-Sud décembre (1998)
10. Bessou, Sadik, Saadi, Abdelahalim, Touahria, Mohamed : Vers une recherche d'information
   plus intelligente application à la langue arabe. SIIE’2008 : 1ère Conférence Internationale
   Systèmes d’Information et Intelligence Economique SIIE 2008 Hammamet, Tunisie, 14-16
   Février (2008)
11. Christiane, Fellbaum, William, Black, Sabri, Elkateb, Antonia, Marti, Adam, Pease,
   Horacio, Rodriguez, Piek, Vossen : Constructing Arabic WordNet in Parallel with an
   Ontology.         http://www.globalwordnet.org/AWN/meetings/meet20050901/Fellbaum.ppt
   (2005).
12. Farag, Ahmed, Andreas, Nürnberger: AraSearch: Improving Arabic text retrieval via
   detection of word form variations. SIIE’2008, 1ère Conférence Internationale Systèmes
   d’Information et Intelligence Economique, SIIE 2008 Hammamet – Tunisie, 14-16 Février
   (2008)
13. Haïfa, Zargayouna: Indexation sémantique de documents XML. Thèse de Doctorat de
   l’université Paris XI Orsay, Décembre (2005)
14. Horacio, Rodríguez, Sabri, Elkateb, William, Black, Piek, Vossen, Adam, Pease,
   Christiane,        Fellbaum:        Building       a       WordNet        for       Arabic,
   http://www.adampease.org/Articulate/publications/LREC.pdf (2006)
15. Mezaour, Amar-Djalil: Recherche ciblée de documents sur le web. Thèse de Doctorat de
   l'Université Paris_Sud, juin (2005)
16. Musa, Alkhalifa. : Arabic WordNet and Arabic NLP. JETALA 5-7 June, Rabat ( 2006)
17. Sabri, Elkateb, William, Black, Piek, Vossen, David, Farwell, Adam, Pease, Christiane,
   Fellbaum.: Arabic WordNet and the Challenges of Arabic. http://www.mt-archive.info/BCS-
   2006-Elkateb.pdf (2006).
18. Saidi, M. El F., Abderrahim, M. A. E. : El-WAFI : un méta moteur base sur
   l’enrichissement de la requête arabe. Mémoire d’ingénieur d’état en informatique, université
   de Tlemcen, Algérie, juin (2008)
19. Sais, Fatiha : Transformation d'informations structures en documents XML guidée par une
   ontologie. Mémoire de DEA Information-Interaction-Intelligence, université Paris-Sud,
   septembre (2004)
20. William, J., Black, Sabri, El-Kateb: A Prototype English-Arabic Dictionary Based on
   WordNet. http://www.fi.muni.cz/gwc2004/proc/95.pdf (2004)
21. William, BLACK, Sabri, ELKATEB, Horacio, RODRIGUEZ, Musa, ALKHALIFA, Piek,
   VOSSEN, Adam, PEASE, Christiane, FELLBAUM: Introducing the Arabic WordNet
   Project . http://www.globalwordnet.org/AWN/meetings/GWApaper.pdf (2006)