Vers une interface pour l’enrichissement des requêtes en arabe dans un système de recherche d’information Med El Amine Abderrahim Université Abou Bekr Belkaid Tlemcen, Algérie Faculté des sciences de l’ingénieur Département d’informatique BP 230 chetouane medamineabd@yahoo.fr Résumé. Dans le cadre de la Recherche d’Information (RI) pour les textes en langue arabe, nous proposons dans le présent article la réalisation d’une interface utilisateur qui emploi un analyseur morphologique pour récupérer les formes de base des mots arabe présents dans la requête de l’utilisateur, pour ensuite faire appel à WordNet Arabe pour enclencher le processus d’expansion. La requête ainsi étendue est envoyée à Google. Par ce modeste travail, nous espérons apporter un premier pas vers l’utilisation des méthodes linguistiques et des ressources lexicales pour l’enrichissement de requête dans un système de RI arabe. Mots Clés : Recherche d’Information Arabe, TALN Arabe, expansion de la requête, Wordnet Arabe. Abstract. This presentation focuses on the automatic expansion of Arabic request using morphological analyzer and Arabic Wordnet. The expanded request is sent to Google. Keywords: Arabic Information Retrieval, Arabic NLP, request expansion, Arabic Wordnet. 1. Introduction Un Système de Recherche d’Information (SRI) repose sur les trois fonctions suivantes : stocker, organiser (indexer) et rechercher des données (en réponse à des requêtes utilisateurs). Il doit faire appel à trois types de connaissances: - les connaissances sur les documents : ils regroupent les informations sur le contenu et le contenant ; - les connaissances sur les utilisateurs ; - et les connaissances sur le domaine d’application : ils permettent d’organiser les différents termes utilisés, on retrouve par exemple les dictionnaires, les thesaurus… Dans le cadre de la recherche d’information pour les textes en langue arabe, la récupération de mots clé est jugée insuffisante, car les termes utilisés dans la requête peuvent présenter par rapport aux documents de la base, des différences sur plusieurs plans, par exemple : - des variations morphologiques comme dans « ‫ » ﻣﺪرﺳﺔ‬et « ‫» ﻣﺪرﺳﺘﺎن‬, « ‫» ﺧﻴﻞ‬ et « ‫; » ﺧﻴﻮل‬ - des variations lexicales (on utilise pour le même sens des mots différents) comme dans le cas dans « ‫ » ﻓﺮس‬et « ‫; » ﺧﻴﻞ‬ - des variations sémantiques comme dans le cas de « ‫ ﻣـﺮادف‬: ‫اﻟـﺤــﺠـﺮ‬ ‫» اﻟﺼـﺨــﺮ‬ et « ‫ أﻧﺜﻰ اﻟﺨﻴـﻞ‬:‫» اﻟﺤـﺠﺮ‬. L’utilisation des ontologies pour l’enrichissement (expansion) de la requête utilisateur peut constituer une solution (parmi d’autres) pour résoudre le problème des variations sémantiques, en effet, les ontologies offrent des ressources sous la forme de relations sémantiques, ils permettent d’étendre le champ de recherche d’une requête, ce qui a pour conséquence l’amélioration des résultats de la recherche. Par ailleurs l’utilisation d’un analyseur morphologique peut suffire pour résoudre les deux premiers cas de variations (morphologiques et lexicales). L’utilisation des ontologies dans un SRI peut être envisagé à plusieurs niveaux : - avant d’être envoyée, la requête de l’utilisateur pourra être enrichie par les concepts jugés proches dans l’ontologie et ceci, par le biais de l’utilisation des relations comme la généralisation/spécialisation, la synonymie… - L’indexation des documents se fait en utilisant les concepts de l’ontologie et non pas les mots clés. - Le filtrage des documents selon un domaine particulier pour des profils d’utilisateur. [7], [8], [15], [13], [5], [19]. Il faut noter toutefois que la qualité des réponses obtenues par un SRI ne dépend pas seulement de la qualité du processus l’appariement requête/documents mais aussi de la requête formulée par l’utilisateur, d’où l’intérêt de la reformulation de la requête. On distingue deux approches pour la reformulation d’une requête dans un SRI : directe et indirecte. - Reformulation directe : elle consiste à ajouter de nouveaux termes à la requête initiale en s’appuyant sur des ressources lexicales comme les dictionnaires ou bien sur les liens de co-occurrences entre les termes. - Reformulation indirecte : En tenant compte d’une liste de documents déjà jugés sélectionnés, la requête est modifiée. Ce processus est appelé réinjection de la pertinence « relevance feed-back ». Dans cette optique, les travaux sur les SRI pour les textes en arabe ne sont pas nombreux à notre connaissance. Parmi ces travaux on trouve : - le système de [10]. Ce dernier adopte la notion de schème comme base pour lemmatiser les mots et les substituer par leurs lemmes dans les opérations d’indexation et de recherche. - Le système de [12]. Il propose d’assister l’utilisateur dans la formulation de sa requête par l’utilisation des modèles de n-gram. Pour les opérations d’indexation et de recherche, [12] utilise les services du moteur de recherche Google. Cet article entre dans le cadre de l’assistance de l’utilisateur par l’amélioration de sa requête (reformulation directe) en utilisant un analyseur morphologique et une ressource lexicale (dans notre cas il s’agit de Wordnet Arabe). Dans ce qui suit nous allons décrire l’architecture et le mode de fonctionnement de notre interface pour l’enrichissement de la requête Arabe. Mais, commençant d’abord par une brève description de notre analyseur morphologique ainsi que la ressource utilisée wordnet arabe. 2. L’analyseur morphologique (AM) L’entrée de l’AM est une requête écrite en arabe. Un premier traitement consiste à segmenter la requête en formes. Le séparateur blanc étant la marque des frontières des formes, ce traitement ne devra donc poser aucun problème. La figure suivante (voir figure 1) montre le principe de l’AM d’une requête qui se résume dans deux étapes : 1. consultation du lexique des mots outils (mots vides) ; 2. segmentation et analyse de la forme. L’opération de segmentation procède par l’accès aux différentes tables (clitiques et affixes) pour détecter la présence de proclitique, enclitique, préfixe et suffixe dans la forme. Le résultat étant un ensemble de cinq segments (proclitique, préfixe, radical, suffixe, enclitique). Par ailleurs, l’opération d’analyse effectue un accès au dictionnaire des formes simples pour vérifier l’existence du radical. S’il existe, l’analyseur lui associe l’ensemble de ses informations linguistiques (la base, racine…). [2]. Donc, a l’issue de l’AM de la requête, l’analyseur produit un ensemble d’informations (base, racine, catégorie grammaticale, ensemble de traits syntaxiques…) qui représente la solution morphologique hors-contexte calculée dans le modèle linguistique utilisé. Toutefois, ce qui nous intéresse dans le cadre de notre étude est évidement l’ensemble des formes de base composant la requête initiale de l’utilisateur. Le détaille de la procédure de l’analyse morphologique se trouve dans [2]. Forme Segmentation Texte de la requête Dévoyellation Lexique des mots outils Consultation du lexique des mots outils Matrices Tables des de compatibilité Clitiques Une solution Lexique et Affixes ou plusieurs Des bases sont trouvées. Segmentation et analyse 9 Identification des proclitiques 9 Identification des enclitiques 9 Identification des préfixes 9 Identification des suffixes 9 Identification des couples (proclitique, enclitique) 9 Identification des couples (préfixe, suffixe) 9 Identification des couples (suffixe, enclitique) 9 Validation et consultation des lexiques 9 Détermination des traits morpho-syntaxique Une solution (Mi) ou plusieurs sont Echec, trouvées Forme inconnue… Passer à la forme suivante Fig. 1. Architecture générale de l’analyseur morphologique 3. Wordnet Arabe Wordnet Arabe est une base de données lexicale librement disponible pour l'arabe standard. Cette base de données suit la conception et la méthodologie du Princeton Wordnet pour l’anglais et d'EuroWordnet pour les langues européennes. Sa structure est celle d’un thésaurus, il est organisé autour de la structure des synsets, c’est-à-dire des ensembles de synonymes et de pointeurs décrivant des relations vers d’autres synsets. Chaque mot peut appartenir à un ou plusieurs synsets, et à une ou plusieurs catégories du discours. Ces catégories sont au nombre de quatre : nom, verbe, adjectif et adverbe. Wordnet et donc un réseau lexical dont les synsets sont les nœuds et les relations entre synsets sont les arcs. Il faut noter toutefois que Wordnet Arabe est une des rares ressources pour la langue générale arabe disponible en ligne. Il compte actuellement1 11269 synsets et 23481 mots. [14], [16], [11], [17], [20], [21]. 4. Architecture et fonctionnement de l’interface Notre interface de recherche (voir la figure 2) se compose de deux modules importants : l’analyseur morphologique et le module de recherche des concepts à partir de Wordnet. Par ailleurs il utilise deux ressources de données: - une base de données linguistique (contenant les différents lexiques ainsi que l’ensemble des clitiques et affixes propres à la langue arabe) utilisée par l’analyseur morphologique ; son contenu est détaillé dans [1], [2], [3]. - Wordnet Arabe. Requête en arabe Requête enrichie Formes de Analyseur Validation par base Morphologique l’utilisateur Recherche des Wordnet BDD Google concepts proches Arabe Résultats 1 :http://www...... Concepts proches 2 :http://www...... Fig. 2. Architecture de l’interface de recherche 1Mars 2009 ; voir la page http://www.lsi.upc.edu/~mbertran/ La construction de la liste des concepts les plus proche de la forme de base passe donc par Wordnet Arabe. Par exemple, à partir de la forme «‫ » درس‬on construit la liste suivante (voir tableau 1). Tableau 1. Concepts «‫ » درس‬à partir de Wordnet Arabe N° Concepts «‫» درس‬ 1 ‫دَارِس‬,‫ﺑَﺎﺡِﺚ‬,‫ﻃَﺎﻟِﺐ‬ 2 ‫ ِﺕ ْﻠﻤِﻴﺬ‬,‫ ُﻣ َﺘ َﻌﻠﱢﻢ‬,‫دَارِس‬,‫ﻃَﺎﻟِﺐ‬ 3 ‫س‬ َ ‫َد َر‬ 4 ‫ َﺕ َﻌﱠﻠﻢ‬,‫ َﻗ َﺮَأ‬,‫س‬ َ ‫ َد َر‬,‫ﺧ َﺬ‬ َ ‫َأ‬ 5 ‫رَاﻋَﻰ‬,‫س‬ َ ‫ َد َر‬,‫ﺚ‬ َ ‫ﺤ‬ َ ‫َﺑ‬ 6 ‫ﺶ‬ َ ‫ﻧَﺎ َﻗ‬,‫ﺺ‬ َ ‫ﺤ‬ َ ‫ َﻓ‬,‫س‬ َ ‫ َد َر‬,‫ﻞ‬َ ‫ﺡﱠﻠ‬ َ ,‫ﻦ‬ َ ‫َا َی‬ 7 ‫ﻈ َﺮ ﻓِﻲ‬ َ ‫ َﻧ‬,‫ﺺ‬َ ‫ﺤ‬ َ ‫ َﻓ‬,‫س‬ َ ‫ َد َر‬,‫ﻋ َﺘ َﺒ َﺮ‬ ْ ‫ِإ‬ 8 ‫ ُﻣ َﻘﺮﱠر َﺕ ْﺪرِیﺴِﻲ‬,‫ ُﻣ َﻘﺮﱠر َﺕ ْﻌﻠِﻴﻤِﻲ‬,‫ ُﻣ َﻘﺮﱠر‬,‫ﺳﻴﱠﺔ‬ ِ ‫ َد ْورَة ِدرَا‬,‫ َد ْورَة‬,‫َدرْس‬ 9 ‫س‬ َ ‫َد ﱠر‬ 10 ‫ﻒ‬ َ ‫ َﺙ ﱠﻘ‬,‫ َر ﱠﺑﻰ‬,‫ب‬ َ ‫ ّه ﱠﺬ‬,‫س‬ َ ‫ َد ﱠر‬,‫ب‬ َ ‫ َد ﱠر‬,‫ﻋﱠﻠ َﻢ‬ َ 11 ‫ َﺕ ْﻘﺮِیﺮ ِآﺘَﺎﺑِﻲ‬,‫ َﺕ ْﻘﺮِیﺮ‬,‫ِدرَاﺳَﺔ‬ 12 ‫دراﺳﺔ‬,‫ َﺑﺤْﺚ‬,‫ﺑﺤﺚ‬ 13 ‫َﻣ ْﺪ َرﺳَﺔ‬ 14 ‫ﺶ‬ َ ‫ َﺕﻨَﺎ َﻗ‬,‫ل‬ َ ‫ َﺕﺪَا َو‬,‫س‬ َ ‫ َﺕﺪَا َر‬,‫ﺚ‬َ ‫ﺡ‬ َ ‫ َﺕﺒَﺎ‬,‫ َﺕﺸَﺎ َو َر‬,‫ﺶ‬ َ ‫ﻧَﺎ َﻗ‬ 15 ‫ َﺕ ْﺪرِیﺲ‬,‫ َﺕ ْﺪرِیﺲ‬,‫ َﺕ ْﻌﻠِﻴﻢ‬,‫ﺕﻌﻠﻴﻢ‬ Après la saisie de la requête, le principe de fonctionnement de notre interface comprend deux alternatives : - l’utilisateur ne veut pas utiliser le module d’enrichissement de la requête. C’est le cas le plus simple, il suffit donc d’envoyer la requête à Google. Pour cela, nous avons utilisé une API libre (disponible gratuitement en ligne) fourni par Google pour l’interrogation de sa base de données et la récupération des résultats. - L’utilisateur veut enrichir sa requête (voir la figure 2). Dans ce cas le texte de la requête est envoyé à l’analyseur morphologique pour produire une liste de formes de base qui va servir à générer une liste des concepts proches en utilisant wordnet arabe. La liste ainsi générée ainsi que le texte de la requête initiale forment le texte de la requête enrichi. Cette dernière est envoyée à Google après sa validation par l’utilisateur. 5. Discussion Les systèmes de recherche d’information classiques traitent la requête de manière à optimiser les temps de recherche et l’identification de documents selon des critères d’appariement entre les mots contenus dans les requêtes utilisateurs (et uniquement ceux-là) et ceux des documents. Dans notre cas, nous nous intéressons à la formulation de requête : l’idée est donc d’exploiter le contenu de wordnet arabe et d’un analyseur morphologique pour reformuler et étendre des requêtes (par expansion) de manière à retrouver plus précisément les bons documents. Un problème est donc traité, il s’agit de palier le problème des variations lexicales, autrement dit, notre interface interroge wordnet arabe pour récupérer des mots différant lexicalement, mais reliés à ceux de la requête initiale par des relations sémantiques, telles que la synonymie, la généralisation et la spécialisation. Un problème que nous n’avons pas traité dans le cadre du présent travail s’est posé au niveau du choix du sens (synset) à prendre dans le cas de la polysémie dans les mots de la requête. Le mode de fonctionnement de notre interface se résume ainsi : on commence la phase d’expansion de la requête en analysant les mots de la requête à l’aide de l’analyseur morphologique. wordnet arabe est ensuite interrogé pour récupérer une liste des termes reliés à la requête par des relations de synonymie, généralisation et spécialisation. L’ensemble des termes constitués par cette dernière liste ainsi que la liste des mots de la requête initiale forme ainsi la requête enrichie qui sera validée par l’utilisateur et envoyée au moteur de recherche Google. L’évaluation de l’apport réel de l’enrichissement de la requête arabe est une tâche très délicate et demande par conséquent beaucoup d’investigations. Toutefois si nous allons se baser sur les études faites sur d’autres langues nous pouvons dire que l’apport des ontologie dans le domaine de la RI se caractérise par : - réduction du silence dans les réponses aux requêtes utilisateurs ; - réduction du nombre des réponses bruitées ; - expression de la requête plus facilement (assistance dans la formulation de la requête); Pour la confirmation de ces hypothèses, il nous reste maintenant les tâches suivantes : - fixer le nombre de concepts qui doivent être choisi pour chaque relation utilisée (synonymie, hypernymie, hyponymie…), - fixer le nombre de termes formant un concept d’extension résultant d’une relation sémantique, - fixer les poids à affecter aux mots des concepts résultant de l’extension, - l’étude de l’influence de l’utilisation des concepts composés de l’ontologie, - l’étude de l’apport de chaque relation sémantique utilisée dans le processus d’enrichissement. 6. Conclusion Le processus de recherche d’information se compose de trois parties : construire la requête, construire la réponse, évaluer la réponse. La qualité de la réponse dépend largement de la qualité de la requête construite, ainsi, une requête clairement formulée est beaucoup plus complexe que sa réponse. L’idée de cet article est d’exploiter une ressource lexicale et un analyseur morphologique pour reformuler (par expansion) la requête de l’utilisateur afin d’améliorer les résultats de la recherche. Pour tester cette approche nous avons utilisé le moteur de recherche Google avec wordnet arabe. Une amélioration possible de notre travail consiste à palier le problème des variations morphologiques par l’exploitation des formes de base des mots de la requête produits par l’analyseur morphologique pour déduire les formes dérivées. Beaucoup de tests et d’améliorations restent à faire et comme perspective nous sommes entrain de construire un corpus de texte arabe avec lequel nous pensons faire une évaluation objective de l’apport réel de cette approche dans un SRI pour les textes en langue arabe. Bibliographie 1. Abderrahim, M. El A., & al.: Un modèle objet pour le traitement automatique de l’arabe voyellé ou non. JeTIC’2007. Bechar 21/22 avril (2007) 2. Abderrahim, M. A. : Un analyseur morphologique pour l’arabe voyellé ou non. SIIE’2008 : 1ère Conférence Internationale, Systèmes d’Information et Intelligence Economique, SIIE 2008 Hammamet – Tunisie, 14-16 Février 2008, Proceedings tome II, IHE éditions, ISBN 9978-9973-868-20-6, pp. 324--339 (2008) 3. Abderrahim, M. A. : Vers un dictionnaire unifié pour le TALN arabe. 2ème Colloque International de Traductologie et TAL, Oran les 7 et 8 juin (2008) 4. Abderrahim, M. A.: Vers la recherche d’information de contenus en arabe fondée sur l’enrichissement des requêtes. SIIE’2009 : 2ème Conférence Internationale, Systèmes d’Information et Intelligence Economique, SIIE 2009 Hammamet – Tunisie, 12-14 Février 2009, Proceedings IHE éditions, ISBN 9978-9973-868-21-3, pp. 598--607 (2009) 5. Abouenour, L., Bouzoubaa, K., Rosso, Paolo : Système de Question/Réponse dans le cadre d'une plateforme intégrée : cas de l'Arabe.Rencontre Nationale en Informatique :Outils et applications. RNIOA’08 Les 05, 06 et 07 Juin (2008) 6. Attia, M. A.: Arabic Tokenization System. ACL-Workshop on Computational Approaches to Semitic Languages. Prague. (2007) 7. Baziz, Mustapha: Application des Ontologies pour l’Expansion de Requêtes dans un Système de Recherche d’Informations. Rapport de DEA Informatique de l’Image et du Langage (2IL). Université Paul Sabatier & Institut National Polytechnique de Toulouse, Année 2001/2002 (2002) 8. Baziz, Mustapha : Indexation conceptuelle guidée par ontologie pour la recherche d’information. Thèse de doctorat, université Paul Sabatier (2005) 9. Ben Othmane, C. Z.: De la synthèse lexicographique à la détection et la correction des graphies fautives arabes. Thèse université de Paris-Sud décembre (1998) 10. Bessou, Sadik, Saadi, Abdelahalim, Touahria, Mohamed : Vers une recherche d'information plus intelligente application à la langue arabe. SIIE’2008 : 1ère Conférence Internationale Systèmes d’Information et Intelligence Economique SIIE 2008 Hammamet, Tunisie, 14-16 Février (2008) 11. Christiane, Fellbaum, William, Black, Sabri, Elkateb, Antonia, Marti, Adam, Pease, Horacio, Rodriguez, Piek, Vossen : Constructing Arabic WordNet in Parallel with an Ontology. http://www.globalwordnet.org/AWN/meetings/meet20050901/Fellbaum.ppt (2005). 12. Farag, Ahmed, Andreas, Nürnberger: AraSearch: Improving Arabic text retrieval via detection of word form variations. SIIE’2008, 1ère Conférence Internationale Systèmes d’Information et Intelligence Economique, SIIE 2008 Hammamet – Tunisie, 14-16 Février (2008) 13. Haïfa, Zargayouna: Indexation sémantique de documents XML. Thèse de Doctorat de l’université Paris XI Orsay, Décembre (2005) 14. Horacio, Rodríguez, Sabri, Elkateb, William, Black, Piek, Vossen, Adam, Pease, Christiane, Fellbaum: Building a WordNet for Arabic, http://www.adampease.org/Articulate/publications/LREC.pdf (2006) 15. Mezaour, Amar-Djalil: Recherche ciblée de documents sur le web. Thèse de Doctorat de l'Université Paris_Sud, juin (2005) 16. Musa, Alkhalifa. : Arabic WordNet and Arabic NLP. JETALA 5-7 June, Rabat ( 2006) 17. Sabri, Elkateb, William, Black, Piek, Vossen, David, Farwell, Adam, Pease, Christiane, Fellbaum.: Arabic WordNet and the Challenges of Arabic. http://www.mt-archive.info/BCS- 2006-Elkateb.pdf (2006). 18. Saidi, M. El F., Abderrahim, M. A. E. : El-WAFI : un méta moteur base sur l’enrichissement de la requête arabe. Mémoire d’ingénieur d’état en informatique, université de Tlemcen, Algérie, juin (2008) 19. Sais, Fatiha : Transformation d'informations structures en documents XML guidée par une ontologie. Mémoire de DEA Information-Interaction-Intelligence, université Paris-Sud, septembre (2004) 20. William, J., Black, Sabri, El-Kateb: A Prototype English-Arabic Dictionary Based on WordNet. http://www.fi.muni.cz/gwc2004/proc/95.pdf (2004) 21. William, BLACK, Sabri, ELKATEB, Horacio, RODRIGUEZ, Musa, ALKHALIFA, Piek, VOSSEN, Adam, PEASE, Christiane, FELLBAUM: Introducing the Arabic WordNet Project . http://www.globalwordnet.org/AWN/meetings/GWApaper.pdf (2006)