Fouille de données biologiques : vers une représentation booléenne des règles d'association

Fouille de données biologiques : vers une représentation booléenne des règles d'association AbdelhakMansoul Département Informatique Faculté des Sciences Equipe de recherche « Simulation Intégration et Fouille de données (SIF) » Université d'Oran BP

1524, El M'Naouer, Es Senia 31 000 Oran, Algérie

BaghdadAtmani atmani.baghdad@gmail.com Département Informatique Faculté des Sciences Equipe de recherche « Simulation Intégration et Fouille de données (SIF) » Université d'Oran BP

1524, El M'Naouer, Es Senia 31 000 Oran, Algérie

MAfricanum Département Informatique Faculté des Sciences Equipe de recherche « Simulation Intégration et Fouille de données (SIF) » Université d'Oran BP

1524, El M'Naouer, Es Senia 31 000 Oran, Algérie

MBovis Département Informatique Faculté des Sciences Equipe de recherche « Simulation Intégration et Fouille de données (SIF) » Université d'Oran BP

1524, El M'Naouer, Es Senia 31 000 Oran, Algérie

MCanetti Département Informatique Faculté des Sciences Equipe de recherche « Simulation Intégration et Fouille de données (SIF) » Université d'Oran BP

1524, El M'Naouer, Es Senia 31 000 Oran, Algérie

MMicroti Département Informatique Faculté des Sciences Equipe de recherche « Simulation Intégration et Fouille de données (SIF) » Université d'Oran BP

1524, El M'Naouer, Es Senia 31 000 Oran, Algérie

MBovis Bcg Département Informatique Faculté des Sciences Equipe de recherche « Simulation Intégration et Fouille de données (SIF) » Université d'Oran BP

1524, El M'Naouer, Es Senia 31 000 Oran, Algérie

Fouille de données biologiques : vers une représentation booléenne des règles d'association C49FE259DBCDDBAF2A5D641447057B36 GROBID - A machine learning software for extracting information from scholarly documents Automate cellulaire Fouille de données biologiques Induction de règles Motif Itemset Règle d'association Mycobacterium Tuberculosis Tuberculose Epidémie Génome Biologie. M. Tuberculosis Fouille de données biologiques : vers une représentation booléenne des règles d'association. 3 Cellular Automaton Biological Data Mining Rule induction Pattern Itemset Association rule Mycobacterium Tuberculosis Tuberculosis Epidemic Genome Biology

L'avènement des biotechnologies nouvelles a permis, au cours des dernières années, d'accumuler des données sur les génomes des agents pathogènes épidémiologiques. Par contre l'exploitation des données génomiques n'as pas suivi le rythme des découvertes, alors la fouille de données biologiques, particulièrement à caractère épidémiologique s'est imposée d'elle-même afin d'aider à trouver des éléments de réponse aux questions que se pose l'épidémiologiste concernant des pathologies particulières. D'où, la problématique abordée par cette étude qui est la fouille de données biologiques du Mycobacterium Tuberculosis responsable de la tuberculose. Nous proposons un processus de fouille de données assez novateur pour générer des connaissances qui vont êtres profitables et exploitables à deux niveaux :

• Profitables au spécialiste du domaine, à travers l'extraction de motifs en particulier les règles d'association qui aident à mieux comprendre la pathologie. • Ensuite, ces règles d'association extraites sont modélisées par le principe booléen adopté par la machine cellulaire CASI (Cellular Automaton for Symbolic Induction). Le but de cette modélisation par le principe booléen étant de réduire la complexité de stockage et le temps de réponse.

Introduction

La biotechnologie a permis, au cours des dernières années, d'améliorer les connaissances sur le génome des agents pathogènes épidémiologiques, et de développer des moyens de lutte efficace contre ces épidémies. Actuellement, des dizaines de génomes ont été révélés et ont permis de constituer des banques de données biologiques énormes. De ce fait, les quantités de données brutes disponibles sont déjà trop importantes pour pouvoir être analysées manuellement par les méthodes épidémiologiques de surveillance et d'analyse. Du fait de l'inefficacité de ces méthodes 2 Abdelhak MANSOUL, Baghdad ATMANI due à la variété des données biologiques, et à la nature même des épidémies, une nouvelle approche est utilisée : c'est la fouille de données biologiques relatives aux épidémies [2], [6]. Cette fouille permet d'extraire des connaissances qui serviront à mieux connaître les agents pathogènes, interpréter au mieux les phénomènes biologiques liés à une épidémie particulière, et ainsi permettre la mise en oeuvre de mesures de prévention et de lutte, par des traitements appropriés, des vaccinations, .etc.

Problématique

Sur un terrain, purement épidémiologique, il y a une pathologie qui continue à faire des ravages et se trouve classée deuxième en mortalité après le sida : c'est la Tuberculose. Elle est l'un des plus grands fléaux de l'humanité qui entraîna en l'an 2000 près de 10 millions de nouveaux cas et plus de trois millions de morts chaque année dans le monde [19].

En effet, cette maladie infectieuse est provoquée par la pénétration dans l'organisme d'une bactérie appelée Mycobacterium Tuberculosis. Dans la pratique, il existe un Complexe Tuberculosis dont le Mycobacterium Tuberculosis est l'agent typique responsable de la tuberculose humaine [5].

Fig. 1 Composition du Complexe Tuberculosis

En 1998, la première séquence complète du génome de Mt H37RV a été réalisée et a permis de dégager des caractéristiques propres aux mycobactéries dont les plus importantes sont les suivantes [5], [14], [18]: 51 % des gènes sont dupliqués; 10 % du génome code pour 2 familles de gènes qui codent eux même pour 2 protéines nommées PE et PPE; forte présence de séquences répétées d'ADN, en particulier une séquence nommée IS6110 (16 copies), riches en particularités sur le génome ; présence de 65 copies de MIRU (Mycobacterial Interspaced Repetitive Unit) ; présence de répétitions directes RD (appelées aussi régions de différences), ces séquences répétées sont riches en particularités sur le génome.

Tous ces éléments descriptifs de ce génome sont autant chacun un gisement qu'on exploite en fouille de données [8], [9], [20] afin d'essayer d'apporter des éléments de réponses à certains phénomènes liés au complexe Mycobacterium Tuberculosis, et trouver des solutions médicales afin de stopper la diffusion de la bactérie et par conséquent stopper l'épidémie par des vaccins, ou antibiotiques. Donc, la problématique abordée dans ce papier, est la fouille de données biologiques se rapportant au Mycobactérium Tuberculosis à l'aide de tous les éléments d'informations cités auparavant à savoir : les gènes, les protéines, les RD, et les MIRU. Cette fouille se veut d'être une fouille de données hétérogènes.

Cette étude prendra en compte toutes les souches de la bactérie dont l'annotation a été complètement finie ou en projet de séquençage. Ce gisement de données sera plus conséquent s'il renfermera d'avantage de souches annotées, ce qui supposera par la suite, que toute souche nouvellement annotée, alimentera le processus de fouille de données envisagé.

Etat de l'art de la fouille de données biologiques

Depuis les premiers projets de séquençage des bactéries, les dispositifs expérimentaux tels que les séquenceurs automatiques, puces à ADN et autres, ont permis de constituer des bases de données de séquences de génomes complets. Il fallait donc exploiter ces données, identifier les gènes, les protéines qu'ils produisent, et identifier leurs fonctions, pour comprendre les mécanismes de la bactérie. De plus, la variété et la disponibilité des données biologiques (séquences ADN, Protéines, Puce ADN, ….) et par la même des banques de données biologiques (NCBI, EMBL, GenBank….), ont incité à les valoriser. Différents travaux promoteurs et novateurs, en fouilles de données biologiques ont été faits en se basant essentiellement sur les génomes et les cohortes [13], les uns ont un rapport direct avec l'épidémiologie alors que d'autres la touchent indirectement (génomique et protéomique), mais sont d'un grand apport pour la compréhension des maladies et par la même des phénomènes épidémiologiques. Nous présentons quelques uns, mais la liste n'est pas exhaustive.

En génomique : Pour identifier des gènes, comparer des séquences (rechercher des similarités) [7], rechercher et extraire des motifs fréquents [16], différentes approches ont été utilisées comme l'extraction des séquences répétées (n-grammes) [15] ou les modèles de Markov cachés (HMM) [11], [16]. Ces modèles (HMM) interviennent aussi dans l'analyse de séquences pour la détection de répétitions [10] ou encore la recherche de mots exceptionnels [11], la recherche de gènes candidats, la recherche de séquences exogènes ou hétérogènes pouvant renseigner sur un pathogène impliqué dans une maladie [12]. L'utilisation des modèles de Markov cachés a permis aussi d'identifier les séquences exogènes [12] susceptibles de contenir des gènes de virulence ou des gènes d'adaptation, ce genre de recherche améliore la compréhension du phénomène de résistance aux antibiotiques. Plusieurs travaux sur les séquences biologiques ont donné naissance à des programmes dont les plus connus et les plus utilisés par les biologistes sont les logiciels FASTA et BLAST [7].

En fouille de cohortes : Les cohortes ont souvent été utilisées dans le cas des épidémies [13], elles fournissent un tas de données médicales (cliniques, biologiques, et génétiques) sur des cas réels (sujets exposés, non exposés). Ces fouilles permettent de renseigner sur le rôle des facteurs génétiques et environnementaux d'une maladie. Les méthodes de classification, les règles d'association ont étés utilisées dans ce cas pour permettre la détection des relations gène-gène et gène-environnement [21].

Contribution

Nous nous proposons d'étudier les aspects physiologiques fondamentaux liés à la génomique de cette bactérie modèle, le Mycobacterium Tuberculosis. Ensuite étudier les outils de fouille de données pour l'extraction des connaissances et d'en dégager une approches expérimentable.

En premier, nous avons établi un état de l'art de la fouille des données avec certains détails d'une technique à une autre et qui ne sont pas forcement en rapport direct avec notre étude. Ensuite, une étude comparative des différents outils et méthodes existants a été faite afin d'utiliser la plus adaptée à l'objet de notre étude.

Deuxièmement, nous avons abordé l'étude de l'agent pathogène, afin de cerner la nature et le type de données biologiques qui nous intéressent et ainsi pouvoir localiser nos sources de données expérimentales.

Troisièmement, nous avons établi notre propre démarche expérimentale par un processus de fouille de données pour la génération des connaissances à partir de données biologiques. Ces connaissances vont êtres profitables et exploitables à deux niveaux :

1. En premier, profitables au spécialiste du domaine pour la compréhension de la pathologie. 2. En second, exploitables par la machine cellulaire CASI [4] pour l'inférence et la déduction. Ce processus informatique ainsi établi procède en deux étapes, une fouille de données est faite dans un premier temps en utilisant l'algorithme Apriori et donnera des règles d'association, ensuite et dans un deuxième temps produire des règles booléennes inductives qui vont alimenter la base de connaissances de la machine cellulaire CASI, cette machine développée pour l'acquisition automatique incrémentale de connaissances par induction et la prédiction par déduction [4].

Ainsi, notre contribution a adopté la démarche suivante :

1. Etude et sélection des données biologiques relatives au Mycobactérium Tuberculosis ; 2. Extraction des motifs fréquents et des règles d'association respectives ; 3. Production des règles booléennes inductives pour la machine cellulaire CASI.

Conception du système

Notre système est composé de deux grands modules, le premier produit des règles d'association et les transmet au deuxième module (BRI) pour générer des règles booléennes basées sur le principe de la machine cellulaire CASI.

Fouille de données biologiques : vers une représentation booléenne des règles d'association. 5

Transformation .

Production

Evaluation.

Sélection, PrétraitementTransformation

La machine cellulaire CASI [1]

CASI (Induction Symbolique par Automate Cellulaire) est un automate cellulaire qui simule le principe de fonctionnement de base d'un Moteur d'Inférence en utilisant deux couches finies d'automates finis. La première couche, CELFACT, pour la base des faits et, la deuxième couche, CELRULE, pour la base de règles. Chaque cellule au temps t+1 ne dépend que de l'état des ses voisines et du sien au temps t. Dans chaque couche, le contenu d'une cellule détermine si et comment elle participe à chaque étape d'inférence : à chaque étape, une cellule peut être active (1) ou passive (0), c'est-à-dire participe ou non à l'inférence. Le principe adopté est simple :

Les étapes du processus adopté

Le processus de fouille de données adopté par notre système est composé de 6 étapes majeures :

1 ere étape : Sélection et prétraitement des données A partir des banques de données (NCBI, ...), il y'a récupération des informations biologiques relatives aux souches mentionnées ci-dessous, sous leurs formats originaux. Les agents pathogènes (souches) ciblés par cette étude sont ceux dont l'annotation a été finie à savoir : Mt H37Rv, Mt CDC1551, Mt F11, Mt H37Ra [17]. Un nettoyage, une mise en forme et une caractérisation sont effectués afin de dégager des descripteurs « attributs » possibles.

eme étape : Transformation des données

La transformation des données du format original vers un formalisme base de données (attribut, valeur), est faite. De plus à partir des informations relatives aux RD et MIRU des séquences en question, il est défini d'autres caractéristiques calculables ou non, s'en suivra alors une «binarisation».

eme étape : Production et évaluation des règles d'associations

La recherche des Items, des Itemsets et des règles d'association, est faite par l'algorithme Apriori [22] avec calcul systématique du support et de la confiance pour chaque règle pour ne retenir que celles ayant le support et la confiance dépassant les valeurs fixées par l'utilisateur.

Implémentation

Le schéma illustré par la figure 3, montre le système en termes de fonctionnalités sans pour autant fixer une quelconque chronologie pour les opérations.

4 . 141Production des règles booléennes pour la machine cellulaire CASI Les règles d'association produites sont transformées selon le principe suivant : Les items de Antécédent vont servir à constituer la Prémisse de la règle ; Les items de Conséquent vont servir à créer la Conclusion de la règle. Cette transformation sert à produire des règles transitoires nécessaires à la production d'un graphe d'induction selon le principe suivant : Un sommet désigne un noeud sur lequel on fait un test, avec les résultats possibles binaires ou à valeurs multiples. Ainsi le graphe d'induction permettra de produire les règles cellulaires sous la forme : R i : Si Prémisse i Alors Conclusion i Avec une représentation cellulaire selon le principe suivant : les items de Prémisse i et Conclusion i vont constituer les faits : FAITS. les R i vont constituer les règles : REGLES. Ces règles produites seront intégrées dans la base de connaissances de CASI pour exploitation en inférence.

Fouille de données biologiques : vers une représentation booléenne des règles d'association. 7 47eme étape : Transformation Les règles trouvées sont transformées puis représentées selon un formalisme transitoire aidant à la production d'un graphe d'induction. Ainsi la règle d'association R i se verra traduite en une règle booléenne transitoire selon le principe suivant : (R i, Antécédent, Conséquent, support, confiance, note) (R i , Prémisse i (Antécédent ) , Conclusion i ( Conséquent )) 5 eme étape : Production du graphe d'induction Un graphe d'induction est construit selon le principe suivant : Un sommet désigne un noeud sur lequel on fait un test, avec les résultats possibles binaires ou à valeur multiple. 6 eme étape : Représentation Cellulaire Génération des règles cellulaires à partir du graphe d'induction sous la forme : Ri : Si Prémisse (Antécédent) alors Conclusion (Conséquent) où Prémisse est composée des items (Itemset) de l'Antécédent de la règle d'association et la conclusion est composée des items (Itemset) de Conséquent de la règle d'association. Représentation cellulaire : Les règles générées auparavant (6.1) sont représentées en couches cellulaires. Schématiquement nous aurons : {Ri} REGLES et {Prémisse i , Conclusion i } FAITS 7 eme étape : Intégration Ainsi, la machine cellulaire intégrera et exploitera la représentation cellulaire et les matrices d'E/S à travers une inférence en chaînage avant pour enrichir la base de connaissances. La dynamique de la machine cellulaire utilise les deux fonctions de transition citées auparavant (4.2).

Fig. 3 :3Fig. 3 : Architecture du système

Toute cellule j de la deuxième couche CELRULE est considérée comme une règle candidate si sa valeur est 1, sinon, elle est considérée comme une règle qui ne doit pas participer à l'inférence. Elle se présente sous trois états : état d'entrée (ER), état interne (IR) et état de sortie (SR). Les matrices d'incidence R E et R S représentent la relation entrée/sortie des Faits et sont utilisées en chaînage avant et en chaînage arrière en inversant leur ordre. La dynamique de l'automate cellulaire, pour simuler le fonctionnement d'un Moteur d'Inférence, utilise deux fonctions de transitions δ fact et δ rule , où δ fact correspond à la phase d'évaluation, de sélection et de filtrage, et δ rule correspond à la phase d'exécution. La fonction de transition δ fact : δ fact (EF, IF, SF, ER, IR, SR) = (EF, IF, EF, ER+(R E T .EF), IR, SR) La fonction de transition δ rule : δ6 Abdelhak MANSOUL, Baghdad ATMANIToute cellule i de la première couche CELFACT est considérée comme faitétabli si sa valeur est 1, sinon, elle est considérée comme fait à établir. Elle seprésente sous trois états : état d'entrée (EF), état interne (IF) et état de sortie(SF).Boolean Rules InductionGènesassociésSANGER NCBIassociées RD ProtéinesDonnées structuréesd'assoc-iation Règlesoires Transit-Règles.REGLES CELFACT FAITSBase CASI KnowledgeMIRUCELRULE……ProductionIntégrationGraphed'inductionFig.2: Fouille de données du complexe Mycobacterium Tuberculosis

rule (EF, IF, SF, ER, IR, SR) = (EF+(RS.ER), IF, SF, ER, IR,^ER), où la matrice R E T désigne la transposée de R E et ^ER désigne la négation du vecteur booléen ER.

5 Exemple d'illustration de l'induction des règles booléennes inductives.Toute cellule de CELRULE est considérée règle candidate, c'est-à-dire participe à l'inférence si sa valeur=1, sinon, si sa valeur=0.Pour les matrices d'E/S :La matrice d'entrée R E : si le fait i∈ à Prémisse de Rj alors R E (i,j) =1 La matrice de sortie R S : si le fait i∈ à Conclusion de Rj alors R S (i,j) =1Fouille de données biologiques : vers une représentation booléenne des règles8 Abdelhak MANSOUL, Baghdad ATMANId'association.9(R4,{aceA-2=0, phhB=0}, {argK=0}, 45%,77%) Notons pour CELFACT : Initialement toutes les cellules deEF(i)=1 : un fait déjà établi,CELFACT sont à l'état EF=0 (passif)4 eme étape : Transformation EF(i)=0 : un fait à établir,sauf EF(1)=1, c'est la base de faitsR1,{aceA-2=1}, {pstS-3=0} IF(i)=1 : un fait du type attribut=valeur,initiale.R2,{aceA-2=0}, {rpsG=1, aroK=1} IF(i)=0 : un fait du type sommet.R3,{aceA-2=0, phhB=1}, {argK=1}R4,{aceA-2=0, phhB=0}, {argK=0} Pour CELRULE :5 eme étape : Production du graphe d'inductions 0aceA-2 Les matrices d'E/SrpsG=1R E s 0s 1 R1 R2 R3 R4 pstS-3=0 ahpC 1 1s 2aroK=1 R S phhB s 0R1 R2 R3 R4pstS-3=0pstS-3=0 1s 1argk=1 s 1argk=0 1rpsG=1s 3s 4 rpsG=1folC1aroK=1aroK=11s 26 eme étape : Représentation Cellulaire 1 1s 21argK=1argK=11s 3Génération des règles cellulairess 31argK=0argK=01R1: Si {s 0 } Alors {pstS-3=0, s 1 } s 4R3: Si {s 2 } Alors {argK=1, s 3 } s 4 1R2: Si {s 0 } Alors {rpsG=1, aroK=1, s 2 }R4: Si {s 2 } Alors {argK=0, s 4 }Représentation des règles cellulairesLes couches CELFACT et CELRULE.CELFACTFAITSCELRULEREGLESEF IF SFER IR SRs 0100R1011pstS-3=0010R2011s 1000R3011rpsG=1010R4011aroK=1010s 2000argK=1 Le processus général que notre système d'apprentissage applique à un échantillon est 0 1 0 s 3 0 0 0 illustré par un exemple à partir de la 3ème étape. Nous supposons avoir obtenu les 4 argK=0 0 1 0 règles d'association suivantes, avec les gènes (aceA, pstS, rpsG, aroK,…..etc) : s 4 0 0 03 eme étape : Production des règles d'associations(R1,{aceA-2=1}, {pstS-3=0}, 45%,77%)(R2,{aceA-2=0}, {rpsG=1, aroK=1}, 80%,95%)(R3,{aceA-2=0, phhB=1}, {argK=1}, 80%,70%)

1. Classe BIODM C'est la classe qui lance toute l'application. Elle ne contient qu'une instance de la classe FRAME_ONE.

Classe FRAME_ONE

C'est la fenêtre principale de l'application. C'est la classe la plus importante car elle gère toutes les opérations que l'on peut effectuer.

Classe EXPLORE_BIOLOGICAL_DATA

Visualise les données expérimentales pour une possible vérification visuelle avant de lancer l'expérimentation.

Classe EXPERIMENT

Démarre l'expérimentation en demandant à l'utilisateur de sélectionner les fichiers nécessaires. Elle fait appel à des méthodes stockées telles que LECTURE_FICHIER_SEQUENCE, et CALCUL_FREQUENCE, pour le calcul des évaluations des règles.

Classe FIND_ASSOCIATION_RULES

Recherche les règles d'associations. Elle fait appel à des méthodes stockées dans la classe DATA_BASE_PROCEDURES, et la classe ASSOCIATION_RULES _PROCEDURES. Elle présente les résultats sous la forme textuelle, et permet de sauvegarder l'expérimentation par le biais de la classe SAVE_EXPERIMENT.

Classe SAVE_EXPERIMENT

Sauvegarde les résultats de l'expérimentation.

Classe DATA_BASE_PROCEDURES

Regroupe toutes les méthodes de gestion de la base de données, telles que la création d'une connexion, l'écriture dans une table, les requêtes sur les différentes tables, etc.

Classe ASSOCIATION_RULES _PROCEDURES

Recherche les itemsets, calcule les supports et les fréquences, et produit les règles d'association.

Classe CELLULAR_RULE_PRODUCTION

Produit les règles cellulaires et utilisant au besoin les méthodes de stockage des classes GRAPHE_INDUCTION_CREATION et CELLULAR_RULES_GENERATION.

Classe BOOLEAN_RULES_INDUCTION

Produit les règles booléennes inductives, en utilisant au préalable des méthodes pour la transformation des règles d'association trouvées.

Classe GRAPHE_INDUCTION_CREATION

Crée le graphe d'induction à l'aide d'un algorithme approprié et des règles d'associations produites à l'étape 9. Ce graphe sera le paramètre d'entrée de la classe CELLULAR_RULES_GENERATION.

12. Classe CELLULAR_RULES_GENERATION Produit les règles cellulaires et les intègre dans la base de connaissances de la machine cellulaire CASI. Cette classe regroupe toutes les méthodes de création des couches CELFACT et CELRULE.

Fouille de données biologiques : vers une représentation booléenne des

Références

Abstract. The advent of new biotechnologies has led, in recent years, accumulating data on the genomes of pathogens epidemiology. As against the exploitation of genomic data do not follow the pace of discovery, then the search of biological data, particularly epidemiological nature has imposed itself to help find some answers to questions arises that the epidemiologist on specific diseases.

Hence, the problem addressed by this study is that data mining of biological Mycobacterium Tuberculosis responsible for tuberculosis. We propose a process of data-enough to generate new knowledge that will be profitable and grown at two levels: Take advantage of the specialist field, through the extraction of particular patterns in the rules of association which help to better understand the pathology.

Thereafter, the extracted association rules are modeled by the Boolean principle adopted by the cellular machinery CASI (Cellular Automaton for Symbolic Induction). The purpose of this modeling by the Boolean principle to reduce the complexity of storage and response time.

Knowledge Discovery in Database : Induction Graph and Cellular Automaton BAtmani BBeldjilali Computing and Informatics Journal 26 2007 Mining and Epidemiolgy JAbbello GCormode 2006 DIMACS Workshops FAbdelouhab BAtmani Intégration automatique des données semi-structurées dans un entrepôt cellulaire Mohammadia -Maroc 2008. 10. 11 octobre 2008 Troisième atelier sur les systèmes décisionnels BBenamina BAtmani WCSS: un système cellulaire d'extraction et de gestion des connaissances Mohammadia -Maroc 2008. 10. 11 octobre 2008 Troisième atelier sur les systèmes décisionnels BCarbonnelle MDailloux LLebrun JMaugein CPernot Cahier de formation en biologie médicale N°29 2003 Knowledge management, data mining HChen SSFuller CFriedman WHersh and text mining in medical informatics Medical Informatics Springer US 2003 8 Using the Sacharomyces genome databases (SGD) for SAChervitz ETHester CBall KDolinski SSDwight MAHaris GJuvik AMalekian SRoberts TRoe CScafe MShroeder GSherlock SWeng YZhu JMCherry DBotstein 1999 Baghdad ATMANI analysis of protein similarities and structure MansoulAbdelhak Nucleic Acids Research 27 1 Whole-Genome comparaison of Mycobacterium Tuberculosis clinical and laboratory stains RDFleiishman DAlland JAEisen LCarpenter OWhite JPetersen RDeboy RDodson MGwinn DHaft EHickey JFKolonay WCNelson LAUmayam MErmolayeva SLSalzberg ADelcher TUtterback JWeidman HKhouri JGill AMikula WBishai WRJacobs JCVenter CMFraser 2008 BMC Medical Genomics Data mining of Mycobacterium Tuberculosis complexe genotyping results using mycobacterial intersepted repetitive units validates the clonal structure of spolygotyping-defined families SFerdinand GValetudi CSola NRastogi 2004 Fouille de données à l'aide de HMM : application à la détection de réitérations intragénomiques (jobim) SHergalant BAigle PLeblond JFMari BDecaris 2002 Fouille de données du génome à l'aide de modèles de Markov Cachées SHergalant BAigle PLeblond JFMari 2005 EGC Data mining using Hidden Markov Models ( HMM2) to detect heterogeneicities into bacterial genome SHergalant CEng AThibessar PLeblond JMari 2005 Jobim Combinaison de méthodes symboliques-numériques de fouilles de données pour l'étude et l'analyse de la cohorte Stanislas (jobim 2005 Loria équipe Orpailleur Inserm U525 Equipe 4 Le génome des mycobactéries : étude biologique et interprétation évolutive DLabie M/S n° 3 2003 FMhamdi MElloumi RRakotomalala Extraction et sélection des n-grammes pour le classement des protéines EGC 2006 SMaumus ANapoli LSzathmary SVisvikis-Siest Fouille de données biomédicales complexes : Extraction de règles et de profils génétiques dans le cadre de l'étude du syndrome métabolique Jobim 2005 Genomics of Mycobacterium Tuberculosis: Old threats newtrends ANiyaz SEHasnain Indian Journal Med Res 120 2004 Organisation Mondiale de la santé Improved Molecular Epidemiological nalysis of Mycobacterium Tuberculosis Strains Using Multi-Locus Variable Number of Tandem Repeats typing EYokoyama KKishida SIshinohe Jpn. J. Infect 60 2007 MJZaki JT LWang HT TToivonen Recent Advances in Data Mining for Bioinformatics BIOKDD 2002 JDZucker Introduction à la fouille de données en bioinformatique (cours master EID-P13 IRD UR GEODES 2008