<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="fr">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Fouille de données biologiques : vers une représentation booléenne des règles d&apos;association</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">Abdelhak</forename><surname>Mansoul</surname></persName>
							<affiliation key="aff0">
								<orgName type="department" key="dep1">Département Informatique</orgName>
								<orgName type="department" key="dep2">Faculté des Sciences</orgName>
								<orgName type="laboratory" key="lab1">Equipe de recherche « Simulation</orgName>
								<orgName type="laboratory" key="lab2">Intégration et Fouille de données (SIF) »</orgName>
								<orgName type="institution">Université d&apos;Oran BP</orgName>
								<address>
									<addrLine>1524, El M&apos;Naouer, Es Senia</addrLine>
									<postCode>31 000</postCode>
									<settlement>Oran, Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author role="corresp">
							<persName><forename type="first">Baghdad</forename><surname>Atmani</surname></persName>
							<email>atmani.baghdad@gmail.com</email>
							<affiliation key="aff0">
								<orgName type="department" key="dep1">Département Informatique</orgName>
								<orgName type="department" key="dep2">Faculté des Sciences</orgName>
								<orgName type="laboratory" key="lab1">Equipe de recherche « Simulation</orgName>
								<orgName type="laboratory" key="lab2">Intégration et Fouille de données (SIF) »</orgName>
								<orgName type="institution">Université d&apos;Oran BP</orgName>
								<address>
									<addrLine>1524, El M&apos;Naouer, Es Senia</addrLine>
									<postCode>31 000</postCode>
									<settlement>Oran, Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">M</forename><surname>Africanum</surname></persName>
							<affiliation key="aff0">
								<orgName type="department" key="dep1">Département Informatique</orgName>
								<orgName type="department" key="dep2">Faculté des Sciences</orgName>
								<orgName type="laboratory" key="lab1">Equipe de recherche « Simulation</orgName>
								<orgName type="laboratory" key="lab2">Intégration et Fouille de données (SIF) »</orgName>
								<orgName type="institution">Université d&apos;Oran BP</orgName>
								<address>
									<addrLine>1524, El M&apos;Naouer, Es Senia</addrLine>
									<postCode>31 000</postCode>
									<settlement>Oran, Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">M</forename><surname>Bovis</surname></persName>
							<affiliation key="aff0">
								<orgName type="department" key="dep1">Département Informatique</orgName>
								<orgName type="department" key="dep2">Faculté des Sciences</orgName>
								<orgName type="laboratory" key="lab1">Equipe de recherche « Simulation</orgName>
								<orgName type="laboratory" key="lab2">Intégration et Fouille de données (SIF) »</orgName>
								<orgName type="institution">Université d&apos;Oran BP</orgName>
								<address>
									<addrLine>1524, El M&apos;Naouer, Es Senia</addrLine>
									<postCode>31 000</postCode>
									<settlement>Oran, Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">M</forename><surname>Canetti</surname></persName>
							<affiliation key="aff0">
								<orgName type="department" key="dep1">Département Informatique</orgName>
								<orgName type="department" key="dep2">Faculté des Sciences</orgName>
								<orgName type="laboratory" key="lab1">Equipe de recherche « Simulation</orgName>
								<orgName type="laboratory" key="lab2">Intégration et Fouille de données (SIF) »</orgName>
								<orgName type="institution">Université d&apos;Oran BP</orgName>
								<address>
									<addrLine>1524, El M&apos;Naouer, Es Senia</addrLine>
									<postCode>31 000</postCode>
									<settlement>Oran, Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">M</forename><surname>Microti</surname></persName>
							<affiliation key="aff0">
								<orgName type="department" key="dep1">Département Informatique</orgName>
								<orgName type="department" key="dep2">Faculté des Sciences</orgName>
								<orgName type="laboratory" key="lab1">Equipe de recherche « Simulation</orgName>
								<orgName type="laboratory" key="lab2">Intégration et Fouille de données (SIF) »</orgName>
								<orgName type="institution">Université d&apos;Oran BP</orgName>
								<address>
									<addrLine>1524, El M&apos;Naouer, Es Senia</addrLine>
									<postCode>31 000</postCode>
									<settlement>Oran, Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">M</forename><surname>Bovis Bcg</surname></persName>
							<affiliation key="aff0">
								<orgName type="department" key="dep1">Département Informatique</orgName>
								<orgName type="department" key="dep2">Faculté des Sciences</orgName>
								<orgName type="laboratory" key="lab1">Equipe de recherche « Simulation</orgName>
								<orgName type="laboratory" key="lab2">Intégration et Fouille de données (SIF) »</orgName>
								<orgName type="institution">Université d&apos;Oran BP</orgName>
								<address>
									<addrLine>1524, El M&apos;Naouer, Es Senia</addrLine>
									<postCode>31 000</postCode>
									<settlement>Oran, Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<title level="a" type="main">Fouille de données biologiques : vers une représentation booléenne des règles d&apos;association</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">C49FE259DBCDDBAF2A5D641447057B36</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T00:19+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<textClass>
				<keywords>
					<term>Automate cellulaire</term>
					<term>Fouille de données biologiques</term>
					<term>Induction de règles</term>
					<term>Motif</term>
					<term>Itemset</term>
					<term>Règle d&apos;association</term>
					<term>Mycobacterium Tuberculosis</term>
					<term>Tuberculose</term>
					<term>Epidémie</term>
					<term>Génome</term>
					<term>Biologie. M. Tuberculosis Fouille de données biologiques : vers une représentation booléenne des règles d&apos;association. 3 Cellular Automaton</term>
					<term>Biological Data Mining</term>
					<term>Rule induction</term>
					<term>Pattern</term>
					<term>Itemset</term>
					<term>Association rule</term>
					<term>Mycobacterium Tuberculosis</term>
					<term>Tuberculosis</term>
					<term>Epidemic</term>
					<term>Genome</term>
					<term>Biology</term>
				</keywords>
			</textClass>
			<abstract>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>L'avènement des biotechnologies nouvelles a permis, au cours des dernières années, d'accumuler des données sur les génomes des agents pathogènes épidémiologiques. Par contre l'exploitation des données génomiques n'as pas suivi le rythme des découvertes, alors la fouille de données biologiques, particulièrement à caractère épidémiologique s'est imposée d'elle-même afin d'aider à trouver des éléments de réponse aux questions que se pose l'épidémiologiste concernant des pathologies particulières. D'où, la problématique abordée par cette étude qui est la fouille de données biologiques du Mycobacterium Tuberculosis responsable de la tuberculose. Nous proposons un processus de fouille de données assez novateur pour générer des connaissances qui vont êtres profitables et exploitables à deux niveaux :</p><p>• Profitables au spécialiste du domaine, à travers l'extraction de motifs en particulier les règles d'association qui aident à mieux comprendre la pathologie. • Ensuite, ces règles d'association extraites sont modélisées par le principe booléen adopté par la machine cellulaire CASI (Cellular Automaton for Symbolic Induction). Le but de cette modélisation par le principe booléen étant de réduire la complexité de stockage et le temps de réponse.</p></div>
			</abstract>
		</profileDesc>
	</teiHeader>
	<text xml:lang="fr">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1">Introduction</head><p>La biotechnologie a permis, au cours des dernières années, d'améliorer les connaissances sur le génome des agents pathogènes épidémiologiques, et de développer des moyens de lutte efficace contre ces épidémies. Actuellement, des dizaines de génomes ont été révélés et ont permis de constituer des banques de données biologiques énormes. De ce fait, les quantités de données brutes disponibles sont déjà trop importantes pour pouvoir être analysées manuellement par les méthodes épidémiologiques de surveillance et d'analyse. Du fait de l'inefficacité de ces méthodes 2 Abdelhak MANSOUL, Baghdad ATMANI due à la variété des données biologiques, et à la nature même des épidémies, une nouvelle approche est utilisée : c'est la fouille de données biologiques relatives aux épidémies <ref type="bibr" target="#b1">[2]</ref>, <ref type="bibr" target="#b5">[6]</ref>. Cette fouille permet d'extraire des connaissances qui serviront à mieux connaître les agents pathogènes, interpréter au mieux les phénomènes biologiques liés à une épidémie particulière, et ainsi permettre la mise en oeuvre de mesures de prévention et de lutte, par des traitements appropriés, des vaccinations, .etc.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Problématique</head><p>Sur un terrain, purement épidémiologique, il y a une pathologie qui continue à faire des ravages et se trouve classée deuxième en mortalité après le sida : c'est la Tuberculose. Elle est l'un des plus grands fléaux de l'humanité qui entraîna en l'an 2000 près de 10 millions de nouveaux cas et plus de trois millions de morts chaque année dans le monde <ref type="bibr" target="#b18">[19]</ref>.</p><p>En effet, cette maladie infectieuse est provoquée par la pénétration dans l'organisme d'une bactérie appelée Mycobacterium Tuberculosis. Dans la pratique, il existe un Complexe Tuberculosis dont le Mycobacterium Tuberculosis est l'agent typique responsable de la tuberculose humaine <ref type="bibr" target="#b4">[5]</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Fig. 1 Composition du Complexe Tuberculosis</head><p>En 1998, la première séquence complète du génome de Mt H37RV a été réalisée et a permis de dégager des caractéristiques propres aux mycobactéries dont les plus importantes sont les suivantes <ref type="bibr" target="#b4">[5]</ref>, <ref type="bibr" target="#b14">[14]</ref>, <ref type="bibr" target="#b17">[18]</ref>: 51 % des gènes sont dupliqués; 10 % du génome code pour 2 familles de gènes qui codent eux même pour 2 protéines nommées PE et PPE; forte présence de séquences répétées d'ADN, en particulier une séquence nommée IS6110 (16 copies), riches en particularités sur le génome ; présence de 65 copies de MIRU (Mycobacterial Interspaced Repetitive Unit) ; présence de répétitions directes RD (appelées aussi régions de différences), ces séquences répétées sont riches en particularités sur le génome.</p><p>Tous ces éléments descriptifs de ce génome sont autant chacun un gisement qu'on exploite en fouille de données <ref type="bibr" target="#b8">[8]</ref>, <ref type="bibr" target="#b9">[9]</ref>, <ref type="bibr" target="#b19">[20]</ref> afin d'essayer d'apporter des éléments de réponses à certains phénomènes liés au complexe Mycobacterium Tuberculosis, et trouver des solutions médicales afin de stopper la diffusion de la bactérie et par conséquent stopper l'épidémie par des vaccins, ou antibiotiques. Donc, la problématique abordée dans ce papier, est la fouille de données biologiques se rapportant au Mycobactérium Tuberculosis à l'aide de tous les éléments d'informations cités auparavant à savoir : les gènes, les protéines, les RD, et les MIRU. Cette fouille se veut d'être une fouille de données hétérogènes.</p><p>Cette étude prendra en compte toutes les souches de la bactérie dont l'annotation a été complètement finie ou en projet de séquençage. Ce gisement de données sera plus conséquent s'il renfermera d'avantage de souches annotées, ce qui supposera par la suite, que toute souche nouvellement annotée, alimentera le processus de fouille de données envisagé.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2">Etat de l'art de la fouille de données biologiques</head><p>Depuis les premiers projets de séquençage des bactéries, les dispositifs expérimentaux tels que les séquenceurs automatiques, puces à ADN et autres, ont permis de constituer des bases de données de séquences de génomes complets. Il fallait donc exploiter ces données, identifier les gènes, les protéines qu'ils produisent, et identifier leurs fonctions, pour comprendre les mécanismes de la bactérie. De plus, la variété et la disponibilité des données biologiques (séquences ADN, Protéines, Puce ADN, ….) et par la même des banques de données biologiques (NCBI, EMBL, GenBank….), ont incité à les valoriser. Différents travaux promoteurs et novateurs, en fouilles de données biologiques ont été faits en se basant essentiellement sur les génomes et les cohortes <ref type="bibr" target="#b13">[13]</ref>, les uns ont un rapport direct avec l'épidémiologie alors que d'autres la touchent indirectement (génomique et protéomique), mais sont d'un grand apport pour la compréhension des maladies et par la même des phénomènes épidémiologiques. Nous présentons quelques uns, mais la liste n'est pas exhaustive.</p><p>En génomique : Pour identifier des gènes, comparer des séquences (rechercher des similarités) <ref type="bibr" target="#b6">[7]</ref>, rechercher et extraire des motifs fréquents <ref type="bibr" target="#b16">[16]</ref>, différentes approches ont été utilisées comme l'extraction des séquences répétées (n-grammes) <ref type="bibr" target="#b15">[15]</ref> ou les modèles de Markov cachés (HMM) <ref type="bibr" target="#b11">[11]</ref>, <ref type="bibr" target="#b16">[16]</ref>. Ces modèles (HMM) interviennent aussi dans l'analyse de séquences pour la détection de répétitions <ref type="bibr" target="#b10">[10]</ref> ou encore la recherche de mots exceptionnels <ref type="bibr" target="#b11">[11]</ref>, la recherche de gènes candidats, la recherche de séquences exogènes ou hétérogènes pouvant renseigner sur un pathogène impliqué dans une maladie <ref type="bibr">[12]</ref>. L'utilisation des modèles de Markov cachés a permis aussi d'identifier les séquences exogènes <ref type="bibr">[12]</ref> susceptibles de contenir des gènes de virulence ou des gènes d'adaptation, ce genre de recherche améliore la compréhension du phénomène de résistance aux antibiotiques. Plusieurs travaux sur les séquences biologiques ont donné naissance à des programmes dont les plus connus et les plus utilisés par les biologistes sont les logiciels FASTA et BLAST <ref type="bibr" target="#b6">[7]</ref>.</p><p>En fouille de cohortes : Les cohortes ont souvent été utilisées dans le cas des épidémies <ref type="bibr" target="#b13">[13]</ref>, elles fournissent un tas de données médicales (cliniques, biologiques, et génétiques) sur des cas réels (sujets exposés, non exposés). Ces fouilles permettent de renseigner sur le rôle des facteurs génétiques et environnementaux d'une maladie. Les méthodes de classification, les règles d'association ont étés utilisées dans ce cas pour permettre la détection des relations gène-gène et gène-environnement <ref type="bibr" target="#b20">[21]</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3">Contribution</head><p>Nous nous proposons d'étudier les aspects physiologiques fondamentaux liés à la génomique de cette bactérie modèle, le Mycobacterium Tuberculosis. Ensuite étudier les outils de fouille de données pour l'extraction des connaissances et d'en dégager une approches expérimentable.</p><p>En premier, nous avons établi un état de l'art de la fouille des données avec certains détails d'une technique à une autre et qui ne sont pas forcement en rapport direct avec notre étude. Ensuite, une étude comparative des différents outils et méthodes existants a été faite afin d'utiliser la plus adaptée à l'objet de notre étude.</p><p>Deuxièmement, nous avons abordé l'étude de l'agent pathogène, afin de cerner la nature et le type de données biologiques qui nous intéressent et ainsi pouvoir localiser nos sources de données expérimentales.</p><p>Troisièmement, nous avons établi notre propre démarche expérimentale par un processus de fouille de données pour la génération des connaissances à partir de données biologiques. Ces connaissances vont êtres profitables et exploitables à deux niveaux :</p><p>1. En premier, profitables au spécialiste du domaine pour la compréhension de la pathologie. 2. En second, exploitables par la machine cellulaire CASI <ref type="bibr" target="#b3">[4]</ref> pour l'inférence et la déduction. Ce processus informatique ainsi établi procède en deux étapes, une fouille de données est faite dans un premier temps en utilisant l'algorithme Apriori et donnera des règles d'association, ensuite et dans un deuxième temps produire des règles booléennes inductives qui vont alimenter la base de connaissances de la machine cellulaire CASI, cette machine développée pour l'acquisition automatique incrémentale de connaissances par induction et la prédiction par déduction <ref type="bibr" target="#b3">[4]</ref>.</p><p>Ainsi, notre contribution a adopté la démarche suivante :</p><p>1. Etude et sélection des données biologiques relatives au Mycobactérium Tuberculosis ; 2. Extraction des motifs fréquents et des règles d'association respectives ; 3. Production des règles booléennes inductives pour la machine cellulaire CASI.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4">Conception du système</head><p>Notre système est composé de deux grands modules, le premier produit des règles d'association et les transmet au deuxième module (BRI) pour générer des règles booléennes basées sur le principe de la machine cellulaire CASI.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Fouille de données biologiques : vers une représentation booléenne des règles d'association. 5</head><p>Transformation .</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Production</head><p>Evaluation. </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Sélection, Prétraitement</head><note type="other">Transformation</note></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.2">La machine cellulaire CASI [1]</head><p>CASI (Induction Symbolique par Automate Cellulaire) est un automate cellulaire qui simule le principe de fonctionnement de base d'un Moteur d'Inférence en utilisant deux couches finies d'automates finis. La première couche, CELFACT, pour la base des faits et, la deuxième couche, CELRULE, pour la base de règles. Chaque cellule au temps t+1 ne dépend que de l'état des ses voisines et du sien au temps t. Dans chaque couche, le contenu d'une cellule détermine si et comment elle participe à chaque étape d'inférence : à chaque étape, une cellule peut être active (1) ou passive (0), c'est-à-dire participe ou non à l'inférence. Le principe adopté est simple : </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.3">Les étapes du processus adopté</head><p>Le processus de fouille de données adopté par notre système est composé de 6 étapes majeures :</p><p>1 ere étape : Sélection et prétraitement des données A partir des banques de données (NCBI, ...), il y'a récupération des informations biologiques relatives aux souches mentionnées ci-dessous, sous leurs formats originaux. Les agents pathogènes (souches) ciblés par cette étude sont ceux dont l'annotation a été finie à savoir : Mt H37Rv, Mt CDC1551, Mt F11, Mt H37Ra [17]. Un nettoyage, une mise en forme et une caractérisation sont effectués afin de dégager des descripteurs « attributs » possibles.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2">eme étape : Transformation des données</head><p>La transformation des données du format original vers un formalisme base de données (attribut, valeur), est faite. De plus à partir des informations relatives aux RD et MIRU des séquences en question, il est défini d'autres caractéristiques calculables ou non, s'en suivra alors une «binarisation».</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3">eme étape : Production et évaluation des règles d'associations</head><p>La recherche des Items, des Itemsets et des règles d'association, est faite par l'algorithme Apriori <ref type="bibr" target="#b21">[22]</ref> avec calcul systématique du support et de la confiance pour chaque règle pour ne retenir que celles ayant le support et la confiance dépassant les valeurs fixées par l'utilisateur.  </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="6">Implémentation</head><p>Le schéma illustré par la figure <ref type="figure" target="#fig_2">3</ref>, montre le système en termes de fonctionnalités sans pour autant fixer une quelconque chronologie pour les opérations. </p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>4 . 1</head><label>41</label><figDesc>Production des règles booléennes pour la machine cellulaire CASI Les règles d'association produites sont transformées selon le principe suivant : Les items de Antécédent vont servir à constituer la Prémisse de la règle ; Les items de Conséquent vont servir à créer la Conclusion de la règle. Cette transformation sert à produire des règles transitoires nécessaires à la production d'un graphe d'induction selon le principe suivant : Un sommet désigne un noeud sur lequel on fait un test, avec les résultats possibles binaires ou à valeurs multiples. Ainsi le graphe d'induction permettra de produire les règles cellulaires sous la forme : R i : Si Prémisse i Alors Conclusion i Avec une représentation cellulaire selon le principe suivant : les items de Prémisse i et Conclusion i vont constituer les faits : FAITS. les R i vont constituer les règles : REGLES. Ces règles produites seront intégrées dans la base de connaissances de CASI pour exploitation en inférence.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_1"><head>Fouille de données biologiques : vers une représentation booléenne des règles d'association. 7 4</head><label>7</label><figDesc>eme étape : Transformation Les règles trouvées sont transformées puis représentées selon un formalisme transitoire aidant à la production d'un graphe d'induction. Ainsi la règle d'association R i se verra traduite en une règle booléenne transitoire selon le principe suivant : (R i, Antécédent, Conséquent, support, confiance, note) (R i , Prémisse i (Antécédent ) , Conclusion i ( Conséquent )) 5 eme étape : Production du graphe d'induction Un graphe d'induction est construit selon le principe suivant : Un sommet désigne un noeud sur lequel on fait un test, avec les résultats possibles binaires ou à valeur multiple. 6 eme étape : Représentation Cellulaire Génération des règles cellulaires à partir du graphe d'induction sous la forme : Ri : Si Prémisse (Antécédent) alors Conclusion (Conséquent) où Prémisse est composée des items (Itemset) de l'Antécédent de la règle d'association et la conclusion est composée des items (Itemset) de Conséquent de la règle d'association. Représentation cellulaire : Les règles générées auparavant (6.1) sont représentées en couches cellulaires. Schématiquement nous aurons : {Ri} REGLES et {Prémisse i , Conclusion i } FAITS 7 eme étape : Intégration Ainsi, la machine cellulaire intégrera et exploitera la représentation cellulaire et les matrices d'E/S à travers une inférence en chaînage avant pour enrichir la base de connaissances. La dynamique de la machine cellulaire utilise les deux fonctions de transition citées auparavant (4.2).</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_2"><head>Fig. 3 :</head><label>3</label><figDesc>Fig. 3 : Architecture du système</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_0"><head></head><label></label><figDesc>Toute cellule j de la deuxième couche CELRULE est considérée comme une règle candidate si sa valeur est 1, sinon, elle est considérée comme une règle qui ne doit pas participer à l'inférence. Elle se présente sous trois états : état d'entrée (ER), état interne (IR) et état de sortie (SR). Les matrices d'incidence R E et R S représentent la relation entrée/sortie des Faits et sont utilisées en chaînage avant et en chaînage arrière en inversant leur ordre. La dynamique de l'automate cellulaire, pour simuler le fonctionnement d'un Moteur d'Inférence, utilise deux fonctions de transitions δ fact et δ rule , où δ fact correspond à la phase d'évaluation, de sélection et de filtrage, et δ rule correspond à la phase d'exécution. La fonction de transition δ fact : δ fact (EF, IF, SF, ER, IR, SR) = (EF, IF, EF, ER+(R E T .EF), IR, SR) La fonction de transition δ rule : δ</figDesc><table><row><cell cols="4">6 Abdelhak MANSOUL, Baghdad ATMANI</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="7">Toute cellule i de la première couche CELFACT est considérée comme fait</cell></row><row><cell cols="7">établi si sa valeur est 1, sinon, elle est considérée comme fait à établir. Elle se</cell></row><row><cell cols="7">présente sous trois états : état d'entrée (EF), état interne (IF) et état de sortie</cell></row><row><cell>(SF).</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Boolean Rules Induction</cell><cell></cell></row><row><cell></cell><cell>Gènes</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell></cell><cell>associés</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell>SANGER NCBI</cell><cell>associées RD Protéines</cell><cell>Données structurées</cell><cell>d'assoc-iation Règles</cell><cell>oires Transit-Règles.</cell><cell>REGLES CELFACT FAITS</cell><cell>Base CASI Knowledge</cell></row><row><cell></cell><cell>MIRU</cell><cell></cell><cell></cell><cell></cell><cell>CELRULE</cell><cell></cell></row><row><cell>……</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell>Production</cell><cell>Intégration</cell><cell></cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell>Graphe</cell><cell></cell><cell></cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell>d'induction</cell><cell></cell><cell></cell></row><row><cell cols="6">Fig.2: Fouille de données du complexe Mycobacterium Tuberculosis</cell><cell></cell></row></table><note>rule (EF, IF, SF, ER, IR, SR) = (EF+(RS.ER), IF, SF, ER, IR,^ER), où la matrice R E T désigne la transposée de R E et ^ER désigne la négation du vecteur booléen ER.</note></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_1"><head>5 Exemple d'illustration de l'induction des règles booléennes inductives.</head><label></label><figDesc>Toute cellule de CELRULE est considérée règle candidate, c'est-à-dire participe à l'inférence si sa valeur=1, sinon, si sa valeur=0.Pour les matrices d'E/S :La matrice d'entrée R E : si le fait i∈ à Prémisse de Rj alors R E (i,j) =1 La matrice de sortie R S : si le fait i∈ à Conclusion de Rj alors R S (i,j) =1</figDesc><table><row><cell></cell><cell cols="8">Fouille de données biologiques : vers une représentation booléenne des règles</cell></row><row><cell cols="5">8 Abdelhak MANSOUL, Baghdad ATMANI</cell><cell></cell><cell></cell><cell></cell><cell>d'association.</cell><cell>9</cell></row><row><cell cols="9">(R4,{aceA-2=0, phhB=0}, {argK=0}, 45%,77%) Notons pour CELFACT : Initialement toutes les cellules de</cell></row><row><cell cols="3">EF(i)=1 : un fait déjà établi,</cell><cell></cell><cell></cell><cell cols="4">CELFACT sont à l'état EF=0 (passif)</cell></row><row><cell cols="4">4 eme étape : Transformation EF(i)=0 : un fait à établir,</cell><cell></cell><cell cols="4">sauf EF(1)=1, c'est la base de faits</cell></row><row><cell cols="5">R1,{aceA-2=1}, {pstS-3=0} IF(i)=1 : un fait du type attribut=valeur,</cell><cell cols="2">initiale.</cell><cell></cell></row><row><cell cols="6">R2,{aceA-2=0}, {rpsG=1, aroK=1} IF(i)=0 : un fait du type sommet.</cell><cell></cell><cell></cell></row><row><cell></cell><cell cols="5">R3,{aceA-2=0, phhB=1}, {argK=1}</cell><cell></cell><cell></cell></row><row><cell cols="6">R4,{aceA-2=0, phhB=0}, {argK=0} Pour CELRULE :</cell><cell></cell><cell></cell></row><row><cell></cell><cell cols="6">5 eme étape : Production du graphe d'induction</cell><cell></cell></row><row><cell></cell><cell></cell><cell>s 0</cell><cell cols="4">aceA-2 Les matrices d'E/S</cell><cell></cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">rpsG=1</cell><cell></cell></row><row><cell>R E s 0</cell><cell></cell><cell cols="2">s 1 R1 R2 R3 R4 pstS-3=0 ahpC 1 1</cell><cell>s 2</cell><cell cols="2">aroK=1 R S phhB s 0</cell><cell></cell><cell>R1 R2 R3 R4</cell></row><row><cell cols="2">pstS-3=0</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="3">pstS-3=0 1</cell></row><row><cell>s 1</cell><cell></cell><cell></cell><cell></cell><cell cols="3">argk=1 s 1</cell><cell cols="2">argk=0 1</cell></row><row><cell cols="2">rpsG=1</cell><cell></cell><cell cols="2">s 3</cell><cell></cell><cell cols="2">s 4 rpsG=1</cell><cell>folC</cell><cell>1</cell></row><row><cell cols="2">aroK=1</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">aroK=1</cell><cell>1</cell></row><row><cell>s 2</cell><cell cols="5">6 eme étape : Représentation Cellulaire 1 1</cell><cell>s 2</cell><cell></cell><cell>1</cell></row><row><cell cols="2">argK=1</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">argK=1</cell><cell>1</cell></row><row><cell>s 3</cell><cell cols="4">Génération des règles cellulaires</cell><cell></cell><cell>s 3</cell><cell></cell><cell>1</cell></row><row><cell cols="2">argK=0</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="2">argK=0</cell><cell>1</cell></row><row><cell cols="4">R1: Si {s 0 } Alors {pstS-3=0, s 1 } s 4</cell><cell></cell><cell></cell><cell cols="3">R3: Si {s 2 } Alors {argK=1, s 3 } s 4 1</cell></row><row><cell cols="5">R2: Si {s 0 } Alors {rpsG=1, aroK=1, s 2 }</cell><cell></cell><cell cols="3">R4: Si {s 2 } Alors {argK=0, s 4 }</cell></row><row><cell></cell><cell cols="5">Représentation des règles cellulaires</cell><cell></cell><cell></cell></row><row><cell></cell><cell></cell><cell cols="7">Les couches CELFACT et CELRULE.</cell></row><row><cell cols="2">CELFACT</cell><cell cols="2">FAITS</cell><cell></cell><cell></cell><cell cols="3">CELRULE</cell><cell>REGLES</cell></row><row><cell></cell><cell></cell><cell cols="3">EF IF SF</cell><cell></cell><cell></cell><cell></cell><cell>ER IR SR</cell></row><row><cell>s 0</cell><cell></cell><cell>1</cell><cell>0</cell><cell>0</cell><cell></cell><cell>R1</cell><cell></cell><cell>0</cell><cell>1</cell><cell>1</cell></row><row><cell cols="2">pstS-3=0</cell><cell>0</cell><cell>1</cell><cell>0</cell><cell></cell><cell>R2</cell><cell></cell><cell>0</cell><cell>1</cell><cell>1</cell></row><row><cell>s 1</cell><cell></cell><cell>0</cell><cell>0</cell><cell>0</cell><cell></cell><cell>R3</cell><cell></cell><cell>0</cell><cell>1</cell><cell>1</cell></row><row><cell cols="2">rpsG=1</cell><cell>0</cell><cell>1</cell><cell>0</cell><cell></cell><cell>R4</cell><cell></cell><cell>0</cell><cell>1</cell><cell>1</cell></row><row><cell cols="2">aroK=1</cell><cell>0</cell><cell>1</cell><cell>0</cell><cell></cell><cell></cell><cell></cell></row><row><cell>s 2</cell><cell></cell><cell>0</cell><cell>0</cell><cell>0</cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="9">argK=1 Le processus général que notre système d'apprentissage applique à un échantillon est 0 1 0 s 3 0 0 0 illustré par un exemple à partir de la 3ème étape. Nous supposons avoir obtenu les 4 argK=0 0 1 0 règles d'association suivantes, avec les gènes (aceA, pstS, rpsG, aroK,…..etc) : s 4 0 0 0</cell></row><row><cell></cell><cell cols="6">3 eme étape : Production des règles d'associations</cell><cell></cell></row><row><cell></cell><cell cols="6">(R1,{aceA-2=1}, {pstS-3=0}, 45%,77%)</cell><cell></cell></row><row><cell></cell><cell cols="8">(R2,{aceA-2=0}, {rpsG=1, aroK=1}, 80%,95%)</cell></row><row><cell></cell><cell cols="8">(R3,{aceA-2=0, phhB=1}, {argK=1}, 80%,70%)</cell></row></table></figure>
		</body>
		<back>
			<div type="annex">
<div xmlns="http://www.tei-c.org/ns/1.0"><p>1. Classe BIODM C'est la classe qui lance toute l'application. Elle ne contient qu'une instance de la classe FRAME_ONE.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2.">Classe FRAME_ONE</head><p>C'est la fenêtre principale de l'application. C'est la classe la plus importante car elle gère toutes les opérations que l'on peut effectuer.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3.">Classe EXPLORE_BIOLOGICAL_DATA</head><p>Visualise les données expérimentales pour une possible vérification visuelle avant de lancer l'expérimentation.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.">Classe EXPERIMENT</head><p>Démarre l'expérimentation en demandant à l'utilisateur de sélectionner les fichiers nécessaires. Elle fait appel à des méthodes stockées telles que LECTURE_FICHIER_SEQUENCE, et CALCUL_FREQUENCE, pour le calcul des évaluations des règles.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.">Classe FIND_ASSOCIATION_RULES</head><p>Recherche les règles d'associations. Elle fait appel à des méthodes stockées dans la classe DATA_BASE_PROCEDURES, et la classe ASSOCIATION_RULES _PROCEDURES. Elle présente les résultats sous la forme textuelle, et permet de sauvegarder l'expérimentation par le biais de la classe SAVE_EXPERIMENT.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="6.">Classe SAVE_EXPERIMENT</head><p>Sauvegarde les résultats de l'expérimentation.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="7.">Classe DATA_BASE_PROCEDURES</head><p>Regroupe toutes les méthodes de gestion de la base de données, telles que la création d'une connexion, l'écriture dans une table, les requêtes sur les différentes tables, etc.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="8.">Classe ASSOCIATION_RULES _PROCEDURES</head><p>Recherche les itemsets, calcule les supports et les fréquences, et produit les règles d'association.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="9.">Classe CELLULAR_RULE_PRODUCTION</head><p>Produit les règles cellulaires et utilisant au besoin les méthodes de stockage des classes GRAPHE_INDUCTION_CREATION et CELLULAR_RULES_GENERATION.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="10.">Classe BOOLEAN_RULES_INDUCTION</head><p>Produit les règles booléennes inductives, en utilisant au préalable des méthodes pour la transformation des règles d'association trouvées.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="11.">Classe GRAPHE_INDUCTION_CREATION</head><p>Crée le graphe d'induction à l'aide d'un algorithme approprié et des règles d'associations produites à l'étape 9. Ce graphe sera le paramètre d'entrée de la classe CELLULAR_RULES_GENERATION.</p><p>12. Classe CELLULAR_RULES_GENERATION Produit les règles cellulaires et les intègre dans la base de connaissances de la machine cellulaire CASI. Cette classe regroupe toutes les méthodes de création des couches CELFACT et CELRULE. </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Fouille de données biologiques : vers une représentation booléenne des</head></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Références</head><p>Abstract. The advent of new biotechnologies has led, in recent years, accumulating data on the genomes of pathogens epidemiology. As against the exploitation of genomic data do not follow the pace of discovery, then the search of biological data, particularly epidemiological nature has imposed itself to help find some answers to questions arises that the epidemiologist on specific diseases.</p><p>Hence, the problem addressed by this study is that data mining of biological Mycobacterium Tuberculosis responsible for tuberculosis. We propose a process of data-enough to generate new knowledge that will be profitable and grown at two levels: Take advantage of the specialist field, through the extraction of particular patterns in the rules of association which help to better understand the pathology.</p><p>Thereafter, the extracted association rules are modeled by the Boolean principle adopted by the cellular machinery CASI (Cellular Automaton for Symbolic Induction). The purpose of this modeling by the Boolean principle to reduce the complexity of storage and response time.</p></div>			</div>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<analytic>
		<title level="a" type="main">Knowledge Discovery in Database : Induction Graph and Cellular Automaton</title>
		<author>
			<persName><forename type="first">B</forename><surname>Atmani</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Beldjilali</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Computing and Informatics Journal</title>
		<imprint>
			<biblScope unit="volume">26</biblScope>
			<biblScope unit="page" from="171" to="197" />
			<date type="published" when="2007">2007</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<monogr>
		<title level="m" type="main">Mining and Epidemiolgy</title>
		<author>
			<persName><forename type="first">J</forename><surname>Abbello</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Cormode</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2006">2006</date>
			<publisher>DIMACS Workshops</publisher>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<monogr>
		<author>
			<persName><forename type="first">F</forename><surname>Abdelouhab</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Atmani</surname></persName>
		</author>
		<title level="m">Intégration automatique des données semi-structurées dans un entrepôt cellulaire</title>
				<imprint>
			<publisher>Mohammadia -Maroc</publisher>
			<date type="published" when="2008">2008. 10. 11 octobre 2008</date>
			<biblScope unit="page" from="109" to="120" />
		</imprint>
	</monogr>
	<note>Troisième atelier sur les systèmes décisionnels</note>
</biblStruct>

<biblStruct xml:id="b3">
	<monogr>
		<author>
			<persName><forename type="first">B</forename><surname>Benamina</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Atmani</surname></persName>
		</author>
		<title level="m">WCSS: un système cellulaire d&apos;extraction et de gestion des connaissances</title>
				<imprint>
			<publisher>Mohammadia -Maroc</publisher>
			<date type="published" when="2008">2008. 10. 11 octobre 2008</date>
			<biblScope unit="page" from="223" to="234" />
		</imprint>
	</monogr>
	<note>Troisième atelier sur les systèmes décisionnels</note>
</biblStruct>

<biblStruct xml:id="b4">
	<monogr>
		<author>
			<persName><forename type="first">B</forename><surname>Carbonnelle</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Dailloux</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><surname>Lebrun</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Maugein</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Pernot</surname></persName>
		</author>
		<title level="m">Cahier de formation en biologie médicale N°29</title>
				<imprint>
			<date type="published" when="2003">2003</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<analytic>
		<title level="a" type="main">Knowledge management, data mining</title>
		<author>
			<persName><forename type="first">H</forename><surname>Chen</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><forename type="middle">S</forename><surname>Fuller</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Friedman</surname></persName>
		</author>
		<author>
			<persName><forename type="first">W</forename><surname>Hersh</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">and text mining in medical informatics</title>
		<title level="s">Medical Informatics</title>
		<imprint>
			<publisher>Springer US</publisher>
			<date type="published" when="2003">2003</date>
			<biblScope unit="volume">8</biblScope>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<monogr>
		<title level="m" type="main">Using the Sacharomyces genome databases (SGD) for</title>
		<author>
			<persName><forename type="first">S</forename><forename type="middle">A</forename><surname>Chervitz</surname></persName>
		</author>
		<author>
			<persName><forename type="first">E</forename><forename type="middle">T</forename><surname>Hester</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Ball</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><surname>Dolinski</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><forename type="middle">S</forename><surname>Dwight</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">A</forename><surname>Haris</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Juvik</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Malekian</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Roberts</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Roe</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Scafe</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Shroeder</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Sherlock</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Weng</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Y</forename><surname>Zhu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">M</forename><surname>Cherry</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Botstein</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1999">1999</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<analytic>
		<title level="a" type="main">Baghdad ATMANI analysis of protein similarities and structure</title>
		<author>
			<persName><forename type="first">Mansoul</forename><surname>Abdelhak</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Nucleic Acids Research</title>
		<imprint>
			<biblScope unit="volume">27</biblScope>
			<biblScope unit="issue">1</biblScope>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<monogr>
		<title level="m" type="main">Whole-Genome comparaison of Mycobacterium Tuberculosis clinical and laboratory stains</title>
		<author>
			<persName><forename type="first">R</forename><forename type="middle">D</forename><surname>Fleiishman</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Alland</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">A</forename><surname>Eisen</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><surname>Carpenter</surname></persName>
		</author>
		<author>
			<persName><forename type="first">O</forename><surname>White</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Petersen</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Deboy</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Dodson</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Gwinn</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><surname>Haft</surname></persName>
		</author>
		<author>
			<persName><forename type="first">E</forename><surname>Hickey</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">F</forename><surname>Kolonay</surname></persName>
		</author>
		<author>
			<persName><forename type="first">W</forename><forename type="middle">C</forename><surname>Nelson</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><forename type="middle">A</forename><surname>Umayam</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Ermolayeva</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><forename type="middle">L</forename><surname>Salzberg</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Delcher</surname></persName>
		</author>
		<author>
			<persName><forename type="first">T</forename><surname>Utterback</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Weidman</surname></persName>
		</author>
		<author>
			<persName><forename type="first">H</forename><surname>Khouri</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Gill</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Mikula</surname></persName>
		</author>
		<author>
			<persName><forename type="first">W</forename><surname>Bishai</surname></persName>
		</author>
		<author>
			<persName><forename type="first">W</forename><forename type="middle">R</forename><surname>Jacobs</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">C</forename><surname>Venter</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><forename type="middle">M</forename><surname>Fraser</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2008">2008</date>
			<publisher>BMC Medical Genomics</publisher>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<monogr>
		<title level="m" type="main">Data mining of Mycobacterium Tuberculosis complexe genotyping results using mycobacterial intersepted repetitive units validates the clonal structure of spolygotyping-defined families</title>
		<author>
			<persName><forename type="first">S</forename><surname>Ferdinand</surname></persName>
		</author>
		<author>
			<persName><forename type="first">G</forename><surname>Valetudi</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Sola</surname></persName>
		</author>
		<author>
			<persName><forename type="first">N</forename><surname>Rastogi</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2004">2004</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<monogr>
		<title level="m" type="main">Fouille de données à l&apos;aide de HMM : application à la détection de réitérations intragénomiques (jobim)</title>
		<author>
			<persName><forename type="first">S</forename><surname>Hergalant</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Aigle</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Leblond</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">F</forename><surname>Mari</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Decaris</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2002">2002</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b11">
	<monogr>
		<title level="m" type="main">Fouille de données du génome à l&apos;aide de modèles de Markov Cachées</title>
		<author>
			<persName><forename type="first">S</forename><surname>Hergalant</surname></persName>
		</author>
		<author>
			<persName><forename type="first">B</forename><surname>Aigle</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Leblond</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">F</forename><surname>Mari</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2005">2005</date>
			<publisher>EGC</publisher>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<monogr>
		<title level="m" type="main">Data mining using Hidden Markov Models ( HMM2) to detect heterogeneicities into bacterial genome</title>
		<author>
			<persName><forename type="first">S</forename><surname>Hergalant</surname></persName>
		</author>
		<author>
			<persName><forename type="first">C</forename><surname>Eng</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Thibessar</surname></persName>
		</author>
		<author>
			<persName><forename type="first">P</forename><surname>Leblond</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><surname>Mari</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2005">2005</date>
		</imprint>
	</monogr>
	<note>Jobim</note>
</biblStruct>

<biblStruct xml:id="b13">
	<monogr>
		<title level="m">Combinaison de méthodes symboliques-numériques de fouilles de données pour l&apos;étude et l&apos;analyse de la cohorte Stanislas (jobim</title>
				<imprint>
			<date type="published" when="2005">2005</date>
		</imprint>
	</monogr>
	<note>Loria équipe Orpailleur Inserm U525 Equipe 4</note>
</biblStruct>

<biblStruct xml:id="b14">
	<analytic>
		<title level="a" type="main">Le génome des mycobactéries : étude biologique et interprétation évolutive</title>
		<author>
			<persName><forename type="first">D</forename><surname>Labie</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">M/S n°</title>
		<imprint>
			<biblScope unit="volume">3</biblScope>
			<date type="published" when="2003">2003</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<monogr>
		<author>
			<persName><forename type="first">F</forename><surname>Mhamdi</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><surname>Elloumi</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Rakotomalala</surname></persName>
		</author>
		<title level="m">Extraction et sélection des n-grammes pour le classement des protéines</title>
				<imprint>
			<publisher>EGC</publisher>
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b16">
	<monogr>
		<author>
			<persName><forename type="first">S</forename><surname>Maumus</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Napoli</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><surname>Szathmary</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Visvikis-Siest</surname></persName>
		</author>
		<title level="m">Fouille de données biomédicales complexes : Extraction de règles et de profils génétiques dans le cadre de l&apos;étude du syndrome métabolique</title>
				<imprint>
			<publisher>Jobim</publisher>
			<date type="published" when="2005">2005</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b17">
	<analytic>
		<title level="a" type="main">Genomics of Mycobacterium Tuberculosis: Old threats newtrends</title>
		<author>
			<persName><forename type="first">A</forename><surname>Niyaz</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><forename type="middle">E</forename><surname>Hasnain</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Indian Journal Med Res</title>
		<imprint>
			<biblScope unit="volume">120</biblScope>
			<biblScope unit="page" from="207" to="212" />
			<date type="published" when="2004">2004</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b18">
	<monogr>
		<ptr target="http://www.who.int/fr/" />
		<title level="m">Organisation Mondiale de la santé</title>
				<imprint/>
	</monogr>
</biblStruct>

<biblStruct xml:id="b19">
	<analytic>
		<title level="a" type="main">Improved Molecular Epidemiological nalysis of Mycobacterium Tuberculosis Strains Using Multi-Locus Variable Number of Tandem Repeats typing</title>
		<author>
			<persName><forename type="first">E</forename><surname>Yokoyama</surname></persName>
		</author>
		<author>
			<persName><forename type="first">K</forename><surname>Kishida</surname></persName>
		</author>
		<author>
			<persName><forename type="first">S</forename><surname>Ishinohe</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Jpn. J. Infect</title>
		<imprint>
			<biblScope unit="volume">60</biblScope>
			<date type="published" when="2007">2007</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b20">
	<monogr>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">J</forename><surname>Zaki</surname></persName>
		</author>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">T L</forename><surname>Wang</surname></persName>
		</author>
		<author>
			<persName><forename type="first">H</forename><forename type="middle">T T</forename><surname>Toivonen</surname></persName>
		</author>
		<title level="m">Recent Advances in Data Mining for Bioinformatics</title>
				<imprint>
			<publisher>BIOKDD</publisher>
			<date type="published" when="2002">2002</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b21">
	<monogr>
		<author>
			<persName><forename type="first">J</forename><forename type="middle">D</forename><surname>Zucker</surname></persName>
		</author>
		<title level="m">Introduction à la fouille de données en bioinformatique (cours master EID-P13</title>
				<imprint>
			<publisher>IRD UR GEODES</publisher>
			<date type="published" when="2008">2008</date>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
