<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <abstract>
        <p>Construction d'un système d'aide à la décision médicale pour la détection des arythmies cardiaques à l'aide d'arbres de décision flous Omar Behadada doctorant chercheur Laboratoire de génie biomédical Département d'électronique Biomédicale E-mail : O_behadada@mail.univ-tlemcen.dz M.A Chikh maître de conférences Département d'informatique E-mail : mea_chikh@mail.univ-tlemcen.dz Laboratoire de génie biomédical, Département d'électronique Biomédicale Faculté des Sciences de L'ingénieur ; Ammar Mohammed magister, Laboratoire de génie biomédical Département d'électronique Biomédicale E-mail : amm1222k@yahoo.fr Université ABOUBEKR BELKAÏD Tel: 213 43 28 56 89, Fax: 213 43 28 56 86 Résumé. L'extraction de connaissances est un processus interactif et itératif d'analyse d'un grand ensemble de données brutes afin d'en extraire des connaissances exploitables, et où l'utilisateur-analyste (cardiologue) joue un rôle central. Dans la perspective de conception de systèmes d'extraction de connaissances et de classification à partir d'une base de données cardiologiques, nous présentons une méthode basée sur les arbres de décision flous. La première partie présente la problématique du choix des caractéristiques d'un battement cardiaque. Ensuite nous appliquons l'arbre de décision flou pour la classification de quelques anomalies cardiaques. Dans la troisième partie nous montrons l'intérêt des règles de décision extraites dans l'interprétabilité des résultats de la classification.</p>
      </abstract>
      <kwd-group>
        <kwd>Mots clés</kwd>
        <kwd>Extraction de connaissances</kwd>
        <kwd>arbre de décision flou</kwd>
        <kwd>base de données cardiologiques</kwd>
        <kwd>sélection des attributs</kwd>
        <kwd>règles de décision</kwd>
      </kwd-group>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>1 Introduction</p>
      <p>De nos jours, les nouvelles technologies de l’information produisent de nouvelles
approches méthodologiques tentant d’en extraire non seulement une information
valide et fiable, mais plus généralement des connaissances permettant d’étayer la
décision. Deux grands types d’approches peuvent être distingués aux analyses des
données : l’une est décisionnelle et s’attache le plus souvent à la modélisation, l’autre
est exploratoire et a pour objectif de synthétiser un ensemble d’informations plus ou
moins hétérogènes (l’approche est alors essentiellement descriptive).</p>
      <p>Les nouveaux outils d’extraction des connaissances à partir des données (ECD)
s’inscrivent clairement dans le versant exploratoire des études statistiques mais
s’enracinent également dans ce second type de logique. Certaines de ces méthodes
sont récentes, le concept d’ECD apparaît pour la première fois en 1989.</p>
      <p>Dans ce présent article nous avons appliqué la méthode de l’arbre de décision flou
pour extraire des règles de décision afin de construire un système de classification de
quelques anomalies cardiaques.</p>
      <p>Un arbre de décision est un outil d'aide à la décision et à l'exploration de données.
Il permet de modéliser simplement, graphiquement et rapidement un phénomène
mesuré plus ou moins complexe. Sa lisibilité, sa rapidité d'exécution et le peu
d'hypothèses nécessaires à priori par contre La logique floue a été proposée par
Zadeh [Zadeh, 1965] pour modéliser l’information et pour se rendre compte du
caractère vague des connaissances que nous, les humains, manipulons au quotidien, le
couplage de la logique floue avec les arbres de décision rend les règles extraites plus
linguistiques et plus explicites.</p>
    </sec>
    <sec id="sec-2">
      <title>2. Prétraitement de la base de données :</title>
      <p>Nous avons collecté les données cardiaques des différents battements pour les
différents enregistrements à partir de la base de données MIT-BIH avec les anomalies
cardiaques ciblés (tableau 1).</p>
      <sec id="sec-2-1">
        <title>2.1. Caractérisation du battement cardiaque</title>
        <p>Un battement cardiaque est caractérisé par une succession d’onde de nature
électrique (électrocardiogramme ECG), il présente un grand intérêt diagnostic.</p>
        <p>
          Caractérisation du battement cardiaque par des descripteurs pertinents est
indispensable lors de la conception et l’implémentation de tout modèle de
reconnaissance d’une anomalie cardiaque. Il convient de remarquer que de
nombreuses approches citées dans la littérature ont porté sur la difficulté que
représentent la mesure et le choix des paramètres pertinents du signal ECG et leur
classification. On peut citer les travaux menés par plusieurs chercheurs, pour la
réduction du complexe QRS pour chaque battement cardiaque. Acharya et al.
[Acharya 2004][
          <xref ref-type="bibr" rid="ref9">9</xref>
          ] ont utilisé l'entropie spectrale, les déviations standards et la mesure
de l'exposant de Lyapunov de la variation rythmique, pour la classification neuronale
des arythmies cardiaques. Zhou [Zhou 2003][
          <xref ref-type="bibr" rid="ref10">10</xref>
          ] a appliqué la méthode de l'ACP
pour réduire la taille du complexe QRS. Le vecteur réduit est présenté ensuite à
l'entrée d'un réseau neuronal, pour la détection du battement ventriculaire prématuré.
Lagerholm et Person [Lagerholm 2000][
          <xref ref-type="bibr" rid="ref2">2</xref>
          ] ont Caractérisé chaque cycle cardiaque par
son intervalle RR et les coefficients résultant de la décomposition du complexe QRS
en fonctions d'Hermite de base.
        </p>
        <p>Dans notre travail nous avons conçu notre propre interface de mesures qui permet
de localisé les différents ondes.</p>
      </sec>
      <sec id="sec-2-2">
        <title>2.2. Sélection des attributs :</title>
        <p>La sélection de nos attributs est liée avec la connaissance médicale cardiologique
(tableau 2).</p>
      </sec>
      <sec id="sec-2-3">
        <title>Paramètres</title>
        <p>Durée P
Intervalle PR
Complexe QRS</p>
      </sec>
      <sec id="sec-2-4">
        <title>2.3. Exploration de la base de données :</title>
        <p>Une exploration de la base de données permet de voir clairement la corrélation
entre les attributs et la classe ciblé.</p>
      </sec>
      <sec id="sec-2-5">
        <title>2.3.1. Représentation bidimensionnelle :</title>
        <p>Nous avons testé séparément les attributs en fonction de leurs classes sachant
qu’ils sont codés (0,1,2 et 3).</p>
        <p>0 :c’est le cas normal (N).
1 :c’est le cas extrasystole ventriculaire (V).
2 : c’est les cas bloc de branche droit (R).</p>
        <p>3 : c’est les cas bloc de branche gauche (L).</p>
        <p>Nous voyons clairement que la durée de P dans la (figure 3 (a)) a parfaitement la
même plage de variation pour les 3 classes (N, R, et L) et une variation presque nulle
pour la classe V ce qui est très logique du point de vue physiologique (dans le cas
d’une extrasystole ventriculaire (V), l’onde P est absente).Par contre le segment PR
varie d’une manière très similaire pour les quatre clases (figure 3 (b)), donc son effet
est négligeable pour l’entrée du classifieur. Le complexe QRS varie différemment
dans le cas normal(N) et dans les cas pathologiques (V, R, et L) (figure 4 (a)). Les
autres paramètres varient différemment d’une classe à une autre, Ce qui peut être très
utile dans le renforcement des paramètres du classifieur. Nous déduisons qu’un seul
paramètre seul ne peut pas être discriminant pour les différentes classes.</p>
      </sec>
      <sec id="sec-2-6">
        <title>2.3.2. Représentation tridimensionnelle</title>
        <p>Dans cette partie, nous avons testé l’effet de deux paramètres ensemble à la fois sur
les 4 classes ciblées. La couleur rouge (+) représente le cas normal .La couleur verte
(+) représente le cas extrasystole ventriculaire. La couleur bleue (+) représente le cas
bloc de branche droit. La couleur violette (+) représente le cas bloc de branche
gauche.
Figure 5-b : Représentation 3D de la
largeur du QRS et le RRs/RRp en fonction
des classes</p>
      </sec>
      <sec id="sec-2-7">
        <title>Commentaire :</title>
        <p>Nous avons déjà remarqué, la limite d’un seul paramètre à discriminer entre les
différentes classes dans la 1ère expérimentation, ce qui nous a poussé à voir l’intérêt
d’augmenter le nombre des attributs. Et nous remarquons clairement dans la (figure
5(a)) que seul le nuage de points pour le cas durée P nulle (couleur verte) se distingue
des autres, ce qui correspond à la classe extrasystole ventriculaire, par contre pour le
dernier couple (largeur QRS, RRs/RRp) (figure 5(b)) nous distinguons une bonne
discrimination entre les pathologies, les nuages de points des différentes classes sont
nettement séparés. Nous pouvons tirer de ces expérimentations menées sur les
différents paramètres du vecteur d’entrée d’un classifieur des arythmies cardiaques les
points suivants :
1- Les performances de tout modèle de classification, indépendamment de la
technique utilisée, dépend énormément du vecteur d’entrée.
2- Une représentation géométrique des paramètres d’entrée peuvent être intéressante
sur le plan visuel et sur le choix final de ces paramètres. Mais néanmoins une
visualisation de plus de deux paramètres devient difficile à représenter.
3- Des paramètres comme : RRs, RRs/RRp, Durée P et largQRS sont très pertinents
pour la reconnaissance des pathologies comme V, R et L. Une bonne mesure des
différents paramètres reste décisive pour la suite de la classification.</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>3. Rappel sur l’induction d’un arbre de décision flou(ADDF)</title>
      <p>Considérons le problème général suivant. Soit f(x1,…,x n) y=f(x1,…,x n) une
relation d’entrée/sortie inconnue, les entrées x1 à x n étant des variables explicatives
potentielles et y la sortie. Parmi les entrées, certaines sont importantes, d’autres
redondantes, d’autres enfin inutiles. L’induction d’un ADDF consiste à :
Hiérarchiser les variables d’entrée en fonction de leur importance.</p>
      <p>Évaluer l’utilité de prendre en compte ou non certaines entrées, soit en ligne, soit
hors ligne par élagage.</p>
      <p>Il faut, pour cela, un ensemble d’apprentissage,
E = { (xi, yi) ;x i = (x i1,…,x iM),yi ∈ R , pour i = 1 à P } , où les xij , pour j = 1 à
M,</p>
      <p>Sont des variables linguistiques possédant m j fonctions d’appartenance,
(Ajk)mkj=1.</p>
      <p>Les fonctions d’appartenance forment des partitions floues triangulaires sur les
domaines d’entrée. Sans perte de généralité, la T-norme utilisée est le produit :
ET(x, y) = x * y. ces choix apportent la propriété suivante :</p>
      <sec id="sec-3-1">
        <title>Et l’équation (1) devient :</title>
        <p>∑α F (x) ≡ 1</p>
        <p>F
ADDF(x) =</p>
        <p>La construction automatique d’un arbre nécessite des mesures comme l’entropie et
le gain d’information.</p>
        <p>Dans un problème de classification, dans le cas idéal, les vecteurs d’apprentissage
associés à un noeud terminal (une feuille) appartiennent à la même classe.</p>
        <p>On dit alors que la feuille est “pure“. Ce n’est évidemment pas toujours possible et
l’objectif de l’induction vise à créer des feuilles avec un degré de mélange minimum.</p>
        <p>Le partitionnement est réalisé à chaque noeud par des tests portant sur une
variable : il faut donc choisir le meilleur test, l’entropie permet de faire le bon choix
de la classe.</p>
        <p>- la notion de représentation de la classe k au noeud N pour une modalité Aj de la
variable traitée, joue un rôle central. Elle est définie par :</p>
        <p>P
r (k, j, N)= ∑ μ k ( xi ) ٨ μ Aj ( xij ) ٨α N ( xi ) (3)</p>
        <p>i=1
On en déduit les paramètres Pk et wj utilisés pour le calcul du gain:
Pk=
wj=
∑ r(k , j, N )</p>
        <p>j
k</p>
        <p>j
∑ ∑ r(k , j, N )
∑ r (k , j, N )
k
∑ ∑ r (k , j, N )
k
j</p>
        <p>∑ r(k , j, N )
= j</p>
        <p>P
∑α N ( X i )
i=1
∑ r (k , j, N )
= k</p>
      </sec>
    </sec>
    <sec id="sec-4">
      <title>4. Construction du système d’inférence flou (SIF)</title>
      <p>Figure 5-a : Histogramme de
la durée avec la partions floue</p>
      <p>Figure 5-b : Histogramme de segment St
avec la partions floue</p>
      <p>Les figures 5 et 6 montrent clairement la relation entre la distribution des données,
différents attributs et le choix de ses modalités floues.</p>
      <p>Nous remarquons que le choix de trois modalités floues pour attributs segment PR
est très bien et uniformément réparti par contre le choix de 3 modalités floues pour
l’attribut durée P avec des modalités initialisées manuellement n’est pas représentatif.</p>
    </sec>
    <sec id="sec-5">
      <title>5. Conception du modèle de classification :</title>
      <p>
        En vue de bien voir l’effet de nos choix déjà faits et afin de pouvoir extraire une
connaissance depuis notre base de données notre approche d’extraction de
connaissances c’est utiliser l’apprentissage supervisé par arbre de décision flou en
construisant un système capable de reconnaître des arythmies cardiaques avec une
base de connaissances comme référence. Cet objectif nous ramène à évaluer la qualité
des classifieurs conçus et exploiter la connaissance induite après apprentissage de
l’arbre (classifieur) qui donne les meilleur résultats.la boite à outils FisPro[
        <xref ref-type="bibr" rid="ref10">10</xref>
        ]
logiciel dédié au système d’inférence flou.
      </p>
      <sec id="sec-5-1">
        <title>5.1. Critères de performances :</title>
        <sec id="sec-5-1-1">
          <title>Paramètres</title>
        </sec>
        <sec id="sec-5-1-2">
          <title>True positive</title>
        </sec>
        <sec id="sec-5-1-3">
          <title>True negative</title>
          <p>False positive
False negative
Sensitivity (se)
Specificity (SP)
Rate FP
CC
Addf1
203
58
470</p>
          <p>3
98,543
10,984
89,015
30,163
Addf2
206
341
84
0
100
80,023
19,764
71,103
Addf3
206
307
100</p>
          <p>0
100
75,429
24,570
67,320</p>
        </sec>
      </sec>
      <sec id="sec-5-2">
        <title>5.2. Résultats obtenus :</title>
        <p>Nous constatons que le meilleur taux de reconnaissance est obtenu par le
classifieur ADDF2 ce qui nous confirme le bon choix des modalités floues et la
sélection des attributs.</p>
        <p>Une sensibilité de 100% et avec un faut négatif de 0 nous montre la reconnaissance
de l’anomalie ESV a 100%.</p>
        <p>Par contre le classifieur ADDF1 avec un taux de reconnaissance de 30,16% à cause de
la mauvaise initialisation des points modaux.</p>
      </sec>
      <sec id="sec-5-3">
        <title>5.3. Analyse des règles de classification à partir d’un arbre de décision flou:</title>
        <p>
          L’avantage principal d’un arbre de décision flou c’est l’interprétabilité des résultats
et aussi leur capacité à extraire la connaissance d’une base exemples ce qui
constitue un intérêt majeur dans un système d’aide au diagnostic [
          <xref ref-type="bibr" rid="ref12">12</xref>
          ].
        </p>
        <p>Cette connaissance se traduit par un ensemble de règles sous forme de :
« Si A et SEF1 et B est SEF2 et…alors c’est C1 »</p>
      </sec>
      <sec id="sec-5-4">
        <title>Discussion :</title>
        <p>A fin de mieux évaluer la qualité de notre connaissance induite par l’arbre de
décision flou nous allons analyser les règles du deuxième arbre qui a donné des
meilleurs résultats par rapport aux autres avec une bonne classification et des règles
très significatives et très crédibles et conformes avec l’expertise humaine.</p>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>6. Conclusion :</title>
      <p>Dans cet article nous avons présenté une méthode d’extraction de règles de
décision depuis des données numériques et nous avons réussi a tiré une connaissance
conforme avec l’expert du domaine d’application (cardiologue).</p>
      <p>Les arbres de décision flous présentement un avantage majeur dans la
classification à cause de leurs simplicité, et leur rapidité d’exécution ainsi de leur
facilité d’interprétation. L’induction des règles de décision à partir de l’arbre induit
représente l’un de ses avantages principaux. Notons que dans le domaine médical,
tout expert exige de toute méthode automatique d’aide au diagnostic de justifier ses
décisions, une caractéristique absente dans plusieurs techniques citées dans la
littérature en particulier les réseaux de neurones. La méthode que nous présentons
dans cet article offre aux médecins une base de connaissance explicite (sous forme
de règles) acquise d’une base de données médicale. L’expert aura la possibilité
d’accepter les règles, de les modifier, de les supprimer ou d’ajouter d’autres.</p>
      <p>La qualité du signal ECG représente une contrainte majeure pour la
reconnaissance des différentes pathologies. Ainsi que le mode d’acquisition a un rôle
majeur pour différencier entre l’extrasystole ventriculaire et les blocs de conduction.
Nos données extraites de la base MIT-BIH est composée essentiellement de
battements de la dérivation DII ce qui constitue un handicap majeur lors de la
classification.</p>
      <p>Nous avons réussi à implémenter un classifieur basé sur l’arbre de décision flou.
Les résultats obtenus sont très encourageants, vu le manque d’informations dans la
base de données utilisée (présence d’une seule dérivation). Le meilleur classifieur
dans les expérimentations menées a un taux de classification de 71%, une
performance qui peut être améliorée, si on augmente le nombre de dérivations. Nous
avons mené plusieurs changements sur quelques paramètres (choix des nombres des
modalités floues et l’emplacement des points modaux) afin de choisir la meilleure
structure.</p>
      <p>7. References</p>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          [1] World Health Organization
          <year>2005</year>
          ,
          <article-title>Library Cataloguing-in-Publication Data</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [2]
          <string-name>
            <surname>Lagerholm</surname>
            ,
            <given-names>M.</given-names>
          </string-name>
          , and al.,
          <article-title>“Clustering ECG complexes using hermite functions and selforganizing maps”</article-title>
          ,
          <source>IEEE Trans. Biomed. Eng</source>
          . pp.
          <fpage>838</fpage>
          -
          <lpage>848</lpage>
          ,
          <year>2000</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [3]
          <string-name>
            <surname>Silipo1</surname>
            <given-names>R.</given-names>
          </string-name>
          , “
          <article-title>Investigating electrocardiographic features in fuzzy models for cardiac arrhythmia classification”, 4th workshop on intelligent data anlysis in medecine and pharmacology</article-title>
          (IDAMAP), Washington, Nov
          <year>1999</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [4]
          <string-name>
            <surname>Belgacem</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          ,
          <article-title>“détection et classification des arythmies cardiaques par application des réseaux des neurones”</article-title>
          .
          <source>juin</source>
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [5]
          <string-name>
            <surname>Hedeili</surname>
            ,
            <given-names>N.</given-names>
          </string-name>
          , “
          <article-title>Classification des arythmies cardiaques par l'analyse composante principale</article-title>
          et les réseaux de neurones”.
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [6]
          <string-name>
            <surname>Zadeh</surname>
            <given-names>L.A</given-names>
          </string-name>
          ,
          <article-title>"fuzzy sets"</article-title>
          ,
          <source>Information and Control</source>
          ,
          <volume>8</volume>
          :
          <fpage>338</fpage>
          -
          <lpage>353</lpage>
          ,
          <year>1965</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          <article-title>[7] Une interface développée sous matlab, "Laboratoire de Génie biomédical"</article-title>
          , l'Université de Tlemcen.
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [8]
          <string-name>
            <surname>Acharya</surname>
            <given-names>R.U.</given-names>
          </string-name>
          , and al.,
          <article-title>“Classification of cardiac abnormalities using heart rate signals”, Med</article-title>
          . Bio. Eng. Comp, Vol.
          <volume>42</volume>
          p.
          <fpage>288</fpage>
          -
          <lpage>293</lpage>
          ,
          <year>2004</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [9]
          <string-name>
            <surname>Zhou</surname>
            <given-names>J.</given-names>
          </string-name>
          , “
          <article-title>Automatic Determining of Premature Ventricular Contraction Using Quantum Neural Networks”</article-title>
          ,
          <source>Proc. of the 3rd IEEE Symposium on BioInformatics and bioEngineering BIBE'03</source>
          , pp.
          <fpage>169</fpage>
          -
          <lpage>173</lpage>
          ,
          <fpage>10</fpage>
          -
          <lpage>12</lpage>
          March
          <year>2003</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [10]
          <string-name>
            <surname>Serge</surname>
            <given-names>Guillaume</given-names>
          </string-name>
          , Brigitte Charnomordic and
          <string-name>
            <surname>Jean-Luc Lablée</surname>
          </string-name>
          .
          <article-title>"FisPro: open source software for systems fuzzy inference" INRA-Cemagref http</article-title>
          ://www.inra.fr/bia/M/fispro,
          <year>2002</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [11]
          <string-name>
            <surname>Behadada</surname>
            <given-names>O.</given-names>
          </string-name>
          , «
          <article-title>Application des arbres de décision flous dans la reconnaissance des arythmies cardiaques » 06 décembre 2007</article-title>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [12]
          <string-name>
            <surname>Serge</surname>
            <given-names>GUILLAUME</given-names>
          </string-name>
          ,
          <article-title>"Représentation des connaissances et systèmes d'inférence floue". THÈSE Doctorat en Génie informatique, Automatique, Traitement du signal</article-title>
          . Université Paul Sabatier, Toulouse III.
          <source>Soutenu le 21</source>
          novembre
          <year>2005</year>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>