=Paper=
{{Paper
|id=Vol-2133/cnia-demo1
|storemode=property
|title=None
|pdfUrl=https://ceur-ws.org/Vol-2133/cnia-demo1.pdf
|volume=Vol-2133
}}
==None==
<pdf width="1500px">https://ceur-ws.org/Vol-2133/cnia-demo1.pdf</pdf>
<pre>
                Démonstration du diagnostic automatique de l’état dépressif

                             S. Cholet                    H. Paugam-Moisy
             Laboratoire de Mathématiques Informatique et Applications (LAMIA - EA 4540)
                        Université des Antilles, Campus de Fouillole - Guadeloupe
                                     Stephane.Cholet@univ-antilles.fr


Résumé                                                           d’optimiser le traitement du flux, les images sont capturées
                                                                 par un thread dédié et bufferisées dans une file d’attente. De
Les troubles psychosociaux sont un problème de santé pu-
                                                                 plus, la taille des images est réduite à 300x300 pixels avant
blique majeur, pouvant avoir des conséquences graves sur
                                                                 leur traitement. La bufferisation des images assure la conti-
le court ou le long terme, tant sur le plan professionnel que
                                                                 nuité de la capture pendant leur traitement. La fréquence de
personnel ou familial. Le diagnostic de ces troubles doit
                                                                 capture est de 25 images par secondes.
être établi par un professionnel. Toutefois, l’IA (l’Intelli-
gence Artificielle) peut apporter une contribution en four-      2.2    Prétraitement des images
nissant au praticien une aide au diagnostic, et au patient
                                                                 Dans la mesure où l’état dépressif s’évalue sur la durée, on
un suivi permanent rapide et peu coûteux. Nous propo-
                                                                 ne traite que n images par seconde (malgré une fréquence
sons un outil d’aide au diagnostic automatique de l’état
                                                                 de capture fixe). Ce paramètre est notamment utilisé pour
dépressif à partir d’observations du visage en temps réel,
                                                                 optimiser la fluidité du traitement global. Chaque image
au moyen d’une simple webcam. A partir de vidéos du chal-
                                                                 fait l’objet d’une recherche de visage et d’estimation de la
lenge AVEC’2014, nous avons entraîné un classifieur neu-
                                                                 position des points d’intérêts via la méthode de Kazemi et
ronal à extraire des prototypes de visages selon différentes
                                                                 Sullivan implémentée dans dLib.
valeurs du score de dépression de Beck (BDI-II).
                                                                 L’alignement des visages consiste en une série de transfor-
                                                                 mations géométriques ayant les objectifs suivants :
1     Introduction
                                                                      — que les visages aient la même taille ;
La démonstration est associée à l’article "Diagnostic                 — que les visages soient centrés dans l’image ;
automatique de l’état dépressif" présenté à la conférence             — que les yeux soient alignés horizontalement.
CNIA’2018. Des visages dont les points d’intérêt sont            Cette phase, capitale, assure aux données l’homogénéité
extraits à partir de vidéos sont associés à un score mesu-       nécessaire pour la classification. Afin de réduire la durée
rant l’état dépressif du sujet. Le système permettant cette      de l’alignement, ce dernier est réalisé directement sur les
association est un classifieur neuronal incrémental dont         points extraits et non sur les images
l’apprentissage a été réalisé sur les données du challenge       La sortie du prétraitement est, pour chaque image, un vec-
AVEC’2014 [1]. Le présent article décrit comment ce              teur de 136 composantes comprenant les abscisses et or-
classifieur peut être mis en œuvre pour estimer, en temps        données des 68 points d’intérêt extraits.
réel, l’état dépressif d’un sujet filmé par une webcam.
                                                                 2.3    Classification
Le système d’estimation de l’état dépressif est composé de       Les données sont classifiées au moyen d’un classifieur neu-
quatre phases qui s’enchaînent comme décrit Figure 1 : la        ronal incrémental à base de prototypes. C’est un réseau de
capture de la vidéo est suivie de l’extraction des descrip-      neurones à trois couches, la première recevant les entrées,
teurs, du traitement par le classifieur et de la présentation    la seconde étant constituée de "neurones-distance", i.e. des
du diagnostic. On se focalise ici sur la description et le       prototypes, qui sont totalement connectés aux neurones
fonctionnement des procédés mis en œuvre pour la clas-           d’entrée. A chaque présentation d’un exemple, ce dernier
sification. L’attention du lecteur est attirée sur le fait que   est comparé à tous les prototypes en mémoire. Dans la
cette chaîne de traitement est encore à l’état de prototype,     troisième couche, plusieurs prototypes sont associés à un
en phase active de développement et en attente de valida-        neurone de sortie, chacun représentant un score dépressif
tion, en particulier par des experts psychiatres.                BDI-II.

2     Chaîne des traitements                                     La démonstration dont est l’objet ce papier n’utilise qu’en
                                                                 phase de généralisation un classifieur déjà entraîné, donc il
2.1    Capture vidéo
                                                                 n’y a pas création de nouveaux prototypes. Les règles de
La capture vidéo est réalisée au moyen d’une webcam              fonctionnement du classifieur permettent de sortir, ou non,
connectée à l’ordinateur utilisé pour la classification. Afin    une classe de score dépressif. La possibilité d’obtenir une
                          F IGURE 1 – Schéma d’ensemble du système d’estimation de l’état dépressif


                                                                   caméra. La Figure 2 présente un aperçu de la sortie du sys-
      TABLE 1 – Interprétation du score au test BDI-II
                                                                   tème.
        Score obtenu Sévérité de la dépression
            0-13                Minimale
           14-19                 Moyenne
           20-28                 Modérée
           29-63                  Sévère


"non-réponse" est une spécificité précieuse de ce classifieur
qui le rend plus proche d’un diagnostic humain. Lors de
la classification en temps réel, les non-réponses peuvent
permettre de moduler la décision. Ainsi, le nombre de non-
réponses rendues peut permettre le calcul d’une mesure de
fiabilité de l’interprétation du score dépressif.
                                                                   F IGURE 2 – Exemple capturé depuis la sortie du système
2.4    Diagnostic                                                  de classification
La sortie du système est l’interprétation du score (voir
Table 1) le plus représenté lors de la classification des
images sur les p scores les plus récents. Le paramètre p est
                                                                   4    Conclusion
à ajuster en accord avec la durée de l’interaction. Les résul-     Le système proposé permet de classifier en temps réel l’état
tats en généralisation sur le corpus AVEC’2014 atteignent          dépressif d’un sujet humain au moyen d’un classifieur neu-
un taux de succès de 94% pour la classification de l’inter-        ronal incrémental. Une chaine de traitement rapide du flux
valle dépressif, contre 90% pour la classification du score        vidéo est mise en œuvre afin de produire une interprétation
BDI-II, d’où le choix de cette sortie qui se veut plus précise     de l’état dépressif, au regard du test BDI-II. Les résultats
et interprétable en l’état.                                        obtenus sont encourageant pour la poursuite du dévelop-
                                                                   pement de l’outil. Toutefois, il est important de considérer
3     Scénario                                                     avec précaution le résultat. D’une part, le système n’a pas
                                                                   encore pu bénéficier de l’expertise d’un professionnel de la
On présente ici un cas d’utilisation simple du système de          psychiatrie. D’autre part, dans sa définition, le score BDI-II
classification de l’état dépressif, où l’utilisateur lit un pas-   est évalué sur des sujets exprimant des symptômes dépres-
sage affiché à l’écran pendant qu’il est filmé par une web-        sifs depuis au moins deux semaines, d’où l’importance de
cam.                                                               fixer un cadre d’utilisation du système en amont.
Le nombre d’images traitées par seconde est fixé à n = 10,
et la durée de l’enregistrement à 20 secondes. On fixe à p =       Références
20 le nombre de scores pris en comptes dans l’affichage du
                                                                   [1] M. Valstar, B. Schuller, K. Smith, T. Almaev, F. Eyben,
résultat.
                                                                       J. Krajewski, R. Cowie, and M. Pantic, “Avec 2014 :
Quelques secondes après le démarrage de la procédure,
                                                                       3d dimensional affect and depression recognition chal-
l’interprétation de l’état dépressif est affichée. On présente
                                                                       lenge,” Proc. 4th Int. Work. Audio/Visual Emot. Chall.
également un indicateur de détection du visage, faisant sa-
                                                                       - AVEC ’14, pp. 3–10, 2014.
voir à l’utilisateur s’il doit modifier sa posture face à la

</pre>