Diagnostic automatique de l’état dépressif S. Cholet H. Paugam-Moisy Laboratoire de Mathématiques Informatique et Applications (LAMIA - EA 4540) Université des Antilles, Campus de Fouillole - Guadeloupe Stephane.Cholet@univ-antilles.fr Résumé soi, un sommeil ou un appétit perturbé, une certaine fa- tigue et des problèmes de concentration [1]. La maladie se Les troubles psychosociaux sont un problème de santé pu- décline en plusieurs termes, souvent liés au contexte (par blique majeur, pouvant avoir des conséquences graves sur exemple, la dépression post-partum, après la grossesse ; le court ou le long terme, tant sur le plan professionnel que ou la dépression saisonnière, liée au manque de lumière personnel ou familial. Le diagnostic de ces troubles doit l’hiver) et à la durée des symptômes, qui doivent persis- être établi par un professionnel. Toutefois, l’IA (l’Intelli- ter au moins deux semaines pour caractériser une dépres- gence Artificielle) peut apporter une contribution en four- sion [2]. Elle peut durer de quelques semaines à plusieurs nissant au praticien une aide au diagnostic, et au patient mois voire années. Les conséquences sur l’individu atteint un suivi permanent rapide et peu coûteux. Nous proposons peuvent être multiples et de gravité variable. Parmi celles- une approche vers une méthode de diagnostic automatique ci, on peut citer l’isolement, l’absentéisme au travail, voire de l’état dépressif à partir d’observations du visage en même les mutilations ou le suicide. L’importance de venir temps réel, au moyen d’une simple webcam. A partir de en aide aux personnes touchées est plébiscitée, et ce à diffé- vidéos du challenge AVEC’2014, nous avons entraîné un rentes échelles. Dans les entreprises, de plus en plus de me- classifieur neuronal à extraire des prototypes de visages sures sont prises afin d’assurer le bien-être des employés et selon différentes valeurs du score de dépression de Beck de réduire ainsi les facteurs de risque liés à la dépression. (BDI-II). A moins de consulter un spécialiste, les malades ne sont Abstract pas toujours en mesure de réaliser qu’ils sont atteints d’un trouble qui, dans une grande majorité des cas, peut se gué- Psychosocial disorders are a major public health problem rir grâce à un suivi psychologique et/ou à la prescription de that can have serious consequences in the short or long médicaments adaptés [3]. term, on a professional, personal or family level. The diag- nosis of these disorders must be made by a professional. 1.2 Travaux antérieurs However, AI (Artificial Intelligence) can make a contribu- Ces dernières années ont vu le nombre de travaux relatifs tion by providing the practitioner with diagnostic assis- à l’analyse automatique du comportement émotionnel hu- tance, and the patient with rapid and inexpensive ongoing main progresser de manière significative [4]. Plusieurs ten- follow-up. We propose an approach towards an automatic tatives pour modéliser les émotions humaines ont été pro- diagnosis of the depressive state based on real-time facial posées, dont certaines sont très largement utilisées : une observations, using a simple webcam. From videos of the modélisation soit continue (le circumplex de Russell [5]), AVEC’2014 challenge, we trained a neural classifier to ex- soit discrète (les émotions de base de Ekman [6] : tristesse, tract prototypes of faces according to different values of joie, colère, peur, dégoût et surprise). L’usage de la vi- Beck’s depression score (BDI-II). déo s’est petit à petit imposé comme source de données de Mots Clefs choix pour l’analyse émotionnelle, bien qu’historiquement, des procédés plus invasifs aient été préférés, comme l’élec- Informatique affective ; visages ; classifieur incrémental ; trocardiogramme ou la conductance cutanée. Deux cadres réseaux de neurones ; apprentissage de prototypes. d’études se distinguent. Le premier concerne la reconnais- sance des émotions et le second, sur lequel nous nous fo- 1 Introduction calisons ici, la prédiction des états dépressifs. Encourageant les travaux dans ce domaine, des challenges 1.1 Contexte internationaux tels que AVEC [7] ou FERA [8] invitent Les troubles psychosociaux, et singulièrement les troubles les chercheurs à confronter leurs méthodes sur une base dépressifs, sont une maladie touchant plus de 300 millions de données commune. Wen et al. [9] ont utilisé des des- de personnes dans le monde. Ces troubles mentaux se ca- cripteurs visuels dynamiques (LPQ-TOP) associés à une ractérisent par une tristesse, une perte d’intérêt ou de plai- régression par vecteurs supports (SVR) pour diagnostiquer sir, des sentiments de culpabilité ou de dévalorisation de l’état dépressif, avec une erreur RMSE de 8.17 sur le cor- pus du challenge AVEC’2014. Zhu et al. [10] obtiennent sur un même jeu de données. une erreur de 9.55, en associant des images de flux op- tique aux images statiques des visages dans des réseaux de neurones profonds. D’autres approches tiennent compte de la modalité auditive, utilisée notamment pour l’apport d’informations de contexte importantes. Ainsi, Williamson et al. [11] ont combiné des descripteurs faciaux (sélec- tion d’unités d’action) et auditifs (durée des phonèmes et analyses des fréquences, notamment) dans des mixtures de modèles gaussiens et obtiennent une erreur de 8.50 sur le corpus AVEC’2014. Gong et al. [12] tirent profit des trois modalités visuelle, auditive et contextuelle (retranscrip- F IGURE 1 – Image extraite d’une vidéo de AVEC’2014. tion d’interviews) au moyen de régresseurs courants (fo- rêts aléatoires, descente de gradient stochastique et SVM, Le jeu de données de l’édition 2014 [7] se présente sous la machine à vecteurs supports) pour une erreur de 4.99 sur forme de 100 vidéos (tâche Freeform) où un individu est en le corpus DAIC-WOZ. Si certains travaux accordent une interaction avec un avatar et répond à une question d’ordre majeure partie de leur effort à la sélection des descripteurs, général (e.g. comment vous sentez-vous ? pouvez-vous ra- d’autres optent pour des méthodes connues pour leur capa- conter un souvenir d’enfance ?) et de 100 autres (tâche cité à extraire l’information directement depuis les images Northwind) où l’individu lit un passage écrit, en langue ou les bandes audios à disposition. Le corpus AVEC’2014 allemande. Ces 200 vidéos sont réparties en deux sous- est étiqueté en termes de scores BDI-II et DAIC-WOZ en ensembles : la partition dite de développement (ensemble termes de scores PHQ-8 (Patient Health Questionnaire, de motifs pour tester la généralisation) et la partition d’ap- ver. 8), qui sont deux méthodes d’évaluation de l’état dé- prentissage (ensemble des exemples pour construire le mo- pressif (voir partie 2). dèle). Les vidéos sont constituées de frames, en nombre variable (les vidéos n’ayant pas toutes la même durée), en- 1.3 Contribution registrées à raison de 30 par seconde, et contiennent des Le développement d’un système qui, suite à la collabora- informations visuelles et auditives. Chaque vidéo est anno- tion d’experts du domaine de la psychiatrie, pourra fournir tée d’un score, celui obtenu au test BDI-II (voir partie 2.2). un diagnostic automatique de l’état dépressif est un axe de Une troisième partition, dite partition de test, ne comprend bataille offert par l’Intelligence Artificielle pour prévenir que des vidéos (100 éléments), sans annotations. Les per- l’apparition de tels troubles. En ce sens, l’effort proposé ici formances prises en compte par les organisateurs du chal- est double. Le premier est un outil orienté vers l’usage in- lenge pour départager les participants sont calculées sur dividuel, permettant à l’utilisateur d’évaluer la sévérité de cette dernière partition. la dépression dont il souffre. De cette manière, il pourra dé- Pour l’étude présentée dans cet article, nous retenons les cider de la suite à donner à l’évaluation en allant consulter données visuelles des 200 vidéos des tâches Freeform et un spécialiste. Le second effort s’oriente vers l’usage du Northwind. Cela représente un jeu de données de 291 155 système par les experts, notamment pour sa capacité à se images semblables à celles de la Figure 1. spécialiser sur un individu et à augmenter sa précision au 2.2 Beck Depression Inventory II fil des entretiens. Ainsi, il disposera d’une aide au diagnos- tic adaptée à chaque patient. Le test d’évaluation de l’état dépressif Beck Depression In- Le système est basé sur un classifieur neuronal, adapté au ventory (BDI) [13] a été créé par Aaron T. Beck., père de traitement de vidéos enregistrées ou capturées en direct. Le la thérapie cognitive, en 1961. Il a subi plusieurs modifica- traitement produit en sortie un score dépressif, en termes tions, visant à l’améliorer. En 1996, sa version II (BDI-II) du test Beck Depression Inventory II (BDI-II). Dans la par- est un test auto-administré, comptant 21 questions. tie 2, l’on présentera les données utilisées avant de décrire Le score obtenu peut prendre une valeur de 0 à 63 ; il donne le classifieur utilisé dans la partie 3. La partie 4 pose les une indication sur la sévérité de la dépression dont souffre conditions expérimentales retenues dans le cadre de cette le patient, tel que précisé dans la Table 1. A l’époque de étude, et la partie 5 présente les résultats obtenus. Enfin, une conclusion et une ouverture sur des perspectives com- TABLE 1 – Interprétation du score au test BDI-II posera la partie 6. Score obtenu Sévérité de la dépression 2 Données 0-13 Minimale 14-19 Moyenne 2.1 Corpus AVEC’2014 20-28 Modérée L’AudioVisual Emotion Challenge (AVEC) [7] est un 29-63 Sévère concours international invitant les chercheurs à confronter leurs méthodes et à comparer les performances obtenues l’apparition du test, il va à contrecourant des pratiques, en se focalisant sur la perception qu’a le patient de son propre de similitude calculée pour chaque visage. La matrice de état, plutôt que sur les enjeux psychologiques motivant son transformation M est donnée par l’équation 1. Ces étapes comportement et ses réactions à un environnement donné sont réalisées au moyen de la librairie OpenCV [20]. [14] (que l’on appelle, dans la littérature, la psychodyna-   mique). Le test se fonde sur des années de collectes de sx cos(θ) sin(θ) tx M= (1) données, de collaborations entre psychiatres, d’entretiens −sin(θ) sy cos(θ) ty docteur-malade et de révisions [15]. Le test BDI-II bénéfi- cie d’une corrélation positive avec l’échelle Hamilton Ra- 3 Modèle à base de prototypes ting Scale (HRS) [13], qui est un test administré par un Le choix du classifieur incrémental pour prédire l’état dé- professionnel en psychiatrie. Il est important de noter que pressif a été motivé à la fois par les inspirations biologiques dans le processus d’évaluation, le test BDI-II ne tient pas sous-jacentes, comme démontré par Grossberg dès la fin compte de l’expression faciale ou verbale du sujet. L’étude des années 80 (voir [21] pour une synthèse ce sujet) et par présentée ici démontre qu’il existe bien une forte corréla- le récent regain d’intérêt pour les modèles à base de proto- tion entre l’expression faciale et l’état dépressif puisque le types : Biehl, Hammer et Villmann [22] affirment en 2016 classifieur construit à partir des visages extraits des vidéos que de tels systèmes sont très intéressants pour l’analyse permet de prédire de manière fiable la sévérité dépressive. de données complexes et de grande dimension. 2.3 Extraction des descripteurs et change- 3.1 Le classifieur incrémental ment de repère Le modèle ART (Adaptive Resonance Theory) de Gross- Afin de classifier les vidéos selon leur score BDI-II, on ex- berg [23] est un système de classification neuronal capable trait, pour chaque image, un ensemble de 68 points faciaux de s’adapter aux entrées dites significatives, tout en restant d’intérêt (voir Figure 2). Cela nécessite, en amont, la dé- stable face aux entrées non-significatives. Ainsi, si l’on pré- tection et le redimensionnement des visages. L’extracteur sente au système un exemple proche d’une représentation de points d’intérêts utilise le modèle de Kazemi et Sulli- qu’il connaît, il la modifiera en conséquence. En revanche, van [16]. Le détecteur de visages (entraîné sur l’ensemble si on lui présente un exemple inconnu, une nouvelle repré- i-BUG 300-W, voir Sagonas et al. [17]) implémente un sentation sera créée pour le prendre en compte. classifieur linéaire sur une pyramide d’images dans des fe- Le classifieur incrémental utilisé ici est inspiré du mo- nêtres temporelles, ainsi que sur des histogrammes de gra- dèle ART et suit le même principe. Il a été proposé par dients orientés. L’outil Dlib [18] a été utilisé pour mettre Azcarraga [24] puis modifié par Puzenat [25], qui l’utili- en œuvre l’extraction. sait pour la reconnaissance de formes manuscrites. Il s’agit d’un réseau de neurones dont la couche d’entrée est, classi- quement, adaptée à la dimension de l’espace des données. La seconde couche est constituée de "neurones-distance", les prototypes, qui sont totalement connectés aux neurones d’entrée. Ainsi, à chaque présentation d’un exemple, celui- ci est comparé à tous les prototypes en mémoire. Dans la troisième couche, chaque neurone est connecté à un seul et unique prototype (voir Figure 3) ; aucun apprentissage n’est effectué par la couche de sortie. 000000000000 111111111111 00 11 000000000000 111111111111 00 11 0000000000000 1111111111111 000000000000 111111111111 000 111 00 11 0000000000000 1111111111111 000000000000 111111111111 111 000 00 11 000 111 0000000000000 1111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 000 111 000000000000 111111111111 00000000000 11111111111 000 111 0000000000000 1111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 000 111 000000000000 111111111111 00000000000 11111111111 000 111 0000000000000 1111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 0000000000000 000000000000 111111111111 00 1100000000000 11111111111 000 111 0000000000000 1111111111111 000000000000 111111111111 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 00 1100000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 00 1100000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 00 1100000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 00 11000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 00 1100000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 00 11 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 00 11 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 00 11 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000000000000 11111111111100 11 000000000000 111111111111 000000000000 111111111111 00 11 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 00 11 000 111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00 1100000000000 11111111111 0000000000000 1111111111111 000 111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00 1100000000000 11111111111 0000000000000 1111111111111 000 111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00 1100000000000 11111111111 0000000000000 1111111111111 000 111 000 111000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 F IGURE 2 – Points faciaux d’intérêt - Modèle MultiPIE. 000 111111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000 111111111111111 000000000000 111111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000 111000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 00 11 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 00 11 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 00 11 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00 11 000000000000 111111111111 00000000000 11111111111 0000000000000 1111111111111 000000000000 111111111111 0000000000000 1111111111111 000 111000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 000 111 00 1100000000000 11111111111 0000000000000 111111111111100 11 L’alignement des visages est également une étape impor- 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 0000000000000 1111111111111 000 111 00000000000 11111111111 0000000000000 111111111111100 11 000 111000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00000000000 11111111111 0000000000000 111111111111100 11 000 111000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00 1100000000000 11111111111 00 11 tante [19], qui permet notamment de limiter le biais intro- 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00 1100000000000 11111111111 000000000000 111111111111 000000000000 111111111111 000000000000 111111111111 00 1100000000000 11111111111 00 1100000000000 11111111111 duit par des facteurs tels que la distance à la webcam ou 00 11 la morphologie faciale du sujet, mais aussi d’homogénéi- 11111111111111111111111 00000000000000000000000 ENTREES PROTOTYPES CLASSES ser les données avant la classification. Afin d’aligner les yeux, de centrer les visages dans l’image et d’homogénéi- F IGURE 3 – Architecture du classifieur incrémental. ser leur taille, les points subissent une translation de vec- → − teur T , ainsi qu’une rotation d’angle θ (facteur d’échelle : Selon le protocole précisé ci-dessous (partie 3.2), de nou- S). Cette transformation isométrique est un cas particulier veaux prototypes sont créés pendant le processus d’appren- tissage. Néanmoins le fait que leur nombre, qui dépend de Seuil d’influence. Le seuil d’influence sinf du modèle la taille de la base d’apprentissage ainsi que du nombre de définit la valeur à laquelle doit être inférieure la distance classes, reste faible par rapport au nombre d’exemples ga- entre un exemple et son meilleur prototype, tel que décrit rantira que le classifieur aura extrait des données une infor- par l’équation 3. Si cette condition n’est pas vérifiée, on mation synthétique. Les prototypes sont représentés dans le crée un nouveau prototype. même espace que celui des données, ce qui rend aisée leur interprétation, ainsi que leur appréhension par des experts d(Pmeilleur , X) ≤ sinf (3) dans le cadre d’un travail transversal [22]. Seuil de confusion. Le seuil de confusion sconf aide à 3.2 Apprentissage lever les ambiguités dans les zones frontières entre classes La phase d’apprentissage consiste en une seule passe de la distinctes et s’utilise comme décrit par l’équation 4. Si cette base d’exemples et elle suit un algorithme par compétition. condition n’est pas vérifiée, on crée un nouveau prototype. Initialement, le premier exemple est recopié comme unique prototype et on l’associe en sortie à la classe de l’exemple. d(Pmeilleur , X) − d(Psecond , X) > sconf (4) Par la suite, pour chaque nouvel exemple présenté X, on cherche le prototype Pmeilleur qui en est le plus proche, Coefficient de rapprochement. Lorsqu’aucun nouveau au sens de la mesure choisie (voir discussion ci-dessous). prototype n’est créé, l’adaptation de Pmeilleur à l’exemple A priori, si la classe de Pmeilleur est celle de l’exemple, le X est contrôlée par le coefficient de rapprochement α. prototype est gagnant et sa connexion avec l’exemple est L’équation 5 décrit la modification des poids du neurone modifiée afin de l’en rapprocher. Sinon, un nouveau proto- prototype. type est créé à l’image de l’exemple et est associé en sortie Pour i tel que Pi = Pmeilleur , à la classe de l’exemple. Une exception à l’adaptation de Pmeilleur relève d’une ∀j, wji ← wji + α(xj − wji ) (5) condition plus subtile : on cherche, parmi les prototypes Plus ce coefficient α est grand, plus la représentation mo- les plus proches de l’exemple, le premier prototype dont la délisée par Pmeilleur se rapproche de l’exemple et plus on classe est différente de celle de Pmeilleur , et on le nomme accroît la création de prototypes. A contrario, pour un co- Psecond . S’il y a risque de confusion, i.e. dans une zone de efficient petit, Pmeilleur sera peu modifié et le nombre de l’espace d’entrée ou des motifs proches doivent être asso- prototypes restera limité. On note que, pour α = 0.5, on ciés à des classes distinctes, alors un nouveau prototype est calcule le barycentre entre les deux entités. créé. Le sens de proximité se réfère ici à une mesure de distance 3.4 Généralisation ou de similarité entre un exemple et un prototype. La me- La généralisation respecte les mêmes contraintes que l’ap- sure est choisie en accord avec le problème à traiter, ce qui prentissage, mais il n’y a plus de création ni de modifica- rend les classifieurs incrémentaux flexibles et adaptables. tion de prototypes. Pour chaque nouveau motif n’ayant pas On peut utiliser une distance de Mahalanobis, qui accorde participé à l’apprentissage du modèle : un poids moins important aux composantes les plus dis- persées, ou une distance de Minkowski (équation 2) qui 1. Présenter un motif X permet un calcul plus rapide. 2. Rechercher Pmeilleur tel que d(Pmeilleur , X) soit !1/p minimale n X p 3. Rechercher Psecond tel que la classe de Psecond dminkp = | xi − yi | (2) i=1 soit différente de celle de Pmeilleur 4. Si Pmeilleur est trop éloigné de X ou s’il y a risque Pour p = 2, on retrouve la distance euclidienne qui de confusion : est particulièrement adaptée aux situations où les descrip- teurs sont des coordonnées, comme c’est le cas pour les   d(Pmeilleur , X) > sinf points faciaux d’intérêt. Après avoir vérifié que des valeurs ou p > 2 ne produisaient pas de résultats significativement d(Pmeilleur , X) − d(Psecond , X) ≤ sconf  meilleurs, nous avons opté pour la distance euclidienne et nous la noterons d. Alors rejeter X (non-réponse) Sinon Si la classe de Pmeilleur est celle de X, 3.3 Hyperparamètres de contrôle Alors X est reconnu (bonne réponse) L’algorithme d’apprentissage du classifieur incrémental Sinon X n’est pas reconnu (mauvaise réponse) propose trois hyperparamètres de contrôle afin de ré- pondre au dilemme stabilité-plasticité (stability-plasticity 3.5 Non-réponses dilemma), c’est-à-dire de tenir compte des nouveaux élé- Le classifieur incrémental est en mesure de produire, ments à apprendre sans oublier ceux déjà mémorisés. en sortie, trois types réponses : une "non-réponse", une "bonne-réponse" ou une "mauvaise réponse". En particu- nées, distinctes des 7/10e ayant servi à entraîner le modèle, lier, une non-réponse est rendue lorsque le meilleur proto- comme le récapitule la Table 2. type Pmeilleur de l’exemple d’entrée est trop éloigné de ce dernier, ou lorsque la distance entre Pmeilleur et Psecond TABLE 2 – Composition des ensembles de données pour la est trop faible au regard de l’exemple. Cette réponse, en stratégie classique plus de se rapprocher du diagnostic que ferait un humain, Freeform Northwind Total peut être considérée comme un indicateur de fiabilité du Apprentissage 113 876 89 933 203 809 score dépressif calculé pour un sujet donné (voir 5.3). Dans Généralisation 48 945 38 401 87 346 le cas où le système produirait un grand nombre de non- Total 162 821 128 334 291 155 réponses, la classification pourrait être jugée peu fiable.Le cas échéant, le système peut être spécialisé sur l’individu, Les meilleurs hyperparamètres pour le modèle ont été dé- via un réapprentissage du modèle, sur décision d’un expert. terminés au moyen d’une recherche en grille (grid search) Cette possibilité d’obtenir une "non-réponse" est une spé- pour tenir compte des interactions entre hyperparamètres. cificité précieuse de ce type de classifieur, le rendant plus Les résultats présentés ci-dessous ont été obtenus avec un proche d’un diagnostic humain. seuil d’influence de 70, un seuil de confusion de 0.1 et un coefficient de rapprochement de 0.1. 4 Conditions expérimentales Le classifieur incrémental est entraîné pour associer à 4.2 Mesures de performances chaque image (cf. 2.1) le score BDI-II de la vidéo dont Afin d’évaluer les performances de notre approche, nous elle a été extraite. Afin de réduire les risques liés au sur- retenons quatre indicateurs, dont deux estiment un taux de apprentissage, et pour disposer d’un plus grand nombre de succès en classification et deux autres mesurent une erreur : classes représentées, nous avons mélangé les partitions de — Le taux de succès, en termes de score BDI-II développement et d’apprentissage dont nous disposions. — Le taux de succès au sens des intervalles de sévé- De plus, les exemples ont été stratifiés afin que chaque rité de dépression (cf. Table 1) classe soit toujours représentée en quantité raisonnable — L’erreur quadratique moyenne (RMSE) dans les ensembles d’apprentissage et de généralisation. — L’erreur absolue moyenne (MAE) A priori, il conviendrait d’apprendre un modèle en régres- Ces deux derniers indicateurs sont bien adaptés aux cas de sion pour lire en sortie la valeur du score. Cependant les la classification multi-classe, particulièrement lorsque les différentes valeurs sont en nombre limité (seulement 41 classes sont hétérogènes en nombre de données. Pour les présentes dans les vidéos étudiées, parmi les 64 valeurs taux de succès, il est important de noter que ces indicateurs possibles en théorie) et chacune sera considérée comme seront calculés en tenant compte des images bien classées, une classe. Il est important de noter que le système ne et non des vidéos dans leur ensemble. sera pas en mesure de discriminer, en généralisation, une classe inexistante dans les données d’apprentissage. De 5 Résultats plus, compte tenu de la Table 1, on pourra a posteriori 5.1 Entraînement et validation croisée regrouper les scores numériques dans des intervalles pour qualifier de manière descriptive la sévérité de la dépression. Les meilleures performances obtenues dans le cadre de la stratégie "classique" sont présentées dans la Table 3 pour 4.1 Stratégies de test les taux de succès et la Table 4 pour les indicateurs d’er- reur. Notons que ces résultats, en particulier les RMSE, ne Nous retenons trois stratégies pour les expériences : sont pas directement comparables avec ceux du challenge Classique : construction d’un modèle sur une base AVEC’2014 cités en 1.2 dans la mesure où nous n’avons d’apprentissage puis estimation de la performance pas accès à la partition de test réservée aux organisateurs en généralisation sur une base disjointe ; du challenge, et où nous n’avons pas choisi le même parti- Validation croisée : une partition S = ∪M m=1 Sm de la tionnement des données pour nos essais. base de données S étant réalisée, apprentissage de M modèles, chacun sur S = ∪k6=m Sk , avec es- timation de sa performance en généralisation sur TABLE 3 – Taux de succès pour la stratégie classique Sm ; Freeform Northwind Flux continu : un modèle ayant été appris, utilisation Bon Bon Bon Bon en temps-réel pour prédire l’état dépressif d’un in- score intervalle score intervalle dividu placé devant une webcam. App. 92.43% 95.25% 92.29% 95.40% La stratégie "classique" a été mise en œuvre en premier, Gén. 89.78% 93.70% 91.01% 94.52% afin d’étudier le comportement du modèle et de valider les choix de prétraitements et d’extraction des descripteurs Cette stratégie oblige à construire le modèle en n’utilisant (présentés en 2.3). Au fil de ces expérimentations, la taille qu’une partie des données (70% ici). En revanche, la straté- de la base de généralisation a été fixée à 3/10e des don- gie "validation croisée" permet, après estimation moyenne 5.3 Flux continu TABLE 4 – Les erreurs pour la stratégie classique Freeform Northwind À l’issue de la validation croisée, le classifieur a été en- RMSE MAE RMSE MAE traîné sur l’ensemble des 291 155 images disponibles. App. 4.07 0.83 3.79 0.8 Les performances à considérer sont celles obtenues en Gén. 4.67 1.11 4.05 0.92 moyenne (voir Table 5). Il peut désormais être utilisé en prédiction pour fournir une estimation automatique de l’état dépressif d’un individu faisant face à une simple web- de la performance en généralisation sur M modèles, de cam [26]. construire un M + 1eme modèle qui apprend sur toutes les données à disposition. La Table 5 donne les performances La fréquence des images est de 30 par seconde lors de la pour une validation croisée avec M = 10, où l’algorithme capture. Cependant, l’expression dépressive s’évaluant sur apprend sur 262 040 exemples et généralise sur les 29 115 la durée, il n’est pas nécessaire de traiter toutes les images restants. En effet, les bases Freeform et Northwind ont été produites. On fixe un nombre d’images n à traiter par se- mélangées puisque la stratégie "classique" a démontré la condes (par exemple, n = 10) ainsi qu’une durée d’enre- similarité de leur comportement. gistrement. Les images sont prétraitées et les descripteurs extraits comme décrit dans la partie 2.3. Chacune est alors comparée aux prototypes par l’algorithme de généralisa- tion (cf. partie 3.4). La sortie du système est une valeur d’état dépressif du TABLE 5 – Performances en validation croisée Bon Bon sujet filmé estimée par le score BDI-II majoritaire sur une RMSE MAE période p donnée en secondes (par exemple : p = 20). score intervalle Moyenne 90.73% 94.51% 4.30 0.97 Notons au passage que cette procédure permet d’effacer au fur et à mesure les données personnelles qui n’auront été enregistrées que temporairement. Comme suggéré On note un gain de performance d’environ 4 % en pas- dans la partie 3.5, les non-réponses pourront être à terme sant du nombre de bien classés par score BDI-II au nombre exploitées comme indicateur de fiabilité du classifieur. de bien classés par intervalle de sévérité dépressive. Cette amélioration confirme l’existence d’une continuité entre états dépressifs de sévérité proche, et témoigne de la ca- 200 pacité du système à la saisir. Le nombre de prototypes est 6, 196 180 de l’ordre de 15% à 18% du nombre d’exemples. 160 Mode sur fenêtre glissante 5.2 Comparaison avec d’autres classifieurs 140 120 100 80 TABLE 6 – Comparaison des performances des classifieurs 60 de la littérature 40 Temps de classification 20 Bon score (en sec., pour un ex.) 0 0 5 10 15 20 25 30 35 40 SVM 73.23 % 0.009 Score BDI-II MLP 66.98 % 0.001 Random Forest 94.87 % 0.118 F IGURE 4 – Distribution des scores proposés par la classi- C. Incrémental 90.25% 0.023 fication en flux continu Les performances du classifieur incrémental sont compa- Il est important de noter que, dans ce dernier contexte, il rées aux performances de classifieurs de la littérature dans ne nous est pas encore possible d’évaluer de réelles per- la Table 6. Les taux de succès ont été obtenus en généralisa- formances. Par exemple, la pertinence des scores BDI-II tion sur 30% des données via la stratégie classique exposée fournis par le système ne pourra être validée que lorsqu’un en 4.1, après un apprentissage sur 70% de la base com- protocole expérimental sera mis en place, en collaboration plète. Les temps de réponse des classifieurs à un nouveau avec un expert humain (voir partie 6). Néanmoins, la motif présenté ont aussi été mesurés. Le CI n’est pas le faisabilité du traitement on-line a été établie par l’un des plus performant en termes de taux de succès, mais présente auteurs de cet article : en filmant son propre visage, il a le meilleur compromis entre qualité et rapidité de la ré- obtenu un score stable de 6 sur une période d’une vingtaine ponse. Ce point est essentiel dans le cadre d’un outil d’aide de secondes, avec un nombre de non-réponses de 20 sur au diagnostic puisque le système doit pouvoir donner une 500 matérialisé par la ligne horizontale sur la Figure 4. estimation en flux continu. 6 Conclusion et discussion ment outcomes and neural mechanisms,” Nat. Rev. Neurosci., no. 10, pp. 788–796, oct. Nous avons proposé un classifieur incrémental à base de prototypes afin de déterminer l’état dépressif d’un individu [4] Z. Zeng, M. Pantic, G. I. Roisman, and T. S. Huang, à partir d’une vidéo. Le prétraitement des images permet “A survey of affect recognition methods : Audio, vi- de réduire fortement le biais introduit par les différences sual, and spontaneous expressions,” IEEE Trans. Pat- d’échelle et les spécificités morphologiques des sujets. La tern Anal. Mach. Intell., vol. 31, no. 1, pp. 39–58, classification rapide autorise, sous couvert de validation 2009. par un expert, le développement d’un module de classi- [5] J. Russell, “A circumplex model of affect,” J. Pers. fication en temps-réel de l’état dépressif, en capturant le Soc. Psychol., vol. 39, no. 6, pp. 1161–1178, 1980. flux vidéo directement via une webcam. [6] P. Ekman, “Differential Communication Of Affect By Head And Body Cues.pdf,” J. Pers. Soc. Psychol., Le système pourra facilement être utilisé par un praticien vol. 2, no. 5, pp. 726–735, 1965. comme outil d’aide au diagnostic et de suivi de patient, ce dernier pouvant lui-même effectuer des évaluations [7] F. Ringeval, M. Pantic, B. Schuller, M. Valstar, de son état à l’aide d’un matériel peu coûteux. Si cela J. Gratch, R. Cowie, S. Scherer, S. Mozgai, N. Cum- s’avère nécessaire, l’outil pourra être ré-étalonné (phase mins, and M. Schmitt, “Avec 2017 - Real-life Depres- d’apprentissage complémentaire) pour mieux s’adapter à sion, and Affect Recognition Workshop and Chal- un patient précis. Sur le plan technique, notons cependant lenge,” Proc. 7th Annu. Work. Audio/Visual Emot. que l’accroissement du nombre de prototypes aura pour Chall. - AVEC ’17, pp. 3–9. effet de ralentir le traitement. Pour cela, nous proposons [8] M. F. Valstar, E. Sanchez-Lozano, J. F. Cohn, L. A. en perspective l’étude d’une procédure d’élagage, visant Jeni, J. M. Girard, Z. Zhang, L. Yin, and M. Pantic, à réduire le nombre de prototypes. Ce type de procédure “FERA 2017 - Addressing Head Pose in the Third va de paire avec tout système incrémental, et est en phase Facial Expression Recognition and Analysis Chal- active de développement, raison pour laquelle elle n’est lenge,” Autom. Face Gesture Recognit. (FG 2017), pas présentée dans cet article. pp. 839–847, 2017. [9] L. Wen, X. Li, G. Guo, and Y. Zhu, “Automated de- Notons enfin que la plupart des travaux sur la dépression pression diagnosis based on facial dynamic analysis utilisent à la fois les modalités visuelle et auditive, à l’instar and sparse coding,” IEEE Trans. Inf. Forensics Secur., de Yu et al. [27]. La prochaine étape de ce travail consistera vol. 10, no. 7, pp. 1432–1441, 2015. à entraîner, de manière indépendante et sur le même mo- dèle, un classifieur permettant de prédire l’état dépressif [10] Y. Zhu, Y. Shang, Z. Shao, and G. Guo, “Automa- à partir des données audio uniquement. La mise en com- ted Depression Diagnosis based on Deep Networks mun des deux modèles pourra ensuite se faire au moyen to Encode Facial Appearance and Dynamics,” IEEE d’un modèle de mémoire associative multimodale qui réa- Trans. Affect. Comput., no. X, pp. 1–1. lise la fusion des données à l’aide d’une Bidirective Asso- [11] J. R. Williamson, T. F. Quatieri, B. S. Helfer, G. Cic- ciative Memory (BAM). Le modèle complet a déjà été dé- carelli, and D. D. Mehta, “Vocal and Facial Biomar- veloppé [28], sur la base d’une modélisation cognitive, et kers of Depression based on Motor Incoordination il a démontré l’amélioration des performances par la prise and Timing,” Proc. 4th Int. Work. Audio/Visual Emot. en compte de plusieurs modalités [29]. Chall. - AVEC ’14, pp. 65–72. [12] Y. Gong and C. Poellabauer, “Topic Modeling Based Remerciements Multi-modal Depression Detection,” Proc. 7th Annu. Le travail décrit dans cet article a été réalisé en Python. En Work. Audio/Visual Emot. Chall. - AVEC ’17, pp. 69– ce sens, ses auteurs souhaitent remercier les contributeurs 76. de Numpy [30], Scipy [31] et Scikit-learn [32]. [13] A. T. Beck, R. A. Steer, and G. K. Brown, “Beck de- pression inventory-II,” San Antonio, vol. 78, no. 2, pp. Références 490–498, 1996. [1] (2018) Depression. Organization World Health. [14] A. T. Beck, Depression : Causes and Treatment. Accessed 2018-04-02. [Online]. Available : University of Pennsylvania Press, 1972. http ://www.who.int/mediacentre/factsheets/fs369/fr/ [15] L. R. Aiken, Psychological Testing and Assessment, [2] (2018) Depression. Health National Institute of 4th edition. Allyn & Bacon, 1982. Human. Accessed 2018-04-02. [Online]. Available : [16] V. Kazemi and J. Sullivan, “One millisecond face https ://www.nimh.nih.gov/health/topics/depression/ alignment with an ensemble of regression trees,” in [3] R. J. DeRubeis, G. J. Siegle, and S. D. Hollon, “Cog- Proc. IEEE Comput. Soc. Conf. Comput. Vis. Pattern nitive therapy vs. medications for depression : Treat- Recognit., 2014, pp. 1867–1874. [17] C. Sagonas, E. Antonakos, G. Tzimiropoulos, S. Za- D. Cournapeau, M. Brucher, M. Perrot, and E. Du- feiriou, and M. Pantic, “300 Faces In-The-Wild Chal- chesnay, “Scikit-learn : Machine learning in Python,” lenge : database and results,” Image Vis. Comput., pp. Journal of Machine Learning Research, vol. 12, pp. 3–18. 2825–2830, 2011. [18] D. E. King, “Dlib-ml : A Machine Learning Toolkit,” J. Mach. Learn. Res., pp. 1755–1758. [19] A. Rosebrock. (2017) Face Align- ment using OpenCV and Python. Ac- cessed 2018-05-24. [Online]. Available : https ://www.pyimagesearch.com/2017/05/22/face- alignment-with-opencv-and-python/ [20] G. Bradski, “The OpenCV Library,” Dr Dobbs J. Softw. Tools, pp. 120–125. [21] G. A. Carpenter and S. Grossberg, “Adaptive Reso- nance Theory,” Handb. brain theory neural networks, pp. 87–90, 2003. [22] M. Biehl, B. Hammer, and T. Villmann, “Prototype- based models in machine learning,” Wiley Interdiscip. Rev. Cogn. Sci., vol. 7, no. 2, pp. 92–111, 2016. [23] S. Grossberg, “Adaptive Resonance Theory : How a brain learns to consciously attend, learn, and reco- gnize a changing world,” Neural Networks, pp. 1–47. [24] A. P. Azcarraga, “Modèles neuronaux pour la classi- fication incrémentale de formes visuelles,” Ph.D. dis- sertation, Genoble INPG. [25] D. Puzenat, “Parallélisme et modularité des modèles connexionnistes,” p. 176. [26] S. Cholet and H. Paugam-Moisy, “Démonstration du diagnostic automatique de l ’ état dépressif,” in Conférence Natl. en Intell. Artif. Nancy : Plateforme Intelligence Artificielle, 2018, p. To Appear. [27] S. Yu, S. Scherer, D. Devault, J. Gratch, G. Stratou, L. P. Morency, and J. Cassel, “Multimodal prediction of psychosocial disorders : Learning verbal and non- verbal commonalities in adjacenc pairs,” in Proc. 17th Work. Semant. Pragmat. Dialogue, 2013, pp. 160– 169. [28] E. Reynaud, A. Crépet, H. Paugam-Moisy, and D. Pu- zenat, “A computational model for binding sensory modalities,” in Abstr. Conscious. Cogn. Academic Press, 2000, ch. 9, pp. 97–88. [29] H. Paugam-Moisy and E. Reynaud, “Multi-network system for sensory integration,” Int. Jt. Conf. Neu- ral Networks, Vols 1-4, Proc., vol. 1-4, no. February 2001, pp. 2343–2348, 2001. [30] T. E. Oliphant, A Guide to Numpy. Trelgol Publi- shing, 2006. [31] E. Jones, T. Oliphant, P. Peterson et al., “SciPy : Open source scientific tools for Python,” 2001–. [Online]. Available : http ://www.scipy.org/ [32] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Mi- chel, B. Thirion, O. Grisel, M. Blondel, P. Prettenho- fer, R. Weiss, V. Dubourg, J. Vanderplas, A. Passos,