Méthode non paramétrique pour l’analyse et la classification des données fonctionnelles Papa MBAYE1,2 Anne-Françoise YAO1 Chafik SAMIR2 1 Laboratoire de Mathématiques Blaise Pascal CNRS UMR 6620 2 Laboratoire d’Informatique, de Modélisation et d’Optimisation des Systèmes CNRS UMR 6158 papa_alioune_meissa.mbaye@uca.fr, anne.yao@uca.fr, chafik.samir@uca.fr Résumé Keywords L’analyse de données fonctionnelles joue un rôle Functional Data Analysis, Nonparametric Regression, important dans beaucoup de domaines de la santé Registration, Time Warping. publique et des applications biomédicales. En partic- ulier, de telles méthodes statistiques fournissent des 1 Introduction outils permettant de recaler, de comparer et de mod- éliser des données constituées de mesures corrélées. Analyser des données constituées de fonctions Dans ce travail, nous présenterons une nouvelle ap- (courbes, surfaces ou d’autres fonctions), au lieu de proche d’analyse de régression pour la classification de vecteurs de scalaires, devient de plus en plus populaire données fonctionnelles. D’abord, nous commencerons [1, 2]. De tels problèmes nécessitent de considérer les par analyser les observations fonctionnelles en faisant courbes comme des fonctions continues et d’utiliser des un recalage temporel. Ensuite, nous allons étudier dif- représentations et analyses appropriées. Les méthodes férentes représentations standards de la littérature et de régression fonctionnelle ont été largement utilisées estimer le modèle de régression appropriée comme une pour résoudre ce genre de problèmes [1, 3]. Récem- fonction de densité. Enfin, un exemple d’application, ment, différentes méthodes ont été proposées pour les constitué de personnes ayant l’Arthrite Rhumatoïde régressions linéaires fonctionnelles. Cependant une (AR) et de personnes bien portantes comme groupe étape clé pour analyser les données fonctionnelles tem- de référence, est présenté. porelles est la capacité de capturer la variabilité tem- porelle, qui peut être considérée comme une trans- formation aléatoire du temps. En effet les variations Mots Clef obtenues au niveau des données collectées sont dues à plusieurs facteurs, incluant les outils de mesure et Analyse de données fonctionnelles, Régression non le comportement humain ; ce qui fait que les mêmes paramétrique, Recalage. personnes observées peuvent donner lieu à différentes observations. La procédure de recalage pourrait ainsi Abstract être utilisée pour traiter cette variabilité temporelle Functional data analysis plays an increasingly impor- qui est considérée comme une nuisance. Plusieurs tant role in many public health and biomedical applica- alternatives ont été introduites pour représenter les tions. In particular, such statistical methods provide courbes ou pour les comparer d’une manière invari- tools for warping, comparing, averaging, and model- ante [2, 4]. ing data involving correlated measurements. In this L’arthrite est une maladie polymorphe qui est souvent paper, we present a new approach of regression anal- caractérisée par un gonflement d’un ou de plusieurs ysis for classification of functional data. First, we articulations. D’après [5], l’arthrite est l’une des prin- analyze functional observations to capture their key cipales causes de l’incapacité physique qui affecte les spatio-temporal patterns by searching optimal warping jeunes et les personnes âgées, où les femmes sont and then estimate the regression function. Next, we plus touchées que les hommes. Malheureusement, investigate different standard representations from lit- il n’y a actuellement aucun remède pour l’arthrite erature and estimate the appropriate regression model et les traitements coûteux sont disponibles selon le as a density function. Finally, an example of applica- type d’arthrite. Il y a plusieurs formes d’arthrites, tion involving patients with Rheumatoid Arthritis and dans lesquelles l’Arthrite Rhumatoïde, que l’on notera healthy subjects as a reference group, is presented. par la suite par AR, est la forme la plus commune (a) (b) (c) (d) Figure 1: Exemples de données fonctionnelles qui mesurent l’intensité de la force musculaire: (a) Fonction de la force de la main d’une personne bien portante, (b) Fonction de la force de la main d’une personne malade (AR modéré), (c) L’ensemble des fonctions musculaires avant recalage, et (d) fonctions musculaires après recalage utilisant notre méthode. d’inflammation chronique [6]. existe une large littérature sur l’analyse statistique de Dans les diagnostics quotidiens, l’examen clinique est fonctions, voir par exemple [2, 4, 8], quand on se lim- utilisé pour reconnaître les modèles spécifiques et ite sur l’analyse de fonctions qui nécessite le recalage les symptômes, et si nécessaire, il est confirmé par temporel, la littérature est toujours relativement lim- d’autres tests, i.e. imagerie IRM et les tests du sang. itée [1, 9–13]. Malheureusement, de tels tests sont très chers pour les Dans ce travail, nous proposons un modèle de régres- patients et longs pour les médecins. Les types de di- sion fonctionnelle non paramétrique pour diagnosti- agnostics mentionnés précédemment peuvent être util- quer l’AR. Autrement dit, on cherchera d’abord à ap- isés pour automatiser la classification de la maladie, prendre une fonction de régression et à partir de cette mais au stade précoce de l’AR, ces critères ne sont fonction utiliser un seuil pour faire la classification, pas habituellement satisfaisants. Dans les années ré- c’est à dire pour prédire la présence ou l’absence de centes, la recherche médicale a entraîné une nouvelle la maladie. A notre connaissance, l’analyse de la ré- compréhension de l’AR ; en particulier, il est indiqué gression sur des données fonctionnelles complètes sous que les mesures de force de la main sont une technique forme de signaux de force de la main, pour diagnos- bonne et peu coûteuse pour une évaluation préopéra- tiquer l’AR, n’a pas été précédemment étudiée. Un toire de personnes malades [7]. Bien que quelques des modèle statistique approprié est nécessaire dans cette caractéristiques discrètes citées précédemment puis- application pour modéliser ces données fonctionnelles. sent être utile pour cet objectif, la fonction de force En particulier, nous nous intéressons à l’étude de la de la main contient plus d’informations de diagnostic variabilité au sein des groupes de personnes malades et s’avère être un indicateur significatif sur la présence et de personnes bien portantes en utilisant la méth- et le stade de la maladie. Dans cet article, nous nous ode de régression fonctionnelle complète. Une diffi- concentrons sur cette nouvelle procédure de diagnos- culté au niveau de la main est le fait que les signaux tic. La fonction de force de la main d’une personne bruts des forces de la main ne sont pas alignés dans le bien portante est donnée au niveau de la Figure 1(a) temps. Autrement dit, différents patients exerceront et celle d’une personne atteinte de l’AR au niveau de la leur force à des temps différents, et alors, il devient Figure 1(b). Cette dernière montre un modèle clair de important de découpler la quantité de force exercée personnes malades où toutes les amplitudes de la force (amplitude de fonction) et combien de temps la force de la main ne sont pas très fortes et décroissent avec a été exercée (phase de fonction). Ainsi, nous avons le deuxième et le troisième test. Cependant, en regar- besoin d’un modèle statistique global pour l’analyse dant les Figures 1(a) et 1(b), nous remarquons que le des données fonctionnelles de force de la main qui per- problème de classification entre les personnes bien por- met la séparation des variabilités d’amplitude et de tantes et les personnes malades est très difficile. Par phase. Le modèle récent dans [14] fournit une ap- ailleurs, pour illustrer l’importance du recalage, nous proche mathématique et statistique efficace pour la affichons les courbes originales avant recalage en 1(c) séparation amplitude-phase de données fonctionnelles, et après recalage en 1(d). Les fonctions considérées ici et par la suite l’analyse statistique de ces deux com- appartiennent à l’ensemble L2 ([0, 1], R+ ) car ces inten- posantes. Nous adaptons cette méthode pour étudier sités sont enregistrées de manière continue durant un les signaux de la force de la main et pour définir intervalle de temps T = [0, 1] et sont à valeurs dans un nouveau modèle (représentation fonctionnelle cou- R+ . Récemment, l’analyse de données fonctionnelles a plée à un modèle de régression) basé sur des données été proposée pour une étude plus générale. Bien qu’il fonctionnelles complètes dans le but de caractériser la maladie par des méthodes d’apprentissage statistique. observables, au lieu de cela nous observons leurs dis- Donc à partir de variables (signaux), qui sont à valeurs crétisations, avec du bruit aléatoire supplémentaire. dans un espace de fonctions, le modèle prédira si la Ainsi les données observées sont des vecteurs finis personne est bien portante ou malade. (x1 ; y1 ); ...; (xn ; yn ). Nous supposons que ces erreurs sont gaussiennes de moyenne nulle et qu’elles sont in- 2 Modélisation et Analyse de dépendantes. données fonctionnelles Supposons un ensemble de fonctions de force {xi , i = Nous proposons une nouvelle représentation de la force 1, ..., n}, notre but est de trouver un ensemble de fonc- de la main qui exploite le stade de la maladie comme tions de reparamétrisation {γi∗ , i = 1, ..., n} (variabil- une distance appropriée des observations de référence. ité de phase) tel que les fonctions {xi ◦ γi∗ , i = 1, ..., n} Ce travail est inspiré en premier par les diagnostics soient alignées de manière optimale et alors ne varient classiques basés sur le maximum des mesures de la qu’au niveau des amplitudes. γ est une fonction qui est force (et éventuellement de la vitesse d’atteinte) qui définie par {γ : [0, 1] → [0, 1]; γ̇  0}. Dans plusieurs entraînaient une énorme perte d’informations perti- publications précédentes, c’est la norme L2 pénalisée nentes pour la classification de la maladie d’AR. Par (norme L2 qui mesure l’écart entre deux fonctions plus conséquent, les précisions de la classification décrois- une pénalisation sur la fonction de reparamétrisation) sent significativement quand la variabilité entre les qui a été utilisée pour le recalage. Ces approches sont personnes bien portantes croît. Ainsi pour améliorer connues de ne pas bien fonctionner pour les fonctions l’analyse statistique complète, nous prenons une ap- de pinching (similaire au surapprentissage) et pour proche d’analyse de données fonctionnelles pour anal- l’asymétrie de solutions [3]. Ce qui crée un effet sévère yser les fonctions de force de la main qui représentent sur les analyses qui y découlent et cet effet vient du fait l’effort continu, répétitif fait par les personnes. Cette que la norme L2 n’est pas une métrique sur l’espace de nouvelle représentation utilisée pour la classification fonctions modulo le groupe des reparamétrisations Γ. des personnes atteintes de l’AR apporte des informa- Ainsi dans ce papier, chaque fonction sera représentée par sa fonction q définie par q(t) = sign(ẋ(t)) |ẋ(t)|, p tions complémentaires et indispensables sur l’état de la maladie. L’intensité de la force de la main est où ẋ = dx/dt. Nous restreignons x d’être absolument représentée par une fonction absolument continue x continue parce que l’espace des résultats des fonc- définie sur un intervalle I = [0, 1], pour simplifier. tions q est L2 ([0, 1], R), qui est l’ensemble des fonctions Comme montré dans la Figure 1, x(t) = 0 là où il définies sur [0, 1] et de carré intégrable. Si une fonc- n’y a pas d’effort : au début du test (t = 0), au temps tion x est reparamétrisée par une fonction√ γ en x ◦ γ, de repos et à la fin du test (t = 1). On peut re- alors sa fonction q change et devient (q ◦ γ) γ̇ et on la marquer dès à présent que la variance des intensités notera par (q ∗ γ). La propriété la plus importante de des personnes bien portantes est faible, alors que celle cette transformation est que kqk = kq ∗ γk pour tout des personnes malades est forte, dû aux changements γ ∈ Γ, où k · k est la norme L2 de la fonction. Cette progressifs causés par la maladie en évolution. Pour propriété permet de résoudre le problème de recalage arriver à une telle conclusion, on a à définir un mod- optimal entre deux fonctions de force de la main x1 et èle approprié, qui fournit une distance appropriée et x2 comme suit. Soit q1 et q2 leurs fonctions q. Alors la des outils d’analyses statistiques en vue d’obtenir des fonction de reparamétrisation optimale de x2 à x1 est classifications précises (i.e. séparation du groupe des donnée par γ ∗ = arg inf γ∈Γ kq1 − q2 ∗ γk. La quantité personnes bien portantes et du groupe des personnes à droite forme une distance appropriée dans l’espace malades). Une qualité importante d’un tel modèle est quotient L2 /Γ. Cette distance peut être utilisée pour d’être capable de résumer efficacement et de capturer définir des statistiques comprenant la moyenne de la la variabilité dans les deux classes. De plus, on es- fonction de force de la main, qui agira comme un mod- père que la distance définie pourra fournir une mesure èle pour plusieurs recalages. naturelle entre les signaux de la force de la main, per- Le problème de phase et de séparation d’amplitude est mettant ainsi aux rhumatologues de quantifier le stade lié aux fonctions de recalage non linéaire. Supposons de gravité de la maladie d’AR, en se basant sur une x : [0, 1] → R une fonction absolument continue et personne bien portante (référence). Par la suite, nous Γ l’ensemble de toutes les frontières préservant le décrirons les éléments nécessaires qui seront utilisés difféomorphisme de [0, 1] à lui même. Alors pour tout pour recaler les données fonctionnelles. γ ∈ Γ, la composition x ◦ γ représente le temps recalé Supposons un échantillon de variables aléatoires de la fonction originale x. La phase est plus qu’un {xi , i = 1, ..., n}, où xi est une fonction assez lisse concept relatif. Si une fonction de reparamétrisation définie dans un domaine unité de R, et {yi , i = 1, ..., n} γ est utilisée pour recaler la fonction x2 à x1 , alors ce une suite de variables binaires. yi = 0 si la per- γ est nommé la phase relative de x1 à x2 . Notons que sonne est bien portante et yi = 1 si la personne est l’inverse de ce γ est la phase relative de x2 à x1 . En malade. xi et yi ne sont pas généralement directement cas de plusieurs fonctions, comme dans le cas de notre application, les composantes de phase sont définies représentations, pour prédire l’état d’une personne. en cherchant une moyenne de fonction et alors en Pour obtenir ceci, la méthode d’estimation de la ré- évaluant la phase relative de chaque fonction donnée gression fonctionnelle à noyau est utilisée. Notre anal- par rapport à la moyenne. Voir Algorithme 1 pour yse se fera sur des données déjà recalées, avec toutes plus de détails. les représentations citées précédemment. 3 Régression fonctionnelle à Data : fonctions xi . noyau avec réponse binaire Result : Moyenne de Fréchet µf , fonction de reparamétrisation γi∗ , fonctions recalées x∗i . Différents estimateurs non paramétriques de régres- sion ont été proposés dans la littérature quand la vari- able aléatoire explicative zi prend ces valeurs dans un 1. Initialisation: calculer les qi correspondant à espace de dimension finie. Il y a beaucoup de travaux chaque Pn dans la littérature qui traitent les limites de ces esti- {xi } et µq = n1 i=1 qi . mateurs et d’autres questions qui y sont liées, comme 2. Recalage: Pour i = 1, 2, . . . , n calculer la sélection de la fenêtre optimale dans les cas dépen- γi∗ = arg inf γ∈Γ kµq − qi ∗ γk2 . dants et indépendants. Pour plus de détails, on peut se référer aux [15, 16] et aux références citées dedans. 3. Actualisation: Pn Actualiser µq en utilisant Les résultats asymptotiques des données fonction- µq ← n1 i=1 (qi ∗ γi∗ ). Tant qu’il n’y a pas de nelles ont récemment eu un intérêt croissant, on peut convergence, on retourne à l’étape 2. se référer aux [17,18] et à la récente monographie faite par Ferraty et Vieu [19] et les références citées dedans. 4. Centrer: Calculer la moyenne de la fonction de recalage γ̄ Pour formuler le problème de l’estimateur de la régres- et actualiser µq en utilisant µq ← µq ∗ γ̄ −1 . sion fonctionnelle, supposons (zi , yi )i∈N une séquence 5. Recalage final: Répéter l’étape 2. Calculer µx de couple de variables aléatoires (Z, Y ) où zi prend et x∗i = xi ◦ γi∗ . ces valeurs dans un espace métrique (E, d(., .)) et yi est binaire. Nous considérons le modèle Algorithme 1 : Algorithme de séparation Y = r(Z) +  (1) Phase-Amplitude D’après (1), r(zi ) = E[Y |Z = zi ]. Considérons d’abord Ainsi, nous pourrons attribuer une amplitude et une E comme étant un espace d’Hilbert H muni de sa composante de phase à chaque fonction d’un ensem- métrique associée d. zi étant de dimension infinie, ble donné, et utiliser ces composantes pour définir les nous allons la décomposer dansPla base de fonction p caractéristiques de l’AR nécessaires à la classification φ = (φ1 (t), ..., φp (t)) : zi (t) = j=1 αij φj (t) = αiT φ des personnes. avec αi = (αi1 , ..., αip ). Supposons que nos fonctions xi sont de classe C k , Pour des raisons pratiques, au lieu de travailler avec k ∈ {0, 1, 2}. Pour le reste du papier, au lieu de les zi , nous allons travailler avec les coefficients αi , xi , nous allons utiliser une variable globale notée zi , qui sont de dimension finie, issus des décompositions globale dans la mesure où elle sera utilisée pour dif- des zi dans la base de fonction φ. férentes représentations comme l’intensité de la force zi = xi , sa vitesse zi = ẋi , son accélération zi = ẍi et L’estimateur de type Nadaraya-Watson a été introduit la fonction de courbure correspondante zi = ci , pour par Ferraty et Vieu [20]. Dans notre cas, il est défini la régression. Nous montrons dans la Figure 2 l’allure par : de ces différentes représentations fonctionnelles zi . Il est important de noter que pour un signal parfait, on P j yj Kh (d(αi , αj )) s’attend à ce que l’intensité de la force soit nulle au r̂n (zi ) = P j Kh (d(αi , αj )) début et à la fin de chaque test. Ainsi, nous comptons sur les dérivées et la courbure pour capturer la dis- où le dénominateur  est  différent de zéro et d(αi ,αj ) tance entre une observation donnée et une observation Kh (d(αi , αj )) = K h . Ici K est une fonction ayant un comportement normal. Etant donné que les noyau à valeurs réelles, h est le paramètre de la fenêtre observations réelles, même les groupes des patients, ne (qui tend vers zéro quand n tend vers l’infini) et d est sont pas parfaits, nous ferons un test répétitif (presque la métrique associée à H. périodique) pour améliorer cette partialité. Puisque Y est binaire, on cherchera plutôt à modéliser Nous rappelons que notre objectif est d’utiliser les variables fonctionnelles d’intensité, ou une des g(Y ) = r(Z) +  (2) (a) (b) (c) (d) Figure 2: Exemples de différentes fonctions représentant l’intensité de la force de la main: (a) une courbe originale, (b) la vitesse, (c) l’accélération, et (d) la courbure. où g est la fonction logit. La fonction réciproque de (V N, F N ), il est généralement considéré comme cette logit, appliquée à r̂n (zi ), renvoie des valeurs de une mesure équilibrée [24]. M CC: probabilités auxquelles nous allons appliquer un seuil pour faire la classification. TP × TN − FP × FN p Les taux de convergence presque sûre, sur un ensemble (T P + F P )(T P + F N )(T N + F P )(T N + F N ) compact de l’estimateur r̂n , sont établis dans [21] pour les processus asymptotiquement indépendants, alors M CC ou coefficient de corrélation entre les valeurs ob- que Masry [22] obtient la convergence de la moyenne servées et les valeurs prédites, renvoie des valeurs com- quadratique. De plus la normalité asymptotique a été prises entre -1 et 1. Plus la valeur est proche de +1, obtenue par Ferraty et al. [23] plus la classification est bonne. Plus elle est proche de Toujours dans l’optique de trouver le meilleur modèle, -1, plus la classification est mauvaise. nous changeons d’espace et on choisit E comme étant la sphère de Hilbert. αi ∈ Rp , nous nous restreignons 4 Résultats expérimentaux à la sphère Sp−1 . Ainsi nous avons utilisé la distance géodésique s définie sur cette sphère par : Dans cette section, nous décrivons notre approche qui vise à classifier les observations dans le groupe des per- αiT αj sonnes malades ou dans celui des personnes bien por- s(αi , αj ) = arcos( kαi kkαj k ). tantes, en utilisant les signaux de force de la main. Les résultats présentés dans cette section sont les ré- La question qui se pose maintenant c’est quelles sont sultats moyens obtenus après 100 itérations. Chaque les valeurs optimales de h et de seuil qu’il faut pren- itération consiste à générer aléatoirement 1500 obser- dre pour classer les malades et les personnes bien por- vations composées de personnes malades et de per- tantes. Dans la Figure 3, nous affichons des exemples sonnes bien portantes, dont 900 constituent la base de distribution des distances géodésiques sur la sphère d’apprentissage et de validation et les 600 restantes la et les h optimales retenues. Pour calibrer la perfor- base test. Nous utilisons un modèle de régression fonc- mance de notre modèle d’estimation (régression fonc- tionnelle avec différents critères et différentes représen- tionnelle à noyau), nous considérons les critères : MSE tations. Chaque observation est représentée par une (Mean Squared Error) et MCC (Matthews Coefficient seule fonction de force de la main, combinant les 3 Correlation). tests consécutifs. De ces fonctions, dérivent différentes représentations utiles pour la classification. Notre • MSE: C’est l’erreur quadratique moyenne. Elle modèle de régression fonctionnelle à noyau utilise le est définie par : noyau gaussien. Ces paramètres sont choisis grâce à la base d’apprentissage et les optimaux sont retenus 1X n grâce à la base de validation, avec le critère M CC. (yi − ŷi )2 Cela assure et améliore la précision de la classifica- n i tion. Avant de présenter les principaux résultats de ce avec n le nombre d’observation prédite et ŷi la travaux, nous montrons une comparaison d’une méth- valeur prédite de la i-ème observation. ode proposée et une simple approche d’analyse de don- nées fonctionnelles, qui utilise la métrique L2 entre les • MCC: Basé sur les Vrais et Faux Positifs fonctions et qui ne tient pas en compte des variabil- (V P, F P ), et sur les Vrais et Faux Négatifs ités de phase. Nous calculons la matrice de distance (a) (b) (c) (d) Figure 3: Exemples de densités des distances géodésiques sur la sphère pour chaque représentation, en rouge la valeur de la h optimale retenue pour le modèle : (a) Initial, (b) Vitesse, (c) Accélération, et (d) Courbure. 2000 1 pèce) et la courbure nous donne une meilleure valeur 0.9 de sensibilité (plus grande valeur de la puissance du 1500 test), voir Figure 6. 0.8 1000 Comme nous l’avons énoncé précédemment, les per- 0.7 sonnes ayant un AR avancé montrent une décroissance 500 0.6 significative de leurs forces de main durant les tests, 0 0.5 comparés aux personnes bien portantes. Et cet aspect 0 0.5 1 0 5 10 était le plus utilisé par les rhumatologues dans leurs (a) (b) diagnostics. Cependant, une telle procédure n’est pas applicable pour toutes les personnes malades à cause Figure 4: (a) Distribution empirique du test statis- de différents facteurs comme l’âge, le genre, et plus tique de distance d’amplitude, avec la distance entre important encore, le niveau de sévérité de la maladie. les 2 groupes marquée en rouge. (b) Précision (ordon- Les patients ayant un niveau d’AR moyen étaient dif- née) vs. Rappel (abscisse) la courbe de la méthode ficiles à détecter avec le diagnostic classique. Ainsi proposée (rouge) et la courbe obtenue avec la méth- il est important de rappeler que le fait d’utiliser les ode d’analyse de données fonctionnelles non élastique mesures continues de force de la main est une méth- basée sur la métrique L2 (blue). ode bénéfique, rapide et facile, et plus encore, il est très efficace pour diagnostiquer le degré de la maladie. De plus, les informations extraites de la force de la main ont une interprétation clinique naturelle et donc pour chaque méthode et nous affichons la courbe Rap- plus intéressantes pour les médecins. pel/Précision dans la Figure 4(b). De cette figure, on peut dire que le fait de prendre en compte la variabilité de phase de signaux de force de la main est important 5 Conclusion et a le potentiel d’améliorer considérablement la per- Ce travail présente une nouvelle approche permet- formance de classification. tant de caractériser les données fonctionnelles pour la Nous évaluons maintenant la performance de notre classification de l’Arthrite Rhumatoïde (AR). Cette modèle en calculant, après avoir prédit les variables méthode a l’avantage d’utiliser les courbes recalées réponses de la base test, les valeurs du critère utilisé et de capturer ainsi plus d’informations des sig- (M CC). naux, contrairement aux diagnostics classiques util- isés précédemment. Une fois que les courbes sont Si on utilise la métrique L2 dans notre modèle, c’est recalées, différentes représentations fonctionnelles ont avec la représentation courbure qu’on obtient un plus été utilisées et la fonction de densité conditionnelle a petit taux d’erreur, comme on peut le visualiser au été utilisée pour estimer la régression. Que ça soit niveau de la Figure 5(a). Par ailleurs, si on utilise la métrique d ou s, le fait d’utiliser la représentation la distance géodésique sur la sphère, notée ici par s, standard (courbes initiales) ne nous permet pas d’avoir c’est la vitesse qui nous donne une meilleure classi- une meilleure classification. Ceci est dû au fait que la fication des deux groupes, voir Figure 5(b). Nous représentation standard ne capte pas bien la variabilité pouvons aussi remarquer qu’avec la métrique s, c’est des différences de forces émises par les personnes. D’où la représentation vitesse qui nous donne la meilleure l’importance d’utiliser d’autres représentations fonc- valeur de spécificité (plus petite erreur de première es- tionnelles, comme la vitesse, l’accélération ou la cour- (a) (b) Figure 5: Dans chaque figure, on a représenté les taux d’erreurs obtenus en fonction des représentations fonction- nelles utilisées : (a) en utilisant la métrique d, i.e. la métrique L2 et (b) en utilisant la métrique s. (a) (b) Figure 6: Ces résultats sont obtenus avec la métrique s (distance géodésique sur la sphère) : (a) Spécificité en fonction des représentations et (b) Sensibilité en fonction des représentations. bure. On voit par exemple qu’en utilisant la métrique References d (L2 ), c’est la courbure qui nous donne la meilleure [1] G. James, “Curve alignment by moments,” Annals classification. Et si on utilise la distance géodésique of Applied Statistics, pp. 480–501, 2007. sur la sphère (s), c’est la vitesse qui nous donne les meilleurs résultats de classification. Ces résultats ex- [2] J. O. Ramsay and B. W. Silverman, Functional périmentaux nous montrent que les diagnostics utilisés Data Analysis, Second Edition. Springer Series précédemment sont insuffisants et que notre modèle in Statistics, 2005. est très prometteur pour ce sujet. [3] J. D. Tucker, “Functional component analysis and regression using elastic methods,” Electronic The- ses, Treatises and Dissertations, Florida State University, 2014. [4] R. Tang and H. G. Müller, “Pairwise curve syn- planning and inference, vol. 134, no. 1, pp. 116– chronization for functional data,” Biometrika, 139, 2005. vol. 95, no. 4, pp. 875–889, 2008. [17] D. N. Politis and J. P. Romano, “Limit theorems [5] D. L. Scott, F. Wolfe, and T. W. Huizinga, for weakly dependent hilbert space valued ran- “Rheumatoid arthritis,” The Lancet, vol. 376, no. dom variables with application to the stationary 9746, pp. 1094–1108, 2010. bootstrap,” Statistica Sinica, pp. 461–476, 1994. [6] S. J. Bigos, J. Holland, C. H. ands J. S. Web- [18] J. O. Ramsay and B. W. Silverman, Applied func- ster, M. Battie, and J. A. Malmgren, “High- tional data analysis: methods and case studies. quality controlled trials on preventing episodes Springer New York, 2002, vol. 77. of back problems: systematic literature review in working-age adults,” Spine Journal, vol. 9, no. 2, [19] F. Ferraty and P. Vieu, Nonparametric functional pp. 147–68, 2009. data analysis: theory and practice. Springer Sci- ence & Business Media, 2006. [7] G. Michael and W. Richard, “A systematic ex- ploration of distal arm muscle activity and per- [20] ——, “Dimension fractale et estimation de la ré- ceived exertion while applying external forces and gression dans des espaces vectoriels semi-normés,” moments,” Ergonomics, vol. 51, no. 8, pp. 1238– Comptes Rendus de l’Académie des Sciences- 1257, 2008. Series I-Mathematics, vol. 330, no. 2, pp. 139– 142, 2000. [8] A. Kneip and T. Gasser, “Statistical tools to an- alyze data representing a sample of curves,” The [21] ——, “Nonparametric models for functional data, Annals of Statistics, vol. 20, pp. 1266–1305, 1992. with application in regression, time series pre- diction and curve discrimination,” Nonparametric [9] C. Samir, S. Kurtek, A. Srivastava, and Statistics, vol. 16, no. 1-2, pp. 111–125, 2004. N. Borges, “An elastic functional data analysis framework for preoperative evaluation of patients [22] E. Masry, “Nonparametric regression estimation with rheumatoid arthritis,” in Applications of for dependent functional data: asymptotic nor- Computer Vision (WACV), 2016 IEEE Winter mality,” Stochastic Processes and their Applica- Conference on. IEEE, 2016, pp. 1–8. tions, vol. 115, no. 1, pp. 155–177, 2005. [10] J. O. Ramsay and X. Li, “Curve registration,” [23] F. Ferraty, A. Mas, and P. Vieu, “Nonparametric Journal of the Royal Statistical Society, Series B, regression on functional data: inference and prac- vol. 60, p. 351–363, 1998. tical aspects,” Australian & New Zealand Journal of Statistics, vol. 49, no. 3, pp. 267–286, 2007. [11] D. Gervini and T. Gasser, “Self-modeling warping functions,” Journal of the Royal Statistical Soci- [24] P. Baldi, S. Brunak, Y. Chauvin, C. A. Andersen, ety, Series B, vol. 66, pp. 959–971, 2004. and H. Nielsen, “Assessing the accuracy of predic- tion algorithms for classification: an overview,” [12] X. Liu and H. G. Müller, “Functional convex av- Bioinformatics, vol. 16, no. 5, pp. 412–424, 2000. eraging and synchronization for time-warped ran- dom curves,” Journal of the American Statistical Association, vol. 99, pp. 687–699, 2004. [13] A. Kneip and J. O. Ramsay, “Combining registra- tion and fitting for functional models,” Journal of the American Statistical Association, vol. 103, no. 483, pp. 1155–1165. [14] A. Srivastava, W. Wu, S. Kurtek, E. Klassen, and J. S. Marron, “Registration of functional data us- ing fisher-rao metric,” arXiv: 1103.3817v2, 2011. [15] L. T. Tran, “Density estimation for time series by histograms,” Journal of statistical planning and inference, vol. 40, no. 1, pp. 61–79, 1994. [16] N. Laı et al., “Kernel estimates of the mean and the volatility functions in a nonlinear autoregres- sive model with arch errors,” Journal of statistical