=Paper=
{{Paper
|id=Vol-2133/rjcia-paper1
|storemode=property
|title=Découverte des u-shapelets basée sur la corrélation pour le clustering de séries temporelles incertaines(Frobenius correlation based u-shapelets discovery for time series clustering)
|pdfUrl=https://ceur-ws.org/Vol-2133/rjcia-paper1.pdf
|volume=Vol-2133
|dblpUrl=https://dblp.org/rec/conf/rjcia/FotsoNV18
}}
==Découverte des u-shapelets basée sur la corrélation pour le clustering de séries temporelles incertaines(Frobenius correlation based u-shapelets discovery for time series clustering)==
<pdf width="1500px">https://ceur-ws.org/Vol-2133/rjcia-paper1.pdf</pdf>
<pre>
  Découverte des u-shapelets basée sur la corrélation pour le clustering de séries
                             temporelles incertaines.

   Vanel Steve Siyou Fotso1                            Engelbert Mephu Nguifo1                         Philippe Vaslin 1
           1
               University Clermont Auvergne, CNRS, LIMOS, F-63000 Clermont-Ferrand, France


                                             {siyou, mephu, vaslin}@isima.fr


Abstract                                                          de données, et il a montré une amélioration substantielle
                                                                  de la qualité de la classification non supervisée par rap-
An u-shapelet is a sub-sequence of a time series used for
                                                                  port au Rand Index. Ce travail définit un nouveau cadre
clustering a time series dataset. The purpose of this pa-
                                                                  pour la classification non supervisée de séries temporelles
per is to discover u-shapelets on uncertain time series. To
                                                                  incertaines.
achieve this goal, we propose a dissimilarity score cal-
led FOTS whose computation is based on the eigenvec-              Mots Clef
tor decomposition and the comparison of the autocorre-
lation matrices of the time series. This score is robust to       Classification non supervisée, UShapelet, Correlation, Sé-
the presence of uncertainty ; it is not very sensitive to tran-   ries temporelles.
sient changes ; it allows capturing complex relationships
between time series such as oscillations and trends, and it
                                                                  1     Introduction
is also well adapted to the comparison of short time series.      Toutes les mesures effectuées par un système mécanique
The FOTS score is used with the Scalable Unsupervised             ont une incertitude. En effet, le principe d’incertitude met
Shapelet Discovery algorithm for the clustering of 17 da-         en évidence les limites de la capacité des systèmes méca-
tasets, and it has shown a substantial improvement in the         niques à effectuer des mesures sur un système sans les per-
quality of the clustering with respect to the Rand Index.         turber [1]. Ainsi, les séries temporelles des instruments de
This work defines a novel framework for the clustering of         mesure sont incertaines. Ces séries temporelles produites
uncertain time series.                                            par des capteurs constituent une vaste proportion des sé-
                                                                  ries temporelles utilisées en science, que ce soit en mé-
Mots Clef                                                         decine avec des Électrocardiogramme (enregistrement de
Clustering, UShapelet, Correlation, time series.                  l’activité électrique du cœur), en physique avec des me-
                                                                  sures enregistrées par des télescopes, en informatique avec
Résumé                                                            l’Internet des objets, etc. Ignorer l’incertitude des données
Un u-shapelet est une sous-séquence d’une série tempo-            au cours de leur analyse peut conduire à des conclusions
relle utilisée comme propriété pour séparer un groupe de          approximatives ou inexactes, d’où la nécessité de mettre en
séries temporelles en deux sous-groupes. Un sous-groupe           œuvre des techniques de gestion des données incertaines.
de séries temporelles contenant le shapelet et un sous-           Plusieurs études récentes ont porté sur le traitement de l’in-
groupe de série temporelles ne contenant pas le shape-            certitude dans l’exploration de données. Deux approches
let. Le but de cet article est de découvrir des u-shapelets       principales permettent de prendre en compte l’incertitude
sur des séries temporelles incertaines. Pour atteindre cet        dans les tâches de data mining : soit elle est prise en compte
objectif, nous proposons un score de dissimilarité appelé         lors de la comparaison en utilisant les fonctions de distance
FOTS dont le calcul est basé sur la comparaison des vec-          appropriées [2–7], soit son impact est réduit par les trans-
teurs propres des matrices d’autocorrélation des séries           formations effectuées sur les données. Cette dernière stra-
temporelles. Ce score est robuste à la présence d’incer-          tégie est utilisée nativement par l’algorithme u-shapelet.
titude ; il n’est pas très sensible aux changements transi-
toires ; il permet de capturer des relations complexes entre
                                                                  1.1    État de l’art sur les u-shapelets
des séries temporelles telles que les oscillations et les ten-    Considérons un ensemble de données composé de 6 séries
dances, et il est également bien adapté à la comparaison          temporelles correspondant aux appels d’oiseaux : 3 séries
de séries temporelles courtes. Le score FOTS est utilisé          temporelles correspondant à Moucherolle à côtés olive (sé-
avec l’algorithme Scalable Unsupervised Shapelet Disco-           ries temporelles vertes) et 3 séries temporelles correspon-
very pour la classification non supervisée de 17 ensembles        dant aux appels de Moineau à couronne blanche (séries
                                                                     Definition 3 La distance de sous-séquence sdist(S, T)
                                                                     entre une série temporelle T et une sous-séquence S est le
                                                                     minimum des distances entre la sous-séquence S et toutes
                                                                     les sous-séquences de T de longueur égale à celle de S.

                                                                     Cette définition ouvre la question de la mesure de distance
F IGURE 1 – Exemple de classification de séries temporelles utili-   à utiliser pour sdist. En général, la distance euclidienne
sant d’une part la distance euclidienne (gauche), d’autre part des
                                                                     omniprésente (ED) est utilisée, mais elle ne l’est pas ap-
sous-séquences caractéristiques appelées u-shapelet (droite). [8].
                                                                     propriée pour les séries temporelles incertaines [5]. Dans
                                                                     la section suivante, nous présentons une fonction de dissi-
temporelles bleues). Lorsque ces séries temporelles sont             milarité plus adaptée à l’incertitude.
classées en utilisant la distance euclidienne comme me-              Le calcul de la sdist entre un u-shapelet candidat et toutes
sure de dissimilarité (Fig. 1 gauche), les groupes obtenus           les séries temporelles d’un jeux de données est appelé or-
ne sont pas homogènes ; en d’autres termes, l’algorithme             derline.
n’identifie pas l’oiseau à partir de ses cris. Cependant, si
                                                                     Definition 4 Un orderline est un vecteur de distance entre
nous recherchons des sous-séquences caractéristiques (u-
                                                                     un u-shapelet et toutes les séries temporelles d’un jeu de
shapelets) pour classer les séries temporelles, nous obte-
                                                                     données.
nons des groupes plus homogènes (Fig. 1 à droite).
Une fois cette observation faite, la question naturelle est
                                                                     Le calcul d’un orderline est coûteux en temps. Un orderline
de savoir comment trouver des sous-séquences qui carac-
                                                                     pour un seul u-shapelet candidat a une complexité en temps
térisent un groupe de séries temporelles, c’est-à-dire des
                                                                     égale à O(N M log(M )) où N est le nombre de séries tem-
sous-séquences qui ne sont observées que dans un sous-
                                                                     porelles du jeux de données, M est la longueur moyenne
groupe de séries temporelles. L’algorithme de découverte
                                                                     des séries temporelles. L’algorithme force brute pour la dé-
d’u-shapelet répond à cette question et procède comme
                                                                     couverte de u-shapelet requiert K calculs d’orderline, où
suit : l’algorithme prend la longueur du motif comme para-
                                                                     K est le nombre de sous-séquences candidate. La stratégie
mètre. Sur chaque série temporelle de la base, on fait glis-
                                                                     utilisée par [8] à filtrer les K sous-séquences candidates en
ser une fenêtre de la même longueur que le motif, chaque
                                                                     considérant seulement celles permettant de construire deux
nouvelle sous-séquence obtenue par ce processus est un u-
                                                                     groupes r-équilibrés. Cette sélection est faite efficacement
shapelet candidat.
                                                                     grâce a un algorithme de hachage.
Parmi les u-shapelets candidats, nous considérons comme              L’évaluation de la qualité des u-shapelets est basée sur leur
un u-shapelet la sous-séquence capable de diviser l’en-              pouvoir de séparation qui est calculé comme suit :
semble de séries temporelles en deux sous-ensembles DA
et DB de sorte que DA contient toutes les séries tempo-                         gap = µB − σB − (µA − σA ),                   (1)
relles qui possèdent le u-shapelet et DB toutes celles qui ne
contiennent pas l’u-shapelet. Deux autres contraintes sont           Où µA (resp. µB ) représente la moyenne(sdist(S, DA ))
prises en compte dans la découverte de motifs :                      (resp. moyenne(sdist(S, DB ))), et σA (resp. σB ) repré-
La première est la capacité de l’u-shapelet à construire des         sente l’écart-type de sdist(S, DA ) (resp. écart-type de
sous-ensembles bien séparés. La deuxième est la capacité             sdist(S, DB )).
de l’u-shapelet à construire des sous-ensembles qui ne sont          Si DA ou DB est constitué d’un seul élément (ou d’un
pas déséquilibrés. C’est-à-dire que la taille de DA doit être        nombre insuffisant de séries temporelles pour constituer
au plus k fois plus grande que celle de DB et vice versa.            un groupe), le gap prend la valeur zéro. Ceci assure qu’un
                                                                     gap élevé pour un u-shapelet correspond à une séparation
Definition 1 Deux jeux de données DA et DB sont dit r-               réelle.
                                  |DA |
équilibré si et seulement si 1r < |DB|
                                        < (1 − 1r ), r > 1
                                                                     1.2    U-shapelets pour la classification non su-
Definition 2 Un u-shapelet est une sous-séquence qui a                      pervisée de séries temporelles incertaines
une longueur inférieur ou égale à la longueur de la plus pe-         La classification non supervisée basée sur des u-shapelets
tite série temporelle du jeu de données, et qui permet de di-        est une approche introduite par [9] qui a suggéré de regrou-
viser le jeux de données en deux sous-groupes r-équilibrées          per des séries temporelles à partir des propriétés locales de
DA et DB ; où DA est le groupe de séries temporelles qui             leurs sous-séquences plutôt qu’utiliser les caractéristiques
contiennent un motif similaire au u-shapelet et DB est le            globales de la série temporelle [10]. Dans ce but, le cluste-
groupe de séries temporelles qui ne contiennent pas l’u-             ring basé sur les u-shapelets cherche d’abord un ensemble
shapelet.                                                            de sous-séquences caractéristiques des différentes catégo-
                                                                     ries de séries temporelles et classe une série temporelle
La similarité entre une série temporelle et un u-shapelet est        en fonction de la présence ou de l’absence de ces sous-
évaluée à l’aide d’une fonction de distance.                         séquences caractérisitiques.
La classification non supervisée de séries temporelles avec             taines de petite taille et ne fait aucune hypothèse
des u-shapelets présente plusieurs avantages. Première-                 sur la distribution de probabilité de l’incertitude.
ment, la classification non supervisée basée sur les u-               — Nous mettons le code source à la disposition de la
shapelets est définie pour les ensembles de données dans                communauté scientifique pour permettre une exten-
lesquels les séries temporelles ont des longueurs diffé-                sion de ce travail.
rentes, ce qui n’est pas le cas pour la plupart des tech-
niques décrites dans la littérature. En effet, dans de nom-       2     Définitions et travaux connexes
breux cas, l’hypothèse de longueur égale est implicite, et
le découpage à longueur égale est effectué en exploitant          2.1    Définitions
des compétences humaines coûteuses [8]. Deuxièmement,             Une série temporelle incertaine (UTS) X                 =<
la classification non supervisée basée sur les u-shapelets est    X1 , . . . , Xn > est une séquence de variable aléatoire
beaucoup plus expressive en ce qui concerne le pouvoir de         où Xi est une variable aléatoire modélisant une valeur
représentation. En effet, une série temporelle n’est associé      réelle inconnue à l’instant i. Deux modèles sont princi-
à un groupe que si elle contient l’u-shapelet caractéristique     palement utilisés pour représenter les séries temporelles
de ce groupe. Ainsi, un une série temporelle pourrait n’être      incertaines : le modèle ensembliste, et le modèle basé sur
associé à aucun groupe.                                           la fonction de densité de probabilité de l’incertitude.
De plus, il est très approprié d’utiliser la classification non
                                                                    Dans le modèle ensembliste, chaque élément Xi (1 ≤
supervisée basée sur les u-shapelets avec des séries tem-
                                                                  i ≤ n) de l’UTS X =< X1 , . . . , Xn > est représenté par
porelles incertaines parce que la stratégie de comparaison
                                                                  un ensemble {Xi,1 , . . . , Xi,Ni } de valeurs observées et Ni
d’un u-shapelet et d’une série temporelle ignore les don-
                                                                  représente le nombre d’observation à l’instant i.
nées non pertinentes de la série temporelle et ainsi réduire
les effets négatifs de la présence d’incertitudes dans celle-        Dans le modèle basé sur la distribution de probabilité,
ci. Malgré cet avantage, il est hautement souhaitable de          chaque élément Xi , (1 ≤ i ≤ n) de l’UTS X =<
prendre en compte l’impact négatif de l’incertitude lors de       X1 , . . . , Xn > est représenté par une variable aléatoire
la découverte des u-shapelets.                                    Xi = xi + Xei , où xi est la valeur exacte qui est incon-
                                                                  nue, et Xei est une variable aléatoire représentant l’erreur.
1.3    Incertitude et découverte des u-shapelets                  C’est ce modèle que nous considérons tout au long de notre
Les mesures traditionnelles de similarité comme la dis-           travail.
tance euclidienne (ED) ou la distorsion temporelle dy-            Plusieurs mesures de similarité ont été proposées pour les
namique (DTW) ne fonctionnent pas toujours bien pour              séries temporelles incertaines. Elles peuvent être regrou-
les séries temporelles incertaines. En effet, ces distances       pées en deux catégories principales : les mesures de simila-
agrègent l’incertitude de chaque point de la série tempo-         rité traditionnelles et les mesures de similarité incertaines.
relle et amplifient ainsi l’impact négatif de l’incertitude.           — les mesures de similarité traditionnelles telle que
Cependant, ED joue un rôle fondamental dans la décou-                        la distance euclidienne sont celles conventionnel-
verte des u-shapelets, car elle est utilisée pour calculer                   lement utilisées avec les séries temporelles. Elles
l’écart entre deux groupes formé par l’u-shapelet candidat.                  utilisent une seul valeur incertaine à chaque instant
La découverte de u-shapelet sur des séries temporelles in-                   comme approximation de la valeur réelle inconnue.
certaines pourrait donc conduire à la sélection d’un mau-              — les mesures de similarité incertaines utilisent des
vais candidat u-shapelet ou à l’assignation d’une série tem-                 informations statistiques additionnelles qui me-
porelle au mauvais groupe.                                                   surent l’incertitude associée à chaque approxima-
Dans cette étude, notre but n’est pas de définir un algo-                    tion de la valeur réelle. C’est le cas notamment de
rithme pour la découverte d’u-shapelets incertains, mais                     DUST, PROUD, MUNICH [11]. [12] démontre que
plutôt d’utiliser une fonction de dissimilarité robuste à l’in-              les performances des mesures de similarité incer-
certitude pour améliorer la qualité des u-shapelets décou-                   taines associées au pré-traitement sont meilleures
verts et donc la qualité de clustering des séries temporelles                que les performances des mesures de similarité tra-
incertaines.                                                                 ditionnelles sur des jeux de données contenant de
1.4    Contributions                                                         l’incertitude.

    — Nous faisons un état de l’art sur les mesures de            2.2    État de l’art sur les mesures de similarité
      dissimilarité incertaines et nous les évaluation leur              incertaines
      pertinence pour la comparaison de séries tempo-
                                                                  Les mesures de similarité incertaines peuvent être regrou-
      relles incertaines de petite taille.
                                                                  pées en deux grandes catégories : les mesures de similarité
    — Nous introduisons une fonction de dissimilarité
                                                                  déterministes et les mesures de similarité probabilistes.
      nommée correlation frobenius pour découverte d’u-
      shapelets sur les séries temporelles incertaines            Mesure de similarité déterministe. Tout comme les me-
      (FOTS) ;qui posséde des propriétés intéressantes            sures de similarité traditionnelles, les mesures de similarité
      pour la comparaison de séries temporelles incer-            déterministes renvoient un nombre réel représentant la dis-
tance entre deux séries temporelles incertaines. DUST est          PROUD [15] Soient X =< X1 , ..., Xn > et Y =<
un exemple de mesure déterministe de similarité.                   Y1 , ..., Yn > deux UTS modélisées par des séquences de
                                                                   variables aléatoires, la distance PROUD entre X et Y est
DUST [13] Etant donné deux séries temporelles incer-                             n
                                                                                   (Xi − Yi )2 . D’après le théorème central li-
                                                                                P
taines X =< X1 , . . . , Xn > et Y =< Y1 , . . . , Yn >,           d(X, Y ) =
                                                                              i=1
la distance entre deux valeurs Xi , Yi est définie comme           mite [16], la distribution cumulée approche asymptotique-
étant la distance entre leurs valeurs réelles inconnues r(Xi ),    ment une loi normale
r(Yi ) : dist(Xi , Yi ) = |r(Xi ) − r(Yi )|. Cette distance est
utilisée pour mesurer la similarité de deux valeurs incer-                          X                 X
taines.                                                            d(X, Y ) ∝ N (    E[(Xi − Yi )2 ],   V ar[(Xi − Yi )2 ]) (6)
ϕ(|Xi −Yi |) est la probabilité que les valeurs réelles à l’ins-                     i                   i
tant i soient égales, connaissant les valeurs réelles à l’ins-
                                                                   Une conséquence de cette caractéristique de la distance
tant i.
                                                                   PROUD est que le tableau de la loi réduite centrée normale
                                                                   peut être utilisé pour calculer la probabilité que la distance
                                                                   PROUD normalisée soit inférieure à un seuil :
    ϕ(|Xi − Yi |) = P r(dist(0, |Xi − Yi |) = 0).           (2)

cette fonction de similarité est par la suite utilisée par la                       P r(d(X, Y )norm ≤ ).                   (7)
fonction de dissimilarité dust :
                   p                                               Un inconvénient majeur de PROUD est son inadéquation
dust(Xi , Yi ) =       −log(ϕ(|Xi − Yi |)) + log(ϕ(0)). (3)        pour la comparaison de séries temporelles de petites lon-
                                                                   gueurs comme les u-shapelets. En effet, le calcul de la pro-
La distance entre les séries temporelles incertaines X =<          babilité que la distance PROUD soit inférieure à une valeur
X1 , . . . , Xn > et Y =< Y1 , . . . , Yn > calculée à partir de   est basé sur l’hypothèse qu’elle suit asymptotiquement
DU ST est alors définie comme suit :                               une distribution normale. Ainsi, cette probabilité sera d’au-
                                                                   tant plus précise que les séries temporelles comparées sont
                       v                                           longues (plus de 30 points de données).
                       u n
                       uX                                          PROUDS [12] est une version amélioré de PROUD qui
       DU ST (X, Y ) = t   dust(Xi , Yi )2 .                (4)
                                                                   suppose que les variables aléatoires qui constituent la sé-
                              i=1
                                                                   rie temporelle sont indépendantes et identiquement distri-
                                                                   buées.
Le problème avec les distances déterministes incertaines
comme DU ST est que leur expression varie en fonction              Definition 5 La forme normalisée d’une série tempo-
de la distribution de probabilité de l’incertitude, et la dis-     relle X =< X1 , . . . , Xn > est définie par X̂ =<
tribution de probabilité de l’incertitude n’est pas toujours       X̂1 , . . . , Xˆn > tel que à chaque instant i (1 ≤ i ≤ n),
disponible pour les jeux de données de séries temporelles.         nous avons :
Mesure de similarité probabiliste. Les mesures des si-
milarités probabilistes n’exigent pas la connaissance de la                                           v
                                                                                         n            u n
distribution des probabilités d’incertitude. De plus, elles              Xi − X̄       X    Xi        uX (Xi − X̄)2
                                                                   X̂i =         , X̄ =        , SX = t             . (8)
fournissent aux utilisateurs plus d’informations sur la fia-              SX                n               (n − 1)
                                                                                        i=1             i=1
bilité du résultat. Il existe plusieurs fonctions de simila-
rité probabiliste, comme MUNICH, PROUD, PROUDS ou
Corrélation Locale.
                                                                   PROUDS définit la distance entre deux séries temporelles
MUNICH [14]. Cette fonction de distance convient aux               normalisées X̂ =< X̂1 ...X̂n > and Ŷ =< Ŷ1 ...Ŷn >
séries temporelles incertaines représentées par le modèle          (Définition 5) comme suit :
ensembliste. La probabilité que la distance entre deux sé-
ries temporelles incertaines X et Y soit inférieure à un seuil                                               n
ε est égale au nombre de distances entre X et Y, qui sont
                                                                                                             X
                                                                          Eucl(X̂, Ŷ ) = 2(n − 1) + 2             X̂i Ŷi   (9)
inférieures à ε, sur le nombre possible de distances :                                                       i=1

                                                                   Pour les mêmes raisons que PROUD, PROUDS ne
                           |{d ∈ dists(X, Y )|d ≤ ε}|              conviennent pas à la comparaison de séries temporelles
P r(distance(X, Y )) ≤ ε =                            (5)
                                 |dists(X, Y )|                    courtes. Un autre inconvénient de PROUDS est qu’il sup-
                                                                   pose que les variables aléatoires sont indépendantes : cette
Le calcul de cette fonction de distance est très couteuse en       hypothèse est forte et particulièrement inappropriée pour
temps.                                                             des séries temporelles courtes comme les u-shapelets. Une
hypothèse plus réaliste avec les séries temporelles serait de    exemple, sinusoïdale) ainsi que les tendances apériodiques
considérer que les variables aléatoires constituant les sé-      (par exemple, à la hausse ou à la baisse) qui sont présentes.
ries temporelles sont M-dépendantes. Les variables aléa-         L’utilisation de matrices d’auto-corrélation qui sont calcu-
toires d’une série temporelle sont dites M-dépendantes si        lées sur la base de fenêtres se chevauchant permet de ré-
Xi , Xi+1 , ..., Xi+M sont dépendantes (corrélées) et les va-    duire la sensibilité aux changements transitoires dans
riables Xi et Xi+M +1 sont indépendantes. Cependant, sup-        les séries temporelles.
poser que les variables aléatoires sont M-dépendantes com-
plexifie l’écriture de PROUDS et rend son utilisation plus       Definition 7 (Auto-covariance, fenêtre glissante) Étant
difficile car elle requiert dès lors d’affecter une valeur au    donnée une série temporelle X, un ensemble de fenêtre
paramètre M.                                                     glissante w, l’estimateur de la matrice d’autocorrelation
                                                                 locale Γ̂t utilisant une fenêtre glissante est définie à l’ins-
Corrélation incertaine [7] : Les techniques d’analyse de
                                                                 tant t ∈ N tel que (Eq.11) :
corrélation sont utiles pour la sélection de caractéristiques
dans des séries temporelles incertaines. Ces informations
permettent d’identifier les éléments redondants. La même                                     t
                                                                                             X
stratégie peut être utile pour la découverte de u-shapelet.              Γ̂t (X, w, m) =             xτ,w ⊗ xτ,w .         (11)
La corrélation incertaine est définie comme suit :                                        τ =t−m+1


Definition 6 (Correlation sur les séries temporelles incer-      Où xτ,ω est une sous-séquence de la série temporelle de
taines) Etant données deux UTS X =< X1 , . . . , Xn > et         longueur w et commençant à τ , x ⊗ y = xy T est le produit
Y =< Y1 , . . . , Yn >, leur correlation est définie par         extérieur de x et y. L’ensemble d’échantillons de m fenêtres
                                                                 est centré autour du temps t. Nous fixons généralement le
                       Xn                                        nombre de fenêtres à m = w.
          Corr(X, Y ) =   X̂i Ŷi /(n − 1),              (10)
                          i=1                                    Étant donnée les estimations Γ̂t (X) et Γ̂t (Y ) pour les
                                                                 deux séries temporelles, la prochaine étape est de savoir
Où X̂i et Ŷi sont les formes normales de Xi et Yi (Défi-        comment les comparer et extraire un score de corrélation.
nition 5) respectivement. Xi et Yi sont des variables aléa-      Cet objectif est atteint en utilisant la décomposition spec-
toires indépendantes et continues.                               trale ; les vecteurs propres des matrices d’auto-corrélations
                                                                 capturent les principales tendances apériodiques et oscilla-
Si nous connaissons la distribution de probabilité des va-       toires, même sur des séries temporelles courtes. Ainsi, les
riables aléatoires, il est possible de déterminer la fonction    sous-espaces couverts par les premiers (k) vecteurs propres
de densité de probabilité associée à la corrélation, qui ser-    sont utilisés pour caractériser localement le comportement
vira par la suite à calculer la probabilité que la corréla-      de chaque série. La définition 8 formalise cette notion :
tion entre deux séries temporelles soit supérieure à un seuil
donné. La corrélation incertaine a cependant quelques in-        Definition 8 (LoCo score) Étant donnée deux séries tem-
convénients :                                                    porelles X et Y leur score LoCo est défini par
    — Il est trop sensible aux changements transitoires, ce
        qui conduit souvent à des scores très fluctuants ;
    — Il ne peut pas capturer les relations complexes dans                             1
                                                                        `t (X, Y ) =     (kU TX uY k + kU TY uX k)         (12)
        les séries temporelles ;                                                       2
    — Il faut connaître la fonction de distribution de pro-      Où U X et U Y sont les k premiers vecteurs propres des ma-
        babilité de l’incertitude ou faire une hypothèse sur     trices d’auto-corrélation locales Γ̂t (X) et Γ̂t (Y ) respecti-
        l’indépendance des variables aléatoires contenues        vement, et uX et uY sont les vecteurs propres ayant la plus
        dans les séries temporelles.                             large valeur propre.
En raison de tous ces inconvénients, la corrélation incer-       Intuitivement, deux séries temporelles X et Y seront consi-
taine ne peut pas être utilisée en l’état pour la découverte     dérées comme étant proches lorsque l’angle formé par l’es-
d’u-shapelet. Le paragraphe suivant présente une générali-       pace portant les informations de la série temporelle X et de
sation du coefficient de corrélation qui n’est pas une fonc-     la série temporelle Y est nul. En d’autres termes, X et Y
tion de similarité incertaine mais qui reste intéressante pour   seront proches lorsque la valeur de cos(α) sera 1. La seule
la découverte des u-shapelets.                                   l’hypothèse faite pour le calcul de la similitude LoCo est
Corrélation locale [17] : La corrélation locale est une          que la moyenne des points de la série temporelle est nulle.
généralisation de la corrélation. Elle calcule un score de       Cette hypothèse peut facilement être vérifiée, il suffit pour
corrélation évolutif dans le temps qui suit une similarité       cela de normaliser les séries temporelles en cours de com-
locale sur des séries temporelles multivariées basées sur        paraison. La fonction de similarité LoCo a de nombreuses
une matrice d’auto-corrélation locale. La matrice d’auto-        propriétés intéressantes et ne nécessite pas :
corrélation permet de capturer des relations complexes               — de connaître la distribution de probabilité de l’in-
dans des séries temporelles comme l’oscillation clé (par                 certitude,
    — de supposer l’indépendance des variables aléatoires
       ou de faire une hypothèse sur la longueur de l’u-
                                                                          n
       shapelet.                                                          X
Elle est donc intéressante pour la découverte de motifs,                        (λi (X + E) − λi (X))2 ≤ ||E||2F .        (14)
                                                                          i=1
mais nous avons encore besoin d’une dissimilarité pour
pouvoir découvrir des u-shapelets. Dans le paragraphe sui-
                                                                   où λi (X) est la plus grande valeur propre de X, et
vant, nous allons définir une fonction de dissimilarité qui
                                                                   |||E|E||F
                                                                           F 2. est le carré de la norme Frobenius de E.
a les mêmes propriétés que LoCo et c’est-à-dire, qui est
robuste à la présence d’incertitude.
                                                                   La section suivante explique comment le FOTS est intégré
3     Notre approche                                               dans l’algorithme de découverte d’u-shapelets.
3.1    Fonction de dissimilarité                                   3.2    Algorithme des u-shapelets avec score
La fonction de similarité LoCo définie sur deux séries tem-               FOTS
porelles multivariées X et Y correspond approximative-
ment à la valeur absolue du cosinus de l’angle formé par           Dans cette section, nous ne définissons pas un nouvel
les espaces propres de X et Y (|cos(α)|). Une idée simple          algorithme SUShapelet, mais nous expliquons comment
serait d’utiliser la valeur sin(α) ou α comme fonction de          nous utilisons l’algorithme SUShapelet avec le score FOTS
dissimilarité mais cette approche ne fonctionne pas si bien ;      (FOTS-SUSh) pour faire face à l’incertitude.
le sinus et l’angle ne sont pas assez discriminants pour la        Le gap est un critère essentiel pour la sélection des u-
comparaison de vecteurs propres à des fins de clustering.          shapelets. Il est sujet à l’incertitude parce que son calcul
Nous proposons donc la mesure de dissimilarité suivante            est basé sur la distance euclidienne. Pour y remédier, nous
(Définition. 9).                                                   proposons d’utiliser le score de FOTS au lieu d’une simple
                                                                   distance euclidienne lors du calcul du gap. L’algorithme 1
Definition 9 (FOTS : Frobenius cOrrelation for uncertain           explique comment calculer l’orderline en utilisant le score
Time series u-Shapelet discovery)                                  de FOTS. L’algorithme 2 calcul l’orderline et trie les sé-
Étant données deux séries X et Y , leur score FOTS est             rie temporelles en fonction de leur proximité au u-shapelet
défini par                                                         candidat (ligne 2 et 3). Un u-shapelet est considéré comme
                                                                   étant présent dans une série temporelle si sa distance à la
                                     v
                                     um k                          série temporelle est inférieure ou égale à un seuil. Ainsi,
                                     uXX                           l’algorithme de sélection de seuil construit un cluster DA
F OT S(X, Y ) = kUX − UY kF = t                 (UX − UY )2ij (13) dont la taille varie entre lb et ub (ligne 5). L’algorithme
                                        i=1 j=1
                                                                   cherche alors parmi les seuils sélectionnés celui ayant un
                                                                   gap maximal (ligne 6 et 11).
où kkF est la norme de Frobenius, m est la longueur de la
série temporelle et k est le nombre de vecteurs propres.
                                                                   Definition 10 La fonction de dissimilarité sdf (S, T )
Comme le calcul FOTS est basé sur la comparaison des               entre une série temporelle T et une sous-séquence S est
k-premiers vecteurs propres des matrices d’autocorrélation         le minimum des valeurs du score de FOTS entre la sous-
de la série temporelle, il a les mêmes propriétés souhai-          séquence S et toutes les sous-séquences possible de T de
tables de la fonction de similarité LoCo, c’est-à-dire :           longueur égales à S.
    — Il permet de capturer des relations complexes
        dans des séries temporelles comme les tendances
        oscillatoires clés (par exemple, sinusoïdales) ainsi
        que les tendances apériodiques (par exemple, à la          Algorithme 1 : ComputeOrderline
        hausse ou à la baisse) qui sont présentes ;                Input : u-shapeletCandidate : s,
    — Il permet de réduire la sensibilité aux change-              Jeu de données : D
        ments transitoires dans les séries temporelles ;           Output : Distance entre l’u-shapelet candidat et toutes
    — Il est approprié pour le comparison de séries tem-                      les séries temporelles du jeu de données
        porelles courtes.                                        1 function ComputeOrderline(s, D)
De plus, la fonction de dissimilarité FOTS est robust à          2      dis ← {} s ← zN orm(s)
la présence d’incertitude due à la décomposition spec-           3      forall i ∈ {1, 2, . . . , |D|} do
trale des matrices d’autocorrélation des séries temporelles.     4          ts ← D(i, :)
La robustesse du FOTS à l’incertitude est confirmée par le       5          dis(i) ← sdf (s, ts)
théorème suivant :
                                                                 6      return dis/|s|
Théorème 1 (HoffmanWielandt) [18] Si X et X +E sont
matrices n × n symétriques, alors :
   Algorithme 2 : ComputeGap                                        Choisir le nombre k de vecteurs propres : Un choix
   Input : u-shapeletCandidate : s,                                 pratique est de fixer k à une petite valeur ; nous utilisons
   Jeu de données : D,                                              k = 4 tout au long de ces expériences. En effet, les ten-
   lb, ub : lower/upper bound : nombre minimum et                   dances apériodiques clés sont capturées par un seul vec-
   maximum de séries temporelles par groupe                         teurs propres, tandis que les principales tendances oscilla-
   Output : gap : distance entre deux groupes                       toires se manifestent dans une paire de vecteurs propres.
 1 function ComputeGap(s, D, lb, ub)
 2      dis ← ComputeOrderline(s, D)
                                                                    5     Métriques d’évalutation
 3      dis ← sort(dis) gap ← 0                                     Différentes mesures de la qualité de classification non su-
 4      for i ← lb to ub do                                         pervisée de séries temporelles ont été proposées, notam-
 5          DA ← dis ≤ dis(i), DB ← dis > dis(i)                    ment le score Jaccard, l’indice Rand, l’indice Folkes et l’in-
 6          mA ← mean(DA ), mB ← mean(DB )                          dice Mallow, etc. Cependant, dans notre cas, nous avons
 7          sA ← std(DA ), sB ← std(DB )                            des étiquettes de classe pour les jeux de données, nous
 8          currGap ← mB − sB − (mA + sA )                          pouvons donc utiliser cette information externe pour éva-
 9          if currGap > gap then                                   luer la véritable qualité de la classification non supervisée
10              gap ← currGap                                       en utilisant l’indice Rand. De plus, l’indice Rand semble
11         return gap                                               être la mesure de la qualité des groupes couramment utili-
                                                                    sée [8–10].
                                                                    5.1    Comparaison avec u-shapelet
     4      Evaluation expérimentale                                De même que [11], nous avons testé notre méthode sur
                                                                    17 jeux de données du monde réel provenant des archives
     4.1     Classification non supervisée avec les u-              UCR [19] représentant un large éventail de domaines d’ap-
             shapelets                                              plication. Les ensembles de d’apprentissage et de test ont
                                                                    été réunis pour obtenir des jeux de données plus impor-
     Il existe de nombreuses façons de regrouper les séries         tants. Le tableau 1 présente des informations détaillées sur
     temporelles décrites par des u-shapelets. Dans cette expé-     les ensembles de données testés.
     rience, l’algorithme divise itérativement le jeu de données
     à partir de chaque u-shapelet découvert : chaque u-shapelet     Data-set            Size of    Length     No. of     Type
     divise l’ensemble de données en deux groupes DA et DB .                             dataset               Classes
                                                                     50words               905        270        50       IMAGE
     Les séries temporelles qui appartiennent à DA sont celles
                                                                     Adiac                 781        176        37       IMAGE
     contenant le u-shapelet et sont ensuite supprimées du jeu
                                                                     Beef                   60        470         5       SPECTRO
     de données. Une nouvelle recherche de u-shapelet se pour-       Car                   120        577         4       SENSOR
     suit avec le reste des données jusqu’à ce qu’il n’y ait plus    CBF                   930        128         3       SIMULATED
     de séries temporelles dans le jeu de données ou jusqu’à         Coffee                 56        286         2       SPECTRO
     ce que l’algorithme ne soit plus capable de trouver d’u-        ECG200                200         96         2       ECG
     shapelet. En guise de critère d’arrêt, nous considérons la      FaceFour              112        350         4       IMAGE
     baisse du gap. L’algorithme s’arrête lorsque le gap de l’u-     FISH                  350        463         7       IMAGE
     shapelet nouvellement trouvé devient la moitié du gap du        Gun_Point             200        150         2       MOTION
     premier u-shapelet découvert. Cette approche est une mise       Lighting2             121        637         2       SENSOR
     en oeuvre directe de la définition d’u-shapelet.                Lighting7             143        319         7       SENSOR
                                                                     OliveOil               60        570         4       SPECTRO
     Choisir la longueur N des u-shapelet : Le choix de              OSULeaf               442        427         6       IMAGE
     la longueur de l’u-shapelet est guidé par la connaissance       SwedishLeaf          1125        128        15       IMAGE
     du domaine d’application duquel provient les séries tempo-      synthetic_control     600         60         6       SIMULATED
                                                                     FaceAll              2250        131        14       IMAGE
     relles. Dans le cadre de ces expériences, nous avons testé
     tous les nombres entre 4 et la moitié de la longueur des                        TABLE 1 – Jeux de données
     séries temporelles. Nous considérons comme longueur de
     l’u-shapelet celle permettant de mieux regrouper les séries
     temporelles.                                                   Le tableau 2 présente une comparaison entre les deux algo-
                                                                    rithmes.
     Choisir la longueur w de la fenêtre : L’utilisation de
     fenêtres qui se chevauchent pour le calcul de la matrice
                                                                    5.2    Comparaison avec k-shape et USLM
     d’auto-corrélation permet de capturer les oscillations pré-    k-Shape et USLM sont deux algorithmes de clustering ba-
     sentes dans la série temporelle. Au cours de ces expé-         sés sur les u-shapelets pour les séries temporelles présen-
     riences, nous considérons que la taille de la fenêtre est      tées dans [10]. Dans cette section, nous comparons l’indice
     égale à la moitié de la longueur de la forme en U.             Rand index obtenu par FOTS-UShapelet et celui obtenu par
         Datasets                 RI_SUSh         RI_FOTS                  la matrice d’autocorrélation. Cette observation est illustrée
         50words                   0.811            0.877                  par le résultat obtenu sur jeu de données SwedishLeaf.
         Adiac                     0.796            0.905
                                                                           Analyse de la complexité en temps. ED peut être cal-
         Beef                      0.897            0.910
                                                                           culé en O(n) et le score FOTS est calculé en O(nω ), ≤
         Car                       0.708            0.723
                                                                           ω ≤ ω ≤≤ 3 en raison de la complexité temporelle des
         CBF                       0.578            0.909
                                                                           décompositions des vecteurs propres [20]. Le calcul du
         Coffee                    0.782            0.896
                                                                           score FOTS est alors plus coûteux que celui de ED. Ce-
         ECG200                    0.717            0.866
                                                                           pendant, son utilisation reste pertinente pour la recherche
         FaceFour                  0.859            0.910
                                                                           d’ u-shapelets, car ils sont souvent de petite taille.
         FISH                      0.775            0.899
         Gun_Point                 0.710            0.894                  6    Conclusion et perspective
         Lighting2                 0.794            0.911
         Lighting7                 0.757            0.910                  Le but de ce travail était de découvrir des u-shapelets
         OliveOil                  0.714            0.910                  sur des séries temporelles incertaines. Pour répondre à
         OSULeaf                   0.847            0.905                  cette question, nous avons proposé un score de dissimila-
         SwedishLeaf               0.305            0.909                  rité (FOTS) adapté à la comparaison de séries temporelles
         synthetic_control         0.723            0.899                  courtes, dont le calcul est basé sur la comparaison du vec-
         FaceAll                   0.907            0.908                  teurs propres des matrices d’autocorrélation des séries tem-
                                                                           porelles. Ce score est robuste à la présence d’incertitude, il
TABLE 2 – Comparison du Rand Index de SUSH (RI_SUSh) et                    n’est pas très sensible aux changements transitoires, et il
de FOTS-SUSh (RI_FOTS). Le meilleur Rand Index est en gras                 permet de capturer des relations complexes entre des sé-
                                                                           ries temporelles telles que les oscillations et les tendances.
                                                                           Le score FOTS a été utilisé avec l’algorithme Scalable Un-
k-Shape et USLM sur 5 jeux de données 1 (Tableau 3). Les                   supervised Shapelet Discovery pour la classification non
résultats de k-Shape et USLM ont été précédemment rap-                     supervisée de 17 jeux de données de la littérature et a mon-
portés dans [10]. Cette comparaison montre qu’en général,                  tré une amélioration de la qualité du regroupement évalué
FOTS-UShapelet donne de meilleurs résultats que k-Shape                    à l’aide de l’indice Rand. En combinant les avantages de
et USLM.                                                                   l’algorithme des u-shapelets, qui réduit les effets néfastes
                                                                           de l’incertitude, et les avantages du score FOTS, qui est
TABLE 3 – Comparison entre k-Shape, USLM et FOTS-
                                                                           robuste à la présence de l’incertitude, ce travail définit un
UShapelet
                                                                           cadre original pour la classification non supervisée de sé-
    Rand                                                                   ries temporelles incertaines. Dans la perspective de ce tra-
                  k-Shape       USLM         FOTS-UShapelet                vail, nous prévoyons d’utiliser le score FOTS pour la clas-
    Index
    CBF           0.74          1            0.909                         sification non supervisée floue de séries temporelles incer-
    ECG200        0.70          0.76         0.866                         taines.
    Fac.F.        0.64          0.79         0.910
    Lig2          0.65          0.80         0.911                         Remerciements
    Lig.7         0.74          0.79         0.910                         Nous remercions cordialement le Ministère Français de
    OSU L.        0.66          0.82         0.905                         l’enseignement supérieur et de la recherche qui a financé
                                                                           ce travail et nous remercions les reviewers pour leurs com-
                                                                           mentaires et leurs suggestions qui ont aidé à améliorer la
5.3     Discussion                                                         qualité de ce travail.
L’utilisation du score FOTS associé à l’algorithme de SU-
Shapelet fait qu’il est possible de découvrir d’autres u-
                                                                           Références
shapelets que ceux trouvés par la distance Euclidienne.                     [1] G. B. Folland and A. Sitaram, “The uncertainty prin-
Le FOTS-SUSh améliore les résultats de la classification                        ciple : a mathematical survey,” Journal of Fourier
des séries temporelles parce que le score FOTS prend en                         analysis and applications, vol. 3, no. 3, pp. 207–238,
compte les propriétés intrinsèques de la série temporelle et                    1997.
est robuste à la présence d’incertitude. Cette amélioration                 [2] N. B. Rizvandi, J. Taheri, R. Moraveji, and A. Y.
est particulièrement significative lorsque le score FOTS est                    Zomaya, “A study on using uncertain time series
utilisé pour la classification non supervisée de séries tem-                    matching algorithms for MapReduce applications,”
porelles contenant plusieurs petites oscillations. En effet,                    Concurrency and Computation : Practice and Expe-
ces oscillations ne sont pas capturées par la distance eucli-                   rience, vol. 25, no. 12, pp. 1699–1718, aug 2013.
dienne mais par le score FOTS dont le calcul est basé sur
                                                                            [3] J. Hwang, Y. Kozawa, T. Amagasa, and H. Kita-
   1. Nous considérons 5 jeux de données car se sont les jeux de données        gawa, “GPU Acceleration of Similarity Search for
pour lesquels nous avons les résultats des algorithmes k-shape et USLM.         Uncertain Time Series,” in 2014 17th International
     Conference on Network-Based Information Systems.           [16] J. Hoffmann-Jørgensen and G. Pisier, “The law of
     IEEE, sep 2014, pp. 627–632.                                    large numbers and the central limit theorem in ba-
 [4] K. Rehfeld and J. Kurths, “Similarity estimators for            nach spaces,” The Annals of Probability, pp. 587–
     irregular and age-uncertain time series,” Climate of            599, 1976.
     the Past, vol. 10, no. 1, pp. 107–122, 2014.               [17] S. Papadimitriou, J. Sun, and S. Y. Philip, “Local
                                                                     correlation tracking in time series,” in Data Mining,
 [5] M. Orang and N. Shiri, “An experimental evaluation
                                                                     2006. ICDM’06. Sixth International Conference on.
     of similarity measures for uncertain time series,” in
                                                                     IEEE, 2006, pp. 456–465.
     Proceedings of the 18th International Database Engi-
     neering & Applications Symposium on - IDEAS ’14.           [18] R. Bhatia and T. Bhattacharyya, “A generalization of
     New York, New York, USA : ACM Press, 2014, pp.                  the Hoffman-Wielandt theorem,” Linear Algebra and
     261–264.                                                        its Applications, vol. 179, pp. 11–17, jan 1993.
 [6] W. Wang, G. Liu, and D. Liu, “Chebyshev Simila-            [19] Y. Chen, E. Keogh, B. Hu, N. Begum, A. Bagnall,
     rity Match between Uncertain Time Series,” Mathe-               A. Mueen, and G. Batista, “The ucr time series clas-
     matical Problems in Engineering, vol. 2015, pp. 1–              sification archive,” July 2015.
     13, 2015.                                                  [20] V. Y. Pan and Z. Q. Chen, “The complexity of the
 [7] M. Orang and N. Shiri, “Correlation analysis tech-              matrix eigenproblem,” in Proceedings of the thirty-
     niques for uncertain time series,” Knowledge and In-            first annual ACM symposium on Theory of compu-
     formation Systems, vol. 50, no. 1, pp. 79–116, jan              ting. ACM, 1999, pp. 507–516.
     2017.
 [8] L. Ulanova, N. Begum, and E. Keogh, “Scalable clus-
     tering of time series with u-shapelets,” in Proceedings
     of the 2015 SIAM International Conference on Data
     Mining. SIAM, 2015, pp. 900–908.
 [9] J. Zakaria, A. Mueen, and E. Keogh, “Clustering time
     series using unsupervised-shapelets,” in Data Mining
     (ICDM), 2012 IEEE 12th International Conference
     on. IEEE, 2012, pp. 785–794.
[10] Q. Zhang, J. Wu, H. Yang, Y. Tian, and C. Zhang,
     “Unsupervised feature learning from time series.” in
     IJCAI, 2016, pp. 2322–2328.
[11] M. Dallachiesa, B. Nushi, K. Mirylenka, and T. Pal-
     panas, “Uncertain time-series similarity : return to the
     basics,” Proceedings of the VLDB Endowment, vol. 5,
     no. 11, pp. 1662–1673, 2012.
[12] M. Orang and N. Shiri, “Improving performance of
     similarity measures for uncertain time series using
     preprocessing techniques,” in Proceedings of the 27th
     International Conference on Scientific and Statistical
     Database Management - SSDBM ’15. New York,
     New York, USA : ACM Press, 2015, pp. 1–12.
[13] K. Murthy and S. R. Sarangi, “Generalized notion of
     similarities between uncertain time series,” Mar. 26
     2013, uS Patent 8,407,221.
[14] J. Aßfalg, H.-P. Kriegel, P. Kröger, and M. Renz,
     “Probabilistic similarity search for uncertain time se-
     ries.” in SSDBM. Springer, 2009, pp. 435–443.
[15] M.-Y. Yeh, K.-L. Wu, P. S. Yu, and M.-S. Chen,
     “Proud : a probabilistic approach to processing simi-
     larity queries over uncertain data streams,” in Procee-
     dings of the 12th International Conference on Exten-
     ding Database Technology : Advances in Database
     Technology. ACM, 2009, pp. 684–695.

</pre>