<!DOCTYPE article PUBLIC "-//NLM//DTD JATS (Z39.96) Journal Archiving and Interchange DTD v1.0 20120330//EN" "JATS-archivearticle1.dtd">
<article xmlns:xlink="http://www.w3.org/1999/xlink">
  <front>
    <journal-meta />
    <article-meta>
      <title-group>
        <article-title>Découverte des u-shapelets basée sur la corrélation pour le clustering de séries temporelles incertaines.</article-title>
      </title-group>
      <contrib-group>
        <contrib contrib-type="author">
          <string-name>Vanel Steve Siyou Fotso</string-name>
          <email>siyou@isima.fr</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Engelbert Mephu Nguifo</string-name>
          <email>mephu@isima.fr</email>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
          <xref ref-type="aff" rid="aff2">2</xref>
        </contrib>
        <contrib contrib-type="author">
          <string-name>Mots Clef</string-name>
          <xref ref-type="aff" rid="aff0">0</xref>
          <xref ref-type="aff" rid="aff1">1</xref>
        </contrib>
        <aff id="aff0">
          <label>0</label>
          <institution>Classification non supervisée, UShapelet</institution>
          ,
          <addr-line>Correlation, Sé- ries temporelles</addr-line>
        </aff>
        <aff id="aff1">
          <label>1</label>
          <institution>Clustering, UShapelet</institution>
          ,
          <addr-line>Correlation, time series</addr-line>
        </aff>
        <aff id="aff2">
          <label>2</label>
          <institution>University Clermont Auvergne</institution>
          ,
          <addr-line>CNRS, LIMOS, F-63000 Clermont-Ferrand</addr-line>
          ,
          <country country="FR">France</country>
        </aff>
      </contrib-group>
      <abstract>
        <p>An u-shapelet is a sub-sequence of a time series used for clustering a time series dataset. The purpose of this paper is to discover u-shapelets on uncertain time series. To achieve this goal, we propose a dissimilarity score called FOTS whose computation is based on the eigenvector decomposition and the comparison of the autocorrelation matrices of the time series. This score is robust to the presence of uncertainty ; it is not very sensitive to transient changes ; it allows capturing complex relationships between time series such as oscillations and trends, and it is also well adapted to the comparison of short time series. The FOTS score is used with the Scalable Unsupervised Shapelet Discovery algorithm for the clustering of 17 datasets, and it has shown a substantial improvement in the quality of the clustering with respect to the Rand Index. This work defines a novel framework for the clustering of uncertain time series.</p>
      </abstract>
    </article-meta>
  </front>
  <body>
    <sec id="sec-1">
      <title>-</title>
      <p>Un u-shapelet est une sous-séquence d’une série
temporelle utilisée comme propriété pour séparer un groupe de
séries temporelles en deux sous-groupes. Un sous-groupe
de séries temporelles contenant le shapelet et un
sousgroupe de série temporelles ne contenant pas le
shapelet. Le but de cet article est de découvrir des u-shapelets
sur des séries temporelles incertaines. Pour atteindre cet
objectif, nous proposons un score de dissimilarité appelé
FOTS dont le calcul est basé sur la comparaison des
vecteurs propres des matrices d’autocorrélation des séries
temporelles. Ce score est robuste à la présence
d’incertitude ; il n’est pas très sensible aux changements
transitoires ; il permet de capturer des relations complexes entre
des séries temporelles telles que les oscillations et les
tendances, et il est également bien adapté à la comparaison
de séries temporelles courtes. Le score FOTS est utilisé
avec l’algorithme Scalable Unsupervised Shapelet
Discovery pour la classification non supervisée de 17 ensembles
de données, et il a montré une amélioration substantielle
de la qualité de la classification non supervisée par
rapport au Rand Index. Ce travail définit un nouveau cadre
pour la classification non supervisée de séries temporelles
incertaines.</p>
    </sec>
    <sec id="sec-2">
      <title>Mots Clef</title>
      <p>1</p>
      <sec id="sec-2-1">
        <title>Introduction</title>
        <p>
          Toutes les mesures effectuées par un système mécanique
ont une incertitude. En effet, le principe d’incertitude met
en évidence les limites de la capacité des systèmes
mécaniques à effectuer des mesures sur un système sans les
perturber [1]. Ainsi, les séries temporelles des instruments de
mesure sont incertaines. Ces séries temporelles produites
par des capteurs constituent une vaste proportion des
séries temporelles utilisées en science, que ce soit en
médecine avec des Électrocardiogramme (enregistrement de
l’activité électrique du coeur), en physique avec des
mesures enregistrées par des télescopes, en informatique avec
l’Internet des objets, etc. Ignorer l’incertitude des données
au cours de leur analyse peut conduire à des conclusions
approximatives ou inexactes, d’où la nécessité de mettre en
oeuvre des techniques de gestion des données incertaines.
Plusieurs études récentes ont porté sur le traitement de
l’incertitude dans l’exploration de données. Deux approches
principales permettent de prendre en compte l’incertitude
dans les tâches de data mining : soit elle est prise en compte
lors de la comparaison en utilisant les fonctions de distance
appropriées [
          <xref ref-type="bibr" rid="ref2 ref3 ref4 ref5">2–7</xref>
          ], soit son impact est réduit par les
transformations effectuées sur les données. Cette dernière
stratégie est utilisée nativement par l’algorithme u-shapelet.
1.1
        </p>
        <p>État de l’art sur les u-shapelets
Considérons un ensemble de données composé de 6 séries
temporelles correspondant aux appels d’oiseaux : 3 séries
temporelles correspondant à Moucherolle à côtés olive
(séries temporelles vertes) et 3 séries temporelles
correspondant aux appels de Moineau à couronne blanche (séries
temporelles bleues). Lorsque ces séries temporelles sont
classées en utilisant la distance euclidienne comme
mesure de dissimilarité (Fig. 1 gauche), les groupes obtenus
ne sont pas homogènes ; en d’autres termes, l’algorithme
n’identifie pas l’oiseau à partir de ses cris. Cependant, si
nous recherchons des sous-séquences caractéristiques
(ushapelets) pour classer les séries temporelles, nous
obtenons des groupes plus homogènes (Fig. 1 à droite).
Une fois cette observation faite, la question naturelle est
de savoir comment trouver des sous-séquences qui
caractérisent un groupe de séries temporelles, c’est-à-dire des
sous-séquences qui ne sont observées que dans un
sousgroupe de séries temporelles. L’algorithme de découverte
d’u-shapelet répond à cette question et procède comme
suit : l’algorithme prend la longueur du motif comme
paramètre. Sur chaque série temporelle de la base, on fait
glisser une fenêtre de la même longueur que le motif, chaque
nouvelle sous-séquence obtenue par ce processus est un
ushapelet candidat.</p>
        <p>Parmi les u-shapelets candidats, nous considérons comme
un u-shapelet la sous-séquence capable de diviser
l’ensemble de séries temporelles en deux sous-ensembles DA
et DB de sorte que DA contient toutes les séries
temporelles qui possèdent le u-shapelet et DB toutes celles qui ne
contiennent pas l’u-shapelet. Deux autres contraintes sont
prises en compte dans la découverte de motifs :
La première est la capacité de l’u-shapelet à construire des
sous-ensembles bien séparés. La deuxième est la capacité
de l’u-shapelet à construire des sous-ensembles qui ne sont
pas déséquilibrés. C’est-à-dire que la taille de DA doit être
au plus k fois plus grande que celle de DB et vice versa.
Definition 1 Deux jeux de données DA et DB sont dit
réquilibré si et seulement si 1r &lt; jjDDBAjj &lt; (1 1r ); r &gt; 1
Definition 2 Un u-shapelet est une sous-séquence qui a
une longueur inférieur ou égale à la longueur de la plus
petite série temporelle du jeu de données, et qui permet de
diviser le jeux de données en deux sous-groupes r-équilibrées
DA et DB ; où DA est le groupe de séries temporelles qui
contiennent un motif similaire au u-shapelet et DB est le
groupe de séries temporelles qui ne contiennent pas
l’ushapelet.</p>
        <p>La similarité entre une série temporelle et un u-shapelet est
évaluée à l’aide d’une fonction de distance.</p>
        <p>
          Definition 3 La distance de sous-séquence sdist(S, T)
entre une série temporelle T et une sous-séquence S est le
minimum des distances entre la sous-séquence S et toutes
les sous-séquences de T de longueur égale à celle de S.
Cette définition ouvre la question de la mesure de distance
à utiliser pour sdist. En général, la distance euclidienne
omniprésente (ED) est utilisée, mais elle ne l’est pas
appropriée pour les séries temporelles incertaines [
          <xref ref-type="bibr" rid="ref3">5</xref>
          ]. Dans
la section suivante, nous présentons une fonction de
dissimilarité plus adaptée à l’incertitude.
        </p>
        <p>Le calcul de la sdist entre un u-shapelet candidat et toutes
les séries temporelles d’un jeux de données est appelé
orderline.</p>
        <p>Definition 4 Un orderline est un vecteur de distance entre
un u-shapelet et toutes les séries temporelles d’un jeu de
données.</p>
        <p>
          Le calcul d’un orderline est coûteux en temps. Un orderline
pour un seul u-shapelet candidat a une complexité en temps
égale à O(N M log(M )) où N est le nombre de séries
temporelles du jeux de données, M est la longueur moyenne
des séries temporelles. L’algorithme force brute pour la
découverte de u-shapelet requiert K calculs d’orderline, où
K est le nombre de sous-séquences candidate. La stratégie
utilisée par [
          <xref ref-type="bibr" rid="ref6">8</xref>
          ] à filtrer les K sous-séquences candidates en
considérant seulement celles permettant de construire deux
groupes r-équilibrés. Cette sélection est faite efficacement
grâce a un algorithme de hachage.
        </p>
        <p>L’évaluation de la qualité des u-shapelets est basée sur leur
pouvoir de séparation qui est calculé comme suit :
gap =</p>
        <p>B</p>
        <p>B
( A</p>
        <p>A);
(1)
Où A (resp. B) représente la moyenne(sdist(S, DA))
(resp. moyenne(sdist(S, DB))), et A (resp. B)
représente l’écart-type de sdist(S; DA) (resp. écart-type de
sdist(S; DB)).</p>
        <p>Si DA ou DB est constitué d’un seul élément (ou d’un
nombre insuffisant de séries temporelles pour constituer
un groupe), le gap prend la valeur zéro. Ceci assure qu’un
gap élevé pour un u-shapelet correspond à une séparation
réelle.
1.2</p>
      </sec>
    </sec>
    <sec id="sec-3">
      <title>U-shapelets pour la classification non supervisée de séries temporelles incertaines</title>
      <p>
        La classification non supervisée basée sur des u-shapelets
est une approche introduite par [
        <xref ref-type="bibr" rid="ref7">9</xref>
        ] qui a suggéré de
regrouper des séries temporelles à partir des propriétés locales de
leurs sous-séquences plutôt qu’utiliser les caractéristiques
globales de la série temporelle [
        <xref ref-type="bibr" rid="ref8">10</xref>
        ]. Dans ce but, le
clustering basé sur les u-shapelets cherche d’abord un ensemble
de sous-séquences caractéristiques des différentes
catégories de séries temporelles et classe une série temporelle
en fonction de la présence ou de l’absence de ces
sousséquences caractérisitiques.
      </p>
      <p>
        La classification non supervisée de séries temporelles avec
des u-shapelets présente plusieurs avantages.
Premièrement, la classification non supervisée basée sur les
ushapelets est définie pour les ensembles de données dans
lesquels les séries temporelles ont des longueurs
différentes, ce qui n’est pas le cas pour la plupart des
techniques décrites dans la littérature. En effet, dans de
nombreux cas, l’hypothèse de longueur égale est implicite, et
le découpage à longueur égale est effectué en exploitant
des compétences humaines coûteuses [
        <xref ref-type="bibr" rid="ref6">8</xref>
        ]. Deuxièmement,
la classification non supervisée basée sur les u-shapelets est
beaucoup plus expressive en ce qui concerne le pouvoir de
représentation. En effet, une série temporelle n’est associé
à un groupe que si elle contient l’u-shapelet caractéristique
de ce groupe. Ainsi, un une série temporelle pourrait n’être
associé à aucun groupe.
      </p>
      <p>De plus, il est très approprié d’utiliser la classification non
supervisée basée sur les u-shapelets avec des séries
temporelles incertaines parce que la stratégie de comparaison
d’un u-shapelet et d’une série temporelle ignore les
données non pertinentes de la série temporelle et ainsi réduire
les effets négatifs de la présence d’incertitudes dans
celleci. Malgré cet avantage, il est hautement souhaitable de
prendre en compte l’impact négatif de l’incertitude lors de
la découverte des u-shapelets.
1.3</p>
    </sec>
    <sec id="sec-4">
      <title>Incertitude et découverte des u-shapelets</title>
      <p>Les mesures traditionnelles de similarité comme la
distance euclidienne (ED) ou la distorsion temporelle
dynamique (DTW) ne fonctionnent pas toujours bien pour
les séries temporelles incertaines. En effet, ces distances
agrègent l’incertitude de chaque point de la série
temporelle et amplifient ainsi l’impact négatif de l’incertitude.
Cependant, ED joue un rôle fondamental dans la
découverte des u-shapelets, car elle est utilisée pour calculer
l’écart entre deux groupes formé par l’u-shapelet candidat.
La découverte de u-shapelet sur des séries temporelles
incertaines pourrait donc conduire à la sélection d’un
mauvais candidat u-shapelet ou à l’assignation d’une série
temporelle au mauvais groupe.</p>
      <p>Dans cette étude, notre but n’est pas de définir un
algorithme pour la découverte d’u-shapelets incertains, mais
plutôt d’utiliser une fonction de dissimilarité robuste à
l’incertitude pour améliorer la qualité des u-shapelets
découverts et donc la qualité de clustering des séries temporelles
incertaines.
1.4</p>
      <p>Contributions
— Nous faisons un état de l’art sur les mesures de
dissimilarité incertaines et nous les évaluation leur
pertinence pour la comparaison de séries
temporelles incertaines de petite taille.
— Nous introduisons une fonction de dissimilarité
nommée correlation frobenius pour découverte
d’ushapelets sur les séries temporelles incertaines
(FOTS) ;qui posséde des propriétés intéressantes
pour la comparaison de séries temporelles
incertaines de petite taille et ne fait aucune hypothèse
sur la distribution de probabilité de l’incertitude.
— Nous mettons le code source à la disposition de la
communauté scientifique pour permettre une
extension de ce travail.</p>
      <sec id="sec-4-1">
        <title>Définitions et travaux connexes</title>
      </sec>
    </sec>
    <sec id="sec-5">
      <title>Définitions</title>
      <p>Une série temporelle incertaine (UTS) X =&lt;
X1; : : : ; Xn &gt; est une séquence de variable aléatoire
où Xi est une variable aléatoire modélisant une valeur
réelle inconnue à l’instant i. Deux modèles sont
principalement utilisés pour représenter les séries temporelles
incertaines : le modèle ensembliste, et le modèle basé sur
la fonction de densité de probabilité de l’incertitude.</p>
      <p>Dans le modèle ensembliste, chaque élément Xi(1
i n) de l’UTS X =&lt; X1; : : : ; Xn &gt; est représenté par
un ensemble fXi;1; : : : ; Xi;Ni g de valeurs observées et Ni
représente le nombre d’observation à l’instant i.</p>
      <p>Dans le modèle basé sur la distribution de probabilité,
chaque élément Xi; (1 i n) de l’UTS X =&lt;
X1; : : : ; Xn &gt; est représenté par une variable aléatoire
Xi = xi + Xei , où xi est la valeur exacte qui est
inconnue, et Xei est une variable aléatoire représentant l’erreur.
C’est ce modèle que nous considérons tout au long de notre
travail.</p>
      <p>
        Plusieurs mesures de similarité ont été proposées pour les
séries temporelles incertaines. Elles peuvent être
regroupées en deux catégories principales : les mesures de
similarité traditionnelles et les mesures de similarité incertaines.
— les mesures de similarité traditionnelles telle que
la distance euclidienne sont celles
conventionnellement utilisées avec les séries temporelles. Elles
utilisent une seul valeur incertaine à chaque instant
comme approximation de la valeur réelle inconnue.
— les mesures de similarité incertaines utilisent des
informations statistiques additionnelles qui
mesurent l’incertitude associée à chaque
approximation de la valeur réelle. C’est le cas notamment de
DUST, PROUD, MUNICH [
        <xref ref-type="bibr" rid="ref9">11</xref>
        ]. [
        <xref ref-type="bibr" rid="ref10">12</xref>
        ] démontre que
les performances des mesures de similarité
incertaines associées au pré-traitement sont meilleures
que les performances des mesures de similarité
traditionnelles sur des jeux de données contenant de
l’incertitude.
2.2
État de l’art sur les mesures de similarité
incertaines
Les mesures de similarité incertaines peuvent être
regroupées en deux grandes catégories : les mesures de similarité
déterministes et les mesures de similarité probabilistes.
      </p>
      <sec id="sec-5-1">
        <title>Mesure de similarité déterministe. Tout comme les me</title>
        <p>
          sures de similarité traditionnelles, les mesures de similarité
déterministes renvoient un nombre réel représentant la
distance entre deux séries temporelles incertaines. DUST est
un exemple de mesure déterministe de similarité.
DUST [
          <xref ref-type="bibr" rid="ref11">13</xref>
          ] Etant donné deux séries temporelles
incertaines X =&lt; X1; : : : ; Xn &gt; et Y =&lt; Y1; : : : ; Yn &gt;,
la distance entre deux valeurs Xi, Yi est définie comme
étant la distance entre leurs valeurs réelles inconnues r(Xi),
r(Yi) : dist(Xi; Yi) = jr(Xi) r(Yi)j. Cette distance est
utilisée pour mesurer la similarité de deux valeurs
incertaines.
'(jXi Yij) est la probabilité que les valeurs réelles à
l’instant i soient égales, connaissant les valeurs réelles à
l’instant i.
        </p>
        <p>'(jXi</p>
        <p>Yij) = P r(dist(0; jXi</p>
        <p>Yij) = 0):
(2)
cette fonction de similarité est par la suite utilisée par la
fonction de dissimilarité dust :
dust(Xi; Yi) = p
log('(jXi</p>
        <p>Yij)) + log('(0)): (3)
La distance entre les séries temporelles incertaines X =&lt;
X1; : : : ; Xn &gt; et Y =&lt; Y1; : : : ; Yn &gt; calculée à partir de
DU ST est alors définie comme suit :</p>
        <p>vu n
DU ST (X; Y ) = tuX dust(Xi; Yi)2 :
i=1
(4)
Le problème avec les distances déterministes incertaines
comme DU ST est que leur expression varie en fonction
de la distribution de probabilité de l’incertitude, et la
distribution de probabilité de l’incertitude n’est pas toujours
disponible pour les jeux de données de séries temporelles.</p>
      </sec>
      <sec id="sec-5-2">
        <title>Mesure de similarité probabiliste. Les mesures des si</title>
        <p>milarités probabilistes n’exigent pas la connaissance de la
distribution des probabilités d’incertitude. De plus, elles
fournissent aux utilisateurs plus d’informations sur la
fiabilité du résultat. Il existe plusieurs fonctions de
similarité probabiliste, comme MUNICH, PROUD, PROUDS ou
Corrélation Locale.</p>
        <p>
          MUNICH [
          <xref ref-type="bibr" rid="ref12">14</xref>
          ]. Cette fonction de distance convient aux
séries temporelles incertaines représentées par le modèle
ensembliste. La probabilité que la distance entre deux
séries temporelles incertaines X et Y soit inférieure à un seuil
" est égale au nombre de distances entre X et Y, qui sont
inférieures à ", sur le nombre possible de distances :
P r(distance(X; Y ))
" = jfd 2 dists(X; Y )jd
jdists(X; Y )j
"gj (5)
Le calcul de cette fonction de distance est très couteuse en
temps.
        </p>
        <p>
          PROUD [
          <xref ref-type="bibr" rid="ref13">15</xref>
          ] Soient X =&lt; X1; :::; Xn &gt; et Y =&lt;
Y1; :::; Yn &gt; deux UTS modélisées par des séquences de
variables aléatoires, la distance PROUD entre X et Y est
n
d(X; Y ) = P (Xi Yi)2: D’après le théorème central
lii=1
mite [
          <xref ref-type="bibr" rid="ref14">16</xref>
          ], la distribution cumulée approche
asymptotiquement une loi normale
d(X; Y ) / N (XE[(Xi
i
        </p>
        <p>Yi)2]; XV ar[(Xi
i
Une conséquence de cette caractéristique de la distance
PROUD est que le tableau de la loi réduite centrée normale
peut être utilisé pour calculer la probabilité que la distance
PROUD normalisée soit inférieure à un seuil :</p>
        <p>P r(d(X; Y )norm
):
(7)
Un inconvénient majeur de PROUD est son inadéquation
pour la comparaison de séries temporelles de petites
longueurs comme les u-shapelets. En effet, le calcul de la
probabilité que la distance PROUD soit inférieure à une valeur
est basé sur l’hypothèse qu’elle suit asymptotiquement
une distribution normale. Ainsi, cette probabilité sera
d’autant plus précise que les séries temporelles comparées sont
longues (plus de 30 points de données).</p>
        <p>
          PROUDS [
          <xref ref-type="bibr" rid="ref10">12</xref>
          ] est une version amélioré de PROUD qui
suppose que les variables aléatoires qui constituent la
série temporelle sont indépendantes et identiquement
distribuées.
        </p>
        <p>Definition 5 La forme normalisée d’une série
temporelle X =&lt; X1; : : : ; Xn &gt; est définie par X^ =&lt;
X^1; : : : ; X^n &gt; tel que à chaque instant i (1 i n),
nous avons :
X^i =</p>
        <p>Xi</p>
        <p>SX</p>
        <p>X ; X =Xn
i=1</p>
        <p>vu n
Xi ; SX = tuX (Xi
n (n
i=1</p>
        <p>X)2
1)
: (8)
PROUDS définit la distance entre deux séries temporelles
normalisées X^ =&lt; X^1:::X^n &gt; and Y^ =&lt; Y^1:::Y^n &gt;
(Définition 5) comme suit :</p>
        <p>Eucl(X^ ; Y^ ) = 2(n
n
1) + 2 X</p>
        <p>X^iY^i
i=1
(9)
Pour les mêmes raisons que PROUD, PROUDS ne
conviennent pas à la comparaison de séries temporelles
courtes. Un autre inconvénient de PROUDS est qu’il
suppose que les variables aléatoires sont indépendantes : cette
hypothèse est forte et particulièrement inappropriée pour
des séries temporelles courtes comme les u-shapelets. Une
hypothèse plus réaliste avec les séries temporelles serait de
considérer que les variables aléatoires constituant les
séries temporelles sont M-dépendantes. Les variables
aléatoires d’une série temporelle sont dites M-dépendantes si
Xi; Xi+1; :::; Xi+M sont dépendantes (corrélées) et les
variables Xi et Xi+M+1 sont indépendantes. Cependant,
supposer que les variables aléatoires sont M-dépendantes
complexifie l’écriture de PROUDS et rend son utilisation plus
difficile car elle requiert dès lors d’affecter une valeur au
paramètre M.</p>
        <p>
          Corrélation incertaine [
          <xref ref-type="bibr" rid="ref5">7</xref>
          ] : Les techniques d’analyse de
corrélation sont utiles pour la sélection de caractéristiques
dans des séries temporelles incertaines. Ces informations
permettent d’identifier les éléments redondants. La même
stratégie peut être utile pour la découverte de u-shapelet.
La corrélation incertaine est définie comme suit :
Definition 6 (Correlation sur les séries temporelles
incertaines) Etant données deux UTS X =&lt; X1; : : : ; Xn &gt; et
Y =&lt; Y1; : : : ; Yn &gt;, leur correlation est définie par
n
Corr(X; Y ) =X
        </p>
        <p>X^iY^i=(n</p>
        <p>1);
i=1
(10)
Où X^i et Y^i sont les formes normales de Xi et Yi
(Définition 5) respectivement. Xi et Yi sont des variables
aléatoires indépendantes et continues.</p>
        <p>Si nous connaissons la distribution de probabilité des
variables aléatoires, il est possible de déterminer la fonction
de densité de probabilité associée à la corrélation, qui
servira par la suite à calculer la probabilité que la
corrélation entre deux séries temporelles soit supérieure à un seuil
donné. La corrélation incertaine a cependant quelques
inconvénients :
— Il est trop sensible aux changements transitoires, ce
qui conduit souvent à des scores très fluctuants ;
— Il ne peut pas capturer les relations complexes dans
les séries temporelles ;
— Il faut connaître la fonction de distribution de
probabilité de l’incertitude ou faire une hypothèse sur
l’indépendance des variables aléatoires contenues
dans les séries temporelles.</p>
        <p>En raison de tous ces inconvénients, la corrélation
incertaine ne peut pas être utilisée en l’état pour la découverte
d’u-shapelet. Le paragraphe suivant présente une
généralisation du coefficient de corrélation qui n’est pas une
fonction de similarité incertaine mais qui reste intéressante pour
la découverte des u-shapelets.</p>
        <p>
          Corrélation locale [
          <xref ref-type="bibr" rid="ref15">17</xref>
          ] : La corrélation locale est une
généralisation de la corrélation. Elle calcule un score de
corrélation évolutif dans le temps qui suit une similarité
locale sur des séries temporelles multivariées basées sur
une matrice d’auto-corrélation locale. La matrice
d’autocorrélation permet de capturer des relations complexes
dans des séries temporelles comme l’oscillation clé (par
exemple, sinusoïdale) ainsi que les tendances apériodiques
(par exemple, à la hausse ou à la baisse) qui sont présentes.
L’utilisation de matrices d’auto-corrélation qui sont
calculées sur la base de fenêtres se chevauchant permet de
réduire la sensibilité aux changements transitoires dans
les séries temporelles.
        </p>
        <p>Definition 7 (Auto-covariance, fenêtre glissante) Étant
donnée une série temporelle X, un ensemble de fenêtre
glissante w, l’estimateur de la matrice d’autocorrelation
locale ^t utilisant une fenêtre glissante est définie à
l’instant t 2 N tel que (Eq.11) :</p>
        <p>t</p>
        <p>X
=t m+1
^t(X; w; m) =
x ;w
x ;w:
(11)
Où x ;! est une sous-séquence de la série temporelle de
longueur w et commençant à , x y = xyT est le produit
extérieur de x et y. L’ensemble d’échantillons de m fenêtres
est centré autour du temps t. Nous fixons généralement le
nombre de fenêtres à m = w.
Étant donnée les estimations ^t(X) et ^t(Y ) pour les
deux séries temporelles, la prochaine étape est de savoir
comment les comparer et extraire un score de corrélation.
Cet objectif est atteint en utilisant la décomposition
spectrale ; les vecteurs propres des matrices d’auto-corrélations
capturent les principales tendances apériodiques et
oscillatoires, même sur des séries temporelles courtes. Ainsi, les
sous-espaces couverts par les premiers (k) vecteurs propres
sont utilisés pour caractériser localement le comportement
de chaque série. La définition 8 formalise cette notion :
Definition 8 (LoCo score) Étant donnée deux séries
temporelles X et Y leur score LoCo est défini par</p>
        <p>1
`t(X; Y ) = 2 (kU TX uY k + kU YT uX k)
(12)
Où U X et U Y sont les k premiers vecteurs propres des
matrices d’auto-corrélation locales ^t(X) et ^t(Y )
respectivement, et uX et uY sont les vecteurs propres ayant la plus
large valeur propre.</p>
        <p>Intuitivement, deux séries temporelles X et Y seront
considérées comme étant proches lorsque l’angle formé par
l’espace portant les informations de la série temporelle X et de
la série temporelle Y est nul. En d’autres termes, X et Y
seront proches lorsque la valeur de cos( ) sera 1. La seule
l’hypothèse faite pour le calcul de la similitude LoCo est
que la moyenne des points de la série temporelle est nulle.
Cette hypothèse peut facilement être vérifiée, il suffit pour
cela de normaliser les séries temporelles en cours de
comparaison. La fonction de similarité LoCo a de nombreuses
propriétés intéressantes et ne nécessite pas :
— de connaître la distribution de probabilité de
l’incertitude,
— de supposer l’indépendance des variables aléatoires
ou de faire une hypothèse sur la longueur de
l’ushapelet.</p>
        <p>Elle est donc intéressante pour la découverte de motifs,
mais nous avons encore besoin d’une dissimilarité pour
pouvoir découvrir des u-shapelets. Dans le paragraphe
suivant, nous allons définir une fonction de dissimilarité qui
a les mêmes propriétés que LoCo et c’est-à-dire, qui est
robuste à la présence d’incertitude.
3
3.1</p>
        <sec id="sec-5-2-1">
          <title>Notre approche</title>
        </sec>
      </sec>
    </sec>
    <sec id="sec-6">
      <title>Fonction de dissimilarité</title>
      <p>La fonction de similarité LoCo définie sur deux séries
temporelles multivariées X et Y correspond
approximativement à la valeur absolue du cosinus de l’angle formé par
les espaces propres de X et Y (jcos( )j). Une idée simple
serait d’utiliser la valeur sin( ) ou comme fonction de
dissimilarité mais cette approche ne fonctionne pas si bien ;
le sinus et l’angle ne sont pas assez discriminants pour la
comparaison de vecteurs propres à des fins de clustering.
Nous proposons donc la mesure de dissimilarité suivante
(Définition. 9).</p>
      <p>Definition 9 (FOTS : Frobenius cOrrelation for uncertain
Time series u-Shapelet discovery)
Étant données deux séries X et Y , leur score FOTS est
défini par
vu m k
UY kF = tuXX (UX
i=1 j=1
F OT S(X; Y ) = kUX
où kkF est la norme de Frobenius, m est la longueur de la
série temporelle et k est le nombre de vecteurs propres.
Comme le calcul FOTS est basé sur la comparaison des
k-premiers vecteurs propres des matrices d’autocorrélation
de la série temporelle, il a les mêmes propriétés
souhaitables de la fonction de similarité LoCo, c’est-à-dire :
— Il permet de capturer des relations complexes
dans des séries temporelles comme les tendances
oscillatoires clés (par exemple, sinusoïdales) ainsi
que les tendances apériodiques (par exemple, à la
hausse ou à la baisse) qui sont présentes ;
— Il permet de réduire la sensibilité aux
changements transitoires dans les séries temporelles ;
— Il est approprié pour le comparison de séries
temporelles courtes.</p>
      <p>
        De plus, la fonction de dissimilarité FOTS est robust à
la présence d’incertitude due à la décomposition
spectrale des matrices d’autocorrélation des séries temporelles.
La robustesse du FOTS à l’incertitude est confirmée par le
théorème suivant :
Théorème 1 (HoffmanWielandt) [
        <xref ref-type="bibr" rid="ref16">18</xref>
        ] Si X et X +E sont
matrices n n symétriques, alors :
n
X ( i(X + E)
i=1
i(X))2
où i(X) est la plus grande valeur propre de X, et
jjjEjEjjFF 2. est le carré de la norme Frobenius de E.
La section suivante explique comment le FOTS est intégré
dans l’algorithme de découverte d’u-shapelets.
3.2
      </p>
    </sec>
    <sec id="sec-7">
      <title>Algorithme des u-shapelets avec score</title>
    </sec>
    <sec id="sec-8">
      <title>FOTS</title>
      <p>Dans cette section, nous ne définissons pas un nouvel
algorithme SUShapelet, mais nous expliquons comment
nous utilisons l’algorithme SUShapelet avec le score FOTS
(FOTS-SUSh) pour faire face à l’incertitude.</p>
      <p>Le gap est un critère essentiel pour la sélection des
ushapelets. Il est sujet à l’incertitude parce que son calcul
est basé sur la distance euclidienne. Pour y remédier, nous
proposons d’utiliser le score de FOTS au lieu d’une simple
distance euclidienne lors du calcul du gap. L’algorithme 1
explique comment calculer l’orderline en utilisant le score
de FOTS. L’algorithme 2 calcul l’orderline et trie les
série temporelles en fonction de leur proximité au u-shapelet
candidat (ligne 2 et 3). Un u-shapelet est considéré comme
étant présent dans une série temporelle si sa distance à la
série temporelle est inférieure ou égale à un seuil. Ainsi,
l’algorithme de sélection de seuil construit un cluster DA
UY )i2j (13) dont la taille varie entre lb et ub (ligne 5). L’algorithme
cherche alors parmi les seuils sélectionnés celui ayant un
gap maximal (ligne 6 et 11).</p>
      <p>Definition 10 La fonction de dissimilarité sdf (S; T )
entre une série temporelle T et une sous-séquence S est
le minimum des valeurs du score de FOTS entre la
sousséquence S et toutes les sous-séquences possible de T de
longueur égales à S.</p>
      <p>Algorithme 1 : ComputeOrderline
Input : u-shapeletCandidate : s,
Jeu de données : D
Output : Distance entre l’u-shapelet candidat et toutes</p>
      <p>les séries temporelles du jeu de données
1 function ComputeOrderline(s; D)
2 dis fg s zN orm(s)
3 forall i 2 f1; 2; : : : ; jDjg do
4 ts D(i; :)
5 dis(i) sdf (s; ts)
6
return dis=jsj</p>
      <sec id="sec-8-1">
        <title>Algorithme 2 : ComputeGap</title>
        <p>Input : u-shapeletCandidate : s,
Jeu de données : D,
lb, ub : lower/upper bound : nombre minimum et
maximum de séries temporelles par groupe
Output : gap : distance entre deux groupes
1 function ComputeGap(s; D; lb; ub)
2 dis ComputeOrderline(s; D)
3 dis sort(dis) gap 0
4 for i lb to ub do
5 DA dis dis(i), DB
6 mA mean(DA), mB
7 sA std(DA), sB
8 currGap mB sB
9 if currGap &gt; gap then
10 gap currGap
dis &gt; dis(i)
mean(DB)
std(DB)
(mA + sA)
11</p>
        <p>return gap
4
4.1</p>
        <sec id="sec-8-1-1">
          <title>Evaluation expérimentale</title>
        </sec>
      </sec>
    </sec>
    <sec id="sec-9">
      <title>Classification non supervisée avec les ushapelets</title>
      <p>Il existe de nombreuses façons de regrouper les séries
temporelles décrites par des u-shapelets. Dans cette
expérience, l’algorithme divise itérativement le jeu de données
à partir de chaque u-shapelet découvert : chaque u-shapelet
divise l’ensemble de données en deux groupes DA et DB.
Les séries temporelles qui appartiennent à DA sont celles
contenant le u-shapelet et sont ensuite supprimées du jeu
de données. Une nouvelle recherche de u-shapelet se
poursuit avec le reste des données jusqu’à ce qu’il n’y ait plus
de séries temporelles dans le jeu de données ou jusqu’à
ce que l’algorithme ne soit plus capable de trouver
d’ushapelet. En guise de critère d’arrêt, nous considérons la
baisse du gap. L’algorithme s’arrête lorsque le gap de
l’ushapelet nouvellement trouvé devient la moitié du gap du
premier u-shapelet découvert. Cette approche est une mise
en oeuvre directe de la définition d’u-shapelet.</p>
      <p>Choisir la longueur N des u-shapelet : Le choix de
la longueur de l’u-shapelet est guidé par la connaissance
du domaine d’application duquel provient les séries
temporelles. Dans le cadre de ces expériences, nous avons testé
tous les nombres entre 4 et la moitié de la longueur des
séries temporelles. Nous considérons comme longueur de
l’u-shapelet celle permettant de mieux regrouper les séries
temporelles.</p>
      <sec id="sec-9-1">
        <title>Choisir la longueur w de la fenêtre : L’utilisation de</title>
        <p>fenêtres qui se chevauchent pour le calcul de la matrice
d’auto-corrélation permet de capturer les oscillations
présentes dans la série temporelle. Au cours de ces
expériences, nous considérons que la taille de la fenêtre est
égale à la moitié de la longueur de la forme en U.
Choisir le nombre k de vecteurs propres : Un choix
pratique est de fixer k à une petite valeur ; nous utilisons
k = 4 tout au long de ces expériences. En effet, les
tendances apériodiques clés sont capturées par un seul
vecteurs propres, tandis que les principales tendances
oscillatoires se manifestent dans une paire de vecteurs propres.
5</p>
        <sec id="sec-9-1-1">
          <title>Métriques d’évalutation</title>
          <p>
            Différentes mesures de la qualité de classification non
supervisée de séries temporelles ont été proposées,
notamment le score Jaccard, l’indice Rand, l’indice Folkes et
l’indice Mallow, etc. Cependant, dans notre cas, nous avons
des étiquettes de classe pour les jeux de données, nous
pouvons donc utiliser cette information externe pour
évaluer la véritable qualité de la classification non supervisée
en utilisant l’indice Rand. De plus, l’indice Rand semble
être la mesure de la qualité des groupes couramment
utilisée [
            <xref ref-type="bibr" rid="ref6 ref7 ref8">8–10</xref>
            ].
5.1
          </p>
        </sec>
      </sec>
    </sec>
    <sec id="sec-10">
      <title>Comparaison avec u-shapelet</title>
      <p>
        De même que [
        <xref ref-type="bibr" rid="ref9">11</xref>
        ], nous avons testé notre méthode sur
17 jeux de données du monde réel provenant des archives
UCR [
        <xref ref-type="bibr" rid="ref17">19</xref>
        ] représentant un large éventail de domaines
d’application. Les ensembles de d’apprentissage et de test ont
été réunis pour obtenir des jeux de données plus
importants. Le tableau 1 présente des informations détaillées sur
les ensembles de données testés.
      </p>
      <p>
        Data-set
50words
Adiac
Beef
Car
CBF
Coffee
ECG200
FaceFour
FISH
Gun_Point
Lighting2
Lighting7
OliveOil
OSULeaf
SwedishLeaf
synthetic_control
FaceAll
k-Shape et USLM sont deux algorithmes de clustering
basés sur les u-shapelets pour les séries temporelles
présentées dans [
        <xref ref-type="bibr" rid="ref8">10</xref>
        ]. Dans cette section, nous comparons l’indice
Rand index obtenu par FOTS-UShapelet et celui obtenu par
TABLE 2 – Comparison du Rand Index de SUSH (RI_SUSh) et
de FOTS-SUSh (RI_FOTS). Le meilleur Rand Index est en gras
k-Shape et USLM sur 5 jeux de données 1 (Tableau 3). Les
résultats de k-Shape et USLM ont été précédemment
rapportés dans [
        <xref ref-type="bibr" rid="ref8">10</xref>
        ]. Cette comparaison montre qu’en général,
FOTS-UShapelet donne de meilleurs résultats que k-Shape
et USLM.
      </p>
      <p>TABLE 3 – Comparison entre k-Shape, USLM et
FOTSUShapelet
k-Shape</p>
      <p>USLM</p>
      <p>FOTS-UShapelet
5.3</p>
    </sec>
    <sec id="sec-11">
      <title>Discussion</title>
      <p>
        L’utilisation du score FOTS associé à l’algorithme de
SUShapelet fait qu’il est possible de découvrir d’autres
ushapelets que ceux trouvés par la distance Euclidienne.
Le FOTS-SUSh améliore les résultats de la classification
des séries temporelles parce que le score FOTS prend en
compte les propriétés intrinsèques de la série temporelle et
est robuste à la présence d’incertitude. Cette amélioration
est particulièrement significative lorsque le score FOTS est
utilisé pour la classification non supervisée de séries
temporelles contenant plusieurs petites oscillations. En effet,
ces oscillations ne sont pas capturées par la distance
euclidienne mais par le score FOTS dont le calcul est basé sur
1. Nous considérons 5 jeux de données car se sont les jeux de données
pour lesquels nous avons les résultats des algorithmes k-shape et USLM.
la matrice d’autocorrélation. Cette observation est illustrée
par le résultat obtenu sur jeu de données SwedishLeaf.
Analyse de la complexité en temps. ED peut être
calculé en O(n) et le score FOTS est calculé en O(n!);
! ! 3 en raison de la complexité temporelle des
décompositions des vecteurs propres [
        <xref ref-type="bibr" rid="ref18">20</xref>
        ]. Le calcul du
score FOTS est alors plus coûteux que celui de ED.
Cependant, son utilisation reste pertinente pour la recherche
d’ u-shapelets, car ils sont souvent de petite taille.
6
      </p>
      <sec id="sec-11-1">
        <title>Conclusion et perspective</title>
        <p>Le but de ce travail était de découvrir des u-shapelets
sur des séries temporelles incertaines. Pour répondre à
cette question, nous avons proposé un score de
dissimilarité (FOTS) adapté à la comparaison de séries temporelles
courtes, dont le calcul est basé sur la comparaison du
vecteurs propres des matrices d’autocorrélation des séries
temporelles. Ce score est robuste à la présence d’incertitude, il
n’est pas très sensible aux changements transitoires, et il
permet de capturer des relations complexes entre des
séries temporelles telles que les oscillations et les tendances.
Le score FOTS a été utilisé avec l’algorithme Scalable
Unsupervised Shapelet Discovery pour la classification non
supervisée de 17 jeux de données de la littérature et a
montré une amélioration de la qualité du regroupement évalué
à l’aide de l’indice Rand. En combinant les avantages de
l’algorithme des u-shapelets, qui réduit les effets néfastes
de l’incertitude, et les avantages du score FOTS, qui est
robuste à la présence de l’incertitude, ce travail définit un
cadre original pour la classification non supervisée de
séries temporelles incertaines. Dans la perspective de ce
travail, nous prévoyons d’utiliser le score FOTS pour la
classification non supervisée floue de séries temporelles
incertaines.</p>
      </sec>
      <sec id="sec-11-2">
        <title>Remerciements</title>
        <p>Nous remercions cordialement le Ministère Français de
l’enseignement supérieur et de la recherche qui a financé
ce travail et nous remercions les reviewers pour leurs
commentaires et leurs suggestions qui ont aidé à améliorer la
qualité de ce travail.</p>
      </sec>
      <sec id="sec-11-3">
        <title>Références</title>
        <p>[1] G. B. Folland and A. Sitaram, “The uncertainty
principle : a mathematical survey,” Journal of Fourier
analysis and applications, vol. 3, no. 3, pp. 207–238,
1997.
[2] N. B. Rizvandi, J. Taheri, R. Moraveji, and A. Y.</p>
        <p>Zomaya, “A study on using uncertain time series
matching algorithms for MapReduce applications,”
Concurrency and Computation : Practice and
Experience, vol. 25, no. 12, pp. 1699–1718, aug 2013.
[3] J. Hwang, Y. Kozawa, T. Amagasa, and H.
Kitagawa, “GPU Acceleration of Similarity Search for
Uncertain Time Series,” in 2014 17th International</p>
      </sec>
    </sec>
  </body>
  <back>
    <ref-list>
      <ref id="ref1">
        <mixed-citation>
          <string-name>
            <surname>IEEE</surname>
          </string-name>
          , sep
          <year>2014</year>
          , pp.
          <fpage>627</fpage>
          -
          <lpage>632</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref2">
        <mixed-citation>
          [4]
          <string-name>
            <given-names>K.</given-names>
            <surname>Rehfeld</surname>
          </string-name>
          and
          <string-name>
            <given-names>J.</given-names>
            <surname>Kurths</surname>
          </string-name>
          , “
          <article-title>Similarity estimators for irregular and age-uncertain time series,” Climate of the Past</article-title>
          , vol.
          <volume>10</volume>
          , no.
          <issue>1</issue>
          , pp.
          <fpage>107</fpage>
          -
          <lpage>122</lpage>
          ,
          <year>2014</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref3">
        <mixed-citation>
          [5]
          <string-name>
            <given-names>M.</given-names>
            <surname>Orang</surname>
          </string-name>
          and
          <string-name>
            <given-names>N.</given-names>
            <surname>Shiri</surname>
          </string-name>
          , “
          <article-title>An experimental evaluation of similarity measures for uncertain time series</article-title>
          ,”
          <source>in Proceedings of the 18th International Database Engineering &amp; Applications Symposium on - IDEAS '14</source>
          . New York, New York, USA : ACM Press,
          <year>2014</year>
          , pp.
          <fpage>261</fpage>
          -
          <lpage>264</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref4">
        <mixed-citation>
          [6]
          <string-name>
            <given-names>W.</given-names>
            <surname>Wang</surname>
          </string-name>
          , G. Liu, and D. Liu, “
          <article-title>Chebyshev Similarity Match between Uncertain Time Series</article-title>
          ,” Mathematical Problems in Engineering, vol.
          <year>2015</year>
          , pp.
          <fpage>1</fpage>
          -
          <lpage>13</lpage>
          ,
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref5">
        <mixed-citation>
          [7]
          <string-name>
            <given-names>M.</given-names>
            <surname>Orang</surname>
          </string-name>
          and
          <string-name>
            <given-names>N.</given-names>
            <surname>Shiri</surname>
          </string-name>
          , “
          <article-title>Correlation analysis techniques for uncertain time series,” Knowledge and Information Systems</article-title>
          , vol.
          <volume>50</volume>
          , no.
          <issue>1</issue>
          , pp.
          <fpage>79</fpage>
          -
          <lpage>116</lpage>
          , jan
          <year>2017</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref6">
        <mixed-citation>
          [8]
          <string-name>
            <given-names>L.</given-names>
            <surname>Ulanova</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Begum</surname>
          </string-name>
          , and E. Keogh, “
          <article-title>Scalable clustering of time series with u-shapelets,”</article-title>
          <source>in Proceedings of the 2015 SIAM International Conference on Data Mining. SIAM</source>
          ,
          <year>2015</year>
          , pp.
          <fpage>900</fpage>
          -
          <lpage>908</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref7">
        <mixed-citation>
          [9]
          <string-name>
            <given-names>J.</given-names>
            <surname>Zakaria</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Mueen</surname>
          </string-name>
          , and E. Keogh, “
          <article-title>Clustering time series using unsupervised-shapelets,” in Data Mining (ICDM</article-title>
          ),
          <source>2012 IEEE 12th International Conference on. IEEE</source>
          ,
          <year>2012</year>
          , pp.
          <fpage>785</fpage>
          -
          <lpage>794</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref8">
        <mixed-citation>
          [10]
          <string-name>
            <given-names>Q.</given-names>
            <surname>Zhang</surname>
          </string-name>
          , J. Wu,
          <string-name>
            <given-names>H.</given-names>
            <surname>Yang</surname>
          </string-name>
          ,
          <string-name>
            <given-names>Y.</given-names>
            <surname>Tian</surname>
          </string-name>
          , and
          <string-name>
            <given-names>C.</given-names>
            <surname>Zhang</surname>
          </string-name>
          , “
          <article-title>Unsupervised feature learning from time series</article-title>
          .”
          <string-name>
            <surname>in</surname>
            <given-names>IJCAI</given-names>
          </string-name>
          ,
          <year>2016</year>
          , pp.
          <fpage>2322</fpage>
          -
          <lpage>2328</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref9">
        <mixed-citation>
          [11]
          <string-name>
            <given-names>M.</given-names>
            <surname>Dallachiesa</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Nushi</surname>
          </string-name>
          ,
          <string-name>
            <given-names>K.</given-names>
            <surname>Mirylenka</surname>
          </string-name>
          , and T. Palpanas, “
          <article-title>Uncertain time-series similarity : return to the basics</article-title>
          ,
          <source>” Proceedings of the VLDB Endowment</source>
          , vol.
          <volume>5</volume>
          , no.
          <issue>11</issue>
          , pp.
          <fpage>1662</fpage>
          -
          <lpage>1673</lpage>
          ,
          <year>2012</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref10">
        <mixed-citation>
          [12]
          <string-name>
            <given-names>M.</given-names>
            <surname>Orang</surname>
          </string-name>
          and
          <string-name>
            <given-names>N.</given-names>
            <surname>Shiri</surname>
          </string-name>
          , “
          <article-title>Improving performance of similarity measures for uncertain time series using preprocessing techniques,”</article-title>
          <source>in Proceedings of the 27th International Conference on Scientific and Statistical Database</source>
          Management - SSDBM '
          <fpage>15</fpage>
          . New York, New York, USA : ACM Press,
          <year>2015</year>
          , pp.
          <fpage>1</fpage>
          -
          <lpage>12</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref11">
        <mixed-citation>
          [13]
          <string-name>
            <given-names>K.</given-names>
            <surname>Murthy</surname>
          </string-name>
          and
          <string-name>
            <given-names>S. R.</given-names>
            <surname>Sarangi</surname>
          </string-name>
          , “
          <article-title>Generalized notion of similarities between uncertain time series</article-title>
          ,
          <source>” Mar. 26</source>
          <year>2013</year>
          , uS
          <issue>Patent 8</issue>
          ,
          <issue>407</issue>
          ,
          <fpage>221</fpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref12">
        <mixed-citation>
          [14]
          <string-name>
            <given-names>J.</given-names>
            <surname>Aßfalg</surname>
          </string-name>
          ,
          <string-name>
            <given-names>H.-P.</given-names>
            <surname>Kriegel</surname>
          </string-name>
          ,
          <string-name>
            <given-names>P.</given-names>
            <surname>Kröger</surname>
          </string-name>
          , and
          <string-name>
            <given-names>M.</given-names>
            <surname>Renz</surname>
          </string-name>
          , “
          <article-title>Probabilistic similarity search for uncertain time series</article-title>
          .” in SSDBM. Springer,
          <year>2009</year>
          , pp.
          <fpage>435</fpage>
          -
          <lpage>443</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref13">
        <mixed-citation>
          [15]
          <string-name>
            <surname>M.-Y. Yeh</surname>
          </string-name>
          ,
          <string-name>
            <surname>K.-L. Wu</surname>
            ,
            <given-names>P. S.</given-names>
          </string-name>
          <string-name>
            <surname>Yu</surname>
          </string-name>
          , and M.-S. Chen, “
          <article-title>Proud : a probabilistic approach to processing similarity queries over uncertain data streams,”</article-title>
          <source>in Proceedings of the 12th International Conference on Extending Database Technology : Advances in Database Technology. ACM</source>
          ,
          <year>2009</year>
          , pp.
          <fpage>684</fpage>
          -
          <lpage>695</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref14">
        <mixed-citation>
          [16]
          <string-name>
            <given-names>J.</given-names>
            <surname>Hoffmann-Jørgensen</surname>
          </string-name>
          and G. Pisier, “
          <article-title>The law of large numbers and the central limit theorem in banach spaces,”</article-title>
          <source>The Annals of Probability</source>
          , pp.
          <fpage>587</fpage>
          -
          <lpage>599</lpage>
          ,
          <year>1976</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref15">
        <mixed-citation>
          [17]
          <string-name>
            <given-names>S.</given-names>
            <surname>Papadimitriou</surname>
          </string-name>
          ,
          <string-name>
            <given-names>J.</given-names>
            <surname>Sun</surname>
          </string-name>
          , and
          <string-name>
            <given-names>S. Y.</given-names>
            <surname>Philip</surname>
          </string-name>
          , “
          <article-title>Local correlation tracking in time series</article-title>
          ,” in Data Mining,
          <year>2006</year>
          . ICDM'
          <fpage>06</fpage>
          . Sixth International Conference on. IEEE,
          <year>2006</year>
          , pp.
          <fpage>456</fpage>
          -
          <lpage>465</lpage>
          .
        </mixed-citation>
      </ref>
      <ref id="ref16">
        <mixed-citation>
          [18]
          <string-name>
            <given-names>R.</given-names>
            <surname>Bhatia</surname>
          </string-name>
          and
          <string-name>
            <given-names>T.</given-names>
            <surname>Bhattacharyya</surname>
          </string-name>
          , “
          <article-title>A generalization of the Hoffman-Wielandt theorem</article-title>
          ,”
          <source>Linear Algebra and its Applications</source>
          , vol.
          <volume>179</volume>
          , pp.
          <fpage>11</fpage>
          -
          <lpage>17</lpage>
          , jan
          <year>1993</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref17">
        <mixed-citation>
          [19]
          <string-name>
            <given-names>Y.</given-names>
            <surname>Chen</surname>
          </string-name>
          ,
          <string-name>
            <given-names>E.</given-names>
            <surname>Keogh</surname>
          </string-name>
          ,
          <string-name>
            <given-names>B.</given-names>
            <surname>Hu</surname>
          </string-name>
          ,
          <string-name>
            <given-names>N.</given-names>
            <surname>Begum</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Bagnall</surname>
          </string-name>
          ,
          <string-name>
            <given-names>A.</given-names>
            <surname>Mueen</surname>
          </string-name>
          , and G. Batista, “
          <article-title>The ucr time series classification archive</article-title>
          ,
          <source>” July</source>
          <year>2015</year>
          .
        </mixed-citation>
      </ref>
      <ref id="ref18">
        <mixed-citation>
          [20]
          <string-name>
            <given-names>V. Y.</given-names>
            <surname>Pan</surname>
          </string-name>
          and
          <string-name>
            <given-names>Z. Q.</given-names>
            <surname>Chen</surname>
          </string-name>
          , “
          <article-title>The complexity of the matrix eigenproblem,” in Proceedings of the thirtyfirst annual ACM symposium on Theory of computing</article-title>
          .
          <source>ACM</source>
          ,
          <year>1999</year>
          , pp.
          <fpage>507</fpage>
          -
          <lpage>516</lpage>
          .
        </mixed-citation>
      </ref>
    </ref-list>
  </back>
</article>