=Paper= {{Paper |id=Vol-547/paper-67 |storemode=property |title=Etude Comparative des Performances de Plusieurs Techniques de Détection de la Fréquence Fondamentale des Signaux Vocaux |pdfUrl=https://ceur-ws.org/Vol-547/7.pdf |volume=Vol-547 |dblpUrl=https://dblp.org/rec/conf/ciia/FaycalAHBB09 }} ==Etude Comparative des Performances de Plusieurs Techniques de Détection de la Fréquence Fondamentale des Signaux Vocaux== https://ceur-ws.org/Vol-547/7.pdf

Etude Comparative des Performances de Plusieurs
Techniques de Détection de la Fréquence Fondamentale
des Signaux Vocaux

F. Ykhlef 1, R. Amiar1, S. Hecini1, W. Benzaba1, L. Bendaouia1
1
Architectures des Systèmes et Multimédia
CDTA, Algérie
{ F. Ykhlef , R. Amiar, S. Hecini, W. Benzaba, L. Bendaouia}
ykhlef_faycal@yahoo.fr

Résumé. L’objectif de cet article est faire une étude comparative des
performances de plusieurs méthodes de base d’extraction de la Fréquence
Fondamentale des signaux vocaux prononcés par des locuteurs de différents
sexes et âges (Femme, Homme et Enfant) en Arabe Standard. Quatre techniques
particulières sont choisies, deux techniques temporelles, la MACC (Modified
Autocorrelation with Center clipping), la C-AMDF (Clipping Average
Magnitude Difference Function), et deux fréquentielles, la CEP (Cepstral
Technic), et l’HPS (Harmonic Product Spectrum). Une représentation détaillée
de ces techniques d’estimations et des méthodes de classifications employées
est donnée dans cet article. L’évaluation des techniques est basée sur le calcul
d’erreurs d’estimations.

Keywords: Fréquence Fondamentale, erreurs d’estimations, Arabe Standard.

1 Introduction

La fréquence la plus basse dans le signal de parole est la fréquence Fondamentale (F0)
dénommé « pitch ». Elle représente la fréquence de vibration des cordes vocales et
caractérise les segments Voisés de la parole à l’intérieur desquels elle évolue
lentement dans le temps. La plage de variation moyenne de cette fréquence varie d'un
locuteur à l'autre en fonction de son âge et de son sexe. Elle s’étend
approximativement de 80 à 200 Hz chez les hommes, de 150 à 450 Hz chez les
femmes, et de 200 à 600 Hz chez les enfants [1].
Au cours des trente dernières années, un certain nombre d'algorithmes d'estimation
de la F0 ont été développés et rapportés. Ceci soulève la question évidente, pourquoi
de nouveaux travaux sont toujours entrains d'être menés dans ce domaine?. Ainsi,
aucun des nombreux algorithmes rapportés ne s'est avéré entièrement satisfaisant. Par
conséquent, les chercheurs continuent à essayer d'obtenir des techniques améliorés
pour l'estimation de la F0. L’évaluation des algorithmes de détection de la F0 est une
opération importante pour les applications relatives au traitement de la parole [2].
On peut citer, l’analyse, la synthèse, le codage, la reconnaissance, la réverbération
et les applications relatives à l’amélioration du confort d’écoute.
De ce fait, l’objective de ce travail est de procéder par une évaluation qualitative
des algorithmes de base d’extraction de la F0. Le choix est porté sur quatre
techniques. Deux temporelles, à savoir, la MACC (Modified Autocorrelation with
Center clipping), la C-AMDF (Clipping Average Magnitude Difference Function) et
deux fréquentielles, la CEP (Cepstral Technic) et l’HPS (Harmonic Product
Spectrum). Les critères d’évaluations sont basés sur le calcul d’erreurs d’estimations
de la F0 grossières et fines [3]. Un paramètre supplémentaire est ajouté au niveau de
cette étude pour déterminer l’exactitude de ces dernières, il est nommé Paramètre
d’Extraction Sans Erreur Commise (PESEC). Il caractérise les capacités théoriques de
ces algorithmes à extraire le Fondamental à une erreur d’estimation exactement nulle.
L’évaluation des techniques de détection nécessite une base de données des sons
spécifique à la langue traitée. Elle doit nécessairement contenir tout les classes des
sons du langage ainsi que les dialectes utilisés [4]. Dans notre cas, on a préféré de se
consacrer aux sons prononcés en Arabe Standard (AS). Du fait qu’il n’existe pas une
base de données fiable pour cette langue, on a constitué un corpus modeste qui
englobe tout les classes sonores de l‘AS prononcés par des locuteurs de différents
âges et sexes.
L’article est structuré en plusieurs parties. La première est réservée à la description
des complexités d’extraction de la F0 d’un signal vocal. La deuxième partie est
consacrée à la présentation des méthodes d’extraction suivie en troisième partie par
une description algorithmique des techniques implémentées. En quatrième partie, on
présente les signaux de tests utilisés ainsi que la F0 de référence. La cinquième partie
traite les paramètres d’erreurs utilisées pour l’évaluation des techniques d’estimation.
La sixième partie est réservée à l’évaluation des performances des techniques par
le calcul d’erreurs d’estimations suivi par une conclusion et des perspectives futures.

2 Complexités de détection de la F0

La complexité d’évaluation du Fondamental est une tâche difficile pour de
nombreuses raisons telles que la non-stationnarité du signal vocal, une certaines
irrégularités dans l’excitation glottique ou encore une interaction avec le premier
formant, la décision du voisement, la distinction entre les segments non voisée et les
segments voisée à énergie réduite, la difficulté inhérente en définissant le début et la
fin exacts de chaque période de F0 durant les segments de la parole Voisée et
dernièrement le doublement de période local [3]. C'est un type d'erreur qui affecte
pratiquement toutes les méthodes d'estimation de la F0.

3 Méthodes de détection de la F0

D’après les travaux de Hess [5], les algorithmes de détection de pitch sont classées en
trois groupes principaux : temporelles, spectrales et Hybrides.
Les méthodes temporelles permettent l’estimation de la F0 avec des calcules très
simples. Elles sont relativement peu couteuses en temps de calcul car elles nécessitent
peu d’opérations arithmétiques de multiplications et d’additions [6]. Toute fois, elles
manquent de précision. De variétés de techniques temporelles sont décrites dans la
littérature. Parmi les techniques de base on peut citer : la Fonction d’AutoCorrélation
(FAC) et ses versions modifiées [6], la Fonction de différence d’AMDF (Average
Magnitude Difference Function) et ses variantes [7], la Fonction de réduction de
donnée, DARD (DAta ReDuction method) [8] et la Fonction du calcul parallèle,
PPROC (Parallel PRoCessing method) [9].
Les méthodes spectrales sont définies comme étant celle qui permet d'obtenir une
F0 en traitant le spectre de la parole directement. Parmi ces techniques, on peut citer :
la technique Cepstrale (CEP) [10], le Produit Harmonique Spectral (HPS), et
l’intercorrélation avec le Peigne Spectrale (PS) [2].
Les méthodes hybrides, visent à combiner différentes approches pour augmenter
les performances globales du système d’extraction. Elles appliquent différents
analyseurs simultanément sur le signal et combinent les différents estimateurs [5].

4 Description des techniques

Dans la plupart des algorithmes d’extraction de la F0, trois phases essentielles durant
le traitement s’implique : le prétraitement, le traitement et le pos traitement.
La phase de prétraitement est réservée à la préparation du signal issue d’un
microphone. Elle consiste à choisir la durée des trames d’analyse et du recouvrement
afin de moins compromettre la condition de stationnarité exigée par les algorithmes
de traitement et l’effet de bord lié aux fenêtres de pondération appliquées.
La durée de la trame est généralement choisie entre 20 et 50ms avec un
recouvrement de 30 à 50%, pour assurer la présence d’au moins une période du
Fondamental [1]. Nous trouvons souvent d’autres techniques permettant d’améliorer
la rapidité d’extraction tel que le filtrage, la décimation et les techniques de
transformation non linéaire dites Clippage. La phase de traitement est réservée à
l’extraction de la F0 et dépend donc de l’algorithme utilisé.
La phase de post traitement à pour but de diminuer les erreurs qui peuvent être de
plusieurs types. Ces erreurs vont être détaillées au cinquième paragraphe. On présente
dans ce paragraphe les techniques choisies pour une éventuelle évaluation des
performances.

4.1 La fonction d'autocorrélation basée sur le clippage central

Elle a été à l’origine proposée par L. Rabiner [3]. L’appellation Anglophone de cette
technique est dite MACC (Modified Autocorrelation with Center Clipping) (Fig.1).
Le processus commence avec un filtre passe-bas, dont le but est d'atténuer
l'influence des fréquences autres que la F0. Le filtre coupe à 900 Hz, du fait qu'une
valeur de pitch est comprise entre 70 et 600 Hz. La deuxième phase de traitement est
la segmentation du signal vocal à des trames de 30 ms pour assurer la stationnarité du
signal. La troisième phase est le calcul du seuil de clippage (CL) pour chaque trame
d’analyse par la recherche les deux pics maximums dans la première (P1) et la
troisième (P3) portion de 10 ms et de prendre le minimum de ces deux valeurs. Ce
minimum est multiplié par la suite avec un niveau de clippage k. C'est un paramètre
très important qu'il faut l’optimiser avec soin. On prend en général des valeurs variant
entre 30% et 80% de l'amplitude de l’échantillon maximal de la trame [11]. La
fonction de clippage qui est implémentée ici, est le clippage central avec compression
[5]:
⎧x (n ) − C L x (n ) ≥ C L
⎪
y(n ) = clc[ x (n )] = ⎨ 0 x (n ) < C L (1)
⎪x (n ) + C x ( n ) ≤ −C L
⎩ L

La quatrième phase de traitement est le calcul de la FAC normalisée et la
recherche du pic maximum (P) et son indice (ind. P) dans la gamme d’existante de la
F0 qui nous permettra par la suite de calculer la valeur du Fondamental.
La dernière phase de cet algorithme consiste à choisir un seuil de décision du
voisement (V0) en fonction du pic calculé. Si le pic maximum de chaque trame
obtenue lors de la phase précédente dépasse le seuil de voisement, la trame est
classifiée comme Voisée, sinon elle est classifies Non-Voisée. Dans le cas du silence,
la détection se fait grâce à l'énergie à courte terme suivant un seuil bien défini. Si la
valeur de l'énergie dans chaque trame ne dépasse pas ce seuil, la trame est considérée
comme silence [3].

Début: 0ms

Pic max. P1 CL
Fin: 10ms k*min.(P1,P3)
Début: 20ms

Pic max. P3
Fin : 30ms

Clippage AutoCorrélation
Parole
Clip. fct(CL) FAC
F. P. bas Trames

Début: min T0

ind.P & P Pic max.
900 Hz 30ms Fin: max T0

Non Oui
Détecteur de silence P>V0

Silence Non voisée Voisée Æ Pitch

Fig. 1: Schéma bloc du détecteur de pitch par la MACC
4.2 La fonction d'AMDF basée sur le Clippage

Plusieurs versions d’AMDF existent pour la détection de la F0 [7]. On a limité notre
étude sur la C-AMDF (Clipping -Average Magnitude Diffrence Function). En premier
lieu, le signal vocal est filtré par un filtre passe bas de type Butterworth à une
Fréquence de coupure Fc de 900 kHz. Ensuite, segmenté en trames de 30 ms.
L’opération de clippage consiste à appliquer sur les fenêtres à court termes
résultantes une transformation non linéaire définit par le clippage central donné par
l’équation (1). Un seuil de clippage CL doit être calculé pour chaque trame. Dans
notre application, le seuil de clippage est choisi égal à 30% de l’amplitude du pic
maximal de la trame en cour de traitement. L’AMDF est calculée sur le signal clippé
pour chaque trame d’analyse. La valeur de la F0 est déterminée avec la localisation de
la vallée minimale entre 70 Hz et 600 Hz. En fin, la décision du voisement-silence
s’effectue avec le calcul du Taux de Passage par Zéros (TPZ) et de l’énergie (Fig.2).

F. P. bas Trames
Parole 30% du max.
Clip. fct(CL) AMDF Min. Vallée

Trames 900 Hz 30ms

Calcul d’énergie
Silence-Parole Classification
30ms

Calcul du TPZ
Silence N-Voisée Voisée Pitch
Voisée-Non Voisée

Fig. 2: Schéma bloc proposé du détecteur de pitch par la C-AMDF

4.3 La technique Cepstrale

L’estimation de la période de pitch peut être faite sur le Cepstre réel. La Figure 3
représente la description du détecteur de pitch par la méthode Cepstrale [3]. Chaque
segment de 51.2ms est pondéré par une fenêtre de type hamming.

Parole hamming
Trames
x(n) |X|ejw C(n) Début: min F0
P & ind.P
TFD Log|X| TFD-1 Pic max.
Fin: ind.P
max F0& P P>P0
51.2ms
N-Voisée VoiséeÆ Pitch

Fig. 3: Schéma bloc proposé du détecteur de pitch par la méthode Cepstrale
Le principe de la procédure de calcul de pitch fondé sur le Cepstre est plutôt
simple. On recherche dans le Cepstre un pic dans la région autour de la période du
pitch (P). Si le pic est supérieur à un seuil fixé (P0), le segment de parole en entrée est
probablement Voisé, et la position autour du pic est la zone dans laquelle on peut
estimer le pitch. Si le pic n’est pas supérieur au seuil, il est alors probable que le
segment de parole en entrée est non Voisé [12].

4.4 Le Produit Harmonique Spectral

La méthode HPS, pour Harmonic Product Spectrum (HPS), a été publiée pour la
première fois par R. Noll en 1970 [13]. Cette méthode est basée sur le principe de la
compression des raies spectrales (Fig.4). Pour chaque trame stationnaire du signal
vocal x(n) (d’une durée de 30ms), le logarithme de sa densité spectrale de puissance
est calculé le long de l’axe des fréquences sur des facteurs entiers. La valeur
logarithmique de l’HPS est obtenue par l’addition du spectre original et ses versions
compressées (décimées) [2]:
R

∑ log x(rm)
2
HPS(m) = (2)
r =1

R représente le nombre total des spectres impliqués dans le calcul et X(k) la
Transformée de Fourier Discrète (TFD) de x(n). Pour obtenir le Produit Spectral
d’Harmonique, l’exponentiel de la fonction doit être pris.
Le choix de la constante R joue un rôle principal sur la précision du détecteur. De
nombreux travaux de recherche étaient basés fondamentalement sur un facteur de
décimation R=5. C’est un choix qui offre une meilleure estimation de la F0 pour une
Fréquence d’échantillonnage (Fe) de 16kHz [7,14].

Parole hamming /2
Trames
/3
Log
TFD HPS

30ms

Fig. 4: Schéma bloc du détecteur de pitch par l'HPS

Quand les spectres compressés sont ajoutés, les harmoniques présentes dans le
signal de parole s’ajoutent de manière constructive, puisqu’ils sont multiples de la
F0.Les composantes fréquentielles du bruit et des sons non Voisés, ne montrent pas le
même rapport, par conséquent seront noyées par l’opération de la somme [2]. Pour la
classification des sons, on a suivi la même procédure de la C-AMDF basé sur le TPZ
et l’énergie à court terme de chaque trame.
5 Signaux de tests et F0 de référence

Les signaux de tests utilisés dans notre étude pour l’évaluation des algorithmes de
détection de la F0 sont classifiés en deux groupes : des sons Voisés purs et des sons
mixtes (Voisement et silence). C’est un corpus qui englobe les catégories des sons de
l’AS, à savoir, les voyelles (orales et nasales) et les consonnes (plosives, fricatives,
nasales, liquides, vibrantes, affriquées et semi voyelles) [16]. Pour la première
catégorie, et du fait que le voisement est une caractéristique importante dans les
algorithmes de détection de F0, le choix est porté sur le phonème [a], une voyelle
pure, prononcé par trois locuteurs de différents âges et sexes (masculin âgé de 25ans,
féminin de 20ans et enfantin de 5ans). Les sons sont enregistrés pendant une durée de
2.5 secondes et échantillonnés à une Fe de 16 kHz.
Pour la deuxième catégorie, et afin évaluer les performances des algorithmes à
effectuer des classifications automatiques, on a utilisé deux différentes phrases
prononcées en AS. La première phrase est prononcée par un locuteur masculin, elle
est caractérisée par une durée de 6s. La deuxième phrase est prononcée par un
locuteur féminin et est d’une durée de 9s. Les deux phrases sont échantillonnées à
16kHz. Pour les quatre détecteurs, une optimisation des paramètres de chaque
algorithme par des tests pratiques est faite pour une bonne estimation de la F0.
1. Phrase 1 : « ‫» وهﻲ ﻓﻲ ﻣﻮﻗﻊ ﻋﻨﺪ أﻗﺼﺮ ﻣﺴﺎﻓﺔ ﺑﻴﻦ اﻟﺪﺟﻠﺔ و اﻟﻔﺮات‬
2. Phrase 2 : «‫» واﻟﻌﺎﻣﻴﺔ ﻣﻦ ﻧﺎﺣﻴﺔ أ ﺧﺮى ﻟﻴﺴﺖ واﺣﺪة ﺑﻞ ﻟﻬﺠﺎت ﻣﺘﻌﺪدة‬
Les valeurs de référence de la F0réel dite, Fréquence Fondamentale pour une
analyse standard [3], sont mesurées manuellement pour chaque trame des signaux de
tests choisis. Les zones Non Voisées et silences correspondent à une F0 nulle. D’une
manière globale, on ne peut pas dire qu’on est doté d’une bonne base de données des
sons, mais d’un corpus modeste qui nous a permis de comparer les performances des
techniques choisis sur des sons prononcés en AS. Le corpus est d’une durée limitée du
fait que les valeurs de F0réel sont mesurées manuellement. C'est une opération difficile
mais valable pour bonne évaluation des paramètres d’erreurs. C'est la même approche
utilisée dans [7].

6 Paramètres d’erreurs

Plusieurs paramètres d’erreur d’estimation de la F0 peuvent être employés pour
évaluer la qualité d'un algorithme d'extraction. On s’est limité dans notre étude aux
paramètres principaux. Soit F0reel(m) et F0j(m) respectivement les valeurs réelles
(analyse standard) et estimées de la F0 de chaque signal de test. Soit m l’indice de
trame qui varie selon la taille du signal d’entrée et j un indice qui représente la
technique d’estimation de la F0 variant de 1 à 4, respectivement pour la MACC, C-
AMDF, CEP et HPS. Les paramètres d’erreur sont élaborés suivant quatre
possibilités :
1. F0reel(m) =0 et F0j(m)=0, dans ce cas, l’analyse standard et le jeme détecteur du
pitch classifient la mieme trame Non Voisée. Dans ce cas aucune erreur de calcul ne
résulte.
2. F0reel(m) = 0 et F0j(m) ≠0, l’analyse standard classifie la mieme trame Non Voisée,
par contre le détecteur du pitch la classifie Voisée. Dans ce cas une erreur Non
Voisée-Voisée (NV_V) est apparue. Ce type d’erreur est déterminé par la relation
suivante [15] :
Taille(F0 j ≠ 0 & F0 réel = 0)
NV _ V = (3)
F0 réel = 0
Où « Taille (F0reel=0) » représente le nombre de trames où F0réel est nulle et
« Taille(F0 j ≠ 0 & F0 réel = 0) » représente le nombre de trames où à la fois F0réel est
nulle et F0j est différent de zéro.
3. F0reel(m) ≠0 et F0j (m)=0, l’analyse standard classifie la mieme trame Voisée, par
contre le détecteur du pitch la classifie Non Voisée. Dans ce cas une erreur Voisée-
Non Voisées (V_NV) est apparue. Ce type d’erreur est déterminé par la relation
suivante [15]:
Taille(F0 j = 0 & F0 réel ≠ 0)
V _ NV = (4)
F0 réel ≠ 0
Où «Taille F0 réel ≠ 0 » représente le nombre de trames où F0réel est différent de zéro et
« Taille(F0 j = 0 & F0 réel ≠ 0) » représente le nombre de trames où à la fois F0réel est
différent de zéro et F0j est nulle.
4. F0reel(m)= P1≠ 0 et F0j(m)= P2 ≠0, la mieme trame est classifiée Voisée dans les
deux cas. Trois types d'erreur dépendent des valeurs de P1 et P2. L'erreur du
Voisement e(m) est définit comme suite [3] :
e(m) = P2 − P1 (5)

4.1. Si e(m) ≥ 16 échantillons, (plus de 1ms d’erreur d’estimation de la T0 pour une
Fe de 16kHz) [3,14]. L'erreur d’analyse est considérée comme une erreur grossière.
Pour de tels cas, le détecteur de pitch a nettement échoué en estimant la F0. Les
causes possibles de ces erreurs sont le doublement ou le triplement de la F0 ;
4.2. Si e(m) < 16 échantillons, l'erreur d’analyse est classifiée comme une erreur
fine. Pour de tels cas le détecteur de pitch a estimé la F0 d'une manière suffisamment
exacte ;
4.3. Si e(m) = 0 pas d'erreur d’analyse commise car les deux valeurs P1 et P2 sont
égaux. C'est un cas particulier de 4.2 nommé PESEC (Paramètre d’Extraction Sans
Erreur Commise). Il caractérise un pourcentage dérivé des erreurs fines dont l'erreur
d’estimation est exactement nulle.

7 Performances des algorithmes basées sur la somme des erreurs

D’après les travaux de L. Rabiner [3], l’évaluation globale des performances des
estimateurs s’effectue par une sommation des paramètres d’erreur de la base de
données utilisée. Dans notre étude, la sommation des erreurs est établie pour tous les
sons choisis (Tableau 1).

Tableau 1: Paramètres d'erreurs globales (en pourcentage)

Voix Erreurs MACC CAMDF CEP HPS somme

Fines 80.16 78.22 93.54 42.69 294.61
Phrase 1 Grossières 19.84 21.78 6.46 57.31 105.39
PESEC 5.52 6.30 6.03 0.69 18.54
V_NV 4.8 0.8 53.03 0.8 59.43
NV_V 51.94 54.54 3.85 54.54 164.87
Fines 76.91 89.69 97.46 73.15 337.21
Phrase 2 Grossières 23.09 10.31 2.54 26.85 62.79
PESEC 4.14 7.60 3.70 0.59 16.03
V_NV 19.16 1.19 15.95 1.19 37.49
NV_V 24.81 38.68 23.80 38.68 125.97
Fines 100 100 100 92.85 392.85
Phonème [a] Grossières 0 0 0 7.15 7.15
masculin PESEC 3.57 1.2 5.96 7.73 18.46
Fines 100 100 100 95.35 395.35
Phonème [a] Grossières 0 0 0 4.65 4.65
Féminin PESEC 2.33 2.33 3.49 0.01 8.16
Fines 100 100 100 100 400
Phonème [a] Grossières 0 0 0 0 0
Enfantin PESEC 1.17 1.17 1.17 16.27 19.78
Fines 457.07 467.91 491 404.04 1820
Grossières 42.93 32.09 9 95.96 179.98
Somme PESEC 16.73 18.60 20.35 25.29 80.97
V_NV 23.96 1.99 68.98 1.99 96.92
NV_V 76.75 93.22 27.65 93.22 290.84

La lecture du Tableau 1 nous permettra d’obtenir une évaluation détaillée des
techniques utilisées en fonction des signaux de test en entrée. Les erreurs globales
obtenues par la sommation des erreurs calculées (horizontales et verticales) nous
permettent de faire une appréciation sur les techniques utilisées (sommations
horizontales). Elles nous permettent aussi de faire une mesure d’exactitude
d’estimation de la F0 de chaque signal de test avec l’utilisation des quatre détecteurs
(sommations horizontales). D’après les erreurs globales d’estimation de la F0
obtenues par les tous les estimateurs (sommation verticale), on peut dire que la
technique Cepstrale offre la meilleure estimation avec moins d’erreurs grossières
commises (doublement et triplement du pitch) (Fig. 5, signal d’entrée en bleu, Fréel en
noire et F0 estimée en rouge). Elle présente aussi un bon PESEC par rapport aux deux
techniques temporelles utilisées. Cependant, elle présente un taux élevé d’erreurs
V_NV. Les deux techniques temporelles respectivement la MACC et C-AMDF sont
classées en second et troisième position. Elles présentent des taux d’erreurs globales
et des PESECs comparables. Néanmoins, elles présentent un taux d’erreurs NV_V
élevé.
On remarque aussi que la technique de classification utilisée par la C-AMDF ainsi
que l’HPS présente le meilleur score d’erreurs V_NV (1.99). C’est une caractéristique
importante dans ce type de traitement.
En dernière position vienne la technique basée sur l’HPS, possédant le mauvais
score d’erreurs grossières. Toutefois, elle présente le meilleur PESEC qui est une
caractéristique intéressante offerte par cette technique. On remarque que dans le cas
des sons voisés purs (Phonèmes [a]), l’estimation de F0 est faite d’une manière
suffisamment exacte par toutes les techniques (sommation horizontales). C’est un
résultat attendu du fait que les voyelles de l’AS sont caractérisées par un taux de
voisement important. En dernier lieu, on peut dire que notre système d’évaluation
répond à une certaine hypothèse d’ergodicité du fait que la sommation des erreurs
fines, grossières, voisement et de PESECs verticales et toujours égales à celles
horizontales.

500
signal d'entrée
F0
400 F0reel

300

200
Fréquence(Hz)

100

-100

-200

-300
0 1 2 3 4 5 6 7 8 9
Temps en Seconde

Fig. 4 : Comparaison entre la F0reel et la F0 estimée de la phrase 2 par la CEP

8 Conclusion

Nous avons présenté dans cet article une évaluation des performances de plusieurs
techniques d’estimation de la fréquence Fondamentale du signal vocal en se basant
sur des sons prononcés en Arabe Standard par des locuteurs de différents sexes et
âges. On a déduit que la CEP a donnée une meilleure estimation de la F0 pour chaque
locuteur par rapport aux autres techniques utilisées. Cependant, l’estimation de la F0
par l’HPS a donnée la mauvaise estimation. C’est un résultat logique du fait que cette
technique est essentiellement utilisée pour des sons musicaux plutôt que de parole.
La méthode de segmentation par fenêtre fixe utilisée par la C-AMDF et l’HPS
présente des bonnes performances à détecter les régions de transition V_NV en la
comparant a la méthode de segmentation par seuillage utilisée par la MACC et la
technique Cepstrale. Le facteur PESEC introduit au niveau de cette étude nous a
permis de découvrir que les estimations fines faites par l’HPS sont plus exacte
malgré le taux des erreurs grossières marqué. Le corpus modeste employé nous a
permis de faire un test d’évaluation pratique des performances des techniques
implémentées. La durée du corpus est réduite du fait que les valeurs de l’analyse
standard (F0 réel) sont prises manuellement. L’élaboration d’une large base de
données des sons spécifiques sur plusieurs conditions d’enregistrement
(Téléphoniques, proche ou loin du microphone et la qualité du microphone utilisé)
nous permet de mieux évaluer les performances des techniques employées sur des
sons en Arabe Standard. Cette évaluation va nous aider au développement des
nouvelles techniques hybrides d’estimations en exploitant les avantages des
techniques étudiées.

Références

1. Boite, R.:Traitement Automatique de la Parole. Edition Masson, France (1989).
2. Flego, F.: Fundamental Frequency Estimation Techniques for Multi Microphone Speech
Input. Phd Dissertation, University of Trento, USA (2006).
3. Rabiner, L.R.: A Comparative Performance Study of Several Pitch Detection Algorithms.
IEEE Trans.Acoust., Speech, And Signal Processing, Vol. ASSP-24, No.5, October (1976).
4. Bimbot, F., Magrin-Chagnolleau, I, Mathan, L.: Second-order statistical measures for text-
independent speaker identification. Speech Communication, Volume 17, Number 1, pp.
177-192(16), Elsevier (1995).
5. Hess, W.: Pitch Determination of Speech Signals: Algorithms and Devices. Edition
Springer-Verlag, Berlin (1983).
6. Dubnowski, J., Schafer, R. W., Rabiner, L. R.: Real-Time Digital Hardware Pitch
Detector. IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-24, pp. 2-8 (1976).
7. Yu-Min Zeng and al.: Modified AMDF Pitch Detection Algorithm. Proceedings of the
Second International Conference on Machine Learning and Cybernetics Wan, 2-5 (2003).
8. Miller, N. J.: Pitch Detection by Data Reduction. IEEE Tranr, Acoust., Speech,
Signal Processing, vol. ASSP-23, pp. 72-79 (1975).
9. Rosenberg, A. E., Sambur, M. R.: New Techniques for Automatic Speaker
Verification. IEEE Trans. Acoust., Speech, Signal Processing, vol. ASSP-23, pp.
169-176 (1975).
10. Schafer, R. W., Rabiner, L. R.: System for Automatic Formant Analysis of Voiced Speech.
J. Acoust. Soc. Amer., vol. 47, pp. 634-648 (1970).
11. Jean Laroche: Cours sur le Traitement des Signaux Audio-Fréquences. Département du
Signal, Groupe Acoustique-Telecom Paris (1995).
12. Vũ Minh Quang: Exploitation de la Prosodie pour la Segmentation et l’Analyse
Automatique des Signaux de Parole. Thèse de Doctorat, Institut Polytechnique de Hanoi,
France (2007).
13. Van Doremalen: Procédé d’Extraction de la Fréquence Fondamentale d’un Signal Vocal.
Office des Brevet Europèen, 0 821 345 A1 EP, Paris (1998).
14. Huin Ding, Bo Qian: A Method Combining LPC Based Cepstrum and Harmonic Product
Spectrum for Pitch Detection. Proceeding of the IEEE International Conference on
Intellegent Information Hiding and Multimedia Signal Processing,IIH-MSP 06,USA (2006).
15. Kavita Kasi: Yet another Algorithm for Pitch Tracking. Master’s thesis, Old Dominion
University, UK (2002).
16. Droua-Hamdani, G.: Prédiction de la Durée Segmentale des Phonèmes de l’Arabe Standard.
Mémoire de Magister, CRSTDLA, Alger, Algérie (2004).