<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="fr">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">Etude Comparative des Performances de Plusieurs Techniques de Détection de la Fréquence Fondamentale des Signaux Vocaux</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">F</forename><surname>Ykhlef</surname></persName>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">R</forename><surname>Amiar</surname></persName>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">S</forename><surname>Hecini</surname></persName>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">W</forename><surname>Benzaba</surname></persName>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">L</forename><surname>Bendaouia</surname></persName>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">{</forename><forename type="middle">F</forename><surname>Ykhlef</surname></persName>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">L</forename><surname>Bendaouia}</surname></persName>
							<affiliation key="aff0">
								<orgName type="department">Architectures des Systèmes et Multimédia CDTA</orgName>
								<address>
									<settlement>Algérie</settlement>
								</address>
							</affiliation>
						</author>
						<title level="a" type="main">Etude Comparative des Performances de Plusieurs Techniques de Détection de la Fréquence Fondamentale des Signaux Vocaux</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">4F45908AE048FBCF984DEC4BE19495C8</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T00:18+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<textClass>
				<keywords>
					<term>Fréquence Fondamentale</term>
					<term>erreurs d&apos;estimations</term>
					<term>Arabe Standard</term>
				</keywords>
			</textClass>
			<abstract>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>L'objectif de cet article est faire une étude comparative des performances de plusieurs méthodes de base d'extraction de la Fréquence Fondamentale des signaux vocaux prononcés par des locuteurs de différents sexes et âges (Femme, Homme et Enfant) en Arabe Standard. Quatre techniques particulières sont choisies, deux techniques temporelles, la MACC (Modified Autocorrelation with Center clipping), la C-AMDF (Clipping Average Magnitude Difference Function), et deux fréquentielles, la CEP (Cepstral Technic), et l'HPS (Harmonic Product Spectrum). Une représentation détaillée de ces techniques d'estimations et des méthodes de classifications employées est donnée dans cet article. L'évaluation des techniques est basée sur le calcul d'erreurs d'estimations.</p></div>
			</abstract>
		</profileDesc>
	</teiHeader>
	<text xml:lang="fr">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1">Introduction</head><p>La fréquence la plus basse dans le signal de parole est la fréquence Fondamentale (F 0 ) dénommé « pitch ». Elle représente la fréquence de vibration des cordes vocales et caractérise les segments Voisés de la parole à l'intérieur desquels elle évolue lentement dans le temps. La plage de variation moyenne de cette fréquence varie d'un locuteur à l'autre en fonction de son âge et de son sexe. Elle s'étend approximativement de 80 à 200 Hz chez les hommes, de 150 à 450 Hz chez les femmes, et de 200 à 600 Hz chez les enfants <ref type="bibr" target="#b0">[1]</ref>.</p><p>On peut citer, l'analyse, la synthèse, le codage, la reconnaissance, la réverbération et les applications relatives à l'amélioration du confort d'écoute.</p><p>De ce fait, l'objective de ce travail est de procéder par une évaluation qualitative des algorithmes de base d'extraction de la F 0 . Le choix est porté sur quatre techniques. Deux temporelles, à savoir, la MACC (Modified Autocorrelation with Center clipping), la C-AMDF (Clipping Average Magnitude Difference Function) et deux fréquentielles, la CEP (Cepstral Technic) et l'HPS (Harmonic Product Spectrum). Les critères d'évaluations sont basés sur le calcul d'erreurs d'estimations de la F 0 grossières et fines <ref type="bibr" target="#b2">[3]</ref>. Un paramètre supplémentaire est ajouté au niveau de cette étude pour déterminer l'exactitude de ces dernières, il est nommé Paramètre d'Extraction Sans Erreur Commise (PESEC). Il caractérise les capacités théoriques de ces algorithmes à extraire le Fondamental à une erreur d'estimation exactement nulle.</p><p>L'évaluation des techniques de détection nécessite une base de données des sons spécifique à la langue traitée. Elle doit nécessairement contenir tout les classes des sons du langage ainsi que les dialectes utilisés <ref type="bibr" target="#b3">[4]</ref>. Dans notre cas, on a préféré de se consacrer aux sons prononcés en Arabe Standard (AS). Du fait qu'il n'existe pas une base de données fiable pour cette langue, on a constitué un corpus modeste qui englobe tout les classes sonores de l'AS prononcés par des locuteurs de différents âges et sexes.</p><p>L'article est structuré en plusieurs parties. La première est réservée à la description des complexités d'extraction de la F 0 d'un signal vocal. La deuxième partie est consacrée à la présentation des méthodes d'extraction suivie en troisième partie par une description algorithmique des techniques implémentées. En quatrième partie, on présente les signaux de tests utilisés ainsi que la F 0 de référence. La cinquième partie traite les paramètres d'erreurs utilisées pour l'évaluation des techniques d'estimation.</p><p>La sixième partie est réservée à l'évaluation des performances des techniques par le calcul d'erreurs d'estimations suivi par une conclusion et des perspectives futures.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2">Complexités de détection de la F 0</head><p>La complexité d'évaluation du Fondamental est une tâche difficile pour de nombreuses raisons telles que la non-stationnarité du signal vocal, une certaines irrégularités dans l'excitation glottique ou encore une interaction avec le premier formant, la décision du voisement, la distinction entre les segments non voisée et les segments voisée à énergie réduite, la difficulté inhérente en définissant le début et la fin exacts de chaque période de F 0 durant les segments de la parole Voisée et dernièrement le doublement de période local <ref type="bibr" target="#b2">[3]</ref>. C'est un type d'erreur qui affecte pratiquement toutes les méthodes d'estimation de la F 0 .</p><p>3 Méthodes de détection de la F 0 D'après les travaux de Hess <ref type="bibr" target="#b4">[5]</ref>, les algorithmes de détection de pitch sont classées en trois groupes principaux : temporelles, spectrales et Hybrides.</p><p>Les méthodes temporelles permettent l'estimation de la F 0 avec des calcules très simples. Elles sont relativement peu couteuses en temps de calcul car elles nécessitent peu d'opérations arithmétiques de multiplications et d'additions <ref type="bibr" target="#b5">[6]</ref>. Toute fois, elles manquent de précision. De variétés de techniques temporelles sont décrites dans la littérature. Parmi les techniques de base on peut citer : la Fonction d'AutoCorrélation (FAC) et ses versions modifiées <ref type="bibr" target="#b5">[6]</ref>, la Fonction de différence d'AMDF (Average Magnitude Difference Function) et ses variantes <ref type="bibr" target="#b6">[7]</ref>, la Fonction de réduction de donnée, DARD (DAta ReDuction method) <ref type="bibr" target="#b7">[8]</ref> et la Fonction du calcul parallèle, PPROC (Parallel PRoCessing method) <ref type="bibr" target="#b8">[9]</ref>.</p><p>Les méthodes spectrales sont définies comme étant celle qui permet d'obtenir une F 0 en traitant le spectre de la parole directement. Parmi ces techniques, on peut citer : la technique Cepstrale (CEP) <ref type="bibr" target="#b9">[10]</ref>, le Produit Harmonique Spectral (HPS), et l'intercorrélation avec le Peigne Spectrale (PS) <ref type="bibr" target="#b1">[2]</ref>.</p><p>Les méthodes hybrides, visent à combiner différentes approches pour augmenter les performances globales du système d'extraction. Elles appliquent différents analyseurs simultanément sur le signal et combinent les différents estimateurs <ref type="bibr" target="#b4">[5]</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4">Description des techniques</head><p>Dans la plupart des algorithmes d'extraction de la F 0 , trois phases essentielles durant le traitement s'implique : le prétraitement, le traitement et le pos traitement.</p><p>La phase de prétraitement est réservée à la préparation du signal issue d'un microphone. Elle consiste à choisir la durée des trames d'analyse et du recouvrement afin de moins compromettre la condition de stationnarité exigée par les algorithmes de traitement et l'effet de bord lié aux fenêtres de pondération appliquées.</p><p>La durée de la trame est généralement choisie entre 20 et 50ms avec un recouvrement de 30 à 50%, pour assurer la présence d'au moins une période du Fondamental <ref type="bibr" target="#b0">[1]</ref>. Nous trouvons souvent d'autres techniques permettant d'améliorer la rapidité d'extraction tel que le filtrage, la décimation et les techniques de transformation non linéaire dites Clippage. La phase de traitement est réservée à l'extraction de la F 0 et dépend donc de l'algorithme utilisé.</p><p>La phase de post traitement à pour but de diminuer les erreurs qui peuvent être de plusieurs types. Ces erreurs vont être détaillées au cinquième paragraphe. On présente dans ce paragraphe les techniques choisies pour une éventuelle évaluation des performances.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.1">La fonction d'autocorrélation basée sur le clippage central</head><p>Elle a été à l'origine proposée par L. Rabiner <ref type="bibr" target="#b2">[3]</ref>. L'appellation Anglophone de cette technique est dite MACC (Modified Autocorrelation with Center Clipping) (Fig. <ref type="figure" target="#fig_0">1</ref>).</p><p>Le processus commence avec un filtre passe-bas, dont le but est d'atténuer l'influence des fréquences autres que la F 0 . Le filtre coupe à 900 Hz, du fait qu'une valeur de pitch est comprise entre 70 et 600 Hz. La deuxième phase de traitement est la segmentation du signal vocal à des trames de 30 ms pour assurer la stationnarité du signal. La troisième phase est le calcul du seuil de clippage (C L ) pour chaque trame d'analyse par la recherche les deux pics maximums dans la première (P 1 ) et la troisième (P 3 ) portion de 10 ms et de prendre le minimum de ces deux valeurs. Ce minimum est multiplié par la suite avec un niveau de clippage k. C'est un paramètre très important qu'il faut l'optimiser avec soin. On prend en général des valeurs variant entre 30% et 80% de l'amplitude de l'échantillon maximal de la trame <ref type="bibr" target="#b10">[11]</ref>. La fonction de clippage qui est implémentée ici, est le clippage central avec compression <ref type="bibr" target="#b4">[5]</ref>:</p><formula xml:id="formula_0">L L L L L C ) n ( x C ) n ( x C ) n ( x C ) n ( x 0 C ) n ( x )] n ( x [ clc ) n ( y − ≤ &lt; ≥ ⎪ ⎩ ⎪ ⎨ ⎧ + − = =<label>(1)</label></formula><p>La quatrième phase de traitement est le calcul de la FAC normalisée et la recherche du pic maximum (P) et son indice (ind. P) dans la gamme d'existante de la F 0 qui nous permettra par la suite de calculer la valeur du Fondamental.</p><p>La dernière phase de cet algorithme consiste à choisir un seuil de décision du voisement (V 0 ) en fonction du pic calculé. Si le pic maximum de chaque trame obtenue lors de la phase précédente dépasse le seuil de voisement, la trame est classifiée comme Voisée, sinon elle est classifies Non-Voisée. Dans le cas du silence, la détection se fait grâce à l'énergie à courte terme suivant un seuil bien défini. Si la valeur de l'énergie dans chaque trame ne dépasse pas ce seuil, la trame est considérée comme silence <ref type="bibr" target="#b2">[3]</ref>. </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.2">La fonction d'AMDF basée sur le Clippage</head><p>Plusieurs versions d'AMDF existent pour la détection de la F 0 <ref type="bibr" target="#b6">[7]</ref>. On a limité notre étude sur la C-AMDF (Clipping -Average Magnitude Diffrence Function). En premier lieu, le signal vocal est filtré par un filtre passe bas de type Butterworth à une Fréquence de coupure Fc de 900 kHz. Ensuite, segmenté en trames de 30 ms.</p><p>L'opération de clippage consiste à appliquer sur les fenêtres à court termes résultantes une transformation non linéaire définit par le clippage central donné par l'équation <ref type="bibr" target="#b0">(1)</ref>. Un seuil de clippage C L doit être calculé pour chaque trame. Dans notre application, le seuil de clippage est choisi égal à 30% de l'amplitude du pic maximal de la trame en cour de traitement. L'AMDF est calculée sur le signal clippé pour chaque trame d'analyse. La valeur de la F 0 est déterminée avec la localisation de la vallée minimale entre 70 Hz et 600 Hz. En fin, la décision du voisement-silence s'effectue avec le calcul du Taux de Passage par Zéros (TPZ) et de l'énergie (Fig. <ref type="figure" target="#fig_1">2</ref>). </p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.3">La technique Cepstrale</head><p>L'estimation de la période de pitch peut être faite sur le Cepstre réel. La Figure <ref type="figure" target="#fig_2">3</ref> représente la description du détecteur de pitch par la méthode Cepstrale <ref type="bibr" target="#b2">[3]</ref>. Chaque segment de 51.2ms est pondéré par une fenêtre de type hamming. Le principe de la procédure de calcul de pitch fondé sur le Cepstre est plutôt simple. On recherche dans le Cepstre un pic dans la région autour de la période du pitch (P). Si le pic est supérieur à un seuil fixé (P 0 ), le segment de parole en entrée est probablement Voisé, et la position autour du pic est la zone dans laquelle on peut estimer le pitch. Si le pic n'est pas supérieur au seuil, il est alors probable que le segment de parole en entrée est non Voisé <ref type="bibr" target="#b11">[12]</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.4">Le Produit Harmonique Spectral</head><p>La méthode HPS, pour Harmonic Product Spectrum (HPS), a été publiée pour la première fois par R. Noll en 1970 <ref type="bibr" target="#b12">[13]</ref>. Cette méthode est basée sur le principe de la compression des raies spectrales (Fig. <ref type="figure" target="#fig_3">4</ref>). Pour chaque trame stationnaire du signal vocal x(n) (d'une durée de 30ms), le logarithme de sa densité spectrale de puissance est calculé le long de l'axe des fréquences sur des facteurs entiers. La valeur logarithmique de l'HPS est obtenue par l'addition du spectre original et ses versions compressées (décimées) <ref type="bibr" target="#b1">[2]</ref>:</p><formula xml:id="formula_1">2 R 1 r ) rm ( x og l ) m ( HPS ∑ = =<label>(2)</label></formula><p>R représente le nombre total des spectres impliqués dans le calcul et X(k) la Transformée de Fourier Discrète (TFD) de x(n). Pour obtenir le Produit Spectral d'Harmonique, l'exponentiel de la fonction doit être pris.</p><p>Le choix de la constante R joue un rôle principal sur la précision du détecteur. De nombreux travaux de recherche étaient basés fondamentalement sur un facteur de décimation R=5. C'est un choix qui offre une meilleure estimation de la F 0 pour une Fréquence d'échantillonnage (F e ) de 16kHz <ref type="bibr" target="#b6">[7,</ref><ref type="bibr" target="#b13">14]</ref>. Quand les spectres compressés sont ajoutés, les harmoniques présentes dans le signal de parole s'ajoutent de manière constructive, puisqu'ils sont multiples de la F 0 .Les composantes fréquentielles du bruit et des sons non Voisés, ne montrent pas le même rapport, par conséquent seront noyées par l'opération de la somme <ref type="bibr" target="#b1">[2]</ref>. Pour la classification des sons, on a suivi la même procédure de la C-AMDF basé sur le TPZ et l'énergie à court terme de chaque trame. Les signaux de tests utilisés dans notre étude pour l'évaluation des algorithmes de détection de la F 0 sont classifiés en deux groupes : des sons Voisés purs et des sons mixtes (Voisement et silence). C'est un corpus qui englobe les catégories des sons de l'AS, à savoir, les voyelles (orales et nasales) et les consonnes (plosives, fricatives, nasales, liquides, vibrantes, affriquées et semi voyelles) <ref type="bibr" target="#b15">[16]</ref>. Pour la première catégorie, et du fait que le voisement est une caractéristique importante dans les algorithmes de détection de F 0 , le choix est porté sur le phonème [a], une voyelle pure, prononcé par trois locuteurs de différents âges et sexes (masculin âgé de 25ans, féminin de 20ans et enfantin de 5ans). Les sons sont enregistrés pendant une durée de 2.5 secondes et échantillonnés à une Fe de 16 kHz.</p><p>Pour la deuxième catégorie, et afin évaluer les performances des algorithmes à effectuer des classifications automatiques, on a utilisé deux différentes phrases prononcées en AS. La première phrase est prononcée par un locuteur masculin, elle est caractérisée par une durée de 6s. La deuxième phrase est prononcée par un locuteur féminin et est d'une durée de 9s. Les deux phrases sont échantillonnées à 16kHz. Pour les quatre détecteurs, une optimisation des paramètres de chaque algorithme par des tests pratiques est faite pour une bonne estimation de la F 0 .</p><p>1. Phrase 1 : « ‫اﻟﻔﺮات‬ ‫و‬ ‫اﻟﺪﺟﻠﺔ‬ ‫ﺑﻴﻦ‬ ‫ﻣﺴﺎﻓﺔ‬ ‫أﻗﺼﺮ‬ ‫ﻋﻨﺪ‬ ‫ﻣﻮﻗﻊ‬ ‫ﻓﻲ‬ ‫وهﻲ‬ » 2. Phrase 2 : ‫ﻣﺘﻌﺪدة«‬ ‫ﻟﻬﺠﺎت‬ ‫ﺑﻞ‬ ‫واﺣﺪة‬ ‫ﻟﻴﺴﺖ‬ ‫ﺧﺮى‬ ‫أ‬ ‫ﻧﺎﺣﻴﺔ‬ ‫ﻣﻦ‬ ‫واﻟﻌﺎﻣﻴﺔ‬ » Les valeurs de référence de la F 0réel dite, Fréquence Fondamentale pour une analyse standard <ref type="bibr" target="#b2">[3]</ref>, sont mesurées manuellement pour chaque trame des signaux de tests choisis. Les zones Non Voisées et silences correspondent à une F 0 nulle. D'une manière globale, on ne peut pas dire qu'on est doté d'une bonne base de données des sons, mais d'un corpus modeste qui nous a permis de comparer les performances des techniques choisis sur des sons prononcés en AS. Le corpus est d'une durée limitée du fait que les valeurs de F 0réel sont mesurées manuellement. C'est une opération difficile mais valable pour bonne évaluation des paramètres d'erreurs. C'est la même approche utilisée dans <ref type="bibr" target="#b6">[7]</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="6">Paramètres d'erreurs</head><p>Plusieurs paramètres d'erreur d'estimation de la F 0 peuvent être employés pour évaluer la qualité d'un algorithme d'extraction. On s'est limité dans notre étude aux paramètres principaux. Soit F 0reel (m) et F 0j (m) respectivement les valeurs réelles (analyse standard) et estimées de la F 0 de chaque signal de test. Soit m l'indice de trame qui varie selon la taille du signal d'entrée et j un indice qui représente la technique d'estimation de la F 0 variant de 1 à 4, respectivement pour la MACC, C-AMDF, CEP et HPS. Les paramètres d'erreur sont élaborés suivant quatre possibilités :</p><p>1. F 0reel (m) =0 et F 0j (m)=0, dans ce cas, l'analyse standard et le j eme détecteur du pitch classifient la m ieme trame Non Voisée. Dans ce cas aucune erreur de calcul ne résulte.</p><p>2. F 0reel (m) = 0 et F 0j (m) ≠0, l'analyse standard classifie la m ieme trame Non Voisée, par contre le détecteur du pitch la classifie Voisée. Dans ce cas une erreur Non Voisée-Voisée (NV_V) est apparue. Ce type d'erreur est déterminé par la relation suivante <ref type="bibr" target="#b14">[15]</ref> :</p><formula xml:id="formula_2">0 F ) 0 F &amp; 0 F ( Taille V _ NV réel 0 réel 0 j 0 = = ≠ =<label>(3)</label></formula><p>Où « Taille (F 0reel =0) » représente le nombre de trames où F 0réel est nulle et</p><formula xml:id="formula_3">« ) 0 F &amp; 0 F ( Taille réel 0 j 0 = ≠</formula><p>» représente le nombre de trames où à la fois F 0réel est nulle et F 0j est différent de zéro.</p><p>3. F 0reel (m) ≠0 et F 0j (m)=0, l'analyse standard classifie la m ieme trame Voisée, par contre le détecteur du pitch la classifie Non Voisée. Dans ce cas une erreur Voisée-Non Voisées (V_NV) est apparue. Ce type d'erreur est déterminé par la relation suivante <ref type="bibr" target="#b14">[15]</ref>:</p><formula xml:id="formula_4">0 F ) 0 F &amp; 0 F ( Taille NV _ V réel 0 réel 0 j 0 ≠ ≠ = =<label>(4)</label></formula><p>Où «Taille 0 F réel 0 ≠ » représente le nombre de trames où F 0réel est différent de zéro et La lecture du Tableau 1 nous permettra d'obtenir une évaluation détaillée des techniques utilisées en fonction des signaux de test en entrée. Les erreurs globales obtenues par la sommation des erreurs calculées (horizontales et verticales) nous permettent de faire une appréciation sur les techniques utilisées (sommations horizontales). Elles nous permettent aussi de faire une mesure d'exactitude d'estimation de la F 0 de chaque signal de test avec l'utilisation des quatre détecteurs (sommations horizontales). D'après les erreurs globales d'estimation de la F 0 obtenues par les tous les estimateurs (sommation verticale), on peut dire que la technique Cepstrale offre la meilleure estimation avec moins d'erreurs grossières commises (doublement et triplement du pitch) (Fig. <ref type="figure">5</ref>  </p><formula xml:id="formula_5">« ) 0 F &amp; 0 F ( Taille réel 0 j 0 ≠ = » représente</formula></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="8">Conclusion</head><p>Nous avons présenté dans cet article une évaluation des performances de plusieurs techniques d'estimation de la fréquence Fondamentale du signal vocal en se basant sur des sons prononcés en Arabe Standard par des locuteurs de différents sexes et âges. On a déduit que la CEP a donnée une meilleure estimation de la F 0 pour chaque locuteur par rapport aux autres techniques utilisées. Cependant, l'estimation de la F 0 par l'HPS a donnée la mauvaise estimation. C'est un résultat logique du fait que cette technique est essentiellement utilisée pour des sons musicaux plutôt que de parole.</p><p>La méthode de segmentation par fenêtre fixe utilisée par la C-AMDF et l'HPS présente des bonnes performances à détecter les régions de transition V_NV en la comparant a la méthode de segmentation par seuillage utilisée par la MACC et la technique Cepstrale. Le facteur PESEC introduit au niveau de cette étude nous a permis de découvrir que les estimations fines faites par l'HPS sont plus exacte malgré le taux des erreurs grossières marqué. Le corpus modeste employé nous a permis de faire un test d'évaluation pratique des performances des techniques implémentées. La durée du corpus est réduite du fait que les valeurs de l'analyse standard (F 0 réel) sont prises manuellement. L'élaboration d'une large base de données des sons spécifiques sur plusieurs conditions d'enregistrement (Téléphoniques, proche ou loin du microphone et la qualité du microphone utilisé) nous permet de mieux évaluer les performances des techniques employées sur des sons en Arabe Standard. Cette évaluation va nous aider au développement des nouvelles techniques hybrides d'estimations en exploitant les avantages des techniques étudiées.</p></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head>Fig. 1 :</head><label>1</label><figDesc>Fig. 1: Schéma bloc du détecteur de pitch par la MACC</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_1"><head>Fig. 2 :</head><label>2</label><figDesc>Fig. 2: Schéma bloc proposé du détecteur de pitch par la C-AMDF</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_2"><head>Fig. 3 :</head><label>3</label><figDesc>Fig. 3: Schéma bloc proposé du détecteur de pitch par la méthode Cepstrale 30ms</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_3"><head>Fig. 4 :</head><label>4</label><figDesc>Fig. 4: Schéma bloc du détecteur de pitch par l'HPS</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_5"><head>Fig. 4 :</head><label>4</label><figDesc>Fig. 4 : Comparaison entre la F 0reel et la F 0 estimée de la phrase 2 par la CEP</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_0"><head></head><label></label><figDesc>le nombre de trames où à la fois F 0réel est différent de zéro et F 0j est nulle. 4. F 0reel (m)= P1≠ 0 et F 0j (m)= P2 ≠0, la m ieme trame est classifiée Voisée dans les deux cas. Trois types d'erreur dépendent des valeurs de P 1 et P 2 . L'erreur du Voisement e(m) est définit comme suite [3] :</figDesc><table><row><cell cols="13">données utilisée. Dans notre étude, la sommation des erreurs est établie pour tous les</cell></row><row><cell cols="7">sons choisis (Tableau 1).</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell cols="8">Tableau 1: Paramètres d'erreurs globales (en pourcentage)</cell></row><row><cell></cell><cell></cell><cell cols="3">Voix</cell><cell></cell><cell>Erreurs</cell><cell cols="6">MACC CAMDF</cell><cell>CEP</cell><cell>HPS</cell><cell>somme</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Fines</cell><cell>80.16</cell><cell></cell><cell></cell><cell cols="3">78.22</cell><cell>93.54</cell><cell>42.69</cell><cell>294.61</cell></row><row><cell></cell><cell cols="5">Phrase 1</cell><cell>Grossières</cell><cell>19.84</cell><cell></cell><cell></cell><cell cols="3">21.78</cell><cell>6.46</cell><cell>57.31</cell><cell>105.39</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>PESEC</cell><cell>5.52</cell><cell></cell><cell></cell><cell></cell><cell>6.30</cell><cell>6.03</cell><cell>0.69</cell><cell>18.54</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>V_NV</cell><cell>4.8</cell><cell></cell><cell></cell><cell></cell><cell>0.8</cell><cell>53.03</cell><cell>0.8</cell><cell>59.43</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>NV_V</cell><cell>51.94</cell><cell></cell><cell></cell><cell cols="3">54.54</cell><cell>3.85</cell><cell>54.54</cell><cell>164.87</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Fines</cell><cell>76.91</cell><cell></cell><cell></cell><cell cols="3">89.69</cell><cell>97.46</cell><cell>73.15</cell><cell>337.21</cell></row><row><cell></cell><cell cols="5">Phrase 2</cell><cell>Grossières</cell><cell>23.09</cell><cell></cell><cell></cell><cell cols="3">10.31</cell><cell>2.54</cell><cell>26.85</cell><cell>62.79</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>PESEC</cell><cell>4.14</cell><cell></cell><cell></cell><cell></cell><cell>7.60</cell><cell>3.70</cell><cell>0.59</cell><cell>16.03</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>V_NV</cell><cell>19.16</cell><cell></cell><cell></cell><cell></cell><cell>1.19</cell><cell>15.95</cell><cell>1.19</cell><cell>37.49</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>NV_V</cell><cell>24.81</cell><cell></cell><cell></cell><cell cols="3">38.68</cell><cell>23.80</cell><cell>38.68</cell><cell>125.97</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Fines</cell><cell>100</cell><cell></cell><cell></cell><cell></cell><cell>100</cell><cell>100</cell><cell>92.85</cell><cell>392.85</cell></row><row><cell cols="6">Phonème [a]</cell><cell>Grossières</cell><cell>0</cell><cell></cell><cell></cell><cell></cell><cell>0</cell><cell>0</cell><cell>7.15</cell><cell>7.15</cell></row><row><cell></cell><cell cols="5">masculin</cell><cell>PESEC</cell><cell>3.57</cell><cell></cell><cell></cell><cell></cell><cell>1.2</cell><cell>5.96</cell><cell>7.73</cell><cell>18.46</cell></row><row><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell>Fines</cell><cell>100</cell><cell></cell><cell></cell><cell></cell><cell>100</cell><cell>100</cell><cell>95.35</cell><cell>395.35</cell></row><row><cell cols="6">Phonème [a]</cell><cell>Grossières</cell><cell>0</cell><cell></cell><cell></cell><cell></cell><cell>0</cell><cell>0</cell><cell>4.65</cell><cell>4.65</cell></row><row><cell></cell><cell cols="5">Féminin</cell><cell>PESEC</cell><cell>2.33</cell><cell></cell><cell></cell><cell></cell><cell>2.33</cell><cell>3.49</cell><cell>0.01</cell><cell>8.16</cell></row><row><cell cols="6">Phonème [a]</cell><cell>Fines Grossières</cell><cell>100 0</cell><cell>e</cell><cell>(</cell><cell>m</cell><cell>) 100 = 0</cell><cell>1 2 P P −</cell><cell>100 0</cell><cell>100 0</cell><cell>400 0</cell><cell>(5)</cell></row><row><cell cols="13">4.1. Si Fe de 16kHz) [3,14]. L'erreur d'analyse est considérée comme une erreur grossière. 16 ) m ( e Enfantin PESEC 1.17 1.17 1.17 16.27 19.78 ≥ échantillons, (plus de 1ms d'erreur d'estimation de la T 0 pour une Fines 457.07 467.91 491 404.04 1820 Grossières 42.93 32.09 9 95.96 179.98 Pour de tels cas, le détecteur de pitch a nettement échoué en estimant la F 0 . Les Somme PESEC 16.73 18.60 20.35 25.29 80.97 causes possibles de ces erreurs sont le doublement ou le triplement de la F 0 ; 4.2. Si 16 ) m ( e &lt; échantillons, l'erreur d'analyse est classifiée comme une erreur V_NV 23.96 1.99 68.98 1.99 96.92</cell></row><row><cell cols="13">fine. Pour de tels cas le détecteur de pitch a estimé la F 0 d'une manière suffisamment NV_V 76.75 93.22 27.65 93.22 290.84</cell></row><row><cell>exacte ;</cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell>4.3. Si</cell><cell>e</cell><cell>(</cell><cell>m</cell><cell>)</cell><cell cols="8">0 = pas d'erreur d'analyse commise car les deux valeurs P 1 et P 2 sont</cell></row><row><cell cols="13">égaux. C'est un cas particulier de 4.2 nommé PESEC (Paramètre d'Extraction Sans</cell></row><row><cell cols="13">Erreur Commise). Il caractérise un pourcentage dérivé des erreurs fines dont l'erreur</cell></row><row><cell cols="8">d'estimation est exactement nulle.</cell><cell></cell><cell></cell><cell></cell><cell></cell></row><row><cell cols="13">7 Performances des algorithmes basées sur la somme des erreurs</cell></row><row><cell cols="13">D'après les travaux de L. Rabiner [3], l'évaluation globale des performances des</cell></row><row><cell cols="13">estimateurs s'effectue par une sommation des paramètres d'erreur de la base de</cell></row></table></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_1"><head></head><label></label><figDesc>, signal d'entrée en bleu, F réel en noire et F 0 estimée en rouge). Elle présente aussi un bon PESEC par rapport aux deux techniques temporelles utilisées. Cependant, elle présente un taux élevé d'erreurs V_NV. Les deux techniques temporelles respectivement la MACC et C-AMDF sont classées en second et troisième position. Elles présentent des taux d'erreurs globales et des PESECs comparables. Néanmoins, elles présentent un taux d'erreurs NV_V élevé.On remarque aussi que la technique de classification utilisée par la C-AMDF ainsi que l'HPS présente le meilleur score d'erreurs V_NV (1.99). C'est une caractéristique importante dans ce type de traitement.En dernière position vienne la technique basée sur l'HPS, possédant le mauvais score d'erreurs grossières. Toutefois, elle présente le meilleur PESEC qui est une caractéristique intéressante offerte par cette technique. On remarque que dans le cas des sons voisés purs (Phonèmes [a]), l'estimation de F 0 est faite d'une manière suffisamment exacte par toutes les techniques (sommation horizontales). C'est un résultat attendu du fait que les voyelles de l'AS sont caractérisées par un taux de voisement important. En dernier lieu, on peut dire que notre système d'évaluation répond à une certaine hypothèse d'ergodicité du fait que la sommation des erreurs fines, grossières, voisement et de PESECs verticales et toujours égales à celles horizontales.</figDesc><table /></figure>
			<note xmlns="http://www.tei-c.org/ns/1.0" place="foot" xml:id="foot_0">Au cours des trente dernières années, un certain nombre d'algorithmes d'estimation de la F 0 ont été développés et rapportés. Ceci soulève la question évidente, pourquoi de nouveaux travaux sont toujours entrains d'être menés dans ce domaine?. Ainsi, aucun des nombreux algorithmes rapportés ne s'est avéré entièrement satisfaisant. Par conséquent, les chercheurs continuent à essayer d'obtenir des techniques améliorés pour l'estimation de la F 0 . L'évaluation des algorithmes de détection de la F 0 est une opération importante pour les applications relatives au traitement de la parole<ref type="bibr" target="#b1">[2]</ref>.</note>
		</body>
		<back>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<monogr>
		<title level="m" type="main">Traitement Automatique de la Parole</title>
		<author>
			<persName><forename type="first">R</forename><surname>Boite</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1989">1989</date>
			<publisher>Edition Masson</publisher>
			<pubPlace>France</pubPlace>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<monogr>
		<title level="m" type="main">Fundamental Frequency Estimation Techniques for Multi Microphone Speech Input</title>
		<author>
			<persName><forename type="first">F</forename><surname>Flego</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2006">2006</date>
		</imprint>
		<respStmt>
			<orgName>University of Trento, USA</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">Phd Dissertation</note>
</biblStruct>

<biblStruct xml:id="b2">
	<analytic>
		<title level="a" type="main">A Comparative Performance Study of Several Pitch Detection Algorithms</title>
		<author>
			<persName><forename type="first">L</forename><forename type="middle">R</forename><surname>Rabiner</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">IEEE Trans.Acoust., Speech, And Signal Processing</title>
		<imprint>
			<biblScope unit="volume">24</biblScope>
			<biblScope unit="issue">5</biblScope>
			<date type="published" when="1976-10">October (1976</date>
		</imprint>
	</monogr>
	<note>ASSP-</note>
</biblStruct>

<biblStruct xml:id="b3">
	<analytic>
		<title level="a" type="main">Second-order statistical measures for textindependent speaker identification</title>
		<author>
			<persName><forename type="first">F</forename><surname>Bimbot</surname></persName>
		</author>
		<author>
			<persName><forename type="first">I</forename><surname>Magrin-Chagnolleau</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><surname>Mathan</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Speech Communication</title>
		<imprint>
			<biblScope unit="volume">17</biblScope>
			<biblScope unit="issue">1</biblScope>
			<biblScope unit="page" from="177" to="192" />
			<date type="published" when="1995">1995</date>
			<publisher>Elsevier</publisher>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b4">
	<monogr>
		<title level="m" type="main">Pitch Determination of Speech Signals: Algorithms and Devices</title>
		<author>
			<persName><forename type="first">W</forename><surname>Hess</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1983">1983</date>
			<publisher>Edition Springer-Verlag</publisher>
			<pubPlace>Berlin</pubPlace>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<analytic>
		<title level="a" type="main">Real-Time Digital Hardware Pitch Detector</title>
		<author>
			<persName><forename type="first">J</forename><surname>Dubnowski</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><forename type="middle">W</forename><surname>Schafer</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><forename type="middle">R</forename><surname>Rabiner</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">IEEE Trans. Acoust., Speech, Signal Processing</title>
		<imprint>
			<biblScope unit="volume">24</biblScope>
			<biblScope unit="page" from="2" to="8" />
			<date type="published" when="1976">1976</date>
		</imprint>
	</monogr>
	<note>ASSP-</note>
</biblStruct>

<biblStruct xml:id="b6">
	<analytic>
		<title level="a" type="main">Modified AMDF Pitch Detection Algorithm</title>
		<author>
			<persName><forename type="first">Yu-Min</forename><surname>Zeng</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proceedings of the Second International Conference on Machine Learning and Cybernetics Wan</title>
				<meeting>the Second International Conference on Machine Learning and Cybernetics Wan</meeting>
		<imprint>
			<date type="published" when="2003">2003</date>
			<biblScope unit="page" from="2" to="5" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<analytic>
		<title level="a" type="main">Pitch Detection by Data Reduction</title>
		<author>
			<persName><forename type="first">N</forename><forename type="middle">J</forename><surname>Miller</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">IEEE Tranr, Acoust., Speech, Signal Processing</title>
				<imprint>
			<date type="published" when="1975">1975</date>
			<biblScope unit="volume">23</biblScope>
			<biblScope unit="page" from="72" to="79" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b8">
	<analytic>
		<title level="a" type="main">New Techniques for Automatic Speaker Verification</title>
		<author>
			<persName><forename type="first">A</forename><forename type="middle">E</forename><surname>Rosenberg</surname></persName>
		</author>
		<author>
			<persName><forename type="first">M</forename><forename type="middle">R</forename><surname>Sambur</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">IEEE Trans. Acoust., Speech, Signal Processing</title>
		<imprint>
			<biblScope unit="volume">23</biblScope>
			<biblScope unit="page" from="169" to="176" />
			<date type="published" when="1975">1975</date>
		</imprint>
	</monogr>
	<note>ASSP-</note>
</biblStruct>

<biblStruct xml:id="b9">
	<analytic>
		<title level="a" type="main">System for Automatic Formant Analysis of Voiced Speech</title>
		<author>
			<persName><forename type="first">R</forename><forename type="middle">W</forename><surname>Schafer</surname></persName>
		</author>
		<author>
			<persName><forename type="first">L</forename><forename type="middle">R</forename><surname>Rabiner</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">J. Acoust. Soc. Amer</title>
		<imprint>
			<biblScope unit="volume">47</biblScope>
			<biblScope unit="page" from="634" to="648" />
			<date type="published" when="1970">1970</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<monogr>
		<author>
			<persName><forename type="first">Jean</forename><surname>Laroche</surname></persName>
		</author>
		<title level="m">Cours sur le Traitement des Signaux Audio-Fréquences</title>
				<imprint>
			<date type="published" when="1995">1995</date>
		</imprint>
		<respStmt>
			<orgName>Groupe Acoustique-Telecom Paris</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">Département du Signal</note>
</biblStruct>

<biblStruct xml:id="b11">
	<monogr>
		<title level="m" type="main">Exploitation de la Prosodie pour la Segmentation et l&apos;Analyse Automatique des Signaux de Parole</title>
		<author>
			<persName><forename type="first">Minh</forename><surname>Vũ</surname></persName>
		</author>
		<author>
			<persName><surname>Quang</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2007">2007</date>
		</imprint>
		<respStmt>
			<orgName>Institut Polytechnique de Hanoi, France</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">Thèse de Doctorat</note>
</biblStruct>

<biblStruct xml:id="b12">
	<analytic>
		<title level="a" type="main">Procédé d&apos;Extraction de la Fréquence Fondamentale d&apos;un Signal Vocal</title>
		<author>
			<persName><surname>Van Doremalen</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Office des Brevet Europèen</title>
		<imprint>
			<biblScope unit="volume">0</biblScope>
			<biblScope unit="page" from="821" to="345" />
			<date type="published" when="1998">1998</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b13">
	<analytic>
		<title level="a" type="main">A Method Combining LPC Based Cepstrum and Harmonic Product Spectrum for Pitch Detection</title>
		<author>
			<persName><forename type="first">Huin</forename><surname>Ding</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Bo</forename><surname>Qian</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proceeding of the IEEE International Conference on Intellegent Information Hiding and Multimedia Signal Processing</title>
				<meeting>eeding of the IEEE International Conference on Intellegent Information Hiding and Multimedia Signal essing<address><addrLine>IIH-MSP 06,USA</addrLine></address></meeting>
		<imprint>
			<date type="published" when="2006">2006</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<monogr>
		<title level="m" type="main">Yet another Algorithm for Pitch Tracking</title>
		<author>
			<persName><forename type="first">Kavita</forename><surname>Kasi</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2002">2002</date>
			<pubPlace>UK</pubPlace>
		</imprint>
		<respStmt>
			<orgName>Old Dominion University</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">Master&apos;s thesis</note>
</biblStruct>

<biblStruct xml:id="b15">
	<analytic>
		<title level="a" type="main">Prédiction de la Durée Segmentale des Phonèmes de l&apos;Arabe Standard</title>
		<author>
			<persName><forename type="first">G</forename><surname>Droua-Hamdani</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="s">Mémoire de Magister</title>
		<imprint>
			<date type="published" when="2004">2004</date>
			<publisher>CRSTDLA</publisher>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
