<?xml version="1.0" encoding="UTF-8"?>
<TEI xml:space="preserve" xmlns="http://www.tei-c.org/ns/1.0" 
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" 
xsi:schemaLocation="http://www.tei-c.org/ns/1.0 https://raw.githubusercontent.com/kermitt2/grobid/master/grobid-home/schemas/xsd/Grobid.xsd"
 xmlns:xlink="http://www.w3.org/1999/xlink">
	<teiHeader xml:lang="fr">
		<fileDesc>
			<titleStmt>
				<title level="a" type="main">L&apos;intégration des méthodes Monte Carlo par chaînes de Markov dans l&apos;apprentissage des réseaux de neurones</title>
			</titleStmt>
			<publicationStmt>
				<publisher/>
				<availability status="unknown"><licence/></availability>
			</publicationStmt>
			<sourceDesc>
				<biblStruct>
					<analytic>
						<author>
							<persName><forename type="first">Linda</forename><surname>Otmani</surname></persName>
							<email>otmani_linda@yahoo.fr</email>
							<affiliation key="aff0">
								<orgName type="department">Faculté des sciences-Département d&apos;informatique</orgName>
								<orgName type="laboratory">Laboratoire SIMPA</orgName>
								<orgName type="institution">Université de sciences et de technologie d&apos;ORAN-Mohamed Bodiaf</orgName>
							</affiliation>
						</author>
						<author>
							<persName><forename type="first">Abdelkader</forename><surname>Benyettou</surname></persName>
							<email>aek.benyettou@univ-usto.dz</email>
							<affiliation key="aff1">
								<orgName type="department">Faculté des sciences-Département d&apos;informatique</orgName>
								<orgName type="laboratory">Laboratoire SIMPA</orgName>
								<orgName type="institution">Université de sciences et de technologie d&apos;ORAN-Mohamed Bodiaf</orgName>
							</affiliation>
						</author>
						<title level="a" type="main">L&apos;intégration des méthodes Monte Carlo par chaînes de Markov dans l&apos;apprentissage des réseaux de neurones</title>
					</analytic>
					<monogr>
						<imprint>
							<date/>
						</imprint>
					</monogr>
					<idno type="MD5">00C7A8A99CF267DEF3C8A725E0737C07</idno>
				</biblStruct>
			</sourceDesc>
		</fileDesc>
		<encodingDesc>
			<appInfo>
				<application version="0.7.2" ident="GROBID" when="2023-03-24T00:20+0000">
					<desc>GROBID - A machine learning software for extracting information from scholarly documents</desc>
					<ref target="https://github.com/kermitt2/grobid"/>
				</application>
			</appInfo>
		</encodingDesc>
		<profileDesc>
			<abstract>
<div xmlns="http://www.tei-c.org/ns/1.0"><p>Les méthodes Monte Carlo par chaînes de Markov (MCMC) , s'inscrivent dans le cadre du formalisme Bayésien .On peut dire que l'application de ces méthodes à l'apprentissage des réseaux de neurones peut apporter plusieurs avantages, tout d'abord, l'introduction de connaissances a priori est susceptible d'améliorer l'estimation des paramètres. De plus, le formalisme Bayésien permet une analyse complète des incertitudes et des probabilités des données. Dans cet article, nous présenterons brièvement le principe de ces méthodes, qui présentent l'avantage d'être utilisables, et nous allons montrer leurs applications pour l'apprentissage des réseaux de neurones.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Mot clés</head><p>Méthodes Bayésiennes, Réseaux de neurones, Méthodes Monte Carlo par chaînes de Markov (MCMC),</p></div>
			</abstract>
		</profileDesc>
	</teiHeader>
	<text xml:lang="fr">
		<body>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1">Introduction</head><p>Les méthodes bayésiennes ont été appliquées ces dernières années aux réseaux de neurones par différents auteurs, notamment dans les travaux de MacKay 1992 a <ref type="bibr" target="#b0">[1]</ref>, MacKay 1992 b <ref type="bibr" target="#b1">[2]</ref>, <ref type="bibr">Neal 1992[3]</ref> , <ref type="bibr">Neal 1994[4]</ref>, repris dans Neal 1996 <ref type="bibr" target="#b4">[5]</ref>, et <ref type="bibr">Buntine et Weigened 1991</ref><ref type="bibr" target="#b6">, Bishop 1995</ref><ref type="bibr">, et plus récemment Freitas 1998</ref><ref type="bibr" target="#b8">, Vehtari 1999</ref><ref type="bibr" target="#b9">et Freitas 2000</ref><ref type="bibr">. Weigened (1991)</ref>, <ref type="bibr">Mackay (1992)</ref> et <ref type="bibr" target="#b3">Neal (1994)</ref> ont montré que les méthodes bayésiennes pour l'apprentissage des réseaux de neurones peuvent apporter plusieurs avantages, car il n'est pas nécessaire de limiter la taille du réseau pour éviter le sur ajustement, et que le nombre de neurones cachés peut tendre vers l'infini, le seul facteur qui doit limiter la taille du réseau est la capacité des ordinateurs utilisés et le temps disponible pour effectuer les calculs nécessaires, mais comme les paramètres utilisés sont issus d'une distribution de probabilité, il est nécessaire pour connaître un paramètre de calculer des intégrales faisant intervenir les distributions des autres paramètres. Il est, en général, impossible de calculer ces intégrales analytiquement, et plusieurs approches ont été proposées pour effectuer ces calculs. Mais soit ces méthodes sont très lourdes à implémenter, soit elles reposent sur des approximations qui peuvent fausser les résultats, et cela à cause des paramètres utilisés (paramètres du réseau de neurone) qui sont issus d'une distribution de probabilité, pour inférer ces paramètres on est confronté soit à un problème d'intégration ou d'optimisation comme celui de notre cas. Pour résoudre ce problème nous avons opté pour l'algorithme appelé «reversible Jump MCMC Simulated Annealing» proposé par <ref type="bibr" target="#b5">[6]</ref> [10] et qui s'inscrit toujours dans le cadre des méthodes MCMC , et nous allons par la suite vérifier son application pour l'approximation des fonctions.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2">L'inférence Bayésienne</head><p>Dans un formalisme Bayésien, toute inférence repose sur la densité à posteriori des paramètres qui nous intéressent conditionnellement aux observations. <ref type="bibr" target="#b6">[7]</ref> Supposant que y = (y 1 , …, y N ) soit le vecteur des observations et θ = (θ 1 , …, θ d ) ∈ Θ soit le vecteur de paramètres à estimer. La densité à posteriori p(θ \y) conjointe de tous les paramètres du modèles est définie à partir du théorème de Bayes : p(y\θ) est la densité de probabilité conditionnelle des observations connaissant les paramètres du modèle : fonction de vraisemblance. <ref type="bibr" target="#b7">[8]</ref>  <ref type="bibr" target="#b8">[9]</ref> p(θ) est la densité à priori des paramètres θ choisie en fonction des connaissances disponibles sur θ avant la prise en compte des observations. p(y) est une constante, indépendante de θ , aussi appelée évidence Bayésienne .</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1.1">Estimation paramétrique Bayésienne</head></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1.1.1.">Estimateur (MMSE)</head><p>L'estimateur MMSE est défini par la moyenne de la densité à posteriori considérée.</p><p>Etant donné un vecteur de paramètres θ et un vecteur d'observation y on a :</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="1.1.2.">Estimateur MAP</head><p>L'estimateur MAP est déterminé par le mode de la densité à posteriori considérée :</p><p>Pour résoudre un tel problème, nous proposons une méthode de simulation de densités de probabilité telle que la méthode Monte Carlo par Chaîne de Markov, basée sur la génération de variables aléatoires distribuées suivant une loi π à simuler.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="2">Le modèle adopté</head><p>Pour réaliser notre travaille, nous allons adopter le schéma d'approximation proposé par Holmes et Mallicke (1998) <ref type="bibr" target="#b9">[10]</ref>, qui consiste à mixer les k RBFs et la régression linéaire. Ce modèle est donné par :</p><formula xml:id="formula_0">Μ 0 : y t = b + β -1 x t + n t k=0 ; Μ k : y t = a j φ (║x t -µ j ║) b + β -1 x t +n t k≥1</formula><p>D'où ║.║ : distance (euclidienne ou de mahalanobis). µ j ∈ R d : j ème centre RBF pour un modèle avec k RBFs, a j ∈ R c : j ème coefficient (poids) RBF,</p><formula xml:id="formula_1">∑ = k j 1 ) ( ) ( ) / ( ) / ( y p (2)<label>(3) (4)</label></formula><p>(5) Figure1 : Estimateurs paramétriques Bayésien </p><formula xml:id="formula_2">P (θ \ y) max 1 k k ≤ ≤ b ∈ R c et β ∈ R d ×</formula></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="3">Position du problème</head><p>Etant donné l'ensemble de données d'entrée /sortie {x, y} tel que :</p><formula xml:id="formula_3">O = {x 1 , x 2 , … , x N ; y 1 , y 2 , … , y N }: Notre objectif est d'estimer k et θ ∈Θ k. D'où Θ 0 (R d+1 ) c × (R + ) c , et Θ k (R d+1+k ) c × (R + ) c × Ω k pour k∈ {1, …, k max } . C à d α∈ (R d+1+k ) c ; σ ∈ (R + ) c et µ ∈ Ω k</formula><p>On note que : Le nombre maximal de RBFs est défini par :</p><p>Ω k est un ensemble compact de données : Comme nous l'avons déjà dit, une méthode MCMC simple n'est pas capable de « sauter » entre les sous espaces de Θ k (de dimensions différentes). Cependant, récemment Green a introduit une nouvelle classe flexible, d'échantillonneurs MCMC, appelée « reversible jump MCM C» <ref type="bibr" target="#b9">[10]</ref>. Capable de sauter entre les espaces des paramètres de dimensions différentes. <ref type="bibr" target="#b10">[11]</ref>. )</p><formula xml:id="formula_4">Ω k = { pour i = 1,</formula><formula xml:id="formula_5">] max , min [ ; , : 1 , : 1 , : 1 i i N i i N i k x x Ξ + Ξ − ∈ ι ι µ µ φ k max = (N -(d+1)) 2 . (7) ( ) Ν ∈ i i i k ) ( ) ( , θ ( ) ( ) i N i N i x x , : 1 , : 1 min max − = Ξ ( ) ( ) k d i i k ∏ = Ξ + = 1 2 1 ι ψ                                                   2 2 2</formula><formula xml:id="formula_6">t c k d d N d k n x D y + = + + : 1 , 1 : 1 : 1 , : 1 : 1 , : 1 , α µ (6) (8)</formula><p>Une stratégie de recuit simulé peut être adoptée à cet l'algorithme, pour tirer des échantillons aléatoires à partir de la chaîne de Markov. Ces échantillons sont utilisés pour approximer l'inférence désirée. <ref type="bibr" target="#b9">[10]</ref> [12] <ref type="bibr" target="#b12">[13]</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.1.">Estimation des poids</head><p>Étant donné k, µ1, …, µk, l'estimation des moindres carrés de α est donnée par :</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.2.">Estimation des paramètres du bruit</head><p>En utilisant l'estimation conventionnelle de la distribution gaussienne, l'estimation de σ 2 est donnée par : D'où est une matrice orthogonale de projection des moindres carrés :</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="4.3.">La distribution jointe à posteriori</head><p>On peut imposer la distribution à priori sur k : D'ou P est un terme de pénalité qui dépend de l'ordre du modèle. En se basant sur le critère du minimum description length (MDL), P MDL = ξ/2 log (N). ξ = nombre de paramètres du modèle = k(c+1) + c(1+d) en cas d'un réseau RBF.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>La fonction de vraisemblance est comme suit :</head><p>Sachant que les échantillons du bruit sont gaussiens, la distribution jointe à posteriori p (k, µ 1 , …, µ k \x,y) est donnée par : Freitas 98   </p><formula xml:id="formula_7">i N k T i N i m k i N T i m k i N i y P y N x D y x D y N , : 1 * , : 1 ^, : 1 : 1 , : 1 ^, : 1 : 1 , : 1 2 ^1 , , 1 =             −             − = α µ α µ σ                               − = − : 1 1 : 1 : 1 : 1 * , , , , x D x D x D x D I P k T k k T k N k µ µ µ µ ( ) ( ) ( )             + + + − = N d c c k k P log 2 1 1 exp ( ) ( ) ( ) k p y P y y x k p c i i N k i T i N k       ∝ ∏ = − 1 2 1 , : 1 * , , :<label>1 1 ,</label></formula><formula xml:id="formula_8">( ) ( ) [ ] ( ) i N k T k k T i m y x D x D x D , : 1 : 1 1 : 1 : 1 , : 1 ^, , , µ µ µ α − = * , k i P ( ) [ ] P k P − ∝ exp ( )       ∝ ∏ = − c i N i N k i T i N y P y p 1 2 , : 1 * , ,<label>: 1 (9)</label></formula></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.1.">Les sauts de l'algorithme</head><p>Supposons que l'état courant de la chaîne de Markov est (k,θ k ). A chaque itération, cet algorithme effectue l'un des sauts suivants : <ref type="bibr" target="#b9">[10]</ref> [16]</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.1.1.">Saut de naissance « Birth jump»</head><p>-Proposer aléatoirement un nouveau centre RBF à partir de l'intervalle (Equ.8) ; -Evaluer A birth , et échantillonner u ~и [0, 1] ; -Si u ≤ A birth alors l'état de la chaîne de Markov devient (k+1, µ 1 : k+1 ) sinon elle reste (k, µ 1 : k ). r birth = d'où est donné dans <ref type="bibr" target="#b10">(11)</ref>.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>C = [(c+1) log (N)/2 ] selon le critère MDL.</head><p>A birth = min (1, r birth ).</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.1.2.">Saut de mort « death jump »</head><p>-Supprimer aléatoirement un des k centres RBF dans (Equ.5); -Evaluer A death , et échantillonner u ~и [0, 1] ; -Si u ≤ A death alors l'état de la chaîne de Markov devient (k-1, µ 1 : k-1 ) sinon elle reste (k, µ 1 : k ).</p><formula xml:id="formula_9">r death = A death = min (1, r death ). ( ) ( )       ∝ ∏ = − Ω ∈ c i i N k i T i N k k MAP k y P y k p 1 2 1 , : 1 * , , : 1 , 1 , 1 max arg , µ µ ( ) ( )             + + + − N d c c k log 2 1 1 exp ( ) ) ( ) ( i k i k d b u + ≤ ( ) ) ( ) ( ) ( i k i k i k s d b u + + ≤ (</formula><p>)</p><formula xml:id="formula_10">) (i k b u ≤ ( ) ) ( ) ( ) ( ) ( i k i k i k i k m s d b u + + + ≤ ( ) 1 ) ( exp 1 2 , : 1 * 1 , , : 1 , : 1 * , , : 1 + −                 ∏ = + k C y p y y p y c i N i N k i T i N i N k i T i N ψ * k p ψ ) ( exp 1 2 , : 1 * 1 , , : 1 , : 1 * , , : 1 C k y p y y p y c i N i N k i T i N i N k i T i N ∏ = −                 (16)</formula></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.1.3.">Saut de scission « split jump »</head><p>-Choisir aléatoirement un des centres RBF µ ; -Le remplacer par ses voisins les plus proches µ1, µ2 tel que µ1 = µ -u s ζ et µ2 = µ + u s ζ ; -Le nouveau centre doit être lié à l'espace Ω k dans (Equ.8) ; ζ est une constante (paramètre de simulation) et u ~и [0, 1] ; -Evaluer A split , et échantillonner u ~и [0, 1] ; -Si u ≤ A s plit alors l'état de la chaîne de Markov devient (k+1, µ 1 : k+1 ) sinon elle reste (k, µ 1 : k ). r split = A split = min (1, r split ).</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.1.4.">Saut de fusion « merge jump »</head><p>-Choisir aléatoirement un des k terme RBF µ 1 ; -Trouver son voisin proche µ 2 ; (en utilisant la distance euclidienne) ; -Si ║ µ1-µ2║&lt; 2 ζ, alors remplacer les deux fonctions RBF par une seul RBF dont la location est µ = (µ1-µ2)/2 ; -Evaluer A merge , et échantillonner u ~и [0, 1] ; -Si u ≤ A merge alors l'état de la chaîne de Markov devient (k-1, µ 1 : k-1 ) sinon elle reste (k, µ 1 : k ). r merge = A merge = min (1, r merge ).</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="5.1.5.">Mise à jour « update move »</head><p>L'échantillonnage des centres RBF est difficile, puisque leur distribution est non linéaire. Là on échantillonne un à la fois en utilisant un ensembles d'étapes MH.</p><p>Pour j = 1, 2, ….., k Tirer un échantillon u ~ и [0, 1] ; Si u &lt; 0.5 Echantillonner aléatoirement un centre RBF à partir de l'intervalle initialement fixé dans (Equ.8). C a l c u l e r r update = D'où est le même que avec µ 1 : k, 1 : d , remplacé par :</p><formula xml:id="formula_11">{µ 1, 1 : d , µ 2, 1 : d , …., µ j -1 , , µ j+1, 1 : d , …., µ j, 1 : d }. Si v ~ u [0,1] ≤ min {1, r update } alors l'état devient (k, µ 1 , µ 2 , …., µ j -1 , , µ j+1 , …., µ k ) sinon il reste inchangé.</formula><p>Si u ≥ 0.5 Echantillonner aléatoirement un centre RBF à partir de la distribution : </p><formula xml:id="formula_12">\ µ j, 1: d ~ N (µ j, 1 : d , I d ). r update = Si v ~ u [0,1] ≤ min {1,</formula><formula xml:id="formula_13">+ −                 ∏ = + k C k y p y y p y c i N i N k i T i N i N k i T i N ζ ( ) ( )<label>1 exp 1 2 , : 1 * 1 , , : 1 , : 1 *</label></formula><formula xml:id="formula_14">, , : 1 −                 ∏ = − k C k y p y y p y c i N i N k i T i N i N k i T i N ζ • j µ * , k i p • k i p , * : 1 , d j µ ∏ =         c i N i N k i T i N i N k i T i N y p y y p y 1 2 , : 1 * , , : 1 , : 1 * , , : 1 • d j : 1 , µ • j i , µ ∏ =           • * c i N i N y k i p T i N y i N y k i p T i N y 1 2 , : 1 , , : 1 , : 1 , , : 1 2 RW σ • j µ • d j :</formula><p>1 , µ D'une perspective MCMC, on peut résoudre un problème d'optimisation, comme celui posé dans notre cas, en adoptant la stratégie du récuit simulé. Cette dernière implique la simulation de chaîne de Markov non homogène dont la distribution à l'itération i, n'est pas π (z) mais :</p><formula xml:id="formula_15">π i (z) ∝ π 1/ T i (z)</formula><p>avec T : la température Lorsque i → ∞ T = 0, la densité π ∞ (z) se concentre sur l'ensemble des maximaux globaux π (z) . Si l'on considère le noyau de transition de l'algorithme (R-J-MCMC) T(z, z*) comme loi de proposition, le rapport d'acceptation recuit est donné par :</p><p>6 Explication des étapes de l'algorithme 1-Initialisation :</p><p>Les valeurs initiales de µ 1 , …, µ k sont aléatoirement choisies selon (Equ.10).</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>2-La boucle :</head><p>♦ Les sauts « birth » et « death » permettent au réseau respectivement de s'augmenter de k à k+1, et de se baisser de k à k-1.</p><p>♦ Les sauts « split » et « merge » permettent aussi de changer la dimension de k à k+1 et de k à k-1. ♦ Le saut « merge » sert à éviter de placer plusieurs fonctions RBF dans le même voisinage. D'autre part le saut « split » est utilisé dans les régions de données où il y a des composantes étroites.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head>Remarques :</head><p>♦ Le noyau résultant de la simulation de la chaîne de Markov est donc un mélange de plusieurs noyaux de transition liés aux mouvements décrits ci-dessus. Nous avons adopté une inférence bayesienne, avec l'algorithme MCMC à sauts réversible pour effectuer les intégrales nécessaires, par conséquence une minimisation du temps d'apprentissage et de l'erreur pour le réseau de neurones.</p></div>
<div xmlns="http://www.tei-c.org/ns/1.0"><head n="9">Références</head></div><figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_0"><head></head><label></label><figDesc>…, d } ι : un paramètre utilisateur. La prémisse ici est de placer les fonctions où les données sont condensées. Les centres sont échantillonnés d'un espace dont l'hyper volume est [Freitas 98] avec 4 Les MCMC pour l'apprentissage bayésien L'inférence de k et Θ k est basée sur la distribution jointe à posteriori p(k, Θ k \ x, y), obtenue par le théorème de Bayes. Notre but est d'estimer cette distribution pour obtenir « théoriquement » tous les éléments du posterior. L'idée principale des MCMC, est de construire une chaîne de Markov dont la distribution stationnaire est la distribution à posteriori désirée p (k, Θ k \ x, y).</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_2"><head>Figure2:</head><label></label><figDesc>Figure2 : Le modèle linéaire d'approximation d'un RBF à trois fonctions RBF, deux entrées et deux sorties.1</figDesc><graphic coords="4,142.86,88.86,243.00,159.96" type="bitmap" /></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_3"><head>1 .</head><label>1</label><figDesc>conséquent l'évaluation du maximum à posteriori (MAP) de ces paramètres est obtenue par la maximisation du côté droit de (Equ.15).Nous allons utiliser l'algorithme Reversible jump Markov Chain Monte Carlo Simulated Annealing (R-J-MCMC SA), pour estimer jointement l'ordre du modèle k (k &lt;= k max ) et les centre RBF µ1, … , µk , à chaque itération.[14] [15]    5. L'algorithme R-j-MCMC simulated annealing Initialisation de: (k (0) , θ(0) </figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" xml:id="fig_4"><head>♦</head><label></label><figDesc>A chaque itération, un des sauts (b, d, m, s, u) est choisis aléatoirement. Les probabilités pour choisir ces sauts sont respectivement b k , d k , m k , s k et u k , tel que b k + d k + m k + s k + u k = 1 avec (0≤ k ≤ k max ). Le saut n'est effectué que si l'algorithme l'accepte. Pour k = 0, les sauts mort, scission et fusion sont impossibles, donc : d 0 = 0 ; m 0 = 0 ; s 0 = 0. Pour k = 1, le saut fusion est interdit. Donc m1 = 0. Pour k = k max , les saut naissance et scission, ne sont pas autorisés et pour cela ; b kmax = 0 ; s kmax = 0. ♦Notre algorithme, donne la MAP jointe estimation de µ 1 : k , et k avec b k = d k = m k = s k = u k = 0.2 . 7 Application : Approximation des fonctions Les fonctions a simuler sont des fonctions non linéaire à deux variables, où les entrées (x,y) sont tirées d'une distribution gaussienne avec une moyenne nulle, une variance =1 et un bruit v. Un aperçue de la vraie fonction, et celle réalisée par l'algorithme ( Dans cet article, on a présenté une technique pour l'apprentissage des réseaux de neurones, s'appuyant sur le principe des méthodes Monte Carlo par chaînes de Markov .L'intégration de ces méthodes à l'apprentissage des réseaux de neurones, nous a mené à des résultats satisfaisants par rapport à d'autres algorithmes classiques d'apprentissage. L'application de ces méthodes à l'approximation des fonctions nous a indiqué clairement que cette technique d'apprentissage représente une alternative intéressante et prometteuse dans les méthodes existantes. Dans cet article, nous avons donné une estimation du bruit, et du nombre de paramètres pour un modèle de réseau RBF d'une façon générale.</figDesc></figure>
<figure xmlns="http://www.tei-c.org/ns/1.0" type="table" xml:id="tab_0"><head></head><label></label><figDesc>R c : paramètres de la régression linéaire, n t ∈ R c : séquence de bruit.</figDesc><table><row><cell>:Une fonction RBF, (fonction gaussienne).</cell><cell></cell></row><row><cell>Le schéma suivant représente notre modèle adopté</cell><cell></cell></row><row><cell>Le traitement du bruit est normalement</cell><cell>distribué comme suit :</cell></row><row><cell>n t ~ N</cell><cell></cell></row><row><cell cols="2">Un bruit additif, blanc, gaussien, de moyenne nulle et variance = σ 2 .</cell></row><row><cell>Les inconnus sont :</cell><cell></cell></row></table><note>Le nombre de RBFs : k, Les paramètres des k RBFs : α, µ et σ 2 .</note></figure>
		</body>
		<back>
			<div type="references">

				<listBibl>

<biblStruct xml:id="b0">
	<analytic>
		<title level="a" type="main">Bayesian interpolation</title>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">J C</forename><surname>Mackay</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Neural Computation</title>
		<imprint>
			<biblScope unit="volume">4</biblScope>
			<biblScope unit="issue">3</biblScope>
			<biblScope unit="page" from="415" to="447" />
			<date type="published" when="1992">1992</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b1">
	<analytic>
		<title level="a" type="main">A Practical Bayesian Framework for Backpropagation Networks</title>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">J C</forename><surname>Mackay</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Neural Computation</title>
		<imprint>
			<biblScope unit="volume">4</biblScope>
			<biblScope unit="issue">3</biblScope>
			<biblScope unit="page" from="448" to="472" />
			<date type="published" when="1992">1992</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b2">
	<monogr>
		<title level="m" type="main">Bayesian Training of Backpropagation Networks by the Hybrid Monte Carlo Method</title>
		<author>
			<persName><forename type="first">R</forename><forename type="middle">M</forename><surname>Neal</surname></persName>
		</author>
		<idno>CRG-TR-92-1</idno>
		<imprint>
			<date type="published" when="1992">1992</date>
		</imprint>
		<respStmt>
			<orgName>Department of Computer Science, University of Toronto</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">Technical Report</note>
</biblStruct>

<biblStruct xml:id="b3">
	<monogr>
		<title level="m" type="main">Bayesian Learning for Neural Network</title>
		<author>
			<persName><forename type="first">R</forename><forename type="middle">M</forename><surname>Neal</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1994">1994</date>
		</imprint>
		<respStmt>
			<orgName>University of Toronto</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">Ph.D. thesis</note>
</biblStruct>

<biblStruct xml:id="b4">
	<monogr>
		<title level="m" type="main">Bayesian methods for Neural Networks</title>
		<author>
			<persName><forename type="first">R</forename><forename type="middle">M</forename><surname>Neal</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1996">1996</date>
			<publisher>Springer-Verlag</publisher>
			<pubPlace>New York</pubPlace>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b5">
	<analytic>
		<title level="a" type="main">Bayesian back-propagation</title>
		<author>
			<persName><forename type="first">W</forename><surname>Buntine</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><surname>Weigend</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Complex Systems</title>
		<imprint>
			<biblScope unit="volume">5</biblScope>
			<biblScope unit="page" from="603" to="643" />
			<date type="published" when="1991">1991</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b6">
	<monogr>
		<title level="m" type="main">Neural Networks for Pattern Recognition</title>
		<author>
			<persName><forename type="first">C</forename><forename type="middle">M</forename><surname>Bishop</surname></persName>
		</author>
		<imprint>
			<date type="published" when="1995">1995</date>
			<publisher>Clarendon Press</publisher>
			<pubPlace>Oxford</pubPlace>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b7">
	<monogr>
		<title level="m" type="main">Sequential Monte Carlo methods for optimisation of neural network models</title>
		<author>
			<persName><forename type="first">M</forename><surname>Jfg De Freitas</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A H</forename><surname>Niranjan</surname></persName>
		</author>
		<author>
			<persName><surname>Gee</surname></persName>
		</author>
		<author>
			<persName><surname>Doucet</surname></persName>
		</author>
		<idno>CUED/F-INFENG/TR 328</idno>
		<imprint>
			<date type="published" when="1998-07">July 1998</date>
		</imprint>
		<respStmt>
			<orgName>Cambridge University Engineering Department</orgName>
		</respStmt>
	</monogr>
	<note type="report_type">Technical Report</note>
</biblStruct>

<biblStruct xml:id="b8">
	<analytic>
		<title level="a" type="main">Bayesian neural networks with correlating residuals</title>
		<author>
			<persName><forename type="first">Aki</forename><surname>Vehtari</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Jouko</forename><surname>Lampinen</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Proc. IJCNN&apos;99</title>
				<meeting>IJCNN&apos;99<address><addrLine>Washington, DC, USA</addrLine></address></meeting>
		<imprint>
			<date type="published" when="1999-07">July 1999</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b9">
	<monogr>
		<title level="m" type="main">Robust full bayesian methods for neural network</title>
		<author>
			<persName><surname>Jfg De Freitas</surname></persName>
		</author>
		<imprint>
			<date type="published" when="2000">2000</date>
		</imprint>
		<respStmt>
			<orgName>Cambridge university</orgName>
		</respStmt>
	</monogr>
</biblStruct>

<biblStruct xml:id="b10">
	<analytic>
		<title level="a" type="main">The Evidence Framework Applied to Classification Networks</title>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">J C</forename><surname>Mackay</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Neural Computation</title>
		<imprint>
			<biblScope unit="volume">4</biblScope>
			<biblScope unit="issue">5</biblScope>
			<biblScope unit="page" from="698" to="714" />
			<date type="published" when="1992">1992</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b11">
	<monogr>
		<author>
			<persName><forename type="first">Philippe</forename><surname>Leray</surname></persName>
		</author>
		<author>
			<persName><forename type="first">Olivier</forename><surname>François</surname></persName>
		</author>
		<title level="m">Etude comparative d&apos;algorithme d&apos;apprentissage et de structure dans les réseaux bayésiens</title>
				<imprint>
			<publisher>Systèmes</publisher>
			<date type="published" when="2645">2645</date>
		</imprint>
		<respStmt>
			<orgName>Laboratoire Perception ; Information -FRE CNRS</orgName>
		</respStmt>
	</monogr>
</biblStruct>

<biblStruct xml:id="b12">
	<analytic>
		<title level="a" type="main">Novel approach to nonlinear/non-gaussian bayesian state estimation</title>
		<author>
			<persName><forename type="first">N</forename><forename type="middle">J</forename><surname>Gordon</surname></persName>
		</author>
		<author>
			<persName><forename type="first">D</forename><forename type="middle">J</forename><surname>Salmond</surname></persName>
		</author>
		<author>
			<persName><forename type="first">A</forename><forename type="middle">F M</forename><surname>Smith</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">IEEE Proceedings-F</title>
		<imprint>
			<biblScope unit="volume">140</biblScope>
			<biblScope unit="issue">2</biblScope>
			<biblScope unit="page" from="107" to="113" />
			<date type="published" when="1993-04">April 1993</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b13">
	<analytic>
		<title level="a" type="main">Bayesian inductive inference and maximum entrop</title>
		<author>
			<persName><forename type="first">S</forename><forename type="middle">F</forename><surname>Gull</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="m">Maximum-Entropy and Bayesian Methods in Science and Engineering</title>
				<editor>
			<persName><forename type="first">G</forename><forename type="middle">J</forename><surname>Erickson</surname></persName>
		</editor>
		<editor>
			<persName><forename type="first">C</forename><forename type="middle">R</forename><surname>Smith</surname></persName>
		</editor>
		<meeting><address><addrLine>Dordrecht</addrLine></address></meeting>
		<imprint>
			<publisher>Kluwer</publisher>
			<date type="published" when="1988">1988</date>
			<biblScope unit="volume">1</biblScope>
			<biblScope unit="page" from="53" to="74" />
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b14">
	<analytic>
		<title level="a" type="main">Sequential Monte Carlo methods for dynamic systems</title>
		<author>
			<persName><forename type="first">J S</forename><surname>Liu</surname></persName>
		</author>
		<author>
			<persName><forename type="first">R</forename><surname>Chen</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Journal of the American Statisti-cal Association</title>
		<imprint>
			<biblScope unit="volume">93</biblScope>
			<biblScope unit="page" from="1032" to="1044" />
			<date type="published" when="1998">1998</date>
		</imprint>
	</monogr>
</biblStruct>

<biblStruct xml:id="b15">
	<analytic>
		<title level="a" type="main">Monte Carlo integration in general dynamic models</title>
		<author>
			<persName><forename type="first">P</forename><surname>Muller</surname></persName>
		</author>
	</analytic>
	<monogr>
		<title level="j">Contemporary Mathematics</title>
		<imprint>
			<biblScope unit="volume">115</biblScope>
			<biblScope unit="page" from="145" to="163" />
			<date type="published" when="1991">1991</date>
		</imprint>
	</monogr>
</biblStruct>

				</listBibl>
			</div>
		</back>
	</text>
</TEI>
