L'intégration des méthodes Monte Carlo par chaînes de Markov dans l'apprentissage des réseaux de neurones

L'intégration des méthodes Monte Carlo par chaînes de Markov dans l'apprentissage des réseaux de neurones LindaOtmani otmani_linda@yahoo.fr Faculté des sciences-Département d'informatique Laboratoire SIMPA Université de sciences et de technologie d'ORAN-Mohamed Bodiaf AbdelkaderBenyettou aek.benyettou@univ-usto.dz Faculté des sciences-Département d'informatique Laboratoire SIMPA Université de sciences et de technologie d'ORAN-Mohamed Bodiaf L'intégration des méthodes Monte Carlo par chaînes de Markov dans l'apprentissage des réseaux de neurones 00C7A8A99CF267DEF3C8A725E0737C07 GROBID - A machine learning software for extracting information from scholarly documents

Les méthodes Monte Carlo par chaînes de Markov (MCMC) , s'inscrivent dans le cadre du formalisme Bayésien .On peut dire que l'application de ces méthodes à l'apprentissage des réseaux de neurones peut apporter plusieurs avantages, tout d'abord, l'introduction de connaissances a priori est susceptible d'améliorer l'estimation des paramètres. De plus, le formalisme Bayésien permet une analyse complète des incertitudes et des probabilités des données. Dans cet article, nous présenterons brièvement le principe de ces méthodes, qui présentent l'avantage d'être utilisables, et nous allons montrer leurs applications pour l'apprentissage des réseaux de neurones.

Mot clés

Méthodes Bayésiennes, Réseaux de neurones, Méthodes Monte Carlo par chaînes de Markov (MCMC),

Introduction

Les méthodes bayésiennes ont été appliquées ces dernières années aux réseaux de neurones par différents auteurs, notamment dans les travaux de MacKay 1992 a [1], MacKay 1992 b [2], Neal 1992[3] , Neal 1994[4], repris dans Neal 1996 [5], et Buntine et Weigened 1991, Bishop 1995, et plus récemment Freitas 1998, Vehtari 1999et Freitas 2000. Weigened (1991), Mackay (1992) et Neal (1994) ont montré que les méthodes bayésiennes pour l'apprentissage des réseaux de neurones peuvent apporter plusieurs avantages, car il n'est pas nécessaire de limiter la taille du réseau pour éviter le sur ajustement, et que le nombre de neurones cachés peut tendre vers l'infini, le seul facteur qui doit limiter la taille du réseau est la capacité des ordinateurs utilisés et le temps disponible pour effectuer les calculs nécessaires, mais comme les paramètres utilisés sont issus d'une distribution de probabilité, il est nécessaire pour connaître un paramètre de calculer des intégrales faisant intervenir les distributions des autres paramètres. Il est, en général, impossible de calculer ces intégrales analytiquement, et plusieurs approches ont été proposées pour effectuer ces calculs. Mais soit ces méthodes sont très lourdes à implémenter, soit elles reposent sur des approximations qui peuvent fausser les résultats, et cela à cause des paramètres utilisés (paramètres du réseau de neurone) qui sont issus d'une distribution de probabilité, pour inférer ces paramètres on est confronté soit à un problème d'intégration ou d'optimisation comme celui de notre cas. Pour résoudre ce problème nous avons opté pour l'algorithme appelé «reversible Jump MCMC Simulated Annealing» proposé par [6] [10] et qui s'inscrit toujours dans le cadre des méthodes MCMC , et nous allons par la suite vérifier son application pour l'approximation des fonctions.

L'inférence Bayésienne

Dans un formalisme Bayésien, toute inférence repose sur la densité à posteriori des paramètres qui nous intéressent conditionnellement aux observations. [7] Supposant que y = (y 1 , …, y N ) soit le vecteur des observations et θ = (θ 1 , …, θ d ) ∈ Θ soit le vecteur de paramètres à estimer. La densité à posteriori p(θ \y) conjointe de tous les paramètres du modèles est définie à partir du théorème de Bayes : p(y\θ) est la densité de probabilité conditionnelle des observations connaissant les paramètres du modèle : fonction de vraisemblance. [8] [9] p(θ) est la densité à priori des paramètres θ choisie en fonction des connaissances disponibles sur θ avant la prise en compte des observations. p(y) est une constante, indépendante de θ , aussi appelée évidence Bayésienne .

Estimation paramétrique Bayésienne

Estimateur (MMSE)

L'estimateur MMSE est défini par la moyenne de la densité à posteriori considérée.

Etant donné un vecteur de paramètres θ et un vecteur d'observation y on a :

Estimateur MAP

L'estimateur MAP est déterminé par le mode de la densité à posteriori considérée :

Pour résoudre un tel problème, nous proposons une méthode de simulation de densités de probabilité telle que la méthode Monte Carlo par Chaîne de Markov, basée sur la génération de variables aléatoires distribuées suivant une loi π à simuler.

Le modèle adopté

Pour réaliser notre travaille, nous allons adopter le schéma d'approximation proposé par Holmes et Mallicke (1998) [10], qui consiste à mixer les k RBFs et la régression linéaire. Ce modèle est donné par :

Μ 0 : y t = b + β -1 x t + n t k=0 ; Μ k : y t = a j φ (║x t -µ j ║) b + β -1 x t +n t k≥1

D'où ║.║ : distance (euclidienne ou de mahalanobis). µ j ∈ R d : j ème centre RBF pour un modèle avec k RBFs, a j ∈ R c : j ème coefficient (poids) RBF,

∑ = k j 1 ) ( ) ( ) / ( ) / ( y p (2)(3) (4)

(5) Figure1 : Estimateurs paramétriques Bayésien

P (θ \ y) max 1 k k ≤ ≤ b ∈ R c et β ∈ R d ×

Position du problème

Etant donné l'ensemble de données d'entrée /sortie {x, y} tel que :

O = {x 1 , x 2 , … , x N ; y 1 , y 2 , … , y N }: Notre objectif est d'estimer k et θ ∈Θ k. D'où Θ 0 (R d+1 ) c × (R + ) c , et Θ k (R d+1+k ) c × (R + ) c × Ω k pour k∈ {1, …, k max } . C à d α∈ (R d+1+k ) c ; σ ∈ (R + ) c et µ ∈ Ω k

On note que : Le nombre maximal de RBFs est défini par :

Ω k est un ensemble compact de données : Comme nous l'avons déjà dit, une méthode MCMC simple n'est pas capable de « sauter » entre les sous espaces de Θ k (de dimensions différentes). Cependant, récemment Green a introduit une nouvelle classe flexible, d'échantillonneurs MCMC, appelée « reversible jump MCM C» [10]. Capable de sauter entre les espaces des paramètres de dimensions différentes. [11]. )

Ω k = { pour i = 1,] max , min [ ; , : 1 , : 1 , : 1 i i N i i N i k x x Ξ + Ξ − ∈ ι ι µ µ φ k max = (N -(d+1)) 2 . (7) ( ) Ν ∈ i i i k ) ( ) ( , θ ( ) ( ) i N i N i x x , : 1 , : 1 min max − = Ξ ( ) ( ) k d i i k ∏ = Ξ + = 1 2 1 ι ψ                                                   2 2 2t c k d d N d k n x D y + = + + : 1 , 1 : 1 : 1 , : 1 : 1 , : 1 , α µ (6) (8)

Une stratégie de recuit simulé peut être adoptée à cet l'algorithme, pour tirer des échantillons aléatoires à partir de la chaîne de Markov. Ces échantillons sont utilisés pour approximer l'inférence désirée. [10] [12] [13].

Estimation des poids

Étant donné k, µ1, …, µk, l'estimation des moindres carrés de α est donnée par :

Estimation des paramètres du bruit

En utilisant l'estimation conventionnelle de la distribution gaussienne, l'estimation de σ 2 est donnée par : D'où est une matrice orthogonale de projection des moindres carrés :

La distribution jointe à posteriori

On peut imposer la distribution à priori sur k : D'ou P est un terme de pénalité qui dépend de l'ordre du modèle. En se basant sur le critère du minimum description length (MDL), P MDL = ξ/2 log (N). ξ = nombre de paramètres du modèle = k(c+1) + c(1+d) en cas d'un réseau RBF.

La fonction de vraisemblance est comme suit :

Sachant que les échantillons du bruit sont gaussiens, la distribution jointe à posteriori p (k, µ 1 , …, µ k \x,y) est donnée par : Freitas 98

i N k T i N i m k i N T i m k i N i y P y N x D y x D y N , : 1 * , : 1 ^, : 1 : 1 , : 1 ^, : 1 : 1 , : 1 2 ^1 , , 1 =             −             − = α µ α µ σ                               − = − : 1 1 : 1 : 1 : 1 * , , , , x D x D x D x D I P k T k k T k N k µ µ µ µ ( ) ( ) ( )             + + + − = N d c c k k P log 2 1 1 exp ( ) ( ) ( ) k p y P y y x k p c i i N k i T i N k       ∝ ∏ = − 1 2 1 , : 1 * , , :1 1 ,( ) ( ) [ ] ( ) i N k T k k T i m y x D x D x D , : 1 : 1 1 : 1 : 1 , : 1 ^, , , µ µ µ α − = * , k i P ( ) [ ] P k P − ∝ exp ( )       ∝ ∏ = − c i N i N k i T i N y P y p 1 2 , : 1 * , ,: 1 (9)

Les sauts de l'algorithme

Supposons que l'état courant de la chaîne de Markov est (k,θ k ). A chaque itération, cet algorithme effectue l'un des sauts suivants : [10] [16]

Saut de naissance « Birth jump»

-Proposer aléatoirement un nouveau centre RBF à partir de l'intervalle (Equ.8) ; -Evaluer A birth , et échantillonner u ~и [0, 1] ; -Si u ≤ A birth alors l'état de la chaîne de Markov devient (k+1, µ 1 : k+1 ) sinon elle reste (k, µ 1 : k ). r birth = d'où est donné dans (11).

C = [(c+1) log (N)/2 ] selon le critère MDL.

A birth = min (1, r birth ).

Saut de mort « death jump »

-Supprimer aléatoirement un des k centres RBF dans (Equ.5); -Evaluer A death , et échantillonner u ~и [0, 1] ; -Si u ≤ A death alors l'état de la chaîne de Markov devient (k-1, µ 1 : k-1 ) sinon elle reste (k, µ 1 : k ).

r death = A death = min (1, r death ). ( ) ( )       ∝ ∏ = − Ω ∈ c i i N k i T i N k k MAP k y P y k p 1 2 1 , : 1 * , , : 1 , 1 , 1 max arg , µ µ ( ) ( )             + + + − N d c c k log 2 1 1 exp ( ) ) ( ) ( i k i k d b u + ≤ ( ) ) ( ) ( ) ( i k i k i k s d b u + + ≤ (

)

) (i k b u ≤ ( ) ) ( ) ( ) ( ) ( i k i k i k i k m s d b u + + + ≤ ( ) 1 ) ( exp 1 2 , : 1 * 1 , , : 1 , : 1 * , , : 1 + −                 ∏ = + k C y p y y p y c i N i N k i T i N i N k i T i N ψ * k p ψ ) ( exp 1 2 , : 1 * 1 , , : 1 , : 1 * , , : 1 C k y p y y p y c i N i N k i T i N i N k i T i N ∏ = −                 (16)

Saut de scission « split jump »

-Choisir aléatoirement un des centres RBF µ ; -Le remplacer par ses voisins les plus proches µ1, µ2 tel que µ1 = µ -u s ζ et µ2 = µ + u s ζ ; -Le nouveau centre doit être lié à l'espace Ω k dans (Equ.8) ; ζ est une constante (paramètre de simulation) et u ~и [0, 1] ; -Evaluer A split , et échantillonner u ~и [0, 1] ; -Si u ≤ A s plit alors l'état de la chaîne de Markov devient (k+1, µ 1 : k+1 ) sinon elle reste (k, µ 1 : k ). r split = A split = min (1, r split ).

Saut de fusion « merge jump »

-Choisir aléatoirement un des k terme RBF µ 1 ; -Trouver son voisin proche µ 2 ; (en utilisant la distance euclidienne) ; -Si ║ µ1-µ2║< 2 ζ, alors remplacer les deux fonctions RBF par une seul RBF dont la location est µ = (µ1-µ2)/2 ; -Evaluer A merge , et échantillonner u ~и [0, 1] ; -Si u ≤ A merge alors l'état de la chaîne de Markov devient (k-1, µ 1 : k-1 ) sinon elle reste (k, µ 1 : k ). r merge = A merge = min (1, r merge ).

Mise à jour « update move »

L'échantillonnage des centres RBF est difficile, puisque leur distribution est non linéaire. Là on échantillonne un à la fois en utilisant un ensembles d'étapes MH.

Pour j = 1, 2, ….., k Tirer un échantillon u ~ и [0, 1] ; Si u < 0.5 Echantillonner aléatoirement un centre RBF à partir de l'intervalle initialement fixé dans (Equ.8). C a l c u l e r r update = D'où est le même que avec µ 1 : k, 1 : d , remplacé par :

{µ 1, 1 : d , µ 2, 1 : d , …., µ j -1 , , µ j+1, 1 : d , …., µ j, 1 : d }. Si v ~ u [0,1] ≤ min {1, r update } alors l'état devient (k, µ 1 , µ 2 , …., µ j -1 , , µ j+1 , …., µ k ) sinon il reste inchangé.

Si u ≥ 0.5 Echantillonner aléatoirement un centre RBF à partir de la distribution :

\ µ j, 1: d ~ N (µ j, 1 : d , I d ). r update = Si v ~ u [0,1] ≤ min {1,+ −                 ∏ = + k C k y p y y p y c i N i N k i T i N i N k i T i N ζ ( ) ( )1 exp 1 2 , : 1 * 1 , , : 1 , : 1 *, , : 1 −                 ∏ = − k C k y p y y p y c i N i N k i T i N i N k i T i N ζ • j µ * , k i p • k i p , * : 1 , d j µ ∏ =         c i N i N k i T i N i N k i T i N y p y y p y 1 2 , : 1 * , , : 1 , : 1 * , , : 1 • d j : 1 , µ • j i , µ ∏ =           • * c i N i N y k i p T i N y i N y k i p T i N y 1 2 , : 1 , , : 1 , : 1 , , : 1 2 RW σ • j µ • d j :

1 , µ D'une perspective MCMC, on peut résoudre un problème d'optimisation, comme celui posé dans notre cas, en adoptant la stratégie du récuit simulé. Cette dernière implique la simulation de chaîne de Markov non homogène dont la distribution à l'itération i, n'est pas π (z) mais :

π i (z) ∝ π 1/ T i (z)

avec T : la température Lorsque i → ∞ T = 0, la densité π ∞ (z) se concentre sur l'ensemble des maximaux globaux π (z) . Si l'on considère le noyau de transition de l'algorithme (R-J-MCMC) T(z, z*) comme loi de proposition, le rapport d'acceptation recuit est donné par :

6 Explication des étapes de l'algorithme 1-Initialisation :

Les valeurs initiales de µ 1 , …, µ k sont aléatoirement choisies selon (Equ.10).

2-La boucle :

♦ Les sauts « birth » et « death » permettent au réseau respectivement de s'augmenter de k à k+1, et de se baisser de k à k-1.

♦ Les sauts « split » et « merge » permettent aussi de changer la dimension de k à k+1 et de k à k-1. ♦ Le saut « merge » sert à éviter de placer plusieurs fonctions RBF dans le même voisinage. D'autre part le saut « split » est utilisé dans les régions de données où il y a des composantes étroites.

Remarques :

♦ Le noyau résultant de la simulation de la chaîne de Markov est donc un mélange de plusieurs noyaux de transition liés aux mouvements décrits ci-dessus. Nous avons adopté une inférence bayesienne, avec l'algorithme MCMC à sauts réversible pour effectuer les intégrales nécessaires, par conséquence une minimisation du temps d'apprentissage et de l'erreur pour le réseau de neurones.

Références

…, d } ι : un paramètre utilisateur. La prémisse ici est de placer les fonctions où les données sont condensées. Les centres sont échantillonnés d'un espace dont l'hyper volume est [Freitas 98] avec 4 Les MCMC pour l'apprentissage bayésien L'inférence de k et Θ k est basée sur la distribution jointe à posteriori p(k, Θ k \ x, y), obtenue par le théorème de Bayes. Notre but est d'estimer cette distribution pour obtenir « théoriquement » tous les éléments du posterior. L'idée principale des MCMC, est de construire une chaîne de Markov dont la distribution stationnaire est la distribution à posteriori désirée p (k, Θ k \ x, y).

Figure2:Figure2 : Le modèle linéaire d'approximation d'un RBF à trois fonctions RBF, deux entrées et deux sorties.1

1 .1conséquent l'évaluation du maximum à posteriori (MAP) de ces paramètres est obtenue par la maximisation du côté droit de (Equ.15).Nous allons utiliser l'algorithme Reversible jump Markov Chain Monte Carlo Simulated Annealing (R-J-MCMC SA), pour estimer jointement l'ordre du modèle k (k <= k max ) et les centre RBF µ1, … , µk , à chaque itération.[14] [15] 5. L'algorithme R-j-MCMC simulated annealing Initialisation de: (k (0) , θ(0)

♦A chaque itération, un des sauts (b, d, m, s, u) est choisis aléatoirement. Les probabilités pour choisir ces sauts sont respectivement b k , d k , m k , s k et u k , tel que b k + d k + m k + s k + u k = 1 avec (0≤ k ≤ k max ). Le saut n'est effectué que si l'algorithme l'accepte. Pour k = 0, les sauts mort, scission et fusion sont impossibles, donc : d 0 = 0 ; m 0 = 0 ; s 0 = 0. Pour k = 1, le saut fusion est interdit. Donc m1 = 0. Pour k = k max , les saut naissance et scission, ne sont pas autorisés et pour cela ; b kmax = 0 ; s kmax = 0. ♦Notre algorithme, donne la MAP jointe estimation de µ 1 : k , et k avec b k = d k = m k = s k = u k = 0.2 . 7 Application : Approximation des fonctions Les fonctions a simuler sont des fonctions non linéaire à deux variables, où les entrées (x,y) sont tirées d'une distribution gaussienne avec une moyenne nulle, une variance =1 et un bruit v. Un aperçue de la vraie fonction, et celle réalisée par l'algorithme ( Dans cet article, on a présenté une technique pour l'apprentissage des réseaux de neurones, s'appuyant sur le principe des méthodes Monte Carlo par chaînes de Markov .L'intégration de ces méthodes à l'apprentissage des réseaux de neurones, nous a mené à des résultats satisfaisants par rapport à d'autres algorithmes classiques d'apprentissage. L'application de ces méthodes à l'approximation des fonctions nous a indiqué clairement que cette technique d'apprentissage représente une alternative intéressante et prometteuse dans les méthodes existantes. Dans cet article, nous avons donné une estimation du bruit, et du nombre de paramètres pour un modèle de réseau RBF d'une façon générale.

R c : paramètres de la régression linéaire, n t ∈ R c : séquence de bruit.:Une fonction RBF, (fonction gaussienne).Le schéma suivant représente notre modèle adoptéLe traitement du bruit est normalementdistribué comme suit :n t ~ NUn bruit additif, blanc, gaussien, de moyenne nulle et variance = σ 2 .Les inconnus sont :

Le nombre de RBFs : k, Les paramètres des k RBFs : α, µ et σ 2 .

Bayesian interpolation DJ CMackay Neural Computation 4 3 1992 A Practical Bayesian Framework for Backpropagation Networks DJ CMackay Neural Computation 4 3 1992 Bayesian Training of Backpropagation Networks by the Hybrid Monte Carlo Method RMNeal CRG-TR-92-1 1992 Department of Computer Science, University of Toronto Technical Report Bayesian Learning for Neural Network RMNeal 1994 University of Toronto Ph.D. thesis Bayesian methods for Neural Networks RMNeal 1996 Springer-Verlag New York Bayesian back-propagation WBuntine AWeigend Complex Systems 5 1991 Neural Networks for Pattern Recognition CMBishop 1995 Clarendon Press Oxford Sequential Monte Carlo methods for optimisation of neural network models MJfg De Freitas A HNiranjan Gee Doucet CUED/F-INFENG/TR 328 July 1998 Cambridge University Engineering Department Technical Report Bayesian neural networks with correlating residuals AkiVehtari JoukoLampinen Proc. IJCNN'99 IJCNN'99

Washington, DC, USA

July 1999 Robust full bayesian methods for neural network Jfg De Freitas 2000 Cambridge university The Evidence Framework Applied to Classification Networks DJ CMackay Neural Computation 4 5 1992 PhilippeLeray OlivierFrançois Etude comparative d'algorithme d'apprentissage et de structure dans les réseaux bayésiens Systèmes 2645 Laboratoire Perception ; Information -FRE CNRS Novel approach to nonlinear/non-gaussian bayesian state estimation NJGordon DJSalmond AF MSmith IEEE Proceedings-F 140 2 April 1993 Bayesian inductive inference and maximum entrop SFGull Maximum-Entropy and Bayesian Methods in Science and Engineering GJErickson CRSmith

Dordrecht

Kluwer 1988 1 Sequential Monte Carlo methods for dynamic systems J SLiu RChen Journal of the American Statisti-cal Association 93 1998 Monte Carlo integration in general dynamic models PMuller Contemporary Mathematics 115 1991