17.11.2014 Views

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

20 Processus décisionnels de Markov en IA 1<br />

On a alors :<br />

m=N−1<br />

∑<br />

zk λ = V (s k ) + λ m−k δ m<br />

m=k<br />

m=N−1<br />

∑<br />

= V (s k ) + δ k + λ λ m−k−1 δ m<br />

m=k+1<br />

= V (s k ) + δ k + λ(z λ k+1 − V (s k+1 ))<br />

= V (s k ) + r k + V (s k+1 ) − V (s k ) + λ(z λ k+1 − V (s k+1 ))<br />

= r k + (λz λ k+1 + (1 − λ)V (s k+1 )).<br />

Dans le cas où λ = 0, il est clair que cela revient à ne considérer qu’un horizon<br />

unitaire, comme dans le cadre de la programmation dynamique. On retrouve donc<br />

TD(0).<br />

Si λ = 1, l’équation (1.14) se réécrit :<br />

m=N−1<br />

∑<br />

V (s k ) ← V (s k ) + α(s k ) δ m , k = 0, . . . , N − 1,<br />

m=k<br />

ce qui est exactement l’équation (1.5) de la méthode de Monte-Carlo.<br />

Pour tout λ, les deux approches de type first-visit ou every-visit peuvent être considérées.<br />

De même, une version on-line de l’algorithme d’apprentissage TD(λ) décrit<br />

<strong>par</strong> l’équation (1.14) est possible :<br />

V (s l ) ← V (s l ) + α(s l )λ k−l δ k , l = 0, . . . , k (1.15)<br />

dès que la transition (s k , s k+1 , r k ) est simulée et l’erreur δ k calculée.<br />

L’application du TD(λ) pour l’évaluation d’une politique π selon le critère γ-<br />

pondéré entraîne certaines modifications <strong>des</strong> algorithmes standards (1.14) ou (1.15),<br />

qu’il est nécessaire de citer ici.<br />

Un calcul en tout point semblable au cas γ = 1 conduit à une règle du type :<br />

m=∞<br />

∑<br />

V (s k ) ← V (s k ) + α(s k ) (γλ) m−k δ m . (1.16)<br />

m=k

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!