Apprentissage par renforcement - Institut des Systèmes Intelligents ...
Apprentissage par renforcement - Institut des Systèmes Intelligents ...
Apprentissage par renforcement - Institut des Systèmes Intelligents ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
20 Processus décisionnels de Markov en IA 1<br />
On a alors :<br />
m=N−1<br />
∑<br />
zk λ = V (s k ) + λ m−k δ m<br />
m=k<br />
m=N−1<br />
∑<br />
= V (s k ) + δ k + λ λ m−k−1 δ m<br />
m=k+1<br />
= V (s k ) + δ k + λ(z λ k+1 − V (s k+1 ))<br />
= V (s k ) + r k + V (s k+1 ) − V (s k ) + λ(z λ k+1 − V (s k+1 ))<br />
= r k + (λz λ k+1 + (1 − λ)V (s k+1 )).<br />
Dans le cas où λ = 0, il est clair que cela revient à ne considérer qu’un horizon<br />
unitaire, comme dans le cadre de la programmation dynamique. On retrouve donc<br />
TD(0).<br />
Si λ = 1, l’équation (1.14) se réécrit :<br />
m=N−1<br />
∑<br />
V (s k ) ← V (s k ) + α(s k ) δ m , k = 0, . . . , N − 1,<br />
m=k<br />
ce qui est exactement l’équation (1.5) de la méthode de Monte-Carlo.<br />
Pour tout λ, les deux approches de type first-visit ou every-visit peuvent être considérées.<br />
De même, une version on-line de l’algorithme d’apprentissage TD(λ) décrit<br />
<strong>par</strong> l’équation (1.14) est possible :<br />
V (s l ) ← V (s l ) + α(s l )λ k−l δ k , l = 0, . . . , k (1.15)<br />
dès que la transition (s k , s k+1 , r k ) est simulée et l’erreur δ k calculée.<br />
L’application du TD(λ) pour l’évaluation d’une politique π selon le critère γ-<br />
pondéré entraîne certaines modifications <strong>des</strong> algorithmes standards (1.14) ou (1.15),<br />
qu’il est nécessaire de citer ici.<br />
Un calcul en tout point semblable au cas γ = 1 conduit à une règle du type :<br />
m=∞<br />
∑<br />
V (s k ) ← V (s k ) + α(s k ) (γλ) m−k δ m . (1.16)<br />
m=k