Apprentissage par renforcement - Institut des SystÃ¨mes Intelligents ...

More documents

Recommendations

Info

20 Processus décisionnels de Markov en IA 1 On a alors : m=N−1 ∑ zk λ = V (s k ) + λ m−k δ m m=k m=N−1 ∑ = V (s k ) + δ k + λ λ m−k−1 δ m m=k+1 = V (s k ) + δ k + λ(z λ k+1 − V (s k+1 )) = V (s k ) + r k + V (s k+1 ) − V (s k ) + λ(z λ k+1 − V (s k+1 )) = r k + (λz λ k+1 + (1 − λ)V (s k+1 )). Dans le cas où λ = 0, il est clair que cela revient à ne considérer qu’un horizon unitaire, comme dans le cadre de la programmation dynamique. On retrouve donc TD(0). Si λ = 1, l’équation (1.14) se réécrit : m=N−1 ∑ V (s k ) ← V (s k ) + α(s k ) δ m , k = 0, . . . , N − 1, m=k ce qui est exactement l’équation (1.5) de la méthode de Monte-Carlo. Pour tout λ, les deux approches de type first-visit ou every-visit peuvent être considérées. De même, une version on-line de l’algorithme d’apprentissage TD(λ) décrit par l’équation (1.14) est possible : V (s l ) ← V (s l ) + α(s l )λ k−l δ k , l = 0, . . . , k (1.15) dès que la transition (s k , s k+1 , r k ) est simulée et l’erreur δ k calculée. L’application du TD(λ) pour l’évaluation d’une politique π selon le critère γ- pondéré entraîne certaines modifications des algorithmes standards (1.14) ou (1.15), qu’il est nécessaire de citer ici. Un calcul en tout point semblable au cas γ = 1 conduit à une règle du type : m=∞ ∑ V (s k ) ← V (s k ) + α(s k ) (γλ) m−k δ m . (1.16) m=k
Apprentissage par renforcement 21 Il est alors clair que l’absence potentielle d’états finaux absorbants rend inadéquate un algorithme de type off-line ne mettant à jour la fonction de valeur V qu’à la fin de la trajectoire, car celle-ci peut être de taille infinie. On définit donc une version on-line de (1.16), qui prend la forme suivante : V (s) ← V (s) + α(s)z n (s)δ n , ∀s ∈ S, (1.17) dès que la nième transition (s n , s n+1 , r n ) a été simulée et l’erreur δ n calculée. Le terme z n (s), dénommé trace d’éligibilité 11 se définit ainsi dans la version la plus proche de l’algorithme TD(λ) original. DÉFINITION 1.2.– Trace d’éligibilité accumulative z 0 (s) = { 0, ∀s ∈ S, γλzn−1 (s) si s ≠ s z n (s) = n , γλz n−1 (s) + 1 si s = s n . Ce coefficient d’éligibilité augmente donc sa valeur à chaque nouveau passage dans l’état associé, puis décroît exponentiellement au cours des itérations suivantes, jusqu’à un nouveau passage dans cet état (voir figure 1.2). z(s) 1 dates des visites de l’état s n n Figure 1.2. Trace d’éligibilité cumulative : à chaque visite, on ajoute 1 à la valeur précédente, si bien que la valeur de la trace peut dépasser 1 Dans certains cas, une définition légèrement différente de la trace z n (s) semble conduire à une convergence plus rapide de la fonction de valeur V . 11. Eligibility trace, ou encore activity.
Page 1 and 2: Chapitre 1 Apprentissage par renfor
Page 3 and 4: Apprentissage par renforcement 3 Su
Page 5 and 6: Apprentissage par renforcement 5 un
Page 7 and 8: Apprentissage par renforcement 7 pl
Page 9 and 10: Apprentissage par renforcement 9 du
Page 11 and 12: Apprentissage par renforcement 11 a
Page 13 and 14: Apprentissage par renforcement 13 S
Page 15 and 16: Apprentissage par renforcement 15 L
Page 17 and 18: Apprentissage par renforcement 17 E
Page 19: Apprentissage par renforcement 19 N
Page 23 and 24: Apprentissage par renforcement 23 1
Page 25 and 26: Apprentissage par renforcement 25 A
Page 27 and 28: Apprentissage par renforcement 27 D
Page 29 and 30: Apprentissage par renforcement 29 D
Page 31 and 32: Apprentissage par renforcement 31 L
Page 33 and 34: Apprentissage par renforcement 33 O
Page 35 and 36: Apprentissage par renforcement 35 [

Apprentissage par renforcement - Institut des SystÃ¨mes Intelligents ...

Create successful ePaper yourself

Delete template?

Save as template?