Apprentissage par renforcement - Institut des Systèmes Intelligents ...
Apprentissage par renforcement - Institut des Systèmes Intelligents ...
Apprentissage par renforcement - Institut des Systèmes Intelligents ...
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
26 Processus décisionnels de Markov en IA 1<br />
On a donc là encore U π (x) = R π (x, π(x)) et l’équation de Bellman vérifiée <strong>par</strong> ρ ∗<br />
et R ∗ devient :<br />
∀s ∈ S, a ∈ A R ∗ (s, a) = r(s, a) − ρ ∗ + ∑ p(s ′ |s, a) max R ∗ (s ′ , b) (1.18)<br />
b<br />
s ′<br />
avec l’assurance que la politique π R ∗(s) = argmax a R ∗ (s, a) a pour gain moyen le<br />
gain optimal ρ ∗ .<br />
Comme pour Q-learning, l’algorithme R-learning est une version stochastique de<br />
la méthode d’itération sur les valeurs pour l’équation (1.18).<br />
Algorithme 1.4 : Le R-learning<br />
/* α n et β n sont <strong>des</strong> taux d'apprentissage */<br />
Initialiser(R 0 ,ρ 0 )<br />
pour n ← 0 jusqu’à N tot − 1 faire<br />
s n ← ChoixEtat<br />
a n ← ChoixAction<br />
(s ′ n, r n ) ← Simuler(s n , a n )<br />
{ mise à jour de R n et ρ n :}<br />
début<br />
R n+1 ← R n<br />
δ n ← r n − ρ n + max b R n (s ′ n, b) − R n (s n , a n )<br />
R n+1 (s n {, a n ) ← R n (s n , a n ) + α n (s n , a n )δ n<br />
ρn si a<br />
ρ n+1 ←<br />
n ≠ π Rn (s n )<br />
ρ n + β n δ n si a n = π Rn (s n )<br />
fin<br />
retourner R Ntot , ρ Ntot<br />
Bien qu’il n’existe pas de preuve formelle de convergence du R-learning vers une<br />
politique gain-optimale, de nombreuses expérimentations montrent que ρ n approche<br />
efficacement ρ ∗ , avec <strong>des</strong> taux d’apprentissage α n (s, a) et β n tendant vers 0 selon les<br />
mêmes conditions que pour le Q-learning et pour le même type de compromis entre<br />
exploration et exploitation.<br />
Bien que le R-learning soit moins connu et moins utilisé que le Q-learning, il<br />
semble qu’il présente <strong>des</strong> propriétés de vitesse de convergence plus intéressantes en<br />
pratique [MAH 96b]. Si peu de résultats théoriques existent à ce sujet, citons toutefois<br />
[GAR 98] où l’on montre qu’en horizon fini, le R-learning est très proche d’une<br />
version <strong>par</strong>allèle optimisée du Q-learning, expliquant ainsi ses meilleurs résultats expérimentaux.