17.11.2014 Views

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

26 Processus décisionnels de Markov en IA 1<br />

On a donc là encore U π (x) = R π (x, π(x)) et l’équation de Bellman vérifiée <strong>par</strong> ρ ∗<br />

et R ∗ devient :<br />

∀s ∈ S, a ∈ A R ∗ (s, a) = r(s, a) − ρ ∗ + ∑ p(s ′ |s, a) max R ∗ (s ′ , b) (1.18)<br />

b<br />

s ′<br />

avec l’assurance que la politique π R ∗(s) = argmax a R ∗ (s, a) a pour gain moyen le<br />

gain optimal ρ ∗ .<br />

Comme pour Q-learning, l’algorithme R-learning est une version stochastique de<br />

la méthode d’itération sur les valeurs pour l’équation (1.18).<br />

Algorithme 1.4 : Le R-learning<br />

/* α n et β n sont <strong>des</strong> taux d'apprentissage */<br />

Initialiser(R 0 ,ρ 0 )<br />

pour n ← 0 jusqu’à N tot − 1 faire<br />

s n ← ChoixEtat<br />

a n ← ChoixAction<br />

(s ′ n, r n ) ← Simuler(s n , a n )<br />

{ mise à jour de R n et ρ n :}<br />

début<br />

R n+1 ← R n<br />

δ n ← r n − ρ n + max b R n (s ′ n, b) − R n (s n , a n )<br />

R n+1 (s n {, a n ) ← R n (s n , a n ) + α n (s n , a n )δ n<br />

ρn si a<br />

ρ n+1 ←<br />

n ≠ π Rn (s n )<br />

ρ n + β n δ n si a n = π Rn (s n )<br />

fin<br />

retourner R Ntot , ρ Ntot<br />

Bien qu’il n’existe pas de preuve formelle de convergence du R-learning vers une<br />

politique gain-optimale, de nombreuses expérimentations montrent que ρ n approche<br />

efficacement ρ ∗ , avec <strong>des</strong> taux d’apprentissage α n (s, a) et β n tendant vers 0 selon les<br />

mêmes conditions que pour le Q-learning et pour le même type de compromis entre<br />

exploration et exploitation.<br />

Bien que le R-learning soit moins connu et moins utilisé que le Q-learning, il<br />

semble qu’il présente <strong>des</strong> propriétés de vitesse de convergence plus intéressantes en<br />

pratique [MAH 96b]. Si peu de résultats théoriques existent à ce sujet, citons toutefois<br />

[GAR 98] où l’on montre qu’en horizon fini, le R-learning est très proche d’une<br />

version <strong>par</strong>allèle optimisée du Q-learning, expliquant ainsi ses meilleurs résultats expérimentaux.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!