17.11.2014 Views

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

10 Processus décisionnels de Markov en IA 1<br />

Pour calculer V k+1 (s), il suffit donc de stocker V k (s) et k. Plutôt que de stocker le<br />

nombre k d’expériences réalisées, on utilise généralement une formule d’estimation<br />

encore plus générique :<br />

qui, pour α bien choisi, vérifie :<br />

∀s ∈ S, V k+1 (s) = V k (s) + α[R k+1 (s) − V k (s)] (1.3)<br />

lim<br />

k→∞ V k(s) = V π (s) (1.4)<br />

Nous retrouverons cette méthode d’estimation incrémentale dans les métho<strong>des</strong> de<br />

différence temporelle.<br />

1.3.2. Les métho<strong>des</strong> de Monte-Carlo<br />

Pour résoudre un problème de planification en utilisant la programmation dynamique<br />

dans le cas où l’on ne connaît pas a priori les fonctions de transition p() et de<br />

récompense r(), l’approche indirecte de type maximum de vraisemblance qui consiste<br />

à estimer les <strong>par</strong>amètres p() et r() puis à calculer V en résolvant l’équation V = L π V<br />

(avec ici γ = 1) est généralement trop coûteuse, en temps et en espace.<br />

On lui préfère classiquement l’approche dite de Monte-Carlo, qui revient à simuler<br />

un grand nombre de trajectoires issues de chaque état s de S, et à estimer V (s) en<br />

moyennant les coûts observés sur chacune de ces trajectoires. À chaque expérience<br />

réalisée, l’agent mémorise les transitions qu’il a effectuées et les récompenses qu’il a<br />

reçues. Il met alors à jour une estimation de la valeur <strong>des</strong> états <strong>par</strong>courus en associant à<br />

chacun d’eux la <strong>par</strong>t de la récompense reçue qui lui revient. Au fil de ces expériences,<br />

la valeur estimée associée à chaque état converge alors vers la valeur exacte de l’état<br />

pour la politique qu’il suit.<br />

L’apport principal <strong>des</strong> métho<strong>des</strong> de Monte-Carlo réside donc dans la technique qui<br />

permet d’estimer la valeur d’un état sur la base de la réception de plusieurs valeurs<br />

successives de récompense cumulée associées à cet état lors de trajectoires distinctes.<br />

On s’appuie alors sur la méthode d’estimation présentée au <strong>par</strong>agraphe 1.3.1.<br />

Soit ainsi (s 0 , s 1 , . . . , s N ) une trajectoire générée en suivant la probabilité de transition<br />

inconnue p(), et (r 0 , r 1 , . . . , r N−1 ) les récompenses observées au cours de cette<br />

trajectoire (s N est l’état terminal T de récompense nulle).<br />

Le principe de la méthode de Monte-Carlo est de mettre à jour les N valeurs<br />

V (s k ), k = 0, . . . , N − 1, selon :<br />

V (s k ) ← V (s k ) + α(s k )(r k + r k+1 + · · · + r N−1 − V (s k )) (1.5)

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!