17.11.2014 Views

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

22 Processus décisionnels de Markov en IA 1<br />

DÉFINITION 1.3.– Trace d’éligibilité avec réinitialisation<br />

z 0 (s) = { 0, ∀s ∈ S,<br />

γλzn−1 (s) si s ≠ s<br />

z n (s) =<br />

n ,<br />

1 si s = s n .<br />

La valeur de la trace est donc saturée à 1, comme le montre la figure 1.3.<br />

z(s)<br />

1<br />

dates <strong>des</strong> visites de l’état s<br />

n<br />

n<br />

Figure 1.3. Trace d’éligibilité avec réinitialisation : on remet la valeur à 1 à chaque visite<br />

La convergence presque sûre de l’algorithme TD(λ) a été montrée pour toute valeur<br />

de λ, en on-line ou off-line, sous les hypothèses classiques de visite en nombre<br />

infini de chaque état s ∈ S, et décroissance <strong>des</strong> α vers 0 à chaque itération n, telle que<br />

∑<br />

n α n(s) = ∞ et ∑ n α2 n(s) < ∞ [JAA 94, BER 96].<br />

Il est à noter que l’effet du λ est encore mal compris et sa détermination optimale<br />

pour un problème donné reste très empirique.<br />

Une implémentation directe de TD(λ) basée sur la trace d’éligibilité n’est bien<br />

sûr pas efficace dès que la taille de l’espace d’état S devient trop grande. Une première<br />

solution approchée [SUT 98] consiste à forcer à 0 la valeur de toutes les traces<br />

z n (s) < ε, et donc à ne maintenir que les traces <strong>des</strong> états récemment visités (plus<br />

précisément, on cesse de maintenir un état dont la dernière visite remonte à plus de<br />

log(ε)<br />

log(γλ) transitions).<br />

Une autre méthode approchée [CIC 95] connue sous le nom de truncated temporal<br />

differences, ou TTD(λ), revient à gérer un horizon glissant de taille m mémorisant les<br />

derniers états visités et à mettre à jour sur cette base à chaque itération n la valeur de<br />

l’état visité à l’itération (n − m).

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!