17.11.2014 Views

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

Apprentissage par renforcement - Institut des Systèmes Intelligents ...

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

28 Processus décisionnels de Markov en IA 1<br />

environnement réel, une façon d’accélérer la propagation de la qualité <strong>des</strong> situations<br />

consiste à construire un modèle <strong>des</strong> transitions réalisées <strong>par</strong> l’agent et à se servir de ce<br />

modèle pour appliquer un algorithme de propagation indépendamment du comportement<br />

de l’agent. En effet, quand un agent interagit avec son environnement, ses actions<br />

ne débouchent pas seulement sur une possible punition ou récompense, mais aussi sur<br />

une situation ultérieure. L’agent peut donc construire un modèle <strong>des</strong> transitions dont<br />

il fait l’expérience, indépendamment de tout modèle <strong>des</strong> récompenses.<br />

L’idée de construire un modèle <strong>des</strong> transitions <strong>par</strong> apprentissage a été réalisée pour<br />

la première fois avec les architectures DYNA [SUT 90b]. En effet, Sutton a proposé<br />

cette famille d’architectures pour doter un agent de la capacité à mettre à jour plusieurs<br />

valeurs d’actions lors du même pas de temps, indépendamment de la situation<br />

courante de l’agent, de façon à accélérer sensiblement l’apprentissage de la fonction de<br />

valeur. Cette capacité est réalisée en appliquant au modèle un nombre fixé d’étapes de<br />

planification, qui consistent à appliquer un algorithme de programmation dynamique<br />

au sein du modèle de l’agent 14 .<br />

récompense<br />

situations précédente et courante<br />

modèle <strong>des</strong><br />

récompenses<br />

transitions<br />

modèle <strong>des</strong><br />

transitions<br />

ENVIRONNEMENT<br />

action<br />

Figure 1.4. Les architectures DYNA combinent un modèle <strong>des</strong> récompenses et un modèle <strong>des</strong><br />

transitions. Le modèle <strong>des</strong> transitions est utilisé pour accélérer l’apprentissage <strong>par</strong> <strong>renforcement</strong>.<br />

La construction <strong>des</strong> deux modèles requiert une mémorisation de la situation précédente,<br />

ce qui n’est pas explicite sur la figure.<br />

Les architectures DYNA, présentées sur la figure 1.4, construisent un modèle <strong>des</strong><br />

transitions effectuées <strong>par</strong> l’agent dans son environnement et un modèle <strong>des</strong> récompenses<br />

qu’il peut y obtenir.<br />

Le modèle <strong>des</strong> transitions prend la forme d’une liste de triplets 〈s t , a t , s t+1 〉 qui<br />

indiquent que, si l’agent effectue l’action a t dans l’état s t , il atteindra immédiatement<br />

l’état s t+1 .<br />

14. Voir le chapitre précédent.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!