Apprentissage par renforcement - Institut des SystÃ¨mes Intelligents ...

More documents

Recommendations

Info

2 Processus décisionnels de Markov en IA 1 Le présent chapitre est donc consacré au traitement de ce problème plus complexe que le précédent. 1.1.1. Bref aperçu historique La présentation adoptée dans la suite de ce chapitre fait l’objet d’une reconstruction a posteriori qui ne rend pas compte de l’enchaînement historique des idées. Avec un souci de clarté des concepts, notre présentation s’appuiera sur l’ouvrage de Sutton et Barto [SUT 98], qui constitue une synthèse d’une qualité telle qu’il est difficile de s’en démarquer. Cependant, avant d’en venir au cœur de cette présentation, nous donnons un bref aperçu de la succession des étapes qui ont conduit à la formulation actuelle des modèles théoriques de l’apprentissage par renforcement, en nous focalisant sur le développement de modèles informatiques. La plupart des méthodes algorithmiques de l’apprentissage par renforcement reposent sur des principes simples issus de l’étude de la cognition humaine ou animale, comme par exemple le fait de renforcer la tendance à exécuter une action si ses conséquences sont jugées positives, ou encore de faire dépendre ce renforcement de la durée qui sépare la récompense de l’action, ou de la fréquence à laquelle cette action a été testée. Cet arrière-plan psychologique a été présenté dans [SIG 04]. Les premiers travaux en informatique représentatifs du cadre de l’apprentissage par renforcement datent approximativement de 1960. En 1961, Michie [MIC 61] décrit un système capable d’apprendre à jouer au morpion par essais et erreurs. Puis Michie et Chambers [MIC 68] écrivent en 1968 un programme capable d’apprendre à maintenir un pendule inversé à l’équilibre. Parallèlement, Samuel [SAM 59] réalise un logiciel qui apprend à jouer aux dames en utilisant une notion de différence temporelle. Les deux composantes, exploration par essais et erreurs et gestion de séquences d’action par différences temporelles vont être au cœur des modèles ultérieurs. La synthèse entre les deux courants est réalisée par Klopf [KLO 72, KLO 75]. Dans la lignée de ces travaux, les principaux acteurs du développement de l’apprentissage par renforcement en informatique, Sutton et Barto, implémentent en 1981 [SUT 81] un perceptron linéaire dont l’équation de mise à jour dérive directement des théories développées en psychologie expérimentale par Rescorla et Wagner [RES 72]. Jozefowiez fait très clairement apparaître dans sa thèse [JOZ 01] que l’équation de Rescorla-Wagner, qui est d’une importance considérable pour les modèles de l’apprentissage animal, n’est rien d’autre que la version approximée par un perceptron linéaire de l’algorithme T D(0) présenté au paragraphe 1.4.1. Cette équivalence explique que le recours aux algorithmes d’apprentissage par renforcement soit aussi appelé « programmation neurodynamique » 1 . 1. Plus précisément, le terme neuro-dynamic programming définit l’ensemble des techniques couplant programmation dynamique ou apprentissage par renforcement et méthodes de généralisation [BER 96].
Apprentissage par renforcement 3 Sur ces bases, Sutton et Barto proposent en 1983 avec Anderson [BAR 83] une méthode, AHC-LEARNING 2 , qui est considérée comme le véritable point de départ des travaux qui font l’objet de ce chapitre. De façon intéressante, AHC-LEARNING repose sur une architecture acteur-critique dont nous verrons au paragraphe 1.4.5 qu’elle est au cœur du dialogue qui s’instaure à présent entre la modélisation informatique et la modélisation neurophysiologique de l’apprentissage par renforcement chez l’animal. La formalisation mathématique des algorithmes d’apprentissage par renforcement telle que nous la connaissons aujourd’hui s’est développée à partir de 1988 lorsque Sutton [SUT 88] puis Watkins [WAT 89] ont fait le lien entre leurs travaux et le cadre théorique de la commande optimale proposée par Bellman en 1957 avec la notion de MDP [BER 95]. 1.2. Apprentissage par renforcement : vue d’ensemble 1.2.1. Approximation de la fonction de valeur Le principe de l’apprentissage par renforcement repose en premier lieu sur une interaction itérée du système apprenant avec l’environnement, sous la forme de l’exécution à chaque instant n d’une action a n depuis l’état courant s n , qui conduit au nouvel état s ′ n et qui fournit la récompense r n . Sur la base de cette interaction, une politique est petit à petit améliorée. En pratique toutefois, la plupart des algorithmes d’apprentissage par renforcement ne travaillent pas directement sur la politique, mais passent par l’approximation itérative d’une fonction de valeur, issue de la théorie des MDP présentée au chapitre précédent. La notion de fonction de valeur, qui associe à chaque état possible une estimation de la valeur pour l’agent de se situer en cet état en fonction de l’objectif visé 3 , est fondamentale en apprentissage par renforcement. Elle permet de distinguer clairement l’apprentissage par renforcement de toutes les autres méthodes d’optimisation basées sur la simulation, comme les algorithmes génétiques [GOL 89], la programmation génétique [KOZ 92], le recuit simulé [KIR 87], etc., qui permettent aussi de construire des politiques optimales, mais qui n’exploitent pas pour cela la structure temporelle des problèmes décisionnels considérés, comme le fait l’apprentissage par renforcement à l’échelle de l’expérience (état courant, action, récompense, état suivant). La plupart des méthodes de l’apprentissage par renforcement que nous allons voir dans ce chapitre sont étroitement liées aux algorithmes de programmation dynamique 2. Adaptive Heuristic Critic learning. 3. Il s’agit donc là d’une notion similaire à celle introduite en théorie des jeux sous le nom de fonction d’évaluation.
Page 1: Chapitre 1 Apprentissage par renfor
Page 5 and 6: Apprentissage par renforcement 5 un
Page 7 and 8: Apprentissage par renforcement 7 pl
Page 9 and 10: Apprentissage par renforcement 9 du
Page 11 and 12: Apprentissage par renforcement 11 a
Page 13 and 14: Apprentissage par renforcement 13 S
Page 15 and 16: Apprentissage par renforcement 15 L
Page 17 and 18: Apprentissage par renforcement 17 E
Page 19 and 20: Apprentissage par renforcement 19 N
Page 21 and 22: Apprentissage par renforcement 21 I
Page 23 and 24: Apprentissage par renforcement 23 1
Page 25 and 26: Apprentissage par renforcement 25 A
Page 27 and 28: Apprentissage par renforcement 27 D
Page 29 and 30: Apprentissage par renforcement 29 D
Page 31 and 32: Apprentissage par renforcement 31 L
Page 33 and 34: Apprentissage par renforcement 33 O
Page 35 and 36: Apprentissage par renforcement 35 [

Apprentissage par renforcement - Institut des SystÃ¨mes Intelligents ...

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?