01.01.2015 Views

Table des matières - Gilles Daniel

Table des matières - Gilles Daniel

Table des matières - Gilles Daniel

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Apprentissage dans les modèles multi-agents 285<br />

sont possibles si les agents prennent en compte leurs anticipations dans le modèle<br />

qu’ils utilisent. Ceci peut exclure une formation constructive <strong>des</strong> anticipations, et<br />

obliger à se contenter de les définir comme équilibres en points fixes etc.. Voir [HEI 88]<br />

pour une dissertation motivante sur <strong>des</strong> thèmes connexes.<br />

Quel que soit le niveau d’anticipation retenu, un apprentissage réussi exige un<br />

bon équilibre entre exploitation et exploration. Une fois qu’une stratégie qui semble<br />

suffisamment efficace a été trouvée, faut-il l’exploiter (l’utiliser) Ou faut-il<br />

continuer à explorer, c’est-à-dire à rechercher d’autres stratégies potentiellement<br />

meilleures L’abandon, même temporaire, d’une bonne stratégie est presque<br />

certainement coûteux, au moins à court terme. Mais ne pas explorer implique le<br />

risque de perdre les gains supplémentaires. La détermination du meilleur compromis<br />

est extrêmement difficile même dans le cas de problèmes d’optimisation dynamique<br />

bien posés, pour peu qu’ils soient tant soit peu complexes [WIT 75]. Elle semble<br />

illusoire dans un contexte d’apprentissage multi-agents. Nous verrons cependant<br />

qu’il peut être possible de trouver <strong>des</strong> compromis satisfaisants.<br />

La recherche en modélisation multi-agents utilise de nombreux formalismes pour<br />

représenter les phénomènes d’apprentissage. La plupart sont du type renforcement :<br />

ils modélisent l’intuition qu’un agent aura tendance à utiliser une action plus<br />

fréquemment si elle a été associée à de bons résultats dans le passé, et moins<br />

fréquemment dans le cas inverse. Un modèle de renforcement suppose que les<br />

agents construisent <strong>des</strong> règles de comportement du type « Si – Alors » : si cet<br />

événement se produit, alors il faut prendre cette action. L’approche trouve ses<br />

racines dans les modèles expérimentaux simples de prédiction binaire utilisés depuis<br />

plus de cinquante ans en psychologie [BUS 55]. Le cadre expérimental typique<br />

auquel ils se réfèrent comprend en général deux leviers surmontés de deux lampes.<br />

Un signal indique au sujet qu’il doit prendre une décision – appuyer sur l’un ou<br />

l’autre levier. Après qu’il l’ait fait, l’une <strong>des</strong> deux lampes s’allume. Le sujet reçoit<br />

une récompense s’il a choisi le levier situé en <strong>des</strong>sous de la lampe qui s’est<br />

allumée 59 .<br />

La situation que nous venons de décrire est très simple car il y a une association<br />

immédiate et directe entre action et récompense. On parlera de renforcement direct.<br />

En réalité, cependant, le renforcement sera le plus souvent séquentiel : les gains<br />

associés à une action ne seront connus que plus tard, possiblement après un délai<br />

59<br />

Supposons que les deux lampes Rouge et Vert s’allument avec <strong>des</strong> probabilités différentes,<br />

disons, 70% et 30%. La meilleure stratégie est de choisir Rouge à chaque répétition. De très<br />

nombreuses expériences montrent que les sujets humains ne suivent pas cette stratégie mais<br />

tendent à choisir Rouge dans 70% et Vert dans 30% <strong>des</strong> cas – un résultat connu sous le nom<br />

de probability matching theorem. Ce résultat apparemment irrationnel peut cependant être<br />

interprété comme un compromis entre exploitation, choisir Rouge, et exploration, essayer<br />

Vert, voir ci-<strong>des</strong>sus.

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!