11.07.2015 Views

rapport de stage de master

rapport de stage de master

rapport de stage de master

SHOW MORE
SHOW LESS
  • No tags were found...

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Approches bayésiennes pour la résolution du problème du banditstochastiqueEmilie Kaufmann7 février 20121


Table <strong>de</strong>s matières1 Bandits fréquentistes, bandits bayésiens 61.1 Le problème du bandit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 Cadre bayésien général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Regret fréquentiste, regret bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Bornes <strong>de</strong> regret dans les algorithmes fréquentistes : Etat <strong>de</strong> l’art 92.1 La borne inférieure <strong>de</strong> Lai-Robbins . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Des stratégies <strong>de</strong> Lai-Robbins à l’UCB d’Auer & al. . . . . . . . . . . . . . . . . 132.2.1 Lai-Robbins : vers un politique d’indice . . . . . . . . . . . . . . . . . . . 132.2.2 L’idée d’UCB : une politique d’indice simple . . . . . . . . . . . . . . . . 142.2.3 UCB pour les gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.4 L’optimalité d’UCB ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3 Des raffinements successifs pour obtenir l’optimalité . . . . . . . . . . . . . . . . 172.3.1 Inégalité maximale et ”peeling-trick” . . . . . . . . . . . . . . . . . . . . . 172.3.2 Un autre découpage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4 L’algorithme KL-UCB et le formalisme associé . . . . . . . . . . . . . . . . . . . 192.4.1 De bonnes inégalités <strong>de</strong> concentration . . . . . . . . . . . . . . . . . . . . 202.4.2 KL-UCB pour la famille exponentielle . . . . . . . . . . . . . . . . . . . . 212.4.3 KL-UCB pour <strong>de</strong>s variables aléatoires indépendantes bornées . . . . . . . 262.5 D’autres gestions <strong>de</strong> l’exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Gittins et la résolution du problème bayésien 283.1 Un cadre plus général : Family of Alternative Bandit Process . . . . . . . . . . . 283.2 Le problème <strong>de</strong> bandits binaires bayésien . . . . . . . . . . . . . . . . . . . . . . 303.3 La résolution du problème <strong>de</strong> bandit comme résolution d’un MDP . . . . . . . . 323.4 Les indices <strong>de</strong> Gittins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4.1 Problème <strong>de</strong> calibration associé à chaque bras : un problème d’arrêt optimalà horizon fixé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4.2 Définition <strong>de</strong> l’indice <strong>de</strong> confiance d’un bras et métho<strong>de</strong>s <strong>de</strong> calcul . . . . 373.4.3 Quelques propriétés <strong>de</strong>s indices <strong>de</strong> Gittins . . . . . . . . . . . . . . . . . . 383.4.4 L’optimalité <strong>de</strong> la politique d’indice associée . . . . . . . . . . . . . . . . . 393.5 Tests <strong>de</strong> l’algorithme <strong>de</strong> Gittins . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5.1 Mise en oeuvre pratique <strong>de</strong> l’algorithme . . . . . . . . . . . . . . . . . . . 433.5.2 Comparaison avec les autres algorithmes . . . . . . . . . . . . . . . . . . . 443.5.3 Comprendre la manière dont Gittins joue . . . . . . . . . . . . . . . . . . 463.6 Les idées <strong>de</strong> bayésiennes : une motivation <strong>de</strong>s politiques d’indice . . . . . . . . . 463.6.1 Un bonus <strong>de</strong> confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.6.2 Le cas gaussien : une autre illustration . . . . . . . . . . . . . . . . . . . . 484 Algorithmes bayésiens basés sur les quantiles d’a posteriori 524.1 Présentation <strong>de</strong> l’algorithme et réglage du quantile . . . . . . . . . . . . . . . . . 524.2 Comparaison avec Gittins et les algorithmes fréquentistes . . . . . . . . . . . . . 554.3 Borne <strong>de</strong> regret pour les bandits gaussiens . . . . . . . . . . . . . . . . . . . . . . 594.4 Borne <strong>de</strong> regret pour les bandits binaires . . . . . . . . . . . . . . . . . . . . . . . 632


RemerciementsUn grand merci à Aurélien et Olivier pour leur disponibilité, leur investissement et leursprécieux conseils tout au long <strong>de</strong> mon <strong>stage</strong> : nos échanges m’ont motivée quand il lefallait, et beaucoup aidée.Un grand merci également à Rémi <strong>de</strong> m’avoir tout d’abord donné le goût <strong>de</strong>l’apprentissage par renforcement à travers son cours, pour ses conseils tout au long du<strong>stage</strong>, ainsi que pour m’avoir laissé l’opportunité <strong>de</strong> présenter une partie <strong>de</strong> notre travailau séminaire <strong>de</strong> l’INRIA <strong>de</strong> Lille.Merci enfin à vous trois <strong>de</strong> vous être mis en quatre pour me proposer un sujet <strong>de</strong> thèseet m’ai<strong>de</strong>r à remplir dans les temps le dossier d’ASN.4


IntroductionApprendre <strong>de</strong>s choses en interagissant avec son environnement, l’explorer en maximisant lesrécompenses liées à certaines actions, tel est le principe <strong>de</strong> l’apprentissage par renforcement. Cedomaine, que j’ai découvert cette année lors <strong>de</strong> mon passage au <strong>master</strong> MVA, a <strong>de</strong>s applicationsdiverses, que ce soit en robotique, ou dans tout ce qui tourne autour <strong>de</strong> l’apprentissage du comportementd’un individu, par exemple pour le choix d’une publicité sur Internet en fonction duprofil <strong>de</strong> l’utilisateur.Le problème du bandit stochastique, auquel je me suis intéressée dans ce <strong>stage</strong>, est leproblème le plus simple d’apprentissage par renforcement, où un utilisateur doit choisir <strong>de</strong>tirer un ”bras” parmi K et observe comme récompense une réalisation d’une suite <strong>de</strong> variablesaléatoires i.i.d dont la distribution (inconnue) dépend du bras. Le problème est <strong>de</strong> découvrir lebras pour lequel l’espérance <strong>de</strong>s récompenses est la plus élevée. Nous verrons en quoi ce problèmetel qu’il est souvent présenté est un problème fréquentiste, et quelle formulation bayésienne onpeut lui trouver : ce sera l’objet <strong>de</strong> la première partie <strong>de</strong> ce <strong>rapport</strong>.Le but <strong>de</strong> mon <strong>stage</strong>, effectué du 1er avril au 31 juillet 2011 à Telecom Paristech sous ladirection <strong>de</strong> Aurélien Garivier et Olivier Cappé et en partenariat avec Rémi Munos, était d’exploiterune modélisation bayésienne du problème <strong>de</strong> bandit (avec un a priori sur chaque bras)pour trouver <strong>de</strong> nouveaux algorithmes <strong>de</strong> bandits efficaces pour le problème usuel et faciles àimplémenter, mais pour lesquels on pouvait également prouver une borne <strong>de</strong> regret théorique.Mon <strong>stage</strong> s’est déroulé en <strong>de</strong>ux parties. Dans une première pério<strong>de</strong>, je suis partie d’un articleassez ancien <strong>de</strong> Gittins (1979), où le problème bayésien est présenté sommairement, et oùil est ”résolu” mais <strong>de</strong> manière partielle (en plus du cadre bayésien, Gittins utilise un critère <strong>de</strong>performance inhabituel pour le problème du bandit) et mon travail, en plus <strong>de</strong> l’explicitation duproblème bayésien, a été d’adapter les travaux <strong>de</strong> Gittins au contexte usuel. Nous avons obtenuun algorithme qui contre toute attente semble donner <strong>de</strong> meilleurs résultats que les algorithmesfréquentistes les plus récents tels KL-UCB, présentés au préalable dans la partie 2.Parallèlement à ce travail, avant <strong>de</strong> pouvoir m’attaquer moi-même à <strong>de</strong>s preuves <strong>de</strong> regret,je me suis familiarisée avec les différentes preuves <strong>de</strong> la littérature. J’ai choisi <strong>de</strong> présenter dansla partie 2 <strong>de</strong> ce <strong>rapport</strong> un état <strong>de</strong> l’art <strong>de</strong>s algorithmes <strong>de</strong> bandits, où l’on apprend l’existence<strong>de</strong> bornes <strong>de</strong> regret optimales (grâce à la borne inférieure prouvée par Lai et Robbins), et oùon voit comment les différents algorithmes qui sont apparus se rapprochent progressivement <strong>de</strong>cette optimalité. Cet état <strong>de</strong> l’art m’a été utile dans la <strong>de</strong>uxième partie <strong>de</strong> mon <strong>stage</strong>.En effet, pendant une <strong>de</strong>uxième pério<strong>de</strong> je me suis intéressée à un autre algorithme <strong>de</strong> banditsd’inspiration bayésienne, basé sur l’exploitation <strong>de</strong> quantiles d’une loi a posteriori. Après uneétu<strong>de</strong> pratique (performance, choix <strong>de</strong>s paramètres <strong>de</strong> l’algorithme) <strong>de</strong> cet algorithme Quantile-UCB, j’ai prouvé une borne <strong>de</strong> regret optimale dans le cas particulier <strong>de</strong>s bandits gaussiens, etpresque optimale dans le cas <strong>de</strong>s bandits binaires. Ces résultats nouveaux sont présentés dansla partie 4 <strong>de</strong> ce <strong>rapport</strong> ; on comprend pourquoi, <strong>de</strong> manière assez suprenante, cet algorithmebayésien apparait comme très semblable à l’algorithme KL-UCB.5


1 Bandits fréquentistes, bandits bayésiens1.1 Le problème du banditLe problème du bandit stochastique tel qu’il est souvent formulé dans la littérature est lesuivant. Un utilisateur fait face à K bras, chaque bras désignant une suite <strong>de</strong> variables aléatoires(Y j,t ). A l’instant t <strong>de</strong> jeu, l’utilisateur a K actions possibles : tirer l’un <strong>de</strong>s K bras. Si il choisit<strong>de</strong> tirer le bras j, il reçoit comme récompense X t la t-ème réalisation du j-ème bras. Le but<strong>de</strong> ce problème est <strong>de</strong> trouver une stratégie <strong>de</strong> tirage <strong>de</strong>s bras qui maximise l’espérance <strong>de</strong> larécompense reçue par l’utilisateur. Dans le cadre usuel, les bras sont supposés indépendantsentre eux, et chacun <strong>de</strong>s bras est lui-même une suite <strong>de</strong> variables aléatoires i.i.d <strong>de</strong> loi inconnueν j , d’espérance µ j .On peut faire plusieurs hypothèses sur la loi ν j :– cadre paramétrique simple : ν j dépend d’un paramètre θ j , relié en général à la moyenneµ j (ex : une famille exponentielle <strong>de</strong> paramètre θ j )– cadre paramétrique général : ν j dépend <strong>de</strong> plusieurs paramètres (ex : famille exponentielleà plusieurs paramètres)– cadre non paramétrique : on s’intéressera par exemple au cas où ν j est à support finiou bornéDans le problème paramétrique simple, auquel on va s’intéresser <strong>de</strong> manière plus approfondie,le paramètre θ j est en général supposé inconnu, c’est pour cela qu’on parle <strong>de</strong> traitementfréquentiste du problème du bandit.La stratégie <strong>de</strong> tirage que l’on cherche prend la forme d’une suite <strong>de</strong> variables aléatoires (I t )telle que I t est F t -mesurable oùF t = σ(I 0 , X 1 , I 1 , X 2 , .., I t−1 , X t )décrit l’histoire du jeu : I t est l’action choisie à l’issue du t-ème tour <strong>de</strong> jeu pour le tour suivant.Il s’agit <strong>de</strong> trouver une stratégie minimiant le regret qui, comme on le verra plus loin dépenddans ce cadre fréquentiste du paramètre θ = (θ 1 , ..., θ K ) du problème.1.2 Cadre bayésien généralOn se place dans le cadre paramétrique simple, mais avec un modèle probabiliste différent :chaque paramètre θ j n’est plus vu comme un paramètre inconnu mais comme une variablealéatoire, qui représente notre a priori sur le paramètre θ j . La modélisation du problème est unpeu différente dans ce cadre bayésien :Le problème bayésien On se donne θ 1 , ..., θ K K variables aléatoires indépendantes avecL(θ j ) = π j et K suites <strong>de</strong> variables aléatoires (Y j,t ) telles que :– pour tout j ,L(θ j ) = π j est i.i.d conditionnellement à θ j <strong>de</strong> loi conditionnelle à θ j ayantpour <strong>de</strong>nsité f(x; θ j ) par <strong>rapport</strong> à la mesure <strong>de</strong> Lebesgue ou <strong>de</strong> comptage– si i ≠ j, ∀t, t ′ , Y j,t et Y i,t ′ sont indépendantes6


On observe toujours la suite <strong>de</strong> récompenses X t définie par X t = Y It−1 ,t où I t représente lastratégie <strong>de</strong> tirage, F t -mesurable, avec F t = σ(I 0 , X 1 , ..., I t−1 , X t ). Dans ce cadre bayésien, onnote π t j = L(θ j|X 1 , ..., X t ) l’a posteriori sur le bras j après t tours <strong>de</strong> jeu. Le jeu du banditbayésien est alors décrit par l’étatS t = (π t 1, ..., π t K)qui représente les a posteriori courants sur chaque bras, avec S 0 les a priori π 1 , ..., π K . Si aprèsle tour t on choisit (I t = j), on observe X t+1 = Y j,t+1 et on effectue une mise à jour du posteriorsur le bras j :π t+1j∝ f(X t+1 ; θ j )πjtEn toute généralité, on pourrait donc chercher à construire <strong>de</strong>s algorithmes bayésiens qui basentle choix d’une action au tour suivant sur l’état S t courant <strong>de</strong>s a posteriori sur chaque bras.Le premier problème qui se pose est celui du choix <strong>de</strong> l’a priori : il faut soit pouvoir calculerl’a posteriori, soit au moins simuler sous ce <strong>de</strong>rnier pour estimer les paramètres utiles àl’algorithme. Pour ce <strong>de</strong>rnier cas, la simulation par une métho<strong>de</strong> MCMC serait possible, maison s’intéressera plutôt au premier cas. En particulier, nous allons dans la suite étudier <strong>de</strong>ux casparticuliers, où l’a priori est conjugué à la vraisemblance du modèle et où <strong>de</strong> plus cet a priori(et donc l’a posteriori courant) est paramétré, ce qui permet <strong>de</strong> résumer S t par un ensemble <strong>de</strong>paramètres. Il s’agit <strong>de</strong>s <strong>de</strong>ux cas particuliers suivants :– bandits binaires : le bras j est distribué selon la loi <strong>de</strong> Bernoulli B(θ j ), et θ j ∼ Beta(a, b)– bandits gaussiens : le bras j est distribué selon la loi normale N ( µ j , σ 2) où la varianceσ 2 est connue, et µ j ∼ N ( ξ, σ02 )Nous allons dans ces <strong>de</strong>ux cas nous intéresser à une modélisation précise du problème et à sarésolution, bayésienne ou fréquentiste.1.3 Regret fréquentiste, regret bayésienRésolution usuelle du problème fréquentiste On cherche une stratégie pour laquelle ona un contrôle <strong>de</strong> la moyenne <strong>de</strong>s récompenses obtenues jusqu’à un instant n ou <strong>de</strong> manièreéquivalente pour laquelle le regret, défini par :R n = R n (θ) = E [ ∑n (µ ∗ − µ It−1 ) |θ ]t=1est faible. Ce regret mesure l’espérance <strong>de</strong> l’écart entre la récompense obtenue avec la stratégieoptimale (tirer n fois le bras optimal <strong>de</strong> moyenne µ ∗ ) et la récompense obtenue avec la stratégie(I t ). (on omettra la notation conditionnelle)Résolution du problème bayésien Si maintenant on traite le problème d’un point <strong>de</strong> vuebayésien, l’équivalent du regret que l’on peut définir sera une moyenne sur tous les paramètres θtirés sous l’a priori, du regret fréquentiste associé. En effet, l’espérance est prise sous le modèleprobabiliste associé au cadre bayésien, qui est différent : l’espérance n’est plus conditionnelle àθ. On note Rn b ce regret bayésien :Rn b = E [ ∑n (µ ∗ − µ It−1 ) ] = E θ∼Prior [R n (θ)]t=17


Un algorithme efficace pour le problème fréquentiste (càd <strong>de</strong> regret faible), sera en particulierefficace en moyenne sur les θ donc pour le problème bayésien. En revanche, trouver une stratégieefficace pour le problème bayésien n’assure pas qu’elle le soit également à θ fixé et donc pour leproblème fréquentiste...Quantifier le regret Une stratégie <strong>de</strong> regret ”faible” dans le cadre fréquentiste peut êtreefficace à temps fini lorsqu’on a pour tout n une majoration <strong>de</strong> R n , ou bien asymptotiquementlorsque que la borne est valable pour <strong>de</strong>s n assez grand. Une certaine notion d’optimalitépourra être dégagée grâce à la borne <strong>de</strong> Lai et Robbins comme on le verra dans la partie suivante.Quant au regret bayésien, si on fixe l’a priori, nous verrons qu’il est possible <strong>de</strong> trouver <strong>de</strong>sstratégies exactement optimale pour un horizon temporel n donné.Minimax ou Maximin ? Dans le cadre plus général <strong>de</strong>s bandits adversariaux, la notion <strong>de</strong>regret minimax intervient, que l’on peut formuler dans le cadre particulier <strong>de</strong>s bandits stochastiqueparamétriques <strong>de</strong> la façon suivante. Il s’agit <strong>de</strong> contrôler la gran<strong>de</strong>ur suivante :min max R n (θ)stratégies θA l’inverse pour le cadre bayésien, on pourrait définir un regret maximin qui serait <strong>de</strong> la forme :maxmina priori stratégies Rb nD’autres manières <strong>de</strong> ”résoudre” le problème On s’est toujours intéressés dans ce quiprécè<strong>de</strong> à la quantité R n ou Rn, b mais d’autres approches peuvent être envisagées : comme dansles MDP, on peut introduire un facteur γ < 1 <strong>de</strong> discount et s’intéresser à la somme infiniediscountée <strong>de</strong>s récompenses :E [ ∑∞ γ t−1 ]X tt=1Ceci n’est pas fréquent dans le problème fréquentiste, mais c’est <strong>de</strong> cette manière que le problèmebayésien a d’abord été résolu par Gittins.8


2 Bornes <strong>de</strong> regret dans les algorithmes fréquentistes : Etat <strong>de</strong>l’artDans le contexte fréquentiste, une stratégie optimale est une stratégie minimisant le regret(classique). Grâce à la borne inférieure, donnée en 1985 par Lai et Robbins, on peut quantifierle regret d’une telle stratégie. Au cours <strong>de</strong> mon <strong>stage</strong> je me suis familiarisée avec les différentsalgorithmes <strong>de</strong> bandits existant dans la littérature et les preuves <strong>de</strong> regret associées. Le but<strong>de</strong> cette partie est ainsi <strong>de</strong> présenter les idées qui sous-ten<strong>de</strong>nt les algorithmes tels que UCB,KL-UCB et les différents raffinements dans les preuves qui ont finalement conduit à prouverl’optimalité <strong>de</strong> tels algorithmes. Ces algorithmes sont pour la plupart <strong>de</strong>s politiques d’indice :il s’agit d’une famille <strong>de</strong> politiques basée sur le calcul à chaque tour <strong>de</strong> jeu d’un indice <strong>de</strong>confiance pour chaque bras et qui choisit le bras d’indice maximal.2.1 La borne inférieure <strong>de</strong> Lai-RobbinsLe contexte dans lequel Lai et Robbins présentent dans [11] une borne inférieure asymptotiqueest le cadre paramétrique simple, où la distribution ν j du bras j possè<strong>de</strong> une <strong>de</strong>nsité f(˙,θ j )par <strong>rapport</strong> à une mesure donnée. On va présenter la preuve <strong>de</strong> la borne inférieure dans un casparticulier déjà évoqué plus haut : celui <strong>de</strong>s bandits gaussiens.On rappelle le contexte <strong>de</strong>s bandits gaussiens avec variance connue σ 2 . Pour tout j = 1...K unbras j correspond à une famille i.i.d (Y j,t ) suivant N ( θ j , σ 2) . Le paramètre Θ = (θ 1 , ..., θ K ) ∈ R Kcaractérise entièrement le problème, un bras j tel que θ j est maximal dans Θ est le bras optimalet son paramètre est désigné par θ ∗ , les bras tels que θ j < θ ∗ sont appelés sous-optimaux. Onnote :– Θ j : l’ensemble <strong>de</strong>s problèmes ou le bras j est sous-optimal– Θ ∗ j : l’ensemble <strong>de</strong>s problèmes où le bras j est l’unique bras optimalRegret et tirage <strong>de</strong>s bras sous-optimaux Le regret d’une stratégie, qu’on veut minimiser,s’exprime en faisant intervenir les ∆ j = (θ ∗ − θ j ) et le nombre <strong>de</strong> tirages T n (j) <strong>de</strong> chacun <strong>de</strong>sbras sous-optimaux :R n (θ 1 , ..., θ k ) =∑∆ j E[T n (j)]j:θ j


Remarque 2.1 Cette expression du regret en fonction du nombre <strong>de</strong> tirage <strong>de</strong>s bras sousoptimauxest vraie aussi dans le contexte plus général <strong>de</strong>s bandits paramétriques avec ∆ j = µ j −µ ∗(dans le cas gaussien, moyenne et paramètres sont confondus)La borne inférieure Intuitivement, une bonne stratégie est une stratégie qui va assez peutirer les bras sous-optimaux. Mais le théorème suivant nous dit que toute stratégie qui tireraitmême très peu les bras sous-optimaux, doit tout <strong>de</strong> même les tirer asymptotiquement chacunau moins <strong>de</strong> l’ordre <strong>de</strong>ln nI(θ j ,θ ∗ ) .Theorème 2.1 Soit (I t ) une stratégie qui vérifie que pour tout paramètre Θ ∈ Θ ∗ jpour tout a > 0 ∑ i≠jE Θ [T n (i)] = o(n a )(la stratégie tire très peu les bras sous-optimaux dans les problèmes où il y a un unique optimal)Alors on a, pour tout problème où le bras j est sous-optimal, ie Θ ∈ Θ j :lim infn→∞E Θ [T n (j)]ln(n)≥1I(θ j , θ ∗ )Analyse <strong>de</strong> la borne Le terme qui intervient I(θ j , θ ∗ ) est la divergence <strong>de</strong> Kullback entre<strong>de</strong>ux distributions normales <strong>de</strong> paramètres θ j et θ ∗ <strong>de</strong> variance connue σ 2 . Elle est définie ennotant f(x; θ) la <strong>de</strong>nsité <strong>de</strong> N ( θ, σ 2) par :I(θ, λ) =∫R[ ( f(x; θ)log= E Y ∼θ[log)f(x, λ)( f(Y ; θ)f(Y, λ)]f(x, θ) dx)]Cette <strong>de</strong>rnière écriture fait apparaître un lien entre cette divergence et le <strong>rapport</strong> <strong>de</strong> vraisemblancef(Y ;θ)f(Y,λ) . La loi <strong>de</strong>s grands nombres nous donne par exemple que si Y i est une famille i.i.dd’observations suivant <strong>de</strong> loi paramétrée par θ,1nn∑( ) f(Yi ; θ) p.s.log→ I(θ, λ)f(Y i , λ)i=1C’est ainsi que cette quantité apparaîtra dans la démonstration. La Kullback entre <strong>de</strong>ux gaussiennespeut bien sûr concrètement êre calculée et on obtient :.I(θ, λ) =(θ − λ)22σ 210


Démonstration du théorème Pour fixer les idées, on va supposer que j = 1 et que dansΘ = (θ 1 , θ 2 , ..., θ k ) le bras θ 2 est un bras optimal (pas nécessairement unique). Fixons ɛ > 0 etmontrons que()lim P (1 − ɛ) ln(n)Θ T n (1) < = 0 (1)n→∞ I(θ 1 , θ 2 )L’hypothèse <strong>de</strong> l’énoncé concerne les problèmes où il y a un unique bras optimal, on va donc s’yramener en introduisant, pour λ > θ 2 le paramètre Γ = (λ, θ 2 , ..., θ k ). On a ainsi Γ ∈ Θ ∗ 1 et parhypothèse, pour tout a > 0 :E Γ [n − T n (1)] = ∑ i≠1E Γ [T n (i)] = o(n a )On en déduit alors par l’inégalité <strong>de</strong> Markov, pour tout 0 < δ < 1 que :() ()(1 − δ) ln(n)(1 − δ) ln(n)P Γ T n (1) < = P n − T n (1) > n −I(θ 1 , λ)I(θ 1 , λ)≤ E Γ[n − T n (1)]n − O(ln(n)) = o(na−1 )Et donc en particulier que lim n→∞ P Γ(T n (1)


En effet,P Γ (A) ======∑1≤n 1 ≤n∑1≤n 1 ≤n∑1≤n 1 ≤n∑1≤n 1 ≤n∑1≤n 1 ≤n∑1≤n 1 ≤nP(A ∩ (T 1 (n) = n 1 )) =∑ ∫g(Y 1,1 , ..., Y 1,n1 , n 1 )dP γ1≤n 1 ≤nT 1 (n)=n 1∫∏n 1g(y 1,1 , ..., y 1,n1 , n 1 ) f(y 1,i , λ)dy 1,1 ...dy 1,n1T 1 (n)=n 1 i=1∫∏n 1f(y 1,i , λ) ∏n 1g(y 1,1 , ..., y 1,n1 , n 1 )f(y 1,i , θ 1 )dy 1,1 ...dy 1,n1T 1 (n)=n 1f(yi=1 1,i , θ 1 )i=1∫∏n 1f(Y 1,i , λ)g(Y 1,1 , ..., Y 1,n1 , n 1 )T 1 (n)=n 1f(Yi=1 1,i , θ 1 ) dP Θ∫g(Y 1,1 , ..., Y 1,n1 , n 1 ) exp(−L n1 )f(Y 1,i , θ 1 )dP ΘT 1 (n)=n 1∫g(Y 1,1 , ..., Y 1,n1 , T 1 (n))1 (T1 (n)=n 1 ) exp(−L T1 (n))f(Y 1,i , θ 1 )dP Θ= E Θ[1A exp(−L T1 (n)) ]Introduisons maintenant l’événement{(1 − δ) ln(n)C n = T n (1) 1


En posant ˜ L n =I(θ 1,λ)(1−δ) ln(n) max (1−δ) ln(n) L1≤i≤ i on a L ˜ n → I(θ 1 , λ) P Θ − p.s et doncI(θ 1 ,λ)Ainsi lim n→∞ P Θ (A n ) = 0 et donc :P Θ(T n (1) θ 2 telque |I(θ 1 , λ) − I(θ 1 , θ 2 )| < δI(θ 1 , θ 2 ). On a finalement :P Θ(T n (1)


– N t (j) (ou T t (j)) : nombre <strong>de</strong> tirages du bras j avant l’instant t– S t (j) : récompenses cumulées obtenues par le bras j avant t– ˆµ t (j) = St(j)N t(j): moyenne empirique avant l’instant t <strong>de</strong>s récompenses issues du bras jLai-Robbins introduisent une gran<strong>de</strong>ur U t (j) pour chaque bras qui vérifie notamment U t (j) >ˆµ t (j) (son choix est assez complexe, nous ne le préciserons pas ici). U t (j) peut donc s’interprétercomme une Upper Confi<strong>de</strong>nce Bound pour le bras j et l’algorithme proposé fonctionne <strong>de</strong> lamanière suivante. On fixe 0 < δ < 1 K et :1. n=1..K : tirer le bras n2. A l’instant n :– choisir j n ∈ argmax{ˆµ n (j) : N n (j) ≥ δn}– si n = km + j (division euclidienne <strong>de</strong> n par k) on tire le bras j si ˆµ n (j n ) ≤ U n (j), lebras j n sinonLa stratégie proposée nécessite donc le calcul d’un indice <strong>de</strong> confiance U t (j) pour chaque bras,mais ce n’est pas une politique d’indice qui choisirait simplement le bras d’indice le plus élevé àchaque tour. L’exploration est ici assurée par le fait qu’on propose à chaque tour une alternativeau meilleur bras courant.L’exemple du cas gaussien En pratique, j’ai implémenté l’algorithme ci-<strong>de</strong>ssus dans la casgaussien en choisissant l’indice défini par U t (j) = ˆµ t (j) + σ √ 2a t,Nt(j) aveca n,i = ln(n)i(1 +√ )in 2Dans un article <strong>de</strong> 1995,[10], Katehakis et Robbins montrent que pour le problème gaussien,on peut trouver une politique plus simple asymptotiquement optimale : la politique d’indiceassociée aux indices√2 log(t)B t (j) = ˆµ t (j) + σN t (j)Cet indice coïnci<strong>de</strong> en fait avec celui d’UCB.2.2.2 L’idée d’UCB : une politique d’indice simpleL’article d’Auer et al. <strong>de</strong> 2002 [2] marque une étape importante dans les algorithmes <strong>de</strong> bandits,puisqu’il présente une politique d’indice, simple à comprendre et à implémenter, et pourlaquelle il propose une analyse à temps fini : c’est-à-dire un majorant du regret au temps n etnon plus une borne supérieure asymptotique. De plus, UCB est un algorithme <strong>de</strong>stiné à un cadrenon nécessairement paramétrique où les récompenses <strong>de</strong> chaque bras sont supposées bornées.On note Y j,t les observations successive du bras j, i.i.d. <strong>de</strong> moyenne µ j . En posant (en plus<strong>de</strong>s notations S t (j) et N t (j) déjà introduites) :– ˆµ j,s = 1 ∑ ss t=1 Y j,s– c s,t =√α log(t)s14


L’indice d’UCB est B j (t) = ˆµ j,Nt(j) + c Nt(j),t. Cela représente la borne supérieure d’un intervalle<strong>de</strong> confiance pour la moyenne µ j d’où l’appelation UCB.Pour majorer le regret <strong>de</strong> cette stratégie, il faut majorer l’espérance du nombre <strong>de</strong> tirage d’unbras sous-optimal. Supposons pour simplifier le bras 1 optimal et le bras 2 sous-optimal.L’idée d’UCB est que lorsque les bras 1 et 2 sont suffisament tirés on a à la fois :– pas <strong>de</strong> trop gran<strong>de</strong> sous-estimation du bras optimal : µ 1 ≤ B 1 (t) (∗)– pas <strong>de</strong> trop gran<strong>de</strong> sur-estimation du bras sous-optimal : µ 2 ≥ ˆµ 2,Nt(2) −c Nt(2),t (∗∗), doncB 2 (t) ≤ µ 2 + 2c Nt(2),tLorsqu’on est dans cette situation et qu’on tire le bras sous-optimal (cf. figure 1)Figure 1 – un tirage du bras sous-optimalon a B 2 (t) ≥ B 1 (t) donc 2c Nt(2),t ≥ ∆ 2 ce qui se réécrit au vu <strong>de</strong> l’expression <strong>de</strong> c s,t :4α log(t)N t (2) ≤∆ 2 2Ainsi, pour N t (2) assez grand, soit (∗) soit (∗∗) doit être pris en défaut. Or <strong>de</strong>s inégalités<strong>de</strong> concentration pour la moyenne empirique permettent <strong>de</strong> prouver que ceci arrive avec uneprobabilité assez faible.En effet, dans UCB pour le cadre <strong>de</strong>s récompenses dans [0, 1], c s,t peut être choisi avec α = 3/2<strong>de</strong> sorte qu’on ait d’après l’inégalité <strong>de</strong> Hoeffding :P(ˆµ s (j) − µ j ≥ c s,t ) ≤ 1 t 3 (3)P(ˆµ s (j) − µ j ≤ −c s,t ) ≤ 1 t 3 (4)Finalement, on prouve la borne suivante sur le nombre <strong>de</strong> tirage <strong>de</strong>s bras sous-optimaux :Theorème 2.2 Pour la stratégie UCB, on a pour α = 3/2 :E[N n (2)] ≤4α ln(n)∆ 2 2+ 1 + π2315


Preuve Posons K n =⌈4α ln(n)∆ 2 2⌉n∑n∑N n (2) ≤ K n + 1 It=2,Nt(2)≥K n= K n + 1 Bt(2)≥Bt(1),N t(j)≥K nt=K n t=K nn∑N n (2) ≤ K n + [1 µ1 ≥ˆµ 1,Nt (1)+c + 1 Nt (1),t µ 2 ≤ˆµ 2,Nt (2)−c ] Nt (2),tt=K nn∑E[N n (2)] ≤ K n + P ( )n∑µ 1 ≥ ˆµ 1,Nt(1) + c Nt(1),t + P ( )µ 2 ≤ ˆµ 2,Nt(2) − c Nt(2),t} {{ } } {{ }t=K n t=K nE[N n (2)] ≤ K n +E[N n (2)] ≤ K n +E[N n (2)] ≤n∑t=K n s ∗ =1∞∑4α ln(n)∆ 2 jAt∑P (µ 1 ≥ ˆµ 1,s ∗ + c s ∗ ,t) +t∑t=1 s ∗ =11t 3 ++ 1 + π23n∑t∑t=K n s=11t 3 ≤ K n + 2n∑t∑t=K n s=1∞∑t=11t 2BP ( )µ 2 ≤ ˆµ 2,s − c Nt(2),s(5)□2.2.3 UCB pour les gaussiennesLes bandits gaussiens ne rentrent pas dans le cadre <strong>de</strong>s récompenses bornées ci-<strong>de</strong>ssus caron ne peut pas utiliser l’inégalité <strong>de</strong> Hoeffding pour la moyenne empirique d’une gaussienne. Onpeut toutefois, en changeant légèrement l’indice adapter la preuve d’UCB, et en utilisant uneautre inégalité <strong>de</strong> concentration adaptée aux gaussiennes, adapter la preuve ci-<strong>de</strong>ssus. On a parexemple l’inégalité <strong>de</strong> Chernoff :P(ˆµ j,s − µ j ≥ ɛ) ≤ e − 12σ 2 ɛ2 squi nous conduit à choisir dans l’indice <strong>de</strong> confiance pour les bras gaussiens c s,t =√α log(t)savecα = 6σ 2 pour que les équations 3 et 4 soient encore vraies et que la preuve fonctionne <strong>de</strong> lamême manière.2.2.4 L’optimalité d’UCB ?L’optimalité d’UCB dans le cadre non paramétrique est difficile à étudier, on va donc s’interrogersur son optimalité dans le cadre <strong>de</strong>s bandits binaires et <strong>de</strong> son adaptation aux banditsgaussiens ci-<strong>de</strong>ssus. On rappelle qu’on a les bornes suivantes, si j est sous-optimal :E[N n (j)]≤4 ln(n)(θ j − θ ∗ ) 2 + 1 + π23E[N n (j)] ≤ 24σ2 ln(n)(µ j − µ ∗ ) 2 + 1 + π23bandits binairesbandits gaussiensComparons ces bornes supérieures avec la borne inférieure asymptotique <strong>de</strong> Lai-Robbins.16


– pour les Bernoullis, on a par l’inégalité <strong>de</strong> Pinsker I(θ j , θ ∗ ) ≥ 2(θ j − θ ∗ ) donc la borneobtenue est (strictement) supérieure à 8 fois la borne optimale.– pour les Gaussiennes, on a directement I(θ j , θ ∗ ) = (µ j−µ ∗ ) 2donc la borne obtenue est2σ 2égale à 12 fois la borne optimale.Si on pouvait prendre <strong>de</strong>s valeurs <strong>de</strong> α plus petites, on pourrait se rapprocher <strong>de</strong> cette borneoptimale. Mais on verra aussi qu’en raisonnant plus finement on peut gagner un facteur 4indépendamment <strong>de</strong> la valeur <strong>de</strong> α.2.3 Des raffinements successifs pour obtenir l’optimalité2.3.1 Inégalité maximale et ”peeling-trick”Une première manière <strong>de</strong> gagner un peu est <strong>de</strong> majorer différamment les termes A et B <strong>de</strong>l’équation 5 ci-<strong>de</strong>ssus. On n’utilise non plus l’inégalité <strong>de</strong> Hoeffding (resp. Chernoff) mais plutôtune inégalité maximale. Prenons l’exemple <strong>de</strong>s gaussiennes :Proposition 2.1 X t i.i.d. ∼ N ( µ, σ 2) et S k = ∑ kt=1 X t. Alors on a les inégalités maximalessuivantesP( max S k − kµ ≥ ɛ) ≤ e − 1 21≤k≤nP( min S k − kµ ≤ −ɛ) ≤ e − 1 21≤k≤nPreuve On peut se ramener à (X t ) centrée.Remarquons que M n = e λSn est une sous-martingale :ɛ 2nσ 2ɛ 2nσ 2E[M n+1 − M n |F n ] = M n E[e λX n+1− 1|F n ] ≥ M n λE[X n+1 ] = 0On a alors d’après l’inégalité maximale : P(sup k=1..n M k ≥ C) ≤ 1 C E[M n] d’où() ()P sup S k ≥ ɛ = P sup M k ≥ e λɛ ≤ e −λɛ E[e λSn ] = e −(λ ɛ n −ln(E[eλX 1 ]))nk=1..nk=1..nineg.max.Ensuite en minorant le terme <strong>de</strong> droite en λ on trouve comme dans la technique <strong>de</strong> Chernoff(voir plus bas) P(max 1≤k≤n S k − kµ ≥ ɛ) ≤ e − 1 2Le terme A <strong>de</strong> l’équation 5 vérifieɛ 2nσ 2 .P ( µ 1 ≥ ˆµ 1,Nt(1) + c Nt(1),t) ≤ P (∃s ≤ t : µ1 ≥ ˆµ 1,s + c s,t ) = P(∃s ≤ t : S s (1) − sµ 1 ≤ − √ )αs log(t)Afin d’utiliser l’inégalité maximale, il faut que le second membre <strong>de</strong> l’inégalité ne dépen<strong>de</strong> pas<strong>de</strong> s on va donc effectuer un découpage (peeling) selon les valeurs <strong>de</strong> s. Soit γ > 1.□17


≤≤(P ∃s ≤ t : S s (1) − sµ 1 ≤ − √ )αs log(t) ≤⌈ ⌉ ln(t)ln(γ)∑k=1⌈ ⌉ ln(t)ln(γ)∑k=1⌈ ⌉ ln(t)≤ln(γ)∑IMk=1Figure 2 – Le peeling⌈ ⌉ ln(t)ln(γ)∑k=1(√ )P ∃γ k ≤ s < γ k+1 : S s (1) − sµ 1 ≤ − αγ k log(t)P(√)mins=1...⌊γ k+1 ⌋ (S s(1) − sµ 1 ) ≤ − αγ k log(t)e − 12σ 2 γ k+1 αγk log(t)=( ln(t)ln(γ) + 1 ) 1t α2γσ 2(P ∃γ k ≤ s < γ k+1 : S s (1) − sµ 1 ≤ − √ )αs log(t)Or ceci est le terme général d’une série convergente (et dont on sait majorer la somme) pourα > 2σ 2 γ. On peut donc prendre α > 2σ 2 (puisque γ > 1 est quelconque). En revanche lasomme obtenue diverge lorsque α se rapproche <strong>de</strong> 2σ 2 . Ainsi on obtient pour les gaussiennesasymptotiquement :E[T n (j)] ≤ 4βσ2 ln(n)(µ j − µ ∗ ) 2 + o β(ln(n))pour β > 2 (avec divergence du reste en 2).Il manque donc toujours un facteur 4 pour se rapprocher <strong>de</strong> l’optimalité...2.3.2 Un autre découpageDans UCB on a été trop exigent lorsqu’on suppose à la fois que le bras optimal n’est passous-estimé et que le bras sous-optimal n’est pas surestimé. Ici on ne se sert s’intéresse qu’aupremier événement et on effectue le découpage suivant :N n (2) =n∑1 (µ1 ≥B 1 (t)) +t=1n∑t=11 (It=2)∩(µ 1 ≤B 1 (t))} {{ }CL’espérance du premier terme se majore comme précé<strong>de</strong>ment, à l’ai<strong>de</strong> du peeling-trick. Lamanière <strong>de</strong> majorer le terme C a été proposée dans un contexte plus général (celui <strong>de</strong> l’algorithmeKL-UCB) par Aurélien Garivier et Olivier Cappé dans [4]. Nous l’écrivons ici pour les18


gaussiennes :n∑1 (It=2)∩(µ 1 ≤B 1 (t)) ≤t=1=≤=≤n∑t=1 s=1n∑t=1 s=1n∑t∑1 (It=2)∩(µ 1 ≤B 2 (t))∩(N t(2)=s) (6)t∑t∑t=1 s=1n∑s=1n∑s=11 α log(t)(It=2)∩(µ 1 ≤ˆµ s(2)+√)∩(N st(2)=s)1 α log(n)(It=2)∩(µ 1 ≤ˆµ s(2)+√)∩(N st(2)=s)1(µ1 ≤ˆµ s(2)+√ α log(n)s )1(µ1 ≤ˆµ s(2)+√ α log(n)s )n∑t=s1 (It=2)∩(N t(2)=s)⌈⌉Ensuite, on peut poser K n = (1 + ɛ) α log(n) et majorer l’espérance le terme C :σ 2(√ )n∑α log(n)C ≤ K n + P µ 1 ≤ ˆµ s (2) +≤ K n +ss=K n+1(√ )n∑1≤ K n + P µ 1 ≤ ˆµ s (2) + (µ 1 − µ 2 )1 + ɛs=K} n+1{{ }Dn∑s=K n+1⎛P ⎝µ 1 ≤ ˆµ s (2) +√⎞α log(n)⎠K nOn montre alors que le terme D (toujours à l’ai<strong>de</strong> d’inégalité <strong>de</strong> concentration ou d’inégalitésmaximales) est négligeable <strong>de</strong>vant log(n) et alors la borne supérieure asymptotique qu’on obtienten combinant ce nouveau découpage et l’astuce du peeling-trick pour la surestimation du brasoptimal est :E[T n (2)] ≤ (1 + ɛ) βσ2 ln(t)(µ j − µ ∗ ) 2 + o β(ln(n))et ce pour tout ɛ > 0 et β > 2. On est donc très proche <strong>de</strong> l’optimalité dans le cas <strong>de</strong>s gaussiennes.Il n’en reste pas moins qu’en appliquant le même raisonnement dans le cadre <strong>de</strong>s Bernoullis,on n’est proche asymptotiquement que <strong>de</strong> la majoration <strong>de</strong> la borne inférieure par l’inégalité<strong>de</strong> Pinsker, qui n’est dans ce cas pas une égalité. Pour obtenir une borne supérieure faisantapparaître explicitement les divergences <strong>de</strong> Kullback qui interviennent dans la borne inférieure,un algorithme faisant intervenir directement <strong>de</strong>s Kullback pourrait donc être intéressant... Cesera KL-UCB.2.4 L’algorithme KL-UCB et le formalisme associéUn algorithme <strong>de</strong> bandit basé sur <strong>de</strong>s divergences <strong>de</strong> Kullback entre distributions empiriques,et qui atteindrait la borne inférieure a été présenté par Honda et Takemura dans [9] : il s’agit<strong>de</strong> DMED (Deterministic Minimum Empirical Divergence). Ce n’est toutefois pas directement19


une politique d’indice (on tient à jour une liste <strong>de</strong> bras à jouer), au contraire <strong>de</strong> l’algorithmeKL-UCB (qui a une certaines ressemblance avec DMED pour <strong>de</strong>s distributions à support fini).Ca <strong>de</strong>rnier algorithme a été étudié par l’équipe STA <strong>de</strong> Telecom, tout d’abord dans la thèse <strong>de</strong>Sarah Filippi, puis dont l’optimalité a été montrée séparément par Aurélien Garivier et OlivierCappé dans [4] et par Rémi Munos, Odalric-Ambrym Maillard et Gilles Stoltz dans [13].2.4.1 De bonnes inégalités <strong>de</strong> concentrationKL-UCB va être optimal car au lieu <strong>de</strong> se servir <strong>de</strong> l’inégalité <strong>de</strong> Hoeffding comme dansUCB, on va utiliser une ”meilleure” inégalité <strong>de</strong> concentration. Une manière d’en construire estla métho<strong>de</strong> <strong>de</strong> Chernoff (voir par exemple [14]). On introduit les notations suivantes, pour unevariable aléatoire Z :[φ Z (λ) = log E e λZ] log <strong>de</strong> la transformée <strong>de</strong> Laplace ou fonction génératrice <strong>de</strong> Zφ ∗ Z(x) = sup λ∈R + {λx − φ Z (λ)}Si x > E[Z], le sup sur R + ci-<strong>de</strong>ssus est aussi le sup sur R (cf. [14]), et φ ∗ Z(x) apparaît commela transformée <strong>de</strong> Fenchel-Legendre <strong>de</strong> la fonction φ Z .L’argument <strong>de</strong> Chernoff pour obtenir une majoration <strong>de</strong> la probabilité <strong>de</strong> déviation P(Z > x)est le suivant :P(Z ≥ x) = P(e λZ ≥ e λx )≤ e −λx E [ e λZ] = e −(λx−φ Z(λ))MarkovEt ceci pour tout λ > 0. En optimisant en λ ∈ R + puis en appliquant ceci à <strong>de</strong>s familles i.i.d,on obtient le lemme suivant.Lemme 2.1 Soit Z un variable aléatoire et (Z n ) une famille i.i.d <strong>de</strong> loi celle <strong>de</strong> Z alors :P(Z ≥ x) ≤ e −φ∗ Z (x)P(S n ≥ x) ≤ e −nφ Z∗(xnP(ˆµ n ≥ x) ≤ e −nφ Z∗(x)Ces inégalités <strong>de</strong> concentration, avec la fonction φ ∗ Zsont optimales au sens <strong>de</strong>s gran<strong>de</strong>s déviations :Theorème 2.3 Avec les notations précé<strong>de</strong>ntes si Z est à valeurs dans R on a :Une conséquence pour les gaussiennes1limn→∞ n ln(P(ˆµ n ≥ x)) = −φ Z ∗ (x))Dans le cas où Z ∼ N ( 0, σ 2) ont peut explicitementcalculer la transformée <strong>de</strong> Laplace (e σ2 λ 22 ) puis optimiser pour obtenir φ ∗ Z(x) =x22σ 2 .L’inégalité <strong>de</strong> concentration utilisée ci-<strong>de</strong>ssus pour l’adaptation d’UCB aux gaussiennes étaitdonc une ”bonne” inégalité <strong>de</strong> concentration, ce qui justifie qu’on peut obtenir une borne optimale.20


Une conséquence pour les variables aléatoires bornées L’inégalité <strong>de</strong> Hoeffding nes’obtient pas à partir <strong>de</strong> φ ∗ Zmais en utilisant avant d’optimiser en λ la majoration suivante <strong>de</strong>φ Z pour a ≤ Z ≤ b p.s :[φ Z (λ) = E e λZ] ( s 2 (b − a) 2 )≤ exp8(voir par ex [14]) et on optimise ensuite en λ en se servant <strong>de</strong> cette forme. Ainsi on obtient pourZ ∈ [0; 1] :P(S n ≥ x) ≤ e − 2x2nP(ˆµ n ≥ x) ≤ e −2nx2Et pour les Bernoullis ? On pourra avoir une meilleure inégalité <strong>de</strong> concentration pourles Bernoullis, et plus généralement pour les v.a. appartenant à une famille exponentielle à unparamètre, en cherchant directement une expression du taux optimal φ ∗ Z (x).2.4.2 KL-UCB pour la famille exponentielleOn suppose que pour chaque j les Y j,t appartiennent à une famille exponentielle <strong>de</strong> paramètreθ j . C’est à dire qu’il existe <strong>de</strong>ux fonctions b et c (supposées connues et fixées pour tous les bras)telles que Y j,t possè<strong>de</strong> une <strong>de</strong>nsité par <strong>rapport</strong> à la mesure <strong>de</strong> Lesbesgue ou <strong>de</strong> comptage <strong>de</strong> laforme :p θj (x) = exp(xθ j − b(θ j ) + c(x))Cette famille <strong>de</strong> distributions (p θ ) a la particularité que chacune est exactement caractérisée parsa moyenne µ(θ) = b ′ (θ).Transformée <strong>de</strong> Fenchel-Legendre dans une famille exponentielle La transformée <strong>de</strong>Fenchel-Legendre <strong>de</strong> φ Z pour une variable aléatoire Z ∼ p θ appartenant à une famille exponentiellepeut être calculée. On noteφ˜Z (x) = sup{λx − ln E pθ [exp(λZ)]}λ∈Rgran<strong>de</strong>ur qui coïnci<strong>de</strong> avec φ ∗ Zdéfinie plus haut si x > E[Z].Définition 2.1 Dans le cas d’une famille exponentielle, on a vu que la distribution ne dépendque <strong>de</strong> sa moyenne µ(θ) donc on peut introduire la notation pour Z ∼ p θd(x, µ(θ)) := ˜ φ Z (x)Lemme 2.2 Soit Z ∼ p θ . Avec les notations précé<strong>de</strong>ntes, on a pour x = µ(β), le sup dans ladéfinition <strong>de</strong> ˜φ Z (x) est atteint en λ = β − θ etd(µ(β), µ(θ)) = KL(p β , p θ ) = µ(β)(β − θ) − b(β) + b(θ)21


Preuve d(µ(β), µ(θ)) = ˜φ Z (µ(β)) où Z ∼ p θ . Calculons cette transformée <strong>de</strong> Legendre.[E e λZ] ∫= exp(λx) exp(θx − b(θ) + c(x))dx∫R= exp(b(λ + θ) − b(θ)) exp((λ + θ)x − b(λ + θ) + c(x))dxR= exp(b(λ + θ) − b(θ))˜φ Z (µ(β)) = sup {λµ(β) − b(λ + θ) + b(θ)}λLe sup est atteint pour λ ∗ vérifiant µ(β) = b ′ (θ + λ ∗ ) ⇔ µ(β) = µ(θ + λ ∗ ) soit λ ∗ = β − θ etdoncd(µ(β), µ(θ)) = (β − θ)µ(β) − b(β) + b(θ)Vérifions que KL(p β , p θ ) est égal à cette gran<strong>de</strong>ur :∫ ( )exp(xβ − b(β) + c(x))KL(p β , p θ ) = logexp(θx − b(θ) + c(x))dxR exp(xθ − b(θ) + c(x)))∫= ((β − θ)x − b(β) + b(θ)) exp(θx − b(θ) + c(x))dx = (β − θ)µ(β) − b(β) + b(θ)RCe résultat permet d’obtenir, par la métho<strong>de</strong> <strong>de</strong> Chernoff, une inégalité <strong>de</strong> concentration pourla moyenne empirique d’une famille i.i.d <strong>de</strong> loi p θ :Lemme 2.3 Soit ˆµ n = 1 n∑ nt=1 X t où X t i.i.d <strong>de</strong> loi p θ . Alors pour tout x > µ(θ) :P(ˆµ n ≥ x) ≤ e −nd(x,µ(θ))On peut par ailleurs étudier la régularité <strong>de</strong> l’application d à travers le lemme suivant :Lemme 2.4 L’application x ↦→ d(x, µ) est continue, strictement décroissante à gauche <strong>de</strong> µPreuve Notons µ = µ(θ). Notons tout d’abord que l’application µ : θ ↦→ µ(θ) est strictementcroissante et à dérivée > 0 : µ −1 est donc également dérivable et strictement croissante. D’aprèsle lemme 2.2 :d(x, µ) = x(µ −1 (x) − θ) − b(µ −1 (x)) + b(θ) = H(µ −1 (x))Soit H(y) = µ(y)(y − θ) − b(y) + b(θ) : H est dérivable avec H ′ (y) = µ ′ (y)(y − θ) + µ(y) − b ′ (y) =µ ′ (y)(y − θ) et on a d(x, µ) = H(µ −1 (x)). Ainsi, d est dérivable en x par composition <strong>de</strong> <strong>de</strong>uxfonctions dérivables etddx d(x, µ) = H′ (µ −1 (x)) × µ ′ −1 (x) = µ ′ (µ −1 (x))(µ −1 (x) − θ)µ ′ −1 (x)quantité strictement négative si x < µ (⇔ µ −1 (x) < θ) d’où la décroissance. La continuité vient<strong>de</strong> la dérivabilité.□□22


L’algorithme KL-UCB pour la famille exponentielle Maintenant que la gran<strong>de</strong>ur d estbien définie on peut introduire l’indice utilisé pour chaque bras dans l’algorithme KL-UCB :{( )}St (j)u t (j) = max q ∈ θ : N t (j)dN t (j) , q ≤ ln(t) + c ln(ln(t))Une borne <strong>de</strong> regretTheorème 2.4 Si j est un bras sous-optimal et j ∗ un bras optimal, on a pour tout ɛ > 0 lenombre <strong>de</strong> tirages du bras j dans l’algorithme KL-UCB avec c = 3 qui vérifie :E[N n (j)] ≤log(n)d(µ j , µ ∗ j )(1 + ɛ) + R n(ɛ)Démonstration On peut montrer <strong>de</strong> la même manière que dans la version la plus précised’UCB (calcul effectué pour les gaussiennes page 19) que :[n∑n∑]E[N n (2)] ≤ P(µ 1 > u 1 (t)) + E 1 (sd(ˆµ2,s ,µ 1 ) u 1 (t)) est petit pour chaque t, en se servant d’une martingale bien choisie.Etu<strong>de</strong> du terme A On commence par établir le théorème suivant qui va nous ai<strong>de</strong>r à majorerchacun <strong>de</strong>s termes <strong>de</strong> la somme dans A :Theorème 2.5 Soit (X t ) une suite <strong>de</strong> va i.i.d. suivant p θ telle que E[p θ ] = µ, et ɛ une suiteF t−1 -prévisible ou σ(X 1 , ..., X t ) ⊂ F t−1 . En posant pour tout δ > 0, avec d(x, µ) comme définici-<strong>de</strong>ssus :S(t) =t∑ɛ s X s , N(t) =s=1t∑ɛ s ,s=1u(n) = argmax {q > ˆµ n : N(n)d (ˆµ(n), q) ≤ δ} .ˆµ(t) = S(t)N(t) ,AlorsP(u(n) < µ) ≤ e⌈δ ln(n)⌉ exp(−δ)Demonstration du théorème On définit pour tout λ ∈ R et tout µ, φ µ (λ) = ln E[exp(λX 1 )]où X 1 ∼ p θ (d’espérance µ d’où l’in<strong>de</strong>xation par la moyenne). Si bien que d(x, µ) = sup λ {λx −φ µ (λ)} : on note que d’après le lemme 2.2, d(x, µ) = λ(x)x − φ µ (λ(x)) pour un certain λ(x) =µ −1 (x) − θ (pour µ = µ(θ)).23


Une martingale Pour tout λ ∈ R la variable aléatoireest une martingale. En effet,W λ t= exp(λS(t) − N(t)φ µ (λ))[ ]E exp (λ {S(t + 1 − S(t)}) |F t[ ]= E exp (λɛ t+1 X t+1 ) |F t = 1 ɛt+1 =0 + 1 ɛt+1 =1E[e λX]()= exp ɛ t+1 ln E [exp (λX 1 )]( )= exp ɛ t+1 φ µ (λ) = exp({N(t + 1) − N(t)} φ µ (λ))donc E [exp(λS(t + 1) − N(t + 1)φ µ (λ))|F t ] = exp(λS(t) − N(t)φ µ (λ)) en utilisant le fait queN(t + 1) et S(t) sont F t - mesurables.Le peeling trick L’idée est <strong>de</strong> raisonner suivant la valeur <strong>de</strong> N(n) : mais plutôt que d’utiliserune borne <strong>de</strong> l’union on va découper astucieusement en tranche <strong>de</strong> taille <strong>de</strong> plus en plus gran<strong>de</strong>,et sur chacune on fera intervenir la martingale précé<strong>de</strong>mment définie, pour un λ adapté. Fixonsγ > 1 et posons t k = ⌊ γ k⌋ . On a alors :P (u(n) < µ) ≤⌈ln(n)/ ln(γ)⌉∑k=1P((t k−1 < N(n) ≤ t k ) ∩ (u(n) < µ) )} {{ }A kSur A k on a ˆµ(n) < µ et N(n)d(ˆµ(n), µ) > δ. Et t k−1 < N(n) ≤ t k ⇒ γ k−1 ≤ N(n) ≤ γ k . Ona donc :– d(ˆµ(n), µ) ≥ δN(n) ≥ δγ k– d(µ, µ) = 0d’après le lemme 2.4, il existe un unique ˆµ(n) < z k < µ tel que d(z k , µ) = δ et pour ce zγ kk ilexiste un λ(z k ) (d’après le lemme 2.2) tel que d(z k , µ) = λ(z k )z k −φ µ (λ(z k )). On peut remarquerque λ(z k ) = µ −1 (z k ) − θ < 0 et donc :λ(z k )ˆµ(n) − φ µ (λ(z k )) ≥ λ(z k )z k − φ µ (λ(z k )) = d(z k , µ) = δγ k ≥On vient <strong>de</strong> montrer queD’oùP(A k ) ≤ POn a doncA k ⊂(λ(z k )S(n) − N(n)φ µ (λ(z k )) ≥ δ )γδγN(n)(( )) (W λ(z k) δn ≥ exp ≤ exp − δ )E[W λ(z k)n ] =(−γ Markov γexp δ )(E[W λ(z k)0 ] = exp − δ )martingale γγOn choisit maintenant γ =obtient que :P (u(n) < µ) ≤⌈ ⌉ (ln(n)exp − δ )ln(γ) γδδ−1 et en remarquant que (pour δ > 1) ln (δδ−1P (u(n) < µ) ≤ ⌈δ ln(n)⌉ exp (−δ + 1))≥ 1 δ(concavité) on24


Remarque 2.2 L’algorithme UCB pour les bandits gaussiens décrit et étudié dans la partieprécé<strong>de</strong>nte était en fait un cas particulier <strong>de</strong> KL-UCB. En effet, les lois gaussiennes <strong>de</strong> variancesconnues forment une famille exponentielle, pour laquelle on a d(µ, µ ′ ) = (µ−µ′ ) 2: on peut donc2σ 2utiliser le formalisme <strong>de</strong> la preuve ci-<strong>de</strong>ssus pour prouver l’optimalité <strong>de</strong> cet algorithme.2.4.3 KL-UCB pour <strong>de</strong>s variables aléatoires indépendantes bornéesTransformée <strong>de</strong> Fenchel-Legendre pour <strong>de</strong>s variables aléatoires bornéesLemme 2.5 Soit X une variable aléatoire à valeurs dans [0, 1] d’espérance µ. Alors pour toutλ ∈ RE[exp(λX)] ≤ 1 − µ + µ exp(λ) = E[exp(λX 1 )]où X 1 suit B(µ)On en déduit donc par la métho<strong>de</strong> <strong>de</strong> Chernoff l’inégalité <strong>de</strong> concentration suivante pour lamoyenne empirique d’une somme <strong>de</strong> variables alétoires indépendantes à valeurs dans [0, 1] :Lemme 2.6 (X t ) une famille <strong>de</strong> va indépendantes à valeurs dans [0, 1], <strong>de</strong> moyenne µ, etˆµ(n) = 1 n∑ nt=1 X t alors pour tout x > µ :où d(x, y) = KL(B(x), B(y))P(ˆµ(n) > x) ≤ e −nd(x,µ)Demonstration du lemme Soit λ > 0, on applique la technique usuelle <strong>de</strong> Chernoff :Et particulier, on a :P(ˆµ(n) ≥ x) = P(S n ≥ nx) = P(e λSn ≥ e λnx )≤≤lemme2.5e −λnx E[e λ ∑ nt=1 Xt ] =in<strong>de</strong>p.e −λnxn ∏t=1e −λnx ( E[e λY ]) navec Y ∼ B(µ)= e −n(λx−log E[eλY ])P(ˆµ(n) ≥ x) ≤ e −nφ∗ Y (x)E[e λXt ]mais d’après la définition 2.1 et le lemme 2.2, pour Y ∼ B(µ), et x > µ, on a φ ∗ Y (x) = ˜φ Y (x) =d(x, µ)Comme pour démontrer l’inégalité <strong>de</strong> Hoeffding, on se sert ici d’une majoration <strong>de</strong> φ Z la transformée<strong>de</strong> Laplace d’une v.a. bornée : mais cette inégalité est plus fine que la précé<strong>de</strong>nte, etsurtout c’est une égalité pour les variables <strong>de</strong> Bernoulli, ce qui justifie que la version modifiée<strong>de</strong> KL-UCB qui va en découler sera optimale pour les bandits binaires...□□26


L’algorithme KL-UCB pour les variables aléatoires bornées Vu le lemme précé<strong>de</strong>nt,on définit pour un jeu <strong>de</strong> bandit à récompenses dans [0; 1] l’indice suivant :{( )}St (j)u t (j) = max q ∈ θ : N t (j)dN t (j) , q ≤ ln(t) + c ln(ln(t))où d(x, y) = KL(B(x), B(y)) (correspond à l’indice précé<strong>de</strong>nt pour le jeu <strong>de</strong> bandits binaires).Une borne <strong>de</strong> regret On a la même borne <strong>de</strong> regret :E[N n (j)] ≤log(n)d(µ j , µ ∗ j )(1 + ɛ) + R n(ɛ)toujours pour d(x, y) = KL(B(x), B(y)) (donc l’algorithme est optimal pour les Bernoulli).Ce qui change dans la preuve...change en <strong>de</strong>ux endroits :On pose φ µ (λ) = log E[exp(λX)] où X ∼ B(µ) La preuveDans la partie A Dans la démonstration du théorème 2.5, Wt λ n’est plus une martingalemais une surmartingale. En effet,[ ] [ ] ()E exp (λ {S(t + 1 − S(t)}) |F t−1 = E exp (λɛ t+1 X t+1 ) |F t−1 = exp ɛ t+1 ln E [exp (λX 1 )]( ) ()≤ exp ɛ t+1 φ µ (λ) = exp {N(t + 1) − N(t)} φ µ (λ)On n’a donc plus l’égalité E[W λ(z k)n ] = E[W λ(z k)0 ], mais l’inégalité E[W λ(z k)n ] ≤ E[W λ(z k)0 ] qu’ondéduit <strong>de</strong> la propriété <strong>de</strong> surmartingale nous suffit !Dans la partie B On procè<strong>de</strong> <strong>de</strong> la même manière mais en utilisant l’inégalité <strong>de</strong> concentrationdéduite du lemme 2.6 à la place <strong>de</strong> celle utilisée dans l’équation (7).2.5 D’autres gestions <strong>de</strong> l’explorationLes bornes à horizon fini qu’on obtient sont <strong>de</strong>s majoration <strong>de</strong> R n . On peut aussi imaginerqu’on joue jusqu’à un horizon n connu à l’avance. On peut montrer que l’algorithme modifiéen remplaçant dans l’indice <strong>de</strong> KL-UCB (ou même plus tôt UCB) t par n a la même borne <strong>de</strong>regret. On peut d’ailleurs s’intéresser à d’autres formes <strong>de</strong> gestion <strong>de</strong> l’exploration :– remplacer t partN t(j)– remplacer t parnN t(j)(diminuer l’exploration <strong>de</strong>s bras beaucoup tirés...)(...et tenir <strong>de</strong> plus compte <strong>de</strong> l’horizon)L’algorithme MOSS (Minimax Optimal Strategy in the Stochastic Case) proposé par Audibertet Bubeck (cf. [1]) était en quelque sorte une modification d’UCB en utilisant l’indicenN . t(j)Par ailleurs, dans [4] sur <strong>de</strong>s tests numériques, l’algorithme KL-UCB+ (qui utilise un indicetmodifié tenant compte <strong>de</strong>N t(j)) semble donner <strong>de</strong> meilleurs résultats que KL-UCB. On verradans le cadre <strong>de</strong>s algorithmes d’inspiration bayésienne étudiés dans la partie 4 que ces gestionsalternatives <strong>de</strong> l’exploration peuvent apparaître naturellement.27


3 Gittins et la résolution du problème bayésienD’aucuns affirment que Gittins dans son article <strong>de</strong> 1979 a ”résolu” le multiarmed banditproblem dans le cadre bayésien. Ce n’est pas entièrement vrai, puisqu’il a abordé uniquement les<strong>de</strong>ux cadres <strong>de</strong>s bandits binaires et gaussiens évoqués ci-<strong>de</strong>ssus. Ces <strong>de</strong>ux problèmes sont en fait<strong>de</strong>s exemples <strong>de</strong> Family of Alternative Bandit Process (FABP), qui sont <strong>de</strong>s MDP particuliersque l’on va présenter brièvement ci-<strong>de</strong>ssous, et pour lesquels Gittins a démontré <strong>de</strong> manièregénérale qu’il existait <strong>de</strong>s politiques d’indice optimales. Mais comprendre exactement commentces problèmes se placent dans ce cadre <strong>de</strong>man<strong>de</strong> un peu <strong>de</strong> précision.3.1 Un cadre plus général : Family of Alternative Bandit ProcessOn suppose connue la notion <strong>de</strong> processus <strong>de</strong>cisionnel <strong>de</strong> Markov (ou MDP) qui est unprocessus stochastique contrôlé assignant <strong>de</strong>s récompenses aux transitions entre états. Voici unexemple graphique où l’on voit les états (S 0 , S 1 , S 2 ), les actions possibles (a 0 , a 1 ) en chaque état,les probabilités <strong>de</strong> transition vers les autres états étant donné le choix d’une action en un état,et les récompenses qui résultent <strong>de</strong> ces transitions (flèches jaunes).On rappelle que résoudre un MDP c’est trouver une politique optimale (choix d’une actionen fonction <strong>de</strong> la trajectoire jusqu’à présent dans le MDP). L’optimalité peut se mesurer selonplusieurs critères. Nous nous concentrerons sur <strong>de</strong>ux d’entre eux : le critère infini discounté(maximiser l’espérance <strong>de</strong> la somme infinie discountée <strong>de</strong>s récompenses), et le critère fini sansdiscount (maximiser l’espérance <strong>de</strong> la somme finie <strong>de</strong>s récompenses).Pour <strong>de</strong>s MDP à espace d’états et d’actions finis, une résolution ”exacte” est possible grâceà la résolution d’une équation <strong>de</strong> programmation dynamique. Nous allons voir plus loin commentla résolution <strong>de</strong> MDP nous conduira à <strong>de</strong>s politiques intéressantes pour le problème dubandit.Qu’est-ce qu’un Bandit process ? Un processus <strong>de</strong> bandit D est un MDP très simplepossédant :– un espace d’états X– <strong>de</strong>ux actions {0, 1}– l’action 0 correspond à un gel du processus, caractérisé par les transitions et récompensessuivantes :P (x, 0, x) = 1 R(x, 0) = 0Un BP est donc entièrement caractérisé par la transition et la récompense associée à l’action 1,qui correspon<strong>de</strong>nt à la continuation du processus <strong>de</strong> bandit.28


Qu’est-ce qu’une FABP ? Une famille <strong>de</strong> processus <strong>de</strong> bandits alternants (ou Family of AlternativeBandit Process - FABP) est obtenue en concaténant K processus <strong>de</strong> bandit D 1 , ..., D K ,ce qui forme le MDP suivant :– espace d’état X 1 × X 2 × ... × X K– actions ɛ j = (0..010..0) j = 1...K où le 1 est en position j– le choix <strong>de</strong> l’action j continue le processus j et gèle les autres, ce qu’on peut écrire :p((x 1 , ..., x K ), ɛ j , (y 1 , ..., y K )) = p Dj (x j , 1, y j ) × ∏ 1 yk =x kk≠jDans notre problème... Ce sont les paramètres courants <strong>de</strong>s a posteriori qui vont jouerle rôles <strong>de</strong>s états <strong>de</strong> chacun <strong>de</strong>s ”bandit process”, et les mises à jours bayésiennes celui <strong>de</strong>stransitions. On va regar<strong>de</strong>r plus en détails dans les sections suivantes comment la formulationsous forme <strong>de</strong> MDP apparaît naturellement lorsqu’on cherche à résoudre les <strong>de</strong>ux problèmes <strong>de</strong>bandits binaires et gaussiens.La politique d’indice <strong>de</strong> Gittins pour <strong>de</strong>s FABP Gittins donne une résolution <strong>de</strong> cettefamille <strong>de</strong> MDP, pour le critière infini discounté, via une politique indice optimale. Dans ce cadreinfini discounté, le premier indice introduit par Gittins est pour un bras D dans l’état x :[ ∑τ−1]Et=0 γt R(t)|x(0) = xν(D, x) = sup [ ∑τ−1]temps d’arrêt>0 Et=0 γt |x(0) = xqui correspond à la récompense maximale par unité <strong>de</strong> temps discounté qu’on peut obteniren choisissant le bras D qui est dans l’état x (γ est le facteur <strong>de</strong> discount). La politique <strong>de</strong>Gittins peut alors être vue comme le choix à chaque tour du bras maximisant cette ”récompenseinstantanée”. Mais une autre manière d’interpréter ces indices (et <strong>de</strong> les calculer...) est <strong>de</strong> faireintervenir pour chaque bras un problème <strong>de</strong> calibration, que nous appelerons dans la suite leproblème B λ , et que nous étudierons en détails dans le cas particulier <strong>de</strong>s bandits Bernoullis.L’idée majeure est <strong>de</strong> réduire la dimension du problème : pour chaque bras on va seramener à la résolution <strong>de</strong> plusieurs MDP beaucoup plus simples permettant le calcul <strong>de</strong> l’indice<strong>de</strong> Gittins.Contributions <strong>de</strong> ce <strong>stage</strong> Dans la suite nous allons adapter l’idée <strong>de</strong> Gittins, au sens oùnous allons aussi regar<strong>de</strong>r les problèmes <strong>de</strong> bandits bayésiens comme <strong>de</strong>s MDP, et que nousallons aussi introduire les problèmes <strong>de</strong> calibration associés, mais ces MDP seront traités directementsans discount et avec un horizon fini. Ceci conduira à la définition <strong>de</strong> nouveaux indices,dépendant du temps <strong>de</strong> jeu, qui définiront une politique optimale pour le problème du bandit àhorizon fini.Nous allons donc détailler la modélisation <strong>de</strong> ce problème comme un MDP, ainsi que sa résolutionpar un calcul d’indices <strong>de</strong> type indices <strong>de</strong> Gittins. Nous montrerons en particulier l’optimalitéd’une telle politique. Ceci se généralisera également au problème <strong>de</strong>s bandits gaussiens avec priorgaussiens, qui définissent pourtant un MDP un peu plus compliqué.29


3.2 Le problème <strong>de</strong> bandits binaires bayésienOn se donne :– θ 1 , ..., θ K i.i.d. ∼ Beta(a, b)– une suite (V t ) t≥1 i.i.d suivant U([0, 1]) indépendante <strong>de</strong>s θ j– une stratégie I t construite récursivement avec I 0 une variable aléatoire quelconque etI t ∈ σ(X 1 , ..., X t , I 0 , ..., I t−1 ) donnant l’action choisie après l’observation <strong>de</strong> t tirages– X t = 1 (Vt≤θ It−1 ) donne la récompense obtenue à l’instant tCeci modélise le problème du bandit : on veut choisir le bras à tirer à l’instant t + 1 à partir <strong>de</strong>l’observation <strong>de</strong>s récompenses successivement obtenues et <strong>de</strong>s bras successivement tirés jusqu’àl’instant t . La filtration associée que l’on considère et qui résume l’information disponible àl’instant t après l’observation <strong>de</strong> t tirages est :F t = σ(X 1 , ..., X t ) = σ(I 0 , X 1 , I 1 , X 2 , I 2 , ..., I t−1 , X t )⎛0⎞0Statistique suffisante résumant le jeu On définit S 0 = ⎝. . ⎠ ∈ M K,2 (N) et on utilise0 0⎛ ⎞ ⎛ ⎞0 00 0. .les matrices élémentaires E j,1 =⎜1 0⎟⎝. . ⎠ et E . .j,2 =⎜0 1⎟ où seule la j-ème ligne est non nulle.⎝. . ⎠0 00 0On définit par récurrence {St = S t−1 + E It−1 ,2−X tR t = X t(S t ) 0≤t≤T résume l’histoire du jeu à l’instant T : S T (j, 1) (resp. S T (j, 2)) donne le nombre <strong>de</strong>1 (resp. <strong>de</strong> zéros) qui ont été observés en tirant le bras j avant T et S t − S t−1 nous donneprécisemment le bras qui a été tiré à l’instant t et la récompense obtenue. On a doncF t = σ(S 0 , S 1 , ..., S t )On comprend bien sur l’illustration suivante pour T = 11 comment le jeu est résumé : danscette partie il y a 3 bras et on a tiré trois fois le bras 1, observé un 1 et <strong>de</strong>ux 0, six fois le bras2 avec cinq 1 et un 0 et <strong>de</strong>ux fois le bras 3 sans obtenir <strong>de</strong> récompense.On peut noter que grâce à l’update bayésien, la j-ème ligne <strong>de</strong> S t représente également exactementl’état <strong>de</strong> l’a posteriori courant sur le bras j (si on lui rajoute l’a priori initial Beta(a, b)).Cela sera utile dans le lemme suivant, qui permet d’interpréter S t et R t comme respectivement30


les états et les récompenses dans un MDP, dont on précisera les transitions et la fonction <strong>de</strong>récompense immédiate.Lemme 3.1E[θ j |F t ] = E[θ j |S t ] =S t (j, 1) + aS t (j, 1) + S t (j, 2) + a + bPreuveCalculons l’espérance conditionnelle <strong>de</strong> gauche.E[θ j |F t ] = E[θ j |I 0 , X 1 , ..., I t−1 , X t ]∑=E[θ j |I0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ]i 0 ,...,i t−1 , x 1 ,...,x t×1 (I0 =i 0 )∩...∩(I t−1 =i t−1 )∩(X 1 =x 1 )∩...∩(X t=x t)Où l’on somme sur les éléments tels que P ((I 0 = i 0 ) ∩ ... ∩ (I t−1 = i t−1 ) ∩ (X 1 = x 1 ) ∩ ... ∩ (X t = x t )) ≠0. Calculons plus précisemment E[θ j |I0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ]. On a :p(θ j |I 0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ) = p(I 0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t |θ j )π(θ j )p(I 0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t )= P((V 1 ≤ / ≥ θ i0 ) ∩ ... ∩ (V t ≤ / ≥ θ it−1 )|θ j )π(θ j )P(I 0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t )∏∝ (1 − θ j ) 1−x lθ x lj (1 − θ j) b θjaAinsi on a montré queL(θ j |I0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ) = Betaet vu l’espérance d’une loi beta on a alorsE[θ j |I0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ] =l : i l−1 =j(a +t∑1 (il−1 =j)x l , b +l=1a + ∑ tl=1 1 (i l−1 =j)x la + b + ∑ tl=1 1 (i l−1 =j)=)t∑1 (il−1 =j)(1 − x l )l=1S t (j, 1) + aS t (j, 1) + S t (j, 2) + a + bpar définition <strong>de</strong> S t . Il en est <strong>de</strong> même pour E[θ j |F t ], ce qui démontre la première égalité.S t(j,1)+aLa variable aléatoireS étant σ(S t(j,1)+S t(j,2)+a+b t)-mesurable, et σ(S t ) ⊂ F t on a aussi[]S t (j, 1) + aE[θ j |S t ] = E[E[θ j |F t ]|S t ] = ES t (j, 1) + S t (j, 2) + a + b∣ S S t (j, 1) + at =S t (j, 1) + S t (j, 2) + a + b□31


3.3 La résolution du problème <strong>de</strong> bandit comme résolution d’un MDPNotre but est <strong>de</strong> montrer que (S t ) t≥0 est une trajectoire dans un MDP, sous une politiquedéterminée par I t , avec la récompense naturelle R t = X t . Le calcul suivant permet d’avoir uneidée du MDP à considérer :P(S t+1 = S + E j,1 |S t = S, I t = j) = P(X t+1 = 1|S t = S, I t = j)= P(V t+1 ≤ θ j |S t = S, I t = j)= E[1 Vt+1 ≤θ j|S t = S, I t = j]= E[E[1 Vt+1 ≤θ j|S t = S, θ j ]|S t = S]= E[θ j |S t = S]=lemmeS(j, 1) + aS(j, 1) + S(j, 2) + a + bOn considère le MDP donnée par :– les états S ∈ M K,2,( N) (représentant les paramètres <strong>de</strong> la loi beta donnant le posteriorsur chacun <strong>de</strong>s bras)– les actions 1...K (choix d’observer un bras)– les transitions P(S, a, S + E a,1 ) = 1 − P (S, a, S + E a,2 ) =)– les récompenses R(S, a) ∼ B(S(a,1)+aS(a,2)+a+bS(a,1)+aS(a,1)+S(a,2)+a+bLe calcul ci-<strong>de</strong>ssus montre que (S t , R t ) est une trajectoire sous la politique donnée par I t pource MDP, selon le schéma suivant :On peut résoudre plusieurs types <strong>de</strong> problème <strong>de</strong> bandit :1. résoudre le problème infini discounté (comme cela est fait par Gittins) : trouver unestratégie (politique) maximisant E[ ∑ ∞t=1 γt−1 X t ] avec 0 < γ < 12. résoudre le problème à horizon T (ce qu’on a envie <strong>de</strong> faire comme dans le cadrefréquentiste) : trouver une stratégie maximisant E[ ∑ Tt=1 X t]Ce problème revient donc à résoudre le MDP ci-<strong>de</strong>ssus, càd en trouver une politique optimale :1. pour le premier cas, dans le cadre horizon infini, discount γ2. pour le second cas, dans le cadre d’un horizon fini T , sans discount (avec une récompenseterminale nulle)On connaît la forme <strong>de</strong> politique optimale pour ces différents critères :32


1. dans le cadre infini, il existe <strong>de</strong>s politiques markoviennes stationnaires optimales, donnéespar l’équation <strong>de</strong> Bellmann : cela signifie que à chaque instant le choix <strong>de</strong> I t se ferauniquement en fonction <strong>de</strong> S t2. dans le cadre fini, il existe <strong>de</strong>s politiques markoviennes optimales (mais non stationnaires) :le choix <strong>de</strong> I t va dépendre <strong>de</strong> S t et du temps <strong>de</strong> jeu tRemarque 3.1 On voit donc que dans ces stratégies optimales pour le problème du bandit, markoviennesdans les <strong>de</strong>ux cas, l’ordre dans lequel ont été tirés les bras ainsi que l’ordre d’apparition<strong>de</strong>s 0 et <strong>de</strong>s 1 n’influence pas la décision prise.Dans le cas fini qui nous intéresse à partir <strong>de</strong> maintenant (puisque c’est là qu’on se différenciedu traitement <strong>de</strong> Gittins), on peut explicitement calculer par programmation dynamique lapolitique optimale π, via le calcul <strong>de</strong> la fonction valeur optimale V :V (T, S) = 0V (t, S) = max j,1) + (1 − R(S, j)) × V (t + 1, S + E j,2 ))j=1...Kπ(t, S) = argmax j=1...K (R(S, j) + R(S, j) × V (t + 1, S + E j,1 ) + (1 − R(S, j)) × V (t + 1, S + E j,2 ))Le calcul est toutefois coûteux car le nombre d’états est très grand, on va donc s’inspirer <strong>de</strong>spolitiques d’indice proposées par Gittins et montrer qu’il suffit <strong>de</strong> calculer <strong>de</strong>s indices à chaqueinstant pour chaque bras et <strong>de</strong> choisir celui qui a l’indice le plus grand. Dans le cadre infini,l’indice du bras j à l’instant t dépend <strong>de</strong> S t (j, :) uniquement, dans le cadre fini il semble naturelque cet indice dépen<strong>de</strong> aussi du temps <strong>de</strong> jeu t.Le calcul <strong>de</strong>s indices repose sur une simplification du problème.3.4 Les indices <strong>de</strong> Gittins3.4.1 Problème <strong>de</strong> calibration associé à chaque bras : un problème d’arrêt optimalà horizon fixéOn s’intéresse maintenant à un bras fixé parmi les K ci-<strong>de</strong>ssus. On suppose qu’à un instantt du jeu, ce bras est dans l’état (s 1 , s 2 ) = (S t (j, 1), S t (j, 2)). On notera alors plus simplementpour un bras donné ˜S t = (S t (j, 1), S t (j, 2)).Pour définir l’indice <strong>de</strong> confiance accordé à un brasdans un état S t à l’instant t, il convient <strong>de</strong> présenter le problème ”un bras et <strong>de</strong>mi”, qui peut serésoudre comme un MDP plus simple que le précé<strong>de</strong>nt ou en traitant directement le problèmed’arrêt optimal associé à l’ai<strong>de</strong> <strong>de</strong> la notion d’enveloppe <strong>de</strong> Snell.Problème B λ et arrêt optimal Le problème B λ est le jeu suivant. Soit λ ∈ [0; 1] un réelfixé. On joue sur un horizon temporel T et à chaque instant <strong>de</strong> jeu, on peut choisir <strong>de</strong> tirer lebras et <strong>de</strong> recevoir la récompense associée ou <strong>de</strong> ne pas jouer et <strong>de</strong> recevoir la récompense λ. Leproblème est modélisé par :– θ ∼ Beta(a, b) l’a priori sur le bras– (V t ) ⊥ θ i.i.d. ∼ U([0, 1])– X t = 1 (Vt≤θ),˜Xt = X t 1 It−1 =1, ˜Ft = σ( ˜X 1 , ..., ˜X t )33


– I t˜Ft -mesurable à valeurs dans {0; 1} indiquant si on joue (1) ou non (0) : on ajoute queI t peut également dépendre d’une tribu indépendante <strong>de</strong> ˜F tLes états résumant le problème sont ici donné par :{ ˜St = ˜S t−1 + 1 (It−1 =1)E 1,2−Xt˜R t = X t 1 (It−1 =1) + λ1 (It−1 =0)On vérifie que l’on a :– P( ˜S t = S| ˜S t−1 = S, I t−1 = 0) = 1– P( ˜S t = S + 1| ˜S t−1 = S, I t−1 = 1) =S(1)+aS(1)+S(2)+a+b– E[ ˜R t | ˜S t−1 = S, I t−1 = 0] = λ– E[ ˜R t | ˜S S(1)+at−1 = S, I t−1 = 1] =S(1)+S(2)+a+bCe qui nous donne les transitions et la fonction <strong>de</strong> récompense immédiate associée au MDP( ˜S t−1 , I t−1 ) −→ ( ˜S t , ˜R t ), qui a un espace d’état et un nombre d’actions bien plus faible que leMDP initial à K bras...Equation <strong>de</strong> Bellmann et solution du MDP On écrit l’équation <strong>de</strong> Bellmann pourla fonction valeur optimal <strong>de</strong> ce MDP, qui dépend <strong>de</strong> λ et qu’on notera en toute généralitéV (λ, t, (s 1 , s 2 )), ou V (t, (s 1 , s 2 )) lorsqu’il n’y a pas <strong>de</strong> confusion possible.V (T, (s 1 , s 2 )) = 0{V (t, (s 1 , s 2 )) = max λ + V (t + 1, (s 1 , s 2 ));(+ 1 −s 1 + as 1 + s 2 + a + bs 1 + as 1 + s 2 + a + b +)V (t + 1, (s 1 , s 2 + 1)s 1 + as 1 + s 2 + a + b V (t + 1, (s 1 + 1, s 2 )}La politique optimale choisissant en (t, (s 1 , s 2 )) l’argmax. L’équation <strong>de</strong> Bellmann nous permet<strong>de</strong> montrer le lemme suivant :Lemme 3.2 Les politiques optimales sont <strong>de</strong>s politiques d’arrêt : si à l’instant t on déci<strong>de</strong> <strong>de</strong>choisir λ (soit d’arrêter <strong>de</strong> jouer), on choisit également λ à l’instant t + 1Démonstration Supposons qu’une politique optimale choisisse l’action 0 dans l’état (s 1 , s 2 )en t : on a alors par définition <strong>de</strong> la politique optimales 1 + aλ + V (t + 1, (s 1 , s 2 )) ≥s 1 + s 2 + a + b + s 1 + as 1 + s 2 + a + b V (t + 1, (s 1 + 1, s 2 )s 1 + a+s 1 + s 2 + a + b V (t + 1, (s 1 + 1, s 2 )Or on a également par définition <strong>de</strong> la fonction valeur :V (t + 1, (s 1 + 1, s 2 )) ≥ λ + V (t + 2, (s 1 + 1, s 2 ))V (t + 1, (s 1 , s 2 + 1)) ≥ λ + V (t + 2, (s 1 , s 2 + 1))34


ce dont on déduit :λ + V (t + 1, (s 1 , s 2 ))V (t + 1, (s 1 , s 2 ))≥≥s 1 + as 1 + s 2 + a + b + s 1 + as 1 + s 2 + a + b (λ + V (t + 2, (s 1 + 1, s 2 )))s 1 + a+s 1 + s 2 + a + b (λ + V (t + 2, (s 1, s 2 + 1)))s 1 + as 1 + s 2 + a + b + s 1 + as 1 + s 2 + a + b V (t + 2, (s 1 + 1, s 2 ))s 1 + a+s 1 + s 2 + a + b V (t + 2, (s 1, s 2 + 1))Or si on n’a pas tiré le bras en t, on est toujours dans le même état (s 1 , s 2 ) en t + 1 et pardéfinition <strong>de</strong> la politique optimale, l’argmax est alors atteint pour le premier argument, ce quicorrespond à ne pas tirer le bras en t + 1.Remarque 3.2 Le lemme précé<strong>de</strong>nt permet <strong>de</strong> simplifier l’équation <strong>de</strong> Bellman et <strong>de</strong> mettreλ(T − t) à la place du membre <strong>de</strong> gauche.Calcul du temps d’arrêt <strong>de</strong> jeu Comme d’après le lemme précé<strong>de</strong>nt les politiques optimalessont <strong>de</strong>s politiques d’arrêt, on peut introduire <strong>de</strong>s temps d’arrêt pour expliciter la fonctionvaleur :[ τ−1]∑V (λ, t, (s 1 , s 2 )) = sup E ˜R( ˜S s , 1) + λ(T − τ) ∣ ˜S t = (s 1 , s 2 )t≤τ≤Ts=t[ τ∑]= sup E (X s − λ) ∣ ˜S t = (s 1 , s 2 ) + λ(T − t)t≤τ≤Ts=t+1= sup E (a+s1 ,b+s 2 )0≤τ≤T −t[ τ∑(X s − λ) |S 0 = (0, 0)s=1= sup E (a+s1 ,b+s 2 ) [W s ] + λ(T − t)0≤τ≤T −t]+ λ(T − t)où le sup est pris sur un ensemble <strong>de</strong> temps d’arrêt et où la <strong>de</strong>rnière espérance est prise sous leproblème à un bras avec a priori Beta(a + s 1 , b + s 2 ) sur θ. La variable aléatoire W t vaut W t =∑ ts=1 X s − tλ. On introduit également la notation Z 0 (λ, t ′ , s 1 , s 2 ) = sup 0≤τ≤t ′ E (a+s1,b+s2) [W s ].On a le lien suivant entre la fonction valeur optimale et cette fonction Z 0 :V (λ, t, (s 1 , s 2 )) = λ(T − t) + Z 0 (λ, T − t, s 1 , s 2 )Il est alors optimal <strong>de</strong> s’arrêter <strong>de</strong> jouer en t dans l’état (s 1 , s 2 ) (I s = 0 pour tout s ≥ t) danschacun <strong>de</strong>s cas suivant :– V (λ, t, (s 1 , s 2 )) = λ(T − t)– le temps d’arrêt optimal à partir <strong>de</strong> t vérifie τ = 0 p.s.– Z 0 (λ, T − t, s 1 , s 2 ) = 0□35


Les ”<strong>de</strong>ux” résolutions du problème B λ En pratique, on peut résoudre B λ comme unMDP par programmation dynamique. Si on veut calculer V (λ, t, (s 1 , s 2 )) pour savoir si on joueoù on continue à ce sta<strong>de</strong>, il suffit <strong>de</strong> se placer sur l’espace d’états (s, s 1 + u, s 2 + s − u) pour(s, u) tels que 0 ≤ u ≤ s ≤ T − t (tableau triangulaire) :Figure 3 – Fonction valeur pour B 0.75 sur un horizon T = 13 : la matrice V représenteV (0.75, s, u, s − u) et la matrice P (pour politique) dit si l’on doit ou non continuer <strong>de</strong> jouer.Ainsi, on voit qu’avec λ = 0.75 sur un horizon 13 avec un a priori initial (1, 1) on doit s’arrêter<strong>de</strong> jouer. Par contre, pour T = 12 avec un a priori (2, 1) il faudrait continuer...La vision du problème B λ comme un problème d’arrêt optimal nous permet d’utiliser unoutil adapté pour le résoudre, issu <strong>de</strong>s mathématiques pour la finance : l’enveloppe <strong>de</strong> Snell(voir [12]).Définition 3.1 Soit (W t ) 0≤t≤T une suite <strong>de</strong> variables aléatoires adaptée à la filtration F t . L’enveloppe<strong>de</strong> Snell (Z t ) <strong>de</strong> cette suite est la plus petite surmartingale majorant W t . Elle est définiepar récurrence par :Z T = W TZ t = sup(W t , E[Z t+1 |F t ]) pour 0 ≤ t < TL’enveloppe <strong>de</strong> Snell se calcule par récurrence <strong>de</strong>scendante pour <strong>de</strong>s chaînes <strong>de</strong> Markov (nonnécessairement homogènes) comme c’est le cas ici pour W s : ce calcul ”backwards” est en fait trèssimilaire à la résolution en utilisant l’équation <strong>de</strong> Bellmann ! L’intérêt du calcul <strong>de</strong> l’enveloppe<strong>de</strong> Snell et que le temps d’arrêt optimal du problème avant l’horizon T vérifieT ∗ = inf{0 ≤ k ≤ T : Z t = W t }On peut interprêter T ∗ <strong>de</strong> la manière suivante pour en comprendre l’optimalité : tant qu’on estavant T ∗ , le gain qu’on peut obtenir dans le futur E[Z t+1 |F t ]) est supérieur au gain si on s’arrêtemaintenant W t .36


3.4.2 Définition <strong>de</strong> l’indice <strong>de</strong> confiance d’un bras et métho<strong>de</strong>s <strong>de</strong> calculOn définit l’indice <strong>de</strong> confiance d’un bras à l’instant t dans l’état (s 1 , s 2 ) commeDéfinition 3.2ν(t, (s 1 , s 2 )) = sup{λ ∈ [0, 1] : dans B λ à t après avoir observé (s 1 , s 2 )l’action suivante est <strong>de</strong> tirer le bras}= sup{λ ∈ [0, 1] : Z 0 (λ, t ′ , s 1 , s 2 ) ≥ 0}= inf{λ ∈ [0, 1] : V (λ, t, s 1 , s 2 ) = λ(T − t)}Remarque 3.3 On note que dans la suite, on sera souvent amené à travailler alternativementsoit au temps courant t, soit en considérant le temps restant T − t, qu’on notera pour simplifiert ′ : en particulier, les indices <strong>de</strong> Gittins peuvent être vu comme dépend <strong>de</strong> t ou <strong>de</strong> t ′ .Tout d’abord cet indice est bien défini : en effet, la fonction Z 0 (λ, t ′ , s 1 , s 2 ) est dans un premiertemps décroissante. En effet si λ ′ < λ :S τ − λτ < S τ − λ ′ τ ∀τE[S τ − λτ] < E[S τ − λ ′ τ] ∀τE[S τ − λτ] < Z 0 (λ ′ , T − t, s 1 , s 2 ) ∀τZ 0 (λ, T − t, s 1 , s 2 ) < Z 0 (λ ′ , T − t, s 1 , s 2 )On peut même dire que Z 0 est une fonction affine par morceaux <strong>de</strong> λ : le nombre <strong>de</strong> tempsd’arrêt est en fait fini et on prend le sup d’un nombre fini <strong>de</strong> fonction affine. Z 0 est donc affinepar morceaux et décoissante, donc convexe.Figure 4 – Z 0 (λ, 100, 4, 5) comme fonction <strong>de</strong> λCalculer un indice revient donc à chercher le zéro d’une fonction convexe dont l’évaluationest coûteuse (et dont on ne sait rien sur la régularité) : on pourra par exemple employer lamétho<strong>de</strong> <strong>de</strong> la sécante.37


Interprétation <strong>de</strong>s indices Dans le problème B λ la valeur <strong>de</strong> λ correspond en quelque sorteau prix du ticket <strong>de</strong> jeu : si on tire le bras (action 1) on accepte <strong>de</strong> perdre λ. L’indice <strong>de</strong> Gittinsd’un bras correspond alors au prix le plus élevé qu’on est prêts à payer pour jouer ce bras. Cetteinterprétation permet d’avoir une première idée <strong>de</strong> pourquoi la politique d’indice associée vaêtre optimale...Indices et politique optimale dans B λ Lorsqu’on joue à partir <strong>de</strong> t et en (s 1 , s 2 ) le problèmeB ν(t,(s1 ,s 2 )) on a <strong>de</strong>ux politiques optimales :– soit arrêter <strong>de</strong> jouer– soit continuer <strong>de</strong> jouer, et ce pour tout s > t tel que ν(s, ˜S s ) > ν(t, (s 1 , s 2 )) : en effet,ν(s, ˜S s ) correspond à la limite supérieure <strong>de</strong>s λ pour lesquels dans B λ on joue en (s, ( ˜S s )),donc si le λ contre lequel on joue est ν(t, (s 1 , s 2 )) cela impose <strong>de</strong> continuer...Cette remarque sera utilisée plus tard pour comprendre l’optimalité <strong>de</strong> la politique d’indiceassociée : on a exprimé la politique optimale dans B λ en fonction <strong>de</strong>s indices introduits.3.4.3 Quelques propriétés <strong>de</strong>s indices <strong>de</strong> GittinsLes indices <strong>de</strong> Gittins dépen<strong>de</strong>nt par définition :– du temps courant <strong>de</strong> jeu t et <strong>de</strong> l’horizon T ou du temps restant t ′– du nombre d’observations <strong>de</strong> 0 et <strong>de</strong> 1 jusqu’à t donné par (s 1 , s 2 )– du paramètre (a, b) <strong>de</strong> l’a priori initialUne propriété <strong>de</strong> décroissance On a la propriété suivante :Proposition 3.1 Si on ne joue pas un bras, son indice baisse :ν(t + 1, (s 1 , s 2 )) ≤ ν(t, (s 1 , s 2 ))Démonstration Soit y < ν(t + 1, (s 1 , s 2 )). Supposons que y > ν(t, (s 1 , s 2 )) : la politiqueoptimale dans B y à partir <strong>de</strong> t est alors d’arrêter <strong>de</strong> jouer, puis en t + 1 on continue car y


Démonstration On a d’après une <strong>de</strong>s définitions équivalentes <strong>de</strong> 3.2 :{[ ∑τν(t, (s 1 , s 2 )) = sup λsup E∣(a+s1 ,b+s 2 ) (X s − λ) ] }≥ 00≤τ≤T −ts=1{[ τ }∑ ]= sup λsup E∣(a+s1 ,b+s 2 ) X s ≥ λE(a+s1 ,b+s 2 )[τ]0≤τ≤T −ts=1{[ τ }∑ ]= sup λsup E∣(a+s1 ,b+s 2 ) X s ≥ λE(a+s1 ,b+s 2 )[τ]0≤τ≤T −ts=1{= sup λsup λ ≤ E [ ∑ τ(a+s 1 ,b+s 2 ) s=1 X }s]∣0


suivants, pour une bras j et pour t ∈ [|0; T − 1|] :g j (t) = ν(t, (S t (j, 1), S t (j, 2)))g j (t) = mins≤t g j(s)Avec la convention g j (t) = 0 si t ≥ T . g j (t) est l’indice courant du bras j et g j (t) (indiceminimum) est le minimum <strong>de</strong>s indices jusqu’à présent(il représente la valeur du palier courantque l’on peut voir sur la figure 5). Cet indice est décroissant en t.Figure 5 – Evolution <strong>de</strong>s indices associés à un bras fixé au cours du jeuLa démonstration procè<strong>de</strong> en <strong>de</strong>ux temps : d’abord majorer la récompense cumulée pour unestratégie quelconque par une gran<strong>de</strong>ur indépendante <strong>de</strong> la stratégie exprimée en fonctions <strong>de</strong>sindices ci-<strong>de</strong>ssus. Puis se rendre compte que ce majorant correspond exactement à la récompensecumulée <strong>de</strong> la stratégie <strong>de</strong> Gittins, d’où l’optimalité <strong>de</strong> cette politique.Lemme 3.3 Pour tout bras j,[∑ T] [∑ T]E X t 1 (It−1 =j) ≤ E g j (t − 1)1 (It−1 =j)t=1avec cas d’égalité précisé dans la démonstration.40t=1


Démonstration du lemme Introduisons pour j fixé la suite <strong>de</strong>s temps d’arrêt définie parτ 0 = 0 et{}τ 1 = inf t > 0 | g j (t − 1) > g j (t){}τ k+1 = min(T, inf inf t > τ k | g j (t − 1) > g j (t)Et N = min{k|τ k = T }. Soit i ≤ N − 1. Sur [τ i + 1; τ i+1 ], on a par construction <strong>de</strong>s tempsd’arrêt ci-<strong>de</strong>ssus g j (t − 1) = g j (τ i ). Montrons maintenant que[ τi+1] [∑τi+1]E X t 1 (It−1 =j)∣ F ∑τ i≤ E g j (τ i )1 (It−1 =j)∣ F τ it=τ i +1t=τ i +1On travaille conditionnellement à la tribu engendrée par τ i et on suppose qu’à partir <strong>de</strong> τ i etjusqu’à la fin du jeu en T , on joue au jeu B gj (τ i ) (contre le bras j). Comme on l’a déjà noté dansl’étu<strong>de</strong> du problème B λ la stratégie optimale, exprimée en fonction <strong>de</strong>s indices, est alors :– soit <strong>de</strong> s’arrêter <strong>de</strong> jouer et donc <strong>de</strong> recevoir une récompense g j (τ i ) juqu’à la fin du jeu– soit <strong>de</strong> continuer, et ce tant que g j (t) > g j (τ i ), ce qui revient à s’arrêter en τ i+1La gran<strong>de</strong>ur :τ i+1∑t=τ i +1(Xt 1 (It−1 =j) + g j (τ i )1 (It−1 ≠j))+ T ∑τ i+1 +1est une récompense cumulée pour le problème B gj (τ i ) à partir <strong>de</strong> τ i+1 pour la politique suivantedéterminée par les instants <strong>de</strong> jeu du bras j dans la stratégie I t du problème à plusieurs bras :– on tire le bras à l’instant t si I t−1 = j– on reçoit g j (τ i ) si I t−1 ≠ jCeci conduit à une stratégie J t pour le problème B gj (τ i ) : elle est en effet mesurable par <strong>rapport</strong>à la tribu engendrée par le bras j et par <strong>rapport</strong> aux tribus indépendantes associées aux autresbras. On a alors :⎡⎤τ∑i+1(E ⎣ Xt 1 (It−1 =j) + g j (τ i )1 (It−1 ≠j)) T ∑+ g(τ i ) ∣t=τ i +1∣ F τ i⎦} {{ }espérance (conditionnelle) <strong>de</strong> lag(τ i )∣ ≤ (T − τ i )g j (τ i )τ i+1 +1récompense <strong>de</strong> la stratégie J tavec égalité (puisqu’on a décrit toutes les politiques optimales) ssiSoit I t ≠ j ∀t ∈ [τ i ; τ i+1 − 1] (conditions E j,i )Soit I t = j ∀t ∈ [τ i ; τ i+1 − 1]} {{ }espérance (conditionnelle) <strong>de</strong> larécompense d’une stratégie optimale(8)Pour qu’il y ait égalité, il faut donc qu’au niveau du bras j sur la figure 5, le bras soit joué soitsur tout un palier, soit ne soit jamais joué au cours du palier (et vu la décroissance <strong>de</strong> l’indice,41


alors τ i+1 = τ i + 1). L’équation (8) est équivalente à[ τi+1(τ∑i+1)]∑E X t 1 (It−1 =j) + g j (τ i )(τ i+1 − τ i ) − g j (τ i )1 (It−1 =j) + (T − τ i+1 )g(τ i ) − (T − τ i )g(τ i )∣ F τ i≤ 0t=τ i +1t=τ i +1[ τi+1] [∑τi+1]⇔ E X t 1 (It−1 =j)∣ F ∑τ i≤ E g j (τ i )1 (It−1 =j)∣ F τ it=τ i +1t=τ i +1[ τi+1] [∑τi+1]⇔ E X t 1 (It−1 =j)∣ F ∑τ i≤ E g j (t − 1)1 (It−1 =j)∣ F τ it=τ i +1t=τ i +1Et le cas d’égalité est toujours donné par les conditions (E j,i ). En prenant l’espérance et ensommant sur i on obtient alors[ τi+1] [∑τi+1]∑E X t 1 (It−1 =j) ≤ E g j (t − 1)1 (It−1 =j)t=1t=1[ T] [∑T]∑E X t 1 (It−1 =j) ≤ E g j (t − 1)1 (It−1 =j)t=1(en appliquant à τ N−1 ). On a alors qu’il y a égalité ssi pour tout i ≤ N la condition (E j,i ) estvérifiée.L’espérance <strong>de</strong> la somme <strong>de</strong>s récompenses obtenue par la politique I t dans le jeu à plusieursbras est donnée par :]]E [X t ] =≤égalité 2[K∑ ∑ TE X t 1 (It−1 =j)j=1t=1t=1≤égalité 1[K∑ ∑ TE g j (t − 1)1 (It−1 =j)j=1t=1[K∑ T] [∑T]∑E g ∗ (t − 1)1 (It−1 =j) = E g ∗ (t − 1)j=1t=1où g ∗ (t) = max j=1...K g j (t). On a majoré l’espérance du gain obtenu par une quantité indépendante<strong>de</strong> la stratégie. La <strong>de</strong>uxième étape est <strong>de</strong> remarquer que cette gran<strong>de</strong>ur est exactement l’espérance<strong>de</strong> récompense pour la stratégie <strong>de</strong> Gittins. Pour voir cela, il convient d’étudier chacun <strong>de</strong>s casd’égalité ci-<strong>de</strong>ssus, qui doivent être réalisés dans la stratégie optimale :– égalité 1 : L’égalité 1 a lieu d’après le lemme ssi pour tout bras, on a soit joué le bras surtout un palier ou l’indice minimum est constant, soit on ne l’a pas joué du tout– égalité 2 : L’égalité 2 a lieu ssi on a toujours joué le bras tel que l’indice minimal courantétait maximumDans cette stratégie réalisant la borne sup, on peut remarquer que lorsqu’on ne joue pas enbras, son indice minimal courant g j (t) est égal à son indice courant g j (t). En effet, au départindices et indices minimaux sont confondus, et pour les bras non joués, l’indice décroît (donct=1□42


est toujours égal à l’indice minimal). Quant au bras joué, il l’est tant que l’indice est supérieurà l’indice minimal, et donc on arrête quand l’indice est égal au nouvel indice minimal. Ainsilorsqu’un bras est en cours <strong>de</strong> jeu son indice est supérieur à son indice minimal et donc à tousles indices <strong>de</strong>s bras non joués, et lorsqu’on arrête <strong>de</strong> le jouer ce bras, on choisit comme ”nouveaubras” (on peut reprendre le même) celui d’indice minimal le plus haut, donc d’indice le plusélevé. Cette stratégie revient donc exactement à la stratégie <strong>de</strong> Gittins (la proriété utilisée estici la décroissance <strong>de</strong>s indices ).Remarque 3.5 Dans son article original [7], Gittins démontrait l’optimalité (pour le cadreinfini discounté) d’une politique d’indice pour le cadre général <strong>de</strong>s FABP. La démonstrationétait assez peu précise, et par la suite d’autres démonstrations ont été proposées, notammentcelle <strong>de</strong> Weber (1992) qui fait intervenir les problèmes <strong>de</strong> calibration que nous avons considéré.Ces différentes preuves (mais toujours dans le cadre infini) ont été répertoriées et explicitéespar Frostig et Weiss dans [6], et la preuve <strong>de</strong> Weber est à nouveau détaillée par Gittins dans sonlivre [8] <strong>de</strong> manière un peu plus littéraire. Je me suis inspirée <strong>de</strong> ces <strong>de</strong>ux <strong>de</strong>rnières référencespour adapter au cadre fini sans discount la preuve d’optimalité.3.5 Tests <strong>de</strong> l’algorithme <strong>de</strong> GittinsNous appelons algorithme <strong>de</strong> Gittins la politique d’indice associée aux indices précé<strong>de</strong>nts.3.5.1 Mise en oeuvre pratique <strong>de</strong> l’algorithmeCalcul d’un indice Comme on l’a déjà expliqué le calcul d’un indice revient à chercher lezéro <strong>de</strong> la fonction convexe Z 0 (λ, T −t, s 1 , s 2 ), qui est coûteuse à évaluer : chacune <strong>de</strong> ses valeurss’obtient par résolution d’un problème B λ ce qui peut être assez long, surtout si le temps restantest grand. On veut donc minimiser le nombre <strong>de</strong> problèmes B λ à résoudre pour le calcul d’unseul indice. On utilise pour cela une métho<strong>de</strong> type métho<strong>de</strong> <strong>de</strong> la sécante :□Figure 6 – A partir <strong>de</strong> <strong>de</strong>ux minorants <strong>de</strong> l’indice, on en obtient un troisième en traçant lasécante associée aux <strong>de</strong>ux premiersComme valeur <strong>de</strong> x 1 on peut proposer le minorant simpleétape rechercher <strong>de</strong> manière dichotomique un nouveau minorant.43s 1 +as 1 +s 2 +a+b, et on peut à chaque


Calcul et stockage <strong>de</strong>s indices Au cours du jeu à plusieurs bras, les bras non joués ont unindice qui décroît : il est donc inutile <strong>de</strong> calculer les indices <strong>de</strong> tous les bras à chaque tour <strong>de</strong>jeu. On compare l’indice du bras en cours <strong>de</strong> jeu aux <strong>de</strong>rniers indices calculés pour les autres(leur indice courant étant plus petit, on n’a à le calculer que si l’indice courant est plus petitque l’indice en mémoire) De plus, comme on est ammenés pour tester l’algorithme à le faire <strong>de</strong>jouer <strong>de</strong> nombreuses parties, dès qu’un nouvel indice ν(t ′ , s 1 , s 2 ) est calculé on le stocke dansune matrice d’indices <strong>de</strong> Gittins GI.3.5.2 Comparaison avec les autres algorithmesLa politique <strong>de</strong> Gittins est théoriquement optimale pour le problème bayésien : on tire uniformémentun paramètre pour les bras, et on joue la politique <strong>de</strong> Gittins jusqu’à l’horizon T .Sur la figure 8 (page suivante), on compare le regret obtenu pour un jeu à horizon T = 200”bayésien” (comme décrit ci-<strong>de</strong>ssus) et <strong>de</strong>s jeux ”fréquentistes” (càd où les paramètres <strong>de</strong>sbras sont fixes) différents. Dans chaqu’un <strong>de</strong>s cas, l’espérance est calculée en moyennant surN = 1000 parties. On peut avoir avoir différentes allures du regret pour les différents problèmesfréquentistes (ce qui est normal, vu la dépen<strong>de</strong>nce <strong>de</strong>s bornes sup et inf obtenues en les paramètresdu problème) contre un regret bayésien un peu plus faible. Pour avoir une idée <strong>de</strong> lapertinence <strong>de</strong> l’algorithme <strong>de</strong> Gittins pour la résolution du problème fréquentiste (pour lequelon n’a aucune garantie théorique), nous allons comparer cet algorithme avec les algorithmesfréquentistes usuels sur <strong>de</strong>s problèmes donnés (figure 9 page suivante)Gittins a été testé sur <strong>de</strong> nombreux problèmes et semble avoir <strong>de</strong> très bonnes performances(on y reviendra lorsqu’on le comparera aux autres algorithmes d’inspiration bayésienne). Lafigure 7 permet une comparaison simultanée sur <strong>de</strong> nombreux problèmes :Figure 7 – Regret cumulé à T = 200 (calculé avec N = 500 simulations) dans un problème à<strong>de</strong>ux bras 0.5 contre θ en fonction <strong>de</strong> θ pour les algorithmes <strong>de</strong> Gittins et KL-UCBSi l’on zoome sur ce qui se passe au centre, il est moins clair que Gittins l’emporte (mais ilne coûte pas trop cher <strong>de</strong> se tromper).44


Figure 8 – La courbe bleu clair présente le jeu bayésien contre différents jeux fréquentistesFigure 9 – Sur un problème à faibles récompenses, l’algorithme <strong>de</strong> Gittins (en bleu) sembleavoir un regret bien plus faible que les autres45


3.5.3 Comprendre la manière dont Gittins joueTout d’abord dans un problème simple à <strong>de</strong>ux bras (0.45/0.55) visualisons la politique <strong>de</strong>Gittins sur la figure 10. En bleu et en rouge on a les indices <strong>de</strong> Gittins ; ceux entourés correspon<strong>de</strong>ntau bras joué (celui d’indice le plus élevé). Les croix correspon<strong>de</strong>nt à la moyennes 1 +aa 1 +s 2 +a+bbayésienne ( ). On voit qu’il y a d’abord une phase d’exploration où les <strong>de</strong>ux bras sontjoués, puis assez rapi<strong>de</strong>ment l’algorithme se concentre sur le bras optimal. L’exploration diminueau cours du jeu (à la fin on ne se sert que <strong>de</strong> l’estimée <strong>de</strong> la moyenne), et ce <strong>de</strong> manière plusflagrante pour le bras qui est beaucoup joué. On voit ici que sur une partie, l’algorithme <strong>de</strong>Gittins semble prendre <strong>de</strong>s risques et diminuer assez rapi<strong>de</strong>ment son exploration.Pour confirmer cette tendance, on peut s’intéresser sur la figure 11 à la distribution du regretet du nombre <strong>de</strong> tirages du bras optimal. On voit que Gittins, qui semble meilleur puisque ladistribution <strong>de</strong> son regret et plus décalée vers la gauche par <strong>rapport</strong> à celle <strong>de</strong> KL-UCB alt,tire en moyenne beaucoup plus le bras optimal au cours d’une partie (distribution du hautglobalement shiftée vers la droite) : il y a donc moins d’exploration. Le risque pris par Gittinsse mesure aussi avec le ”pic” <strong>de</strong> faibles tirages du bras optimal (il y a plus <strong>de</strong> parties où on setrompe complètement).3.6 Les idées <strong>de</strong> bayésiennes : une motivation <strong>de</strong>s politiques d’indice3.6.1 Un bonus <strong>de</strong> confianceOn a vu que les algorithmes fréquentistes prenaient souvent la forme moyenne empirique +bonus <strong>de</strong> confiance. Or pour les bandits Bernoullis, on a également vu que :etν(t, s 1 , s 2 ) >s 1 + as 1 + s 2 + a + bs 1 +as 1 +s 2 +a+best la moyenne <strong>de</strong> l’a posteriori donc un estimateur bayésien du paramètre du bras.Ainsi non seulement la politique d’indice proposée par Gittins dès 79 a motivé les politiquesd’indice apparues plus tard, mais les différentes politiques d’indice bayésiennes et fréquentistessemblent du même type...On peut toutefois noter <strong>de</strong>s différences, par exemple entre l’indice UCB classique√B j (t) = S t(j)N j (t) + α ln(t)N j (t)et l’indice <strong>de</strong> Gittins associé B j (t) = ν(t, S t (j), N j (t)−S t (j)). En effet, en l’absence d’observationdu bras l’indice UCB associé va augmenter pour favoriser le futur tirage du bras (ou va resterstable si on joue à horizon connu et qu’on remplace ln(t) par ln(T )) alors que l’indice <strong>de</strong> Gittinsassocié va diminuer, accordant moins <strong>de</strong> confiance au bras lorsqu’on se rapproche <strong>de</strong> la fin dujeu. L’horizon semble donc plus important dans Gittins et l’exploration résolumment plus faible.46


Il faudrait bien sûr avoir une expression explicite <strong>de</strong>s indices, ce qui ne peut se faire à lamain que pour <strong>de</strong>s petits horizons. On peut en effet résoudre le problème B λ pour un horizon 1ou 2 et voir soi-même les valeurs limites (cf figure 12).Figure 12 – Calcul <strong>de</strong>s indices pour T − 1 et T − 2On a ainsi :ν(T − 1, s 1 , s 2 ) =soit B j (T − 1) =ν(T − 2, s 1 , s 2 ) =soit B j (T − 1) =s 1 + as 1 + s 2 + a + bS j (T − 1) + aN j (T − 1) + a + bs 1+a+1s 1 +s 2 +a+b+1s 1 + as 1 + s 2 + a + b × 1 +1 + s 1+aS j (T − 1) + aN j (T − 1) + a + b × 1 +s 1 +s 2 +a+bS j(T −2)+a+1N j (T −2)+a+b+11 + S j(T −2)+aN j (T −2)+a+b3.6.2 Le cas gaussien : une autre illustrationJusqu’à présent on n’a étudié que le cas <strong>de</strong>s bandits Bernoullis, mais Gittins dans [7] évoquele traitement bayésien du problème <strong>de</strong> bandit gaussien. Nous nous intéressons à ce problème icicar obtenir une expressions <strong>de</strong>s indices est plus simple, et on voit mieux la ressemblance avecles indices UCBLe problème et le MDP associé La variance σ 2 est supposée connue et on a Y jt ∼ N ( µ j , σ 2)conditionnellement à µ j avec un a priori µ j ∼ N ( ξ 0 , σ02 ) (= N ξ0 , m −1 )0 . Les bras sont également48


supposés indépendants. Des calculs d’a posteriori montrent que :Lemme 3.4 Si µ ∼ N ( ξ, m −1) et que L(Y |µ) = N ((, µ) , σ 2 ) on a :L(µ|Y = y) = N( mξ + σ −2 ym + σ −2 , (m + σ−2 ) −1 )Et on a également par récurrence si Y t est i.i.d conditionnellement à µ <strong>de</strong> loi N ( µ, σ 2) et µ ale même a priori :(mξ + σ −2 ∑ )ts=1L(µ|Y 1 , ..., Y t ) = NY sm + tσ −2 , (m + tσ −2 ) −1Comme pour le cas <strong>de</strong>s Bernoullis, on va représenter le problème par un MDP dont lesparamètres sont les paramètres <strong>de</strong> l’a posteriori courant, (ξ, m) ∈ R × N : l’espace d’état estici continu donc toute résolution explicite est impossible. Le MDP est le suivant (il dépend <strong>de</strong>(ξ 0 , m 0 ) hyperparamètres <strong>de</strong> l’a priori initial :Et on veut toujours maximiser pour un horizon T fini, E [ ∑ Tt=1 X t]. On a :ξ j (t) = m 0ξ 0 + σ −2 S t (j)m 0 + σ −2 N j (t)m j (t) = m 0 + σ −2 N j (t)Explicitation <strong>de</strong>s indices On peut toujours définir <strong>de</strong> la même manière les indices associésà chaque bras (dépendant du temps et <strong>de</strong> l’état <strong>de</strong> l’a posteriori). On pourrait justifier commepour les Bernoulli l’équivalence entre un problème <strong>de</strong> calibration B λ et la formulation suivante<strong>de</strong>s indices :E[ ∑ τt=1ν(t, ξ, m, σ) =X t|S 0 = (ξ, m)]E[τ|S 0 = (ξ, m)]sup0


Preuve Pour un bras donné, X t ∼ N ( µ, σ 2) conditionnellement à µ et µ ∼ N ( ξ, m −1) . Onpeut introduire :˜X t = X t − ξσ˜µ = µ − ξAlors ( ˜X t ) est indépendante conditionnellement à µ (et donc à ˜µ) <strong>de</strong> loi conditionnelle N (µ − ξ, 1)càd N (˜µ, 1). Ainsi finalement :L( ˜X t |˜µ) = N (˜µ, 1)˜µ = N ( 0, m −1)La suite ( ˜X t ) représente un nouveau bras, où on joue avec σ = 1 et l’a posteriori courant sur cebras est donné par ˜S t . On peut alors écrire :[ τ∑] [ τ∑] [ τ∑]E X t |S 0 = (ξ, m) = E ξ + σ ˜X t |S 0 = (ξ, m) = E ξ + σ ˜X∣ ∣∣t ˜S0 = (ξ, m)t=1t=1t=1Et finalement :ν(t, ξ, m, σ) = sup0


Figure 13 – Indice ˜ν(T − t, m) pour différentes valeurs du temps restant t en fonction <strong>de</strong>svaleurs <strong>de</strong> m (étu<strong>de</strong> sur un horizon T = 10)On cherche toujours l’indice ˜ν(t, m) en regardant la valeur limite <strong>de</strong> λ telle que Ṽ (λ; t, m) =λ(T − t). L’implémentation <strong>de</strong> cette résolution donne les courbe d’indice <strong>de</strong> la figure 13La décroissance en m que l’on retrouve aussi dans l’indice UCB semble aussi apparaître, maison ne peut pas vraiment mesurer si elle est bien aussi en √ 1m. Le bonus <strong>de</strong> confiance sembleégalement augmenter en t à m fixé.Perspectives Afin <strong>de</strong> comparer mieux les indices <strong>de</strong> confiances issus <strong>de</strong> Gittins avec les indicesclassique, il faudrait chercher une expression un peu plus explicite dans <strong>de</strong>s cas où on peuteffectuer <strong>de</strong>s approximations par exemple... Même pour le cas gaussien, le calcul approché n’apu être fait que sur <strong>de</strong>s faibles horizons du fait <strong>de</strong> la complexité <strong>de</strong> calcul.51


4 Algorithmes bayésiens basés sur les quantiles d’a posterioriJusqu’à présent on a étudié d’un point <strong>de</strong> vue assez théorique le problème bayésien présentépar Gittins. Cela nous a toutefois conduit à un algorithme assez efficace en pratique, bien quedifficile à implémenter. Nous allons dans cette partie étudier <strong>de</strong> nouveaux algorithmes basés surune manière plus simples d’exploiter un a posteriori. Au cours <strong>de</strong> mon <strong>stage</strong>, j’ai pu tester cesdifférents algorithmes et les comparer aux algorithmes fréquentistes étudiés plus haut. J’ai aussicherché à obtenir <strong>de</strong>s bornes <strong>de</strong> regret optimales. Comme on le verra, il m’a été necessaire <strong>de</strong>bien comprendre les démonstrations <strong>de</strong>s bornes <strong>de</strong> regret fréquentistes, qui ont été présentéesdans la partie 2, afin <strong>de</strong> pouvoir les adapter au cadre bayésien.4.1 Présentation <strong>de</strong> l’algorithme et réglage du quantileComme expliqué dans la partie 1, on se place dans un modèle où l’on dispose d’un a priorisur chacun <strong>de</strong>s bras. On rappelle qu’on tient à jour S t = (π1 t, ..., πt K) a posteriori sur les brasavant le t-ème tour <strong>de</strong> jeu.Définition 4.1 On appelle quantile-UCB <strong>de</strong> paramètres β et c l’algorithme qui choisit à l’instantt le bras maximisant l’indiceq t (j) = quantile d’ordre 1 −et qui effectue une mise a jour <strong>de</strong> l’a posteriori du bras tiré.1t β ln(t) c <strong>de</strong> la distribution πt jCet algorithme existe dans <strong>de</strong>s situations quelconques, ou les calculs d’a posteriori sont difficilesvoire impossible, mais je me suis surtout focalisée sur le cas <strong>de</strong>s bandits binaires et <strong>de</strong>s banditsgaussiens où les indices <strong>de</strong>viennent respectivement :q t (j) =1quantile d’ordre 1 −t β ln(t) c <strong>de</strong> la distribution Beta(S t(j) + a, N t (j) − S t (j) + b)q t (j) =(1quantile d’ordre 1 −t β ln(t) c <strong>de</strong> la distribution N S t (j)N t (j) + (σ/σ 0 ) 2 , σ 2 )N t (j) + (σ/σ 0 ) 2Plusieurs paramètres permettent <strong>de</strong> calibrer le dilemme entre exploration et exploitation : àchaque nouvelle observation, la distribution a posteriori est plus concentrée autour <strong>de</strong> la moyennebayésienne (elle prend l’allure d’une gaussienne lorsque le nombre d’observations est suffisant,selon le phénomène <strong>de</strong> Bernstein-Von Mises) , mais on prend un quantile <strong>de</strong> plus en plus grandlorsque t augmente. De plus, la croissance du quantile est paramétrée par β et c (on négligerapar la suite l’importance -théorique - <strong>de</strong> c en prenant c = 0 dans les expériences). Plus β estgrand, plus on explore (quantile plus grand).Dans l’étu<strong>de</strong> numérique qui suit, menée pour les bandits binaires, on a comparé les algorithmesquantile-UCB pour β = 0.5, 1, 1.5 (en ajoutant également UCB et KL-UCB) pour différentstypes <strong>de</strong> problèmes à <strong>de</strong>ux bras. Sur les courbes <strong>de</strong>s figures 14 à 18 on a tracé le regret cumulé(estimé sur N=2000 simulations) en fonction du temps. L’horizon est choisi en fonction duproblème.52


Figure 14 – Regret cumulé pour le low reward problem 0.1/0.2 : Q 0.5 ≤ Q 1 ≤ KL-UCB ≤Q 1.5 ≤ UCBFigure 15 – Regret cumulé pour le standard reward problem 0.45/0.55 : Q 1 ≤ Q 0.5 ≤KL-UCB ≤ UCB ≤ Q 1.5Figure 16 – Regret cumulé pour le standard reward problem 0.8/0.9 : Q 1 ≤ KL-UCB ≤ Q 1.5 ≤UCB ≤ Q 0.553


Figure 17 – Regret cumulé pour le very low reward problem 0.01/0.02 : Q 0.5 ≤ Q 1 ≤ KL-UCB ≤Q 1.5 ≤ UCBFigure 18 – Regret cumulé pour le very high reward problem 0.98/0.99 : Q 1 ≤ KL-UCB ≤Q 0.5 ≤ Q 1.5 ≤ UCB54


Remarque 4.1 Choix <strong>de</strong> l’horizon : pour <strong>de</strong>s problèmes extrêmes du type <strong>de</strong>s <strong>de</strong>ux <strong>de</strong>rniers, ilconvient <strong>de</strong> prendre un horizon plus grand (tel qu’on puisse au moins observer quelques 1 pour0.01/0.02 ou quelques 0 pour 0.98/0.99).On peut conclure que le réglage du quantile avec β = 1 semble toujours donner <strong>de</strong> bonnesperformances comparables à (voire meilleures que) celles <strong>de</strong> KL-UCB. Les algorithmes basés surd’autres choix <strong>de</strong> quantile ont une efficacité qui semble plus dépendre du problème. Ainsi unalgorithme plus risqué (β = 0.5) semble plus efficace pour <strong>de</strong>s problèmes à faibles récompenses,et inversement.Un autre aspect du quantile peut être réglé : on peut choisir <strong>de</strong> remplacer t dans la tailletndu quantile par l’horizon n, ou par les gran<strong>de</strong>ursN j (t)ou encoreN j (t). On peut étudier l’impact<strong>de</strong> ce choix sur la figure 19 pour β = 1Figure 19 – Impact <strong>de</strong> l’horizon pour le low reward problemL’ordre croissant <strong>de</strong> performance qui apparaît sur cette figure est : quantile 1 − 1 t , 1 − 1 n ,1 − N j(t)tpuis 1 − N j(t)n. On étudiera pourtant par la suite l’algorithme quantile-UCB classiqueavec β = 1. (L’ordre ne varie pas d’un problème à l’autre)On focalisera par la suite notre étu<strong>de</strong> sur l’algorithme quantile-UCB avec β = 1.4.2 Comparaison avec Gittins et les algorithmes fréquentistesNous allons ici comparer les performances et la manière <strong>de</strong> jouer <strong>de</strong> l’algorithmes quantile-UCB (β = 1, c = 0) avec ceux <strong>de</strong> l’algorithme <strong>de</strong> Gittins et <strong>de</strong> l’algorithme KL-UCB, sur les 5problèmes <strong>de</strong> bandit Bernoulli à <strong>de</strong>ux bras déjà utilisés :– le problème à faibles récompenses 0.1/0.2 (A)– le problème à récompenses sandards 0.45/0.55 (B)– le problème à récompenses élevées 0.8/0.9 (C)– le problème à très faibles récompenses 0.01/0.02 (D)– le problème à récompenses très élevées 0.98/0.99 (E)On utilisera toujours un horizon T = 500 (plus faible que précé<strong>de</strong>mment, en raison <strong>de</strong> la complexiténumérique <strong>de</strong> l’algo <strong>de</strong> Gittins) et T = 1000 pour les problèmes ”extrêmes”.55


Regret cumulé pour les problèmes A,B,C,D,E (<strong>de</strong> haut en bas et<strong>de</strong> gauche à droite). Gittins (en rouge) semble être le meilleurlorsque les récompenses ne sont pas trop élevées. KL-UCB (envert) et quantile-UCB (en bleu) semblent avoir <strong>de</strong>s comportementsassez similaires.56


Nombre moyen <strong>de</strong> tirages du bras optimal pour les problèmes A,B,C,D,E.Le nombre <strong>de</strong> tirages du bras optimal <strong>de</strong> Gittins (rouge) semble diminuerlorsque les récompenses <strong>de</strong>viennent élevées (il est même critique pour leproblème à récompenses très élevées). Au contraire, dans KL-UCB (vert) etquantile-UCB (bleu), le nombre <strong>de</strong> tirages du bras optimal semble assez peuinfluencé par le problème (on a choisi pour les 3 premier et les 2 <strong>de</strong>rniers <strong>de</strong>sproblèmes à même écart entre les bras).57


Distributions empiriques du nombre <strong>de</strong> tirages <strong>de</strong>s bras (haut) et du regret à la fin du jeu (bas)pour les problèmes A,B,C,D,E. Gittins (rouge) est un algorithme qui semble prendre nettementplus <strong>de</strong> risques que les <strong>de</strong>ux autres : la distributions du nombre <strong>de</strong> tirages du bras optimal estnettement décalée vers la droite, mais un pic <strong>de</strong> très faible tirages du bras optimal commence àapparaître pour le problème à récompenses élevées. Pour les problèmes extrêmes, ces distributionsempiriques sont beaucoup plus étalées, mais Gittins semble se concentrer sur les valeurs extrêmes(très faibles tirages ou très forts tirages). Pour le problème à très fortes récompenses, il semblequ’on joue presque un unique bras au cours du jeu (avec une chance sur <strong>de</strong>ux <strong>de</strong> se tromper donc)Ceci est peut-être dû au fait que l’horizon n’est pas adapté pour les très fortes récompenses: 1000alors qu’il <strong>de</strong>vrait être idéalement d’au moins 10 000 à 100 000.Là aussi on constate que KL-UCB et Quantile-UCB ont <strong>de</strong>s comportements assez similaires,même si Quantile-UCB (en bleu) a une distribution du regret légèrement plus décalée vers lesfaibles valeurs.58


L’étu<strong>de</strong> numérique ci-<strong>de</strong>ssus a permis <strong>de</strong> constater à nouveau que l’algorithme <strong>de</strong> Gittinsprend plus <strong>de</strong> risque (explore moins) que KL-UCB mais aussi que Quantile-UCB, qui sembleavoir un comportement résolument proche <strong>de</strong> celui <strong>de</strong> Kl-UCB. Nous allons maintenant adopterun éclairage plus théorique pour comprendre la proximité <strong>de</strong> ces <strong>de</strong>ux algorithmes, et démontrerune borne <strong>de</strong> regret pour Quantile-UCB dans les cas particuliers <strong>de</strong>s bandits gaussiens et <strong>de</strong>sbandits Bernoullis.4.3 Borne <strong>de</strong> regret pour les bandits gaussiensGrâce à un encadrement assez précis du quantile d’une gaussienne, on arrive à voir quel’algorithme Quantile-UCB est dans ce cadre assez proche <strong>de</strong> la version d’UCB pour les gaussiennesévoquée plus haut. Afin d’obtenir une borne optimale, on va recourir à toutes les astucesévoquées dans la partie : le peeling-trick et le découpage plus astucieux.Encadrement du quantile d’une loi normaleLemme 4.1 Le quantile d’ordre 1 − γ <strong>de</strong> la distribution Si N ( µ, σ 2 0)vérifie( ) 1µ + σ 0√2 ln √ − 3 ( ))( )11(ln2πγ 2 ln √ ≤ q 1−γ ≤ µ + σ 0√2 ln √2πγ 2πγPreuve Il suffit <strong>de</strong> montrer ce résultat dans le cas centré réduit. On se sert <strong>de</strong> l’encadrementsuivant pour la queue <strong>de</strong> la normale : si X ∼ N (0, 1) :)1√ (x −1 − x −3 ) exp(− x2≤ P(X ≥ x) ≤ 1)√ x −1 exp(− x22π 22π 2Un majorant du quantile d’ordre 1 − γ est :{x ∗ + = min x ∈ R :(1Or √2πx −1 exp− x22)1√2πx −1 exp) }(− x2≤ γ2( )≤ γ ⇔ x 2 + 2 ln(x) ≥ 2 ln 1γ √ On peut choisir x =2πcomme majorant <strong>de</strong> x ∗ + et donc comme majorant du quantile.Un minorant du quantile estx ∗ − = max(1Or √2π(x −1 − x −3 ) exp√sous la forme x =− x222 ln(1γ √ 2π{x ∈ R :)≥ γ1√2π(x −1 − x −3 ) exp) }(− x2≥ γ2( ) (⇔ x 2 + 2 ln x 3≤ 2 ln 1x 2 −1γ √ 2π)(1 − u). u doit vérifier l’équation :( ) ( ( ) )11−2 lnγ √ u + 3 ln 2 ln2πγ √ (1 − u)2π59(− 2 ln√( )2 ln 1γ √ 2π). Recherchons un tel x( ) )12 lnγ √ (1 − u) − 12π} {{ }A≤ 0


Le terme A est positif donc il suffit <strong>de</strong> choisir u tel que( )( ( ))112 lnγ √ u − 3 ln(1 − u) ≥ 3 ln 2 ln2π } {{ }γ √ 2πBLe terme B est négatif donc il suffit <strong>de</strong> choisir u tel que( ( ))u ≥ 3 ln 2 ln 1γ √ 2π( )2 2 ln 1γ √ 2πce qui donne un minorant <strong>de</strong> x ∗ − et du quantile et conclut la preuve.□Une borne <strong>de</strong> regretTheorème 4.1 On considère le multimarmed bandit gaussien où les moyennes sont supposéescomprises dans un intervalle [−M, M], avec un a priori N ( 0, σ 2 0)sur les bras. L’algorithmeβ-quantile, pour β > 1 vérifie pour tout ɛ > 0R n ≤∑j µ j


Pour fixer les idées, supposons que le bras 1 est optimal et supposons que 2 est sous-optimal,notre but est <strong>de</strong> majorer le nombre <strong>de</strong> tirages du bras 2. On notera ∆ = θ 1 − θ 2 .N n (2)≤n∑1 (µ1 >q 1 (N t(1),S t(1),t)) +t=1n∑t=11 (µ1 ≤q 1 (N t(1),S t(1),t))∩(I t=2)} {{ }(1)Or si I t = 2 et que µ 1 ≤ q 1 (N t (1), S t (1), t) on a µ 1 ≤ q 1 (N t (1), S t (1), t) ≤ q 2 (N t (2), S t (2), t). Etd’après le lemme 4.1 pour le bras sous-optimal :√√q 2 (N t (2), S t (2), t) ≤ ˆµ b 2,N + σ 2β ln(t) − ln(2π)t(2)N t (2) + (σ/σ 0 ) 2 ≤ ˆµb 2,N + σ 2β ln(t)t(2)N t (2) + (σ/σ 0 ) 2q 2 (N t (2), S t (2), t) ≤ ˆµ 2,Nt(2) + σOn commence par réécrire le terme (1) :n∑1 (µ1 ≤q 1 (N t(1),S t(1),t))∩(I t=2) ≤t=1n∑t=1√2β ln(t)N t (2)1 (µ1 ≤ˆµ 2,Nt (2)+σ√ 2β ln(t)N t (2) )∩(It=2) ≤n∑s=11(µ1 ≤ˆµ 2,s +σ√ 2β ln(n)s )On a ici utilisé la même astuce que dans la preuve d’UCB pour les gaussiennes en (6) page 19.D’où finalement,(√ )n∑n∑2β ln(n)E[N n (2)] ≤ P (µ 1 > q 1 (N t (1), S t (1), t)) + P µ 1 ≤ ˆµ 2,s + σst=1s=1} {{ } } {{ }(3)(4)Traitement du terme (3) D’après le lemme 4.1 on a pour le bras optimal :( ) ( ))q 1 (N t (1), S t (1), t) > µ b √ 2 ln t β√2π− 3 2(ln ln t β√2π1,N t(1)+ σN t (1) + (σ/σ 0 ) 2d’où⎛√ √√√ ( ) (⎜2 ln t β√P (µ 1 > q 1 (N t (1), S t (1), t)) ≤ P ⎝µ 1 > µ b 1,N + σ 2π− 3 2(ln ln t βt(1)N t (1) + (σ/σ 0 ) 2√2π))( ) ( ))Notons v t = 2 ln t β√2π− 3 2(ln ln t β√2πet fixons un réel γ ∈]0, 1[. On va utiliser unemajoration plus fine qu’une simple borne <strong>de</strong> l’union avec l’utilisation d’un ”peeling-trick” :découpage <strong>de</strong> [1; t] en intervalles sur lequel on va appliquer une inégalité maximale (cf proposition2.1).⎞⎟⎠61


≤≤≤peeling≤≤≤ineg.max.(√P (µ 1 > q 1 (N t (1), S t (1), t)) ≤ P ∃1 < s ≤ t µ 1 > µ b 1,s + σ(√S sP ∃1 < s ≤ t µ 1 >s + (σ/σ 0 ) 2 + σ (P ∃1 < s ≤ t (S s − sµ 1 ) < −ln(t)/ ln(1/γ)∑j=0ln(t)/ ln(1/γ)∑j=0ln(t)/ ln(1/γ)∑j=0ln(t)/ ln(1/γ)∑j=0)v ts + (σ/σ 0 ) 2(σ √ v t (s + (σ/σ 0 ) 2 ) − µ 1 (σ/σ 0 ) 2)))v ts + (σ/σ 0 ) 2(P ∃s ∈ [γ j+1 t; γ j t] (S s − sµ 1 ) < −(σ √ v t (s + (σ/σ 0 ) 2 ) − M(σ/σ 0 ) 2))(())P ∃s ∈ [γ j+1 t; γ j t] (S s − sµ 1 ) < − σ√v t (γ j+1 t + (σ/σ 0 ) 2 ) − M(σ/σ 0 ) 2(Pmins∈[1;γ j t]())(S s − sµ 1 ) < − σ√v t (γ j+1 t + (σ/σ 0 ) 2 ) − M(σ/σ 0 ) 2(√ ) 2e − 1 vt(γ2γ j j+1 t+(σ/σ 0 ) 2 )−Mσ/σ 2 t 0Or :((√ 2e − 1 vt(γ2γ j j+1 t+(σ/σ 0 ) 2 )−Mσ/σ 2 −t 0) 1 v t (γ j+1 t+(σ/σ 0 ) 2 )2 γ≤ ej t1−M− 1 2 γvt σ/σ(1−M √ 02v≤ et (1+(σ/σ 0 ) 2 )(2Pour t tel que v t ≥ (σ/σ 0) 2 (M/σ 0 ) 2 σ1+(σ/σ 0 ) 2 (1− √ σ/σon a 1 − M √ 2 γ) 2 0≥ γ et :vt(1+(σ/σ0 ) )) 2√) 2σ/σ 2 0v t (γ j+1 t+(σ/σ 0 ) 2 )) 2e − 12γ j t(√vt(γ j+1 t+(σ/σ 0 ) 2 )−Mσ/σ 2 0) 2≤ e − 1 2 γ2 v tNotons t 0 (γ) = inf{t ∈ R : v t ≥ (σ/σ 0) 21+(σ/σ 0 ) 2 (M/σ 0 ) 2 σ(1− √ γ) 2 }. Pour t ≥ t 0 (γ) :P (µ 1 > q 1 (N t (1), S t (1), t)) ≤ln(t)ln(1/γ) e− 1 2 γ2 v t≤ (ln(t))2ln(1/γ)1t βγ2Et doncn∑t=t 0 (γ)P (µ 1 > q 1 (N t (1), S t (1), t))≤≤=1ln(1/γ)n∑ (ln(t)) 2ln(1/γ)2∫ ∞1t βγ21 (ln(t)) 2dtln(1/γ) 1 t βγ21 2ln(1/γ) (βγ 2 − 1) 362


⌊ ⌋Traitement du terme (4) Soit ɛ > 0. Si K n := 2σ 2 (1+ɛ) ln(n)≤ s ≤ n :∆ 2(√ ) (√ )2β ln(n)2β ln(n)P µ 1 ≤ ˆµ 2,s + σ= P ∆ ≤ ˆµ 2,s − µ 2 + σss(≤ P ∆ ≤ ˆµ 2,s − µ 2 + √ ∆ )1 + ɛ≤P(ˆµ 2,s − µ 2 ≥ ∆( )≤ e −2s∆ 1− √ 11+ɛ(1 −))1√ 1 + ɛD’où(4) ≤ 2σ2 (1 + ɛ) ln(n)∆ 2 +≤2σ2 (1 + ɛ) ln(n)∆ 2 +n∑s=K ne −2s∆ ()1− √ 11+ɛ1− √ 1log(n) 1+ɛe−4 ∆( )1 − e −2∆ 1− √ 11+ɛConclusion Ainsi on a la majoration suivante, pour γ ∈] 1 √ β; 1[ et ɛ ∈]0; 1[ :E[N n (2)] ≤On conclut donc que2(1 + ɛ)βσ2(µ 1 − µ 2 ) 2 ln(n) + t 0(γ) +E[N n (2)] ≤d’où le résultat asymptotique sur le regret.1 2ln(1/γ) (βγ 2 − 1)2(1 + ɛ)βσ2(µ 1 − µ 2 ) 2 ln(n) + o β(ln(n))1− √ 1log(n) 1+ɛe−4 ∆+31 − e −2∆ ()1− √ 11+ɛ□4.4 Borne <strong>de</strong> regret pour les bandits binaires4.4.1 Encadrement <strong>de</strong>s quantiles d’une loi BetaLoi beta et loi binomiale Soit X suivant la loi Beta(a, b). Il est connu que X a la loi <strong>de</strong> laa-ème statistique d’ordre parmi a + b − 1 variables aléatoires uniformes indépendantes (qu’onnotera U 1 , ...U a+b−1 ). On a alors :P(X ≥ x) = P(au moins b variables uniformes sont ≥ x)( a+b−1)∑= P 1 Ui ≥x ≥ bi=1P(X ≥ x) = P (S a+b−1,1−x ≥ b) (9)P(X ≥ x) = P (S a+b−1,x ≤ a − 1) (10)63


où S n,p est une loi binômiale <strong>de</strong> paramètres n et p. Cette remarque permet dans un premiertemps <strong>de</strong> voir que l’algorithme bayésien est proche <strong>de</strong> l’algorithme CP-UCB evoqué dans [4].En effet, l’indice <strong>de</strong> confiance utilisé dans l’algorithme bayésien avec un a priori uniforme est :1sup{x ∈ [0, 1] | P(X ≥ x) ≥t β log(t) c } avec X ∼ Beta(S n(j) + 1, N n (j) − S n (j) + 1)= sup{x ∈ [0, 1] | P (S m,x ≤ X) ≥=u CP (S n (j), N n (j) + 1,1t β log(t) c } avec m = N n(j) + 1 et X = S n (j))1t β log(t) ccontre l’indice u CP (S n (j), N n (j),1t β log(t) c )dans CP-UCB.Une première majoration du quantile d’une loi Beta Les inégalités <strong>de</strong> Hoeffding etChernoff nous donnent <strong>de</strong>s majorations <strong>de</strong> la queue <strong>de</strong> la binômiale :P (S a+b−1,x ≤ a − 1) ≤ e − 2a+b−1 (a−1−(a+b−1)x)2a−1−(a+b−1)d(P (S a+b−1,x ≤ a − 1) ≤ e a+b−1 ,x)<strong>de</strong>squelles ont déduit une majoration <strong>de</strong>s quantiles d’une loi beta :Lemme 4.2 Le quantile d’ordre 1 − γ <strong>de</strong> la distribution Si Beta(a, b) vérifie√a − 1q 1−γ ≤a + b − 1 + ln(1/γ)2(a + b − 1){( ) }a − 1q 1−γ ≤ argmax (a + b − 1)dx∈[0;1]a + b − 1 , x ≤ ln(1/γ)(11)(12)où d(θ, θ ′ ) = KL(B(θ), B(θ ′ )) distance <strong>de</strong> Kullback entre <strong>de</strong>ux distributions <strong>de</strong> BernoulliUn encadrement Si les inégalités <strong>de</strong> concentration qu’on a déjà manipulées nous donnentune majoration <strong>de</strong> la queue <strong>de</strong> la binômiale, il nous en faudrait une minoration pour pouvoirégalement minorer le quantile d’une beta et donc l’indice utilisé quand Quantile-UCB.La métho<strong>de</strong> <strong>de</strong>s types présenté dans le livre <strong>de</strong> Dembo & Zeintouni [5] donne un résultat <strong>de</strong>concentration plus fin pour <strong>de</strong>s variables aléatoires à support fini. Nous allons l’utiliser dans lecadre <strong>de</strong>s variables aléatoires <strong>de</strong> Bernoulli pour obtenir l’encadrement souhaité.Introduisons quelques notations : µ une loi <strong>de</strong> probabilité à support fini dans Σ = (a 1 , ..., a N ),n un entier et Y = (Y 1 , ..., Y n ) un n-échantillon <strong>de</strong> loi µ.– un type est la loi empirique L Y n associée à l’échantillon Y– on note L n l’ensemble <strong>de</strong>s types possible pour les n-échantillons– et pour ν ∈ L n , T n (ν),la classe <strong>de</strong> type <strong>de</strong> ν, est le nombre d’échantillons Y <strong>de</strong> type ν :T n (ν) = {Y ∈ Σ n | L y n = ν}Si µ est une loi binômiale <strong>de</strong> paramètre p, son type est L Y n = ( )S nn, n−Snn ainsi on peut réécrire :( kP µ (S n = k) = P µ(L X n = Bn))64


Dans le cadre <strong>de</strong>s Bernoulli, il n’y a que n + 1 classes <strong>de</strong> types (paramétrées par le nombre i <strong>de</strong>1 observés) donc |L n | = n + 1. Le cardinal <strong>de</strong> la i-ème classe est ( ni).Proposition 4.1 (Sanov, Probabilités <strong>de</strong> gran<strong>de</strong>s déviations) Si Y est une échantillon <strong>de</strong> loiµ :1|L n | e−nKL(ν,µ) ≤ P µ (L Y n = ν) ≤ e −nKL(ν,µ)Ce qui se réécrit si Y = (X 1 , ..., X n ) est un n-échantillon <strong>de</strong> B(µ) :1n + 1 e−nKL(B( k n ),B(µ)) ≤ P(S n = k) ≤ e −nKL(B( k n ),B(µ)) (13)Preuve Montrons le premier encadrement dans le cadre général. On rappelle en plus <strong>de</strong> la divergence<strong>de</strong> Kullback la notion d’entropie d’une variable aléatoire discrète <strong>de</strong> loi ν = (ν(a 1 ), ..., ν(a N )) :H(ν) = −N∑ν(a i ) ln(ν(a i ))On montre tout d’abord par un calcul direct que pour ν ∈ L n et Y ∈ T n (ν)i=1P µ ((Y 1 , ..., Y n ) = Y ) = e −n[H(ν)+KL(ν|µ)]Ainsi cette probabilité ne dépend pas <strong>de</strong> Y mais uniquement <strong>de</strong> ν : elle est constante sur uneclasse <strong>de</strong> type d’où :P µ (L Y n = ν) = |T n (ν)|e −n[H(ν)+KL(ν|µ)] (14)Il ne reste plus alors qu’à démontrer le lemme suivant :Lemme 4.3 1|L n| enH(ν) ≤ |T n (ν)| ≤ e nH(ν)Preuve du lemme D’après l’égalité (14) appliqué au cas particulier où µ = ν ∈ L n (dans cecas la divergence <strong>de</strong> Kullback est nulle),1 ≥ P ν (L Y n = ν) = |T n (ν)|e −n[H(ν)]d’où la majoration <strong>de</strong> |T n (ν)|. Pour obtenir la minoration, on va montrer que si µ = ν ∈ L n , νest le type le plus probable dans L n : càd pour tout ν ′ ∈ L nEn effet, on aP ν (L Y n = ν) ≥ P ν (L Y n = ν ′ ) (15)P ν (L Y n = ν)P ν (L Y n = ν ′ ) = |T n(ν)| ∏ Ni=1 ν(a i) nν(a i)|T n (ν ′ )| ∏ Ni=1 ν(a i) = ∏Nnν′ (a i )i=1nν ′ (a i )!nν(a i )! ν(a i) n[ν(a i)−ν ′ (a i )]car le cardinal <strong>de</strong> T n (ν) est le nombre <strong>de</strong> partitions ordonnées <strong>de</strong> n observations en nν(a 1 )observations <strong>de</strong> a 1 , ..., nν(a N ) observations <strong>de</strong> a N donc est égal au coefficient multinômial) ). L’expression ci-<strong>de</strong>ssus est un produit <strong>de</strong> termes <strong>de</strong> typem! l−mor on peut(nnν(a 1 ),...,nν(a N )l!( ln65


montrer (disjonction <strong>de</strong> cas l > ou ≤ m) que m!l!≥ l m−l . Alors on obtient avec l = nν(a i ) etm = nν ′ (a i ) :P ν (L Y n = ν)NP ν (L Y n = ν ′ ) ≥ ∏[nν(a i )] n[ν′ (a i )−ν(a i )] ν(a i ) n[ν(a i)−ν ′ (a i )] = n ∑ Ni=1 (ν(a i)−ν ′ (a i )) = 1i=1ce qui démontre (15). On en déduit la minoration souhaitée par :1 = ∑ν ′ ∈L nP ν (L Y n = ν ′ ) ≤ |L n |P ν (L Y n = ν) = |L n ||T n (ν)|e −nH(ν)Remarque 4.2 Ce raisonnement avec les types a permis pour le cas <strong>de</strong>s Bernoullis <strong>de</strong> trouverune minoration astucieuse du coefficient ( nk)intervenant dans P(Sn = k)On déduit ainsi <strong>de</strong> cette proposition la minoration1n+1 e−nKL(B( k n ),B(µ)) ≤ P(S n,µ = k) ≤P(S n,µ ≥ k) et finalement l’encadrement :1n + 1 e−nd( k n ,µ) ≤ P(S n,µ ≥ k) ≤ e −nd( k n ,µ) (16)D’où le lemme ci-<strong>de</strong>ssous :Lemme 4.4 Le quantile d’ordre 1 − γ <strong>de</strong> la loi Beta(a, b) vérifie : ũ(a, b, γ) ≤ q 1−γ ≤ u(a, b, γ)avec{( )}a − 1ũ(a, b, γ) = argmax (a + b − 1)dx> a−1a + b − 1 , x ≤ ln(1/γ) − ln(a + b)a+b−1u(a, b, γ) = argmaxx> a−1a+b−1pour γ tel que ln(1/γ) − ln(a + b) > 0{(a + b − 1)dPreuve D’après l’encadrement (16) on a :( a − 1a + b − 1 , x )≤ ln(1/γ)(a + b) −1 a−1−(a+b−1)d(e a+b−1 ,x) a−1−(a+b−1)d(≤ P(X ≥ x) = P(S a+b−1,1−x ≥ b) ≤ e a+b−1 ,x)Pour obtenir une majoration du quantile, on remarque quea−1−(a+b−1)d(e a+b−1 ,x) ≤ γ ⇒ P(X ≥ x) ≤ γ ⇒ q 1−γ ≤ xa−1−(a+b−1)d(Or e a+b−1 ,x) ≤ γ ⇔ (a + b − 1)d(a, x) ≥ ln(1/γ) et on choisit comme majorant duquantile le plus petit majorant obtenu par cette métho<strong>de</strong> :x ∗ = argmin x>a−1 {(a+b−1)d(a, x) ≥ ln(1/γ)} = argmaxa+b−1x>a−1 {(a+b−1)d(a, x) ≤ ln(1/γ)}a+b−1Pour obtenir une minoration du quantile, on remarque que(a + b) −1 a−1−(a+b−1)d(e a+b−1 ,x) ≥ γ ⇒ P(X ≥ x) ≥ γ ⇒ q 1−γ ≥ xOr (a + b) −1 a−1−(a+b−1)d(e a+b−1 ,x) ≥ γ ⇔ (a + b − 1)d( a−1a+b−1, x) ≤ ln(1/γ) − ln(a + b) et on choisitcomme minorant du quantile le plus grand minorant obtenu par cette métho<strong>de</strong> :x ∗ a − 1= argmax x>a−1 {(a + b − 1)d( , x) ≤ ln(1/γ) − ln(a + b)}a+b−1a + b − 1□}□66


4.4.2 Lien avec l’algorithme KL-UCBAinsi pour le cas <strong>de</strong>s bandits Bernoulli, l’indice <strong>de</strong> Quantile-UCB avec a priori uniforme, q j (t),quantile d’ordre 1 − 1 <strong>de</strong> Beta(St β ln(t) ct (j) + 1, N t (j) − S t (j) + 1) vérifie ũ j (t) ≤ q j (t) ≤ u j (t)avec :{ ( )}St (j)u j (t) = argmax dx> S t (j) N t (j) , x β ln(t) + c ln(ln(t))≤N t (j)N j (t)ũ j (t) = argmaxx> S t (j)N t (j)+1{ ( )St (j)dN t (j) + 1 , x ≤ β ln(t) + c ln(ln(t)) − ln(N }t(j) + 2)(N t (j) + 1)Justification L’expression ũ j (t) est bien définie pour β ≥ 1 et s’obtient directement par lelemme 4.4 tandis que pour u j (t) on a d’abord :{ ( )St (j)q j (t) ≤ argmax dx> S t (j) N j (t) + 1 , x ≤N j (t)+1puis on remarque que ceci est bien inférieur à u j (t). Soit en effet x >}β ln(t) + c ln(ln(t))N t (j) + 1St(j)N j (t)+1 tel que d (St(j)N t(j)+1 , x )≤β ln(t)+c ln(ln(t))N t(j)+1. Si x < St(j)N t(j)on a trivialement x < u 1 (t). Dans le cas contraire, on a par( )( )décroissance <strong>de</strong> y ↦→ d(y, x) sur ]0, x[ d St(j)N , x β ln(t)+c ln(ln(t))t(j)≤N t(j)+1puis d St(j)N , x t(j)≤d’où x ≤ u 1 (t).β ln(t)+c ln(ln(t))N t(j)Conclusion L’algorithme Quantile-UCB est a priori très différent <strong>de</strong>s algorithmes fréquentistespour la résolution du problème <strong>de</strong> bandit usuel (fréquentiste), car on introduit artificiellementun a priori et on se ramène à <strong>de</strong>s calculs <strong>de</strong> quantiles <strong>de</strong> loi Beta. Mais on voit que la politiqued’indice qu’il définit est très proche <strong>de</strong> celle donnée par KL-UCB (pour les mêmes paramètres βet c). En effet, u j (t) correspond exactement à l’indice <strong>de</strong> KL-UCB, quant à ũ j (t) il correspondtà une version biaisée <strong>de</strong> KL-UCB+ : la gran<strong>de</strong>ur gérant l’exploration n’est plus t maisN . t(j)+2Cet autre type d’exploration intervient donc naturellement dans l’algorithme Quantile-UCB.4.4.3 Une borne <strong>de</strong> regretMaintenant qu’on a montré la proximité entre Quantile-UCB et KL-UCB, on peut espérermontrer une borne <strong>de</strong> regret pour Quantile-UCB, en s’inspirant <strong>de</strong> la preuve <strong>de</strong> KL-UCB détailléedans la partie 2. La première idée, qui sera présentée dans ce <strong>rapport</strong>, est d’adapter directementla preuve <strong>de</strong> KL-UCB, en gérant le fait que ũ j (t) est différent <strong>de</strong> u j (t) : ceci nous fait perdre unpeu et je n’ai pu prouver ainsi l’optimalité que pour β ≥ 2.tDu fait <strong>de</strong> la gestion <strong>de</strong> l’exploration enN t(j)+2, on aurait en fait plutôt besoin d’une borne<strong>de</strong> regret pour KL-UCB+, qui ne pourra s’obtenir <strong>de</strong> la même manière que KL-UCB. L’idée(rédigée en <strong>de</strong>hors <strong>de</strong> ce <strong>rapport</strong>) est <strong>de</strong> quantifier la sous-estimation du bras optimal <strong>de</strong> manièreplus fine : non plus directement µ 1 > ũ 1 (t) mais plutôt µ 1 − b t > ũ 1 (t) où on introduit un termecorrectif b t .67


Theorème 4.2 Pour l’algorithme β-quantile avec les paramètres β ≥ 2 et c ≥ 3, on a la borneasyptotique suivante pour le nombre <strong>de</strong> tirages <strong>de</strong> chaque bras sous optimal j :E[N n (j)] ≤(1 + ɛ)βd(θ j , θ ∗ j ) ln(n) + o ɛ (ln(n))Démonstration On suppose que le bras 1 est optimal et que le bras 2 est non optimal. Oncommence le découpage <strong>de</strong> la même manière :N j (2) ≤n∑1 (µ1 >q 1 (t)) +t=1n∑t=11 (µ1 ≤q 1 (t))∩(I t=2)Ensuite on utilise la minoration <strong>de</strong> q 1 (t) par ũ 1 (t) et celle <strong>de</strong> q 2 (t) par u 2 (t) pour écrire :N j (2) ≤n∑1 (µ1 >ũ 1 (t)) +t=1n∑t=11 (µ1 ≤u 2 (t))∩(I t=2)On en déduit comme dans la preuve <strong>de</strong> KL-UCB que :[n∑n∑]E[N n (2)] ≤ P(µ 1 > ũ 1 (t)) + E 1 (sd(ˆµ2,s ,µ 1 )N t(1)+1Posons b(t) = β log(t) + c log(log(t)) On en déduit donc que dpose δ k = b(t) − log(γ k + 1) ≥ 0 et on a :( )St (1)dN t (1) + 1 , µ 1P((t k−1 < N t (1) + 1 ≤ t k ) ∩ (ũ 1 (t) < µ 1 ))} {{ }A k> δ kγ k( )St(1)N , µ t(1)+1 1> b(t)−log(γk +1). Onγ k68


Soit ensuite, toujours d’après les propriétés <strong>de</strong> décroissance <strong>de</strong> d(., µ 1 ) à gauche <strong>de</strong> µ 1 , z k ∈S[ t(1)N , µ t(1)+1 1] tel que d(z k , µ 1 ) = δ k. Et on a pour ce zγ k k l’existence <strong>de</strong> λ(z k ) < 0 tel que d(z k , µ 1 ) =λ(z k )z k − φ µ1 (λ(z k )). On en déduit que :A kA kA kA kA k⊂⊂⊂⊂⊂(λ(z k )z k − φ µ1 (λ(z k )) ≥ δ )kγ(k )δ kλ(z k )z k − φ µ1 (λ(z k )) ≥γ(N t (1) + 1)()S t (1)λ(z k )N t (1) + 1 − φ δ kµ 1(λ(z k )) ≥γ(N t (1) + 1)(λ(z k )S t (1) − (N t (1) + 1)φ µ1 (λ(z k )) ≥ δ )kγ(λ(z k )S t (1) − N t (1)φ µ1 (λ(z k )) ≥ δ )kγOn introduit <strong>de</strong> nouveau la martingale Wt λ = exp (λS t (1) − N t (1)φ µ1 (λ)) on obtient :(P(A k ) ≤ P W λ(z k)t ≥ exp( δ ) (kγ ) ≤ exp − δ ) [ ](kE W λ(z k)t =Markov γexp − δ )kmartingale γAinsi :On a alorsOr⌈ln(t+1)/ ln(γ)⌉∑k=1On a ainsi :e log(γk +1)γ≤P(µ 1 > ũ 1 (t)) ≤P(µ 1 > ũ 1 (t)) ≤ e − b(t)γ⌈ln(t+1)/ ln(γ)⌉∑k=1(γ k +1) ≤⌈ln(t+1)/ ln(γ)⌉∑k=1⌈ln(t+1)/ ln(γ)⌉∑k=1⌈ln(t+1)/ ln(γ)⌉∑k=1e − b(t)+log(γk +1)γe log(γk +1)γ( )ln(t + 1)P(µ 1 > ũ 1 (t)) ≤ (t + 2)+ 1 e − b(t)γln(γ)( ln(t + 1)(γ ln(t+1)/ ln(γ) +1) ≤ln(γ)Remarque 4.3 Ici la perte par <strong>rapport</strong> à KL-UCB est la facteur t + 2 <strong>de</strong>vant le majorant, quinous conduira à pouvoir prendre seulement β ≥ 2En choisissant γ =b(t)b(t)−1on obtient :P(µ 1 > ũ 1 (t)) ≤ (t + 2)(b(t) ln(t + 1) + 1)e −b(t)+1)+ 1 (t+2)D’où :(A) ≤n∑t=2e(t + 2)(β ln(t) ln(t + 1) + c ln(ln(t)) ln(t + 1) + 1)t β ln(t) c69


Et pour β ≥ 2 et c ≥ 3 :Donc (A) = o(ln(n))(A) ≤ Cn∑t=2Finalement pour c ≥ 3 et pour β ≥ 2 on a :t ln(t) 2 n∑t 2 ln(t) 3 = C 1t ln(t) = O (ln(ln(n)))E[N n (2)] ≤t=2(1 + ɛ)βd(µ 2 , µ 1 ) ln(n) + o ɛ (ln(n))Remarque 4.4 Ici on n’a pas cherché à expliciter les sommes <strong>de</strong> séries intervenant, donnantfinalement une borne asymptotique. Il suffirait <strong>de</strong> détailler un peu plus pour avoir une borne entemps fini.□70


5 Bilan du <strong>stage</strong>En conclusion, une approche bayésienne constitue un bon angle d’attaque pour l’étu<strong>de</strong> duproblème <strong>de</strong> bandit. Gittins l’avait naturellement adoptée, et après l’avoir bien comprise etadaptée au cadre qui nous intéresse, son approche a conduit à un algorithme efficace en pratiquepour le problème du bandit dans un cadre fréquentiste et à horizon fini. Il reste bien sûr à comprendre<strong>de</strong> manière plus théorique et à obtenir une approximation <strong>de</strong>s indices <strong>de</strong> Gittins pourpouvoir pleinement les comparer à ceux <strong>de</strong>s autres politiques d’indice, et donner une borne <strong>de</strong>regret pour un problème fréquentiste.En effet, les algorithmes proposés ultérieurement ont souvent été <strong>de</strong>s variations <strong>de</strong> politiquesd’indice, on peut donc considérer que Gittins a largement inspiré ses sucesseurs. De plus ona pu voir que les indices <strong>de</strong> Gittins, sans en avoir une expression précise, sont également <strong>de</strong>sbornes supérieures <strong>de</strong> confiance par <strong>rapport</strong> à une moyenne empirique, donc la similarité entreles approches bayésiennes et fréquentistes est à creuser.J’ai également pu faire le lien entre l’algorithme Quantile-UCB, fondé sur l’idée bayésienned’utilisation <strong>de</strong> quantile d’a posteriori et son meilleur challenger fréquentiste, KL-UCB. Si lesidées <strong>de</strong>s <strong>de</strong>ux algorithmes semblent différentes, on a pu à la fois constater en pratique et comprendreen théorie, dans le cadre <strong>de</strong>s bandits binaires et <strong>de</strong>s bandits gaussiens, que les indicesutilisés par ces <strong>de</strong>ux algorithmes sont très semblables.On a ainsi obtenu une garantie théorique dans <strong>de</strong>s cas particuliers simples pour l’algorithmeQuantile-UCB, qui présente l’avantage d’être plus facile à implémenter que KL-UCB, et quipourra être testé ultérieurement <strong>de</strong> manière générale pour <strong>de</strong>s distributions plus complexes avecd’autres a priori.De la même manière que KL-UCB a conduit à l’algorithme KL-UCRL pour l’apprentissaged’un MDP, nous pourrons ultérieurement étudier <strong>de</strong>s approches bayésiennes pour l’exploration<strong>de</strong>s MDP, c’est un <strong>de</strong>s axes possibles <strong>de</strong> ma future thèse.Le travail effectué au cours <strong>de</strong> ce <strong>stage</strong> m’a aussi permis <strong>de</strong> découvrir le mon<strong>de</strong> <strong>de</strong> la recherche,en alternant le travail intial <strong>de</strong> bibliographie et la réflexion sur <strong>de</strong> nouvelles pistes,toujours guidée dans mon travail par <strong>de</strong>s réunions et échanges avec mes encadrants. J’ai aussipu au cours <strong>de</strong> mon <strong>stage</strong> assister à quelques séminaires (séminaires <strong>de</strong>s doctorants, SMILE,états <strong>de</strong> la recherches en apprentissage statistique) qui m’ont permis <strong>de</strong> m’ouvrir à d’autresaxes <strong>de</strong> recherche. Enfin j’ai eu moi-même la chance <strong>de</strong> présenter une partie <strong>de</strong> notre travail auséminaire <strong>de</strong> l’INRIA <strong>de</strong> Lille, et si le faire en anglais <strong>de</strong>vant une équipe <strong>de</strong> recherche familièredu domaine représentait pour moi un défi, j’ai beaucoup apprécié <strong>de</strong> pouvoir le relever si tôt.Ce <strong>stage</strong> a donc véritablement constitué une introduction à ma thèse, que j’effectuerai àpartir <strong>de</strong> septembre dans le même laboratoire encadrée par Olivier Cappé, Aurélien Garivier etRémi Munos.71


Références[1] Jean-Yves Audibert, Sébastien Bubeck, Regret Bounds and Minimax Policies un<strong>de</strong>r PartialMonitoring Journal of Machine Learning Research, 2010[2] Peter Auer , Nicolo Cesa-Bianchi, Paul Fischer , Finite-time analysis of the multiarmedbandit problem Machine Learning 47,235-256, 2002[3] Aposotlos Burnetas, Michael Katehakis Optimal adaptive policies for sequential allocationproblems Advanced Applied Mathematics,1996[4] Olivier Cappé, Aurélien Garivier The KL-UCB algorithm for boun<strong>de</strong>d stochastic banditsand beyond COLT, 2011[5] Amir Dembo, Ofer Zeitouni, Large Deviations Techniques and Applications, 2nd EditionSpringer, 1998[6] Esther Frostig, Gi<strong>de</strong>on Weiss Four proofs of Gittins’ multiarmed bandit theorem In AppliedProbability Trust, 1999[7] John Gittins, Bandit Processes and Dynamic Allocation Indices In Journal of the RoyalStatistical Society, 1979[8] John Gittins, Kevin Glazebrook and Richard Weber Multi-armed bandit allocation indices(2nd Edition) Wiley, 2011[9] Junya Honda, Akimichi Takemura An asympototically Optimal Bandit Algorithm for Boun<strong>de</strong>dSupport Mo<strong>de</strong>ls COLT 2010[10] Michael Katehakis, Herbert Robbins Sequential choice from several populationsProc.Natl.Acad.Sci. USA,Vol 92 pp.8584-8585, septembre 1995[11] T.L. Lai, Herbert Robbins, Asymptotically efficient adaptive allocation rules in Advancesin applied mathematics, 1985[12] Damien Lamberton, Bernard Lapeyre Introduction au calcul stochastique appliqué à lafinance, chapitre 2 Ellipse, 1997[13] Odalric-Ambrym Maillard, Rémi Munos, Gilles Stoltz A finite-time analysis of Multi-armedbandits problems with Kullback-Leibler Divergence COLT, 2011[14] Pascal Massart, Exponential and Information Inequalities notes <strong>de</strong> cours d’une école d’étéà Saint-Flour, chapitre 272

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!