rapport de stage de master

Approches bayésiennes pour la résolution du problème du banditstochastiqueEmilie Kaufmann7 février 20121

Table des matières1 Bandits fréquentistes, bandits bayésiens 61.1 Le problème du bandit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.2 Cadre bayésien général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.3 Regret fréquentiste, regret bayésien . . . . . . . . . . . . . . . . . . . . . . . . . . 72 Bornes de regret dans les algorithmes fréquentistes : Etat de l’art 92.1 La borne inférieure de Lai-Robbins . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Des stratégies de Lai-Robbins à l’UCB d’Auer & al. . . . . . . . . . . . . . . . . 132.2.1 Lai-Robbins : vers un politique d’indice . . . . . . . . . . . . . . . . . . . 132.2.2 L’idée d’UCB : une politique d’indice simple . . . . . . . . . . . . . . . . 142.2.3 UCB pour les gaussiennes . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.2.4 L’optimalité d’UCB ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 162.3 Des raffinements successifs pour obtenir l’optimalité . . . . . . . . . . . . . . . . 172.3.1 Inégalité maximale et ”peeling-trick” . . . . . . . . . . . . . . . . . . . . . 172.3.2 Un autre découpage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4 L’algorithme KL-UCB et le formalisme associé . . . . . . . . . . . . . . . . . . . 192.4.1 De bonnes inégalités de concentration . . . . . . . . . . . . . . . . . . . . 202.4.2 KL-UCB pour la famille exponentielle . . . . . . . . . . . . . . . . . . . . 212.4.3 KL-UCB pour des variables aléatoires indépendantes bornées . . . . . . . 262.5 D’autres gestions de l’exploration . . . . . . . . . . . . . . . . . . . . . . . . . . . 273 Gittins et la résolution du problème bayésien 283.1 Un cadre plus général : Family of Alternative Bandit Process . . . . . . . . . . . 283.2 Le problème de bandits binaires bayésien . . . . . . . . . . . . . . . . . . . . . . 303.3 La résolution du problème de bandit comme résolution d’un MDP . . . . . . . . 323.4 Les indices de Gittins . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4.1 Problème de calibration associé à chaque bras : un problème d’arrêt optimalà horizon fixé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.4.2 Définition de l’indice de confiance d’un bras et méthodes de calcul . . . . 373.4.3 Quelques propriétés des indices de Gittins . . . . . . . . . . . . . . . . . . 383.4.4 L’optimalité de la politique d’indice associée . . . . . . . . . . . . . . . . . 393.5 Tests de l’algorithme de Gittins . . . . . . . . . . . . . . . . . . . . . . . . . . . . 433.5.1 Mise en oeuvre pratique de l’algorithme . . . . . . . . . . . . . . . . . . . 433.5.2 Comparaison avec les autres algorithmes . . . . . . . . . . . . . . . . . . . 443.5.3 Comprendre la manière dont Gittins joue . . . . . . . . . . . . . . . . . . 463.6 Les idées de bayésiennes : une motivation des politiques d’indice . . . . . . . . . 463.6.1 Un bonus de confiance . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463.6.2 Le cas gaussien : une autre illustration . . . . . . . . . . . . . . . . . . . . 484 Algorithmes bayésiens basés sur les quantiles d’a posteriori 524.1 Présentation de l’algorithme et réglage du quantile . . . . . . . . . . . . . . . . . 524.2 Comparaison avec Gittins et les algorithmes fréquentistes . . . . . . . . . . . . . 554.3 Borne de regret pour les bandits gaussiens . . . . . . . . . . . . . . . . . . . . . . 594.4 Borne de regret pour les bandits binaires . . . . . . . . . . . . . . . . . . . . . . . 632

RemerciementsUn grand merci à Aurélien et Olivier pour leur disponibilité, leur investissement et leursprécieux conseils tout au long de mon stage : nos échanges m’ont motivée quand il lefallait, et beaucoup aidée.Un grand merci également à Rémi de m’avoir tout d’abord donné le goût del’apprentissage par renforcement à travers son cours, pour ses conseils tout au long dustage, ainsi que pour m’avoir laissé l’opportunité de présenter une partie de notre travailau séminaire de l’INRIA de Lille.Merci enfin à vous trois de vous être mis en quatre pour me proposer un sujet de thèseet m’aider à remplir dans les temps le dossier d’ASN.4

IntroductionApprendre des choses en interagissant avec son environnement, l’explorer en maximisant lesrécompenses liées à certaines actions, tel est le principe de l’apprentissage par renforcement. Cedomaine, que j’ai découvert cette année lors de mon passage au master MVA, a des applicationsdiverses, que ce soit en robotique, ou dans tout ce qui tourne autour de l’apprentissage du comportementd’un individu, par exemple pour le choix d’une publicité sur Internet en fonction duprofil de l’utilisateur.Le problème du bandit stochastique, auquel je me suis intéressée dans ce stage, est leproblème le plus simple d’apprentissage par renforcement, où un utilisateur doit choisir detirer un ”bras” parmi K et observe comme récompense une réalisation d’une suite de variablesaléatoires i.i.d dont la distribution (inconnue) dépend du bras. Le problème est de découvrir lebras pour lequel l’espérance des récompenses est la plus élevée. Nous verrons en quoi ce problèmetel qu’il est souvent présenté est un problème fréquentiste, et quelle formulation bayésienne onpeut lui trouver : ce sera l’objet de la première partie de ce rapport.Le but de mon stage, effectué du 1er avril au 31 juillet 2011 à Telecom Paristech sous ladirection de Aurélien Garivier et Olivier Cappé et en partenariat avec Rémi Munos, était d’exploiterune modélisation bayésienne du problème de bandit (avec un a priori sur chaque bras)pour trouver de nouveaux algorithmes de bandits efficaces pour le problème usuel et faciles àimplémenter, mais pour lesquels on pouvait également prouver une borne de regret théorique.Mon stage s’est déroulé en deux parties. Dans une première période, je suis partie d’un articleassez ancien de Gittins (1979), où le problème bayésien est présenté sommairement, et oùil est ”résolu” mais de manière partielle (en plus du cadre bayésien, Gittins utilise un critère deperformance inhabituel pour le problème du bandit) et mon travail, en plus de l’explicitation duproblème bayésien, a été d’adapter les travaux de Gittins au contexte usuel. Nous avons obtenuun algorithme qui contre toute attente semble donner de meilleurs résultats que les algorithmesfréquentistes les plus récents tels KL-UCB, présentés au préalable dans la partie 2.Parallèlement à ce travail, avant de pouvoir m’attaquer moi-même à des preuves de regret,je me suis familiarisée avec les différentes preuves de la littérature. J’ai choisi de présenter dansla partie 2 de ce rapport un état de l’art des algorithmes de bandits, où l’on apprend l’existencede bornes de regret optimales (grâce à la borne inférieure prouvée par Lai et Robbins), et oùon voit comment les différents algorithmes qui sont apparus se rapprochent progressivement decette optimalité. Cet état de l’art m’a été utile dans la deuxième partie de mon stage.En effet, pendant une deuxième période je me suis intéressée à un autre algorithme de banditsd’inspiration bayésienne, basé sur l’exploitation de quantiles d’une loi a posteriori. Après uneétude pratique (performance, choix des paramètres de l’algorithme) de cet algorithme Quantile-UCB, j’ai prouvé une borne de regret optimale dans le cas particulier des bandits gaussiens, etpresque optimale dans le cas des bandits binaires. Ces résultats nouveaux sont présentés dansla partie 4 de ce rapport ; on comprend pourquoi, de manière assez suprenante, cet algorithmebayésien apparait comme très semblable à l’algorithme KL-UCB.5

1 Bandits fréquentistes, bandits bayésiens1.1 Le problème du banditLe problème du bandit stochastique tel qu’il est souvent formulé dans la littérature est lesuivant. Un utilisateur fait face à K bras, chaque bras désignant une suite de variables aléatoires(Y j,t ). A l’instant t de jeu, l’utilisateur a K actions possibles : tirer l’un des K bras. Si il choisitde tirer le bras j, il reçoit comme récompense X t la t-ème réalisation du j-ème bras. Le butde ce problème est de trouver une stratégie de tirage des bras qui maximise l’espérance de larécompense reçue par l’utilisateur. Dans le cadre usuel, les bras sont supposés indépendantsentre eux, et chacun des bras est lui-même une suite de variables aléatoires i.i.d de loi inconnueν j , d’espérance µ j .On peut faire plusieurs hypothèses sur la loi ν j :– cadre paramétrique simple : ν j dépend d’un paramètre θ j , relié en général à la moyenneµ j (ex : une famille exponentielle de paramètre θ j )– cadre paramétrique général : ν j dépend de plusieurs paramètres (ex : famille exponentielleà plusieurs paramètres)– cadre non paramétrique : on s’intéressera par exemple au cas où ν j est à support finiou bornéDans le problème paramétrique simple, auquel on va s’intéresser de manière plus approfondie,le paramètre θ j est en général supposé inconnu, c’est pour cela qu’on parle de traitementfréquentiste du problème du bandit.La stratégie de tirage que l’on cherche prend la forme d’une suite de variables aléatoires (I t )telle que I t est F t -mesurable oùF t = σ(I 0 , X 1 , I 1 , X 2 , .., I t−1 , X t )décrit l’histoire du jeu : I t est l’action choisie à l’issue du t-ème tour de jeu pour le tour suivant.Il s’agit de trouver une stratégie minimiant le regret qui, comme on le verra plus loin dépenddans ce cadre fréquentiste du paramètre θ = (θ 1 , ..., θ K ) du problème.1.2 Cadre bayésien généralOn se place dans le cadre paramétrique simple, mais avec un modèle probabiliste différent :chaque paramètre θ j n’est plus vu comme un paramètre inconnu mais comme une variablealéatoire, qui représente notre a priori sur le paramètre θ j . La modélisation du problème est unpeu différente dans ce cadre bayésien :Le problème bayésien On se donne θ 1 , ..., θ K K variables aléatoires indépendantes avecL(θ j ) = π j et K suites de variables aléatoires (Y j,t ) telles que :– pour tout j ,L(θ j ) = π j est i.i.d conditionnellement à θ j de loi conditionnelle à θ j ayantpour densité f(x; θ j ) par rapport à la mesure de Lebesgue ou de comptage– si i ≠ j, ∀t, t ′ , Y j,t et Y i,t ′ sont indépendantes6

On observe toujours la suite de récompenses X t définie par X t = Y It−1 ,t où I t représente lastratégie de tirage, F t -mesurable, avec F t = σ(I 0 , X 1 , ..., I t−1 , X t ). Dans ce cadre bayésien, onnote π t j = L(θ j|X 1 , ..., X t ) l’a posteriori sur le bras j après t tours de jeu. Le jeu du banditbayésien est alors décrit par l’étatS t = (π t 1, ..., π t K)qui représente les a posteriori courants sur chaque bras, avec S 0 les a priori π 1 , ..., π K . Si aprèsle tour t on choisit (I t = j), on observe X t+1 = Y j,t+1 et on effectue une mise à jour du posteriorsur le bras j :π t+1j∝ f(X t+1 ; θ j )πjtEn toute généralité, on pourrait donc chercher à construire des algorithmes bayésiens qui basentle choix d’une action au tour suivant sur l’état S t courant des a posteriori sur chaque bras.Le premier problème qui se pose est celui du choix de l’a priori : il faut soit pouvoir calculerl’a posteriori, soit au moins simuler sous ce dernier pour estimer les paramètres utiles àl’algorithme. Pour ce dernier cas, la simulation par une méthode MCMC serait possible, maison s’intéressera plutôt au premier cas. En particulier, nous allons dans la suite étudier deux casparticuliers, où l’a priori est conjugué à la vraisemblance du modèle et où de plus cet a priori(et donc l’a posteriori courant) est paramétré, ce qui permet de résumer S t par un ensemble deparamètres. Il s’agit des deux cas particuliers suivants :– bandits binaires : le bras j est distribué selon la loi de Bernoulli B(θ j ), et θ j ∼ Beta(a, b)– bandits gaussiens : le bras j est distribué selon la loi normale N ( µ j , σ 2) où la varianceσ 2 est connue, et µ j ∼ N ( ξ, σ02 )Nous allons dans ces deux cas nous intéresser à une modélisation précise du problème et à sarésolution, bayésienne ou fréquentiste.1.3 Regret fréquentiste, regret bayésienRésolution usuelle du problème fréquentiste On cherche une stratégie pour laquelle ona un contrôle de la moyenne des récompenses obtenues jusqu’à un instant n ou de manièreéquivalente pour laquelle le regret, défini par :R n = R n (θ) = E [ ∑n (µ ∗ − µ It−1 ) |θ ]t=1est faible. Ce regret mesure l’espérance de l’écart entre la récompense obtenue avec la stratégieoptimale (tirer n fois le bras optimal de moyenne µ ∗ ) et la récompense obtenue avec la stratégie(I t ). (on omettra la notation conditionnelle)Résolution du problème bayésien Si maintenant on traite le problème d’un point de vuebayésien, l’équivalent du regret que l’on peut définir sera une moyenne sur tous les paramètres θtirés sous l’a priori, du regret fréquentiste associé. En effet, l’espérance est prise sous le modèleprobabiliste associé au cadre bayésien, qui est différent : l’espérance n’est plus conditionnelle àθ. On note Rn b ce regret bayésien :Rn b = E [ ∑n (µ ∗ − µ It−1 ) ] = E θ∼Prior [R n (θ)]t=17

Un algorithme efficace pour le problème fréquentiste (càd de regret faible), sera en particulierefficace en moyenne sur les θ donc pour le problème bayésien. En revanche, trouver une stratégieefficace pour le problème bayésien n’assure pas qu’elle le soit également à θ fixé et donc pour leproblème fréquentiste...Quantifier le regret Une stratégie de regret ”faible” dans le cadre fréquentiste peut êtreefficace à temps fini lorsqu’on a pour tout n une majoration de R n , ou bien asymptotiquementlorsque que la borne est valable pour des n assez grand. Une certaine notion d’optimalitépourra être dégagée grâce à la borne de Lai et Robbins comme on le verra dans la partie suivante.Quant au regret bayésien, si on fixe l’a priori, nous verrons qu’il est possible de trouver desstratégies exactement optimale pour un horizon temporel n donné.Minimax ou Maximin ? Dans le cadre plus général des bandits adversariaux, la notion deregret minimax intervient, que l’on peut formuler dans le cadre particulier des bandits stochastiqueparamétriques de la façon suivante. Il s’agit de contrôler la grandeur suivante :min max R n (θ)stratégies θA l’inverse pour le cadre bayésien, on pourrait définir un regret maximin qui serait de la forme :maxmina priori stratégies Rb nD’autres manières de ”résoudre” le problème On s’est toujours intéressés dans ce quiprécède à la quantité R n ou Rn, b mais d’autres approches peuvent être envisagées : comme dansles MDP, on peut introduire un facteur γ < 1 de discount et s’intéresser à la somme infiniediscountée des récompenses :E [ ∑∞ γ t−1 ]X tt=1Ceci n’est pas fréquent dans le problème fréquentiste, mais c’est de cette manière que le problèmebayésien a d’abord été résolu par Gittins.8

2 Bornes de regret dans les algorithmes fréquentistes : Etat del’artDans le contexte fréquentiste, une stratégie optimale est une stratégie minimisant le regret(classique). Grâce à la borne inférieure, donnée en 1985 par Lai et Robbins, on peut quantifierle regret d’une telle stratégie. Au cours de mon stage je me suis familiarisée avec les différentsalgorithmes de bandits existant dans la littérature et les preuves de regret associées. Le butde cette partie est ainsi de présenter les idées qui sous-tendent les algorithmes tels que UCB,KL-UCB et les différents raffinements dans les preuves qui ont finalement conduit à prouverl’optimalité de tels algorithmes. Ces algorithmes sont pour la plupart des politiques d’indice :il s’agit d’une famille de politiques basée sur le calcul à chaque tour de jeu d’un indice deconfiance pour chaque bras et qui choisit le bras d’indice maximal.2.1 La borne inférieure de Lai-RobbinsLe contexte dans lequel Lai et Robbins présentent dans [11] une borne inférieure asymptotiqueest le cadre paramétrique simple, où la distribution ν j du bras j possède une densité f(˙,θ j )par rapport à une mesure donnée. On va présenter la preuve de la borne inférieure dans un casparticulier déjà évoqué plus haut : celui des bandits gaussiens.On rappelle le contexte des bandits gaussiens avec variance connue σ 2 . Pour tout j = 1...K unbras j correspond à une famille i.i.d (Y j,t ) suivant N ( θ j , σ 2) . Le paramètre Θ = (θ 1 , ..., θ K ) ∈ R Kcaractérise entièrement le problème, un bras j tel que θ j est maximal dans Θ est le bras optimalet son paramètre est désigné par θ ∗ , les bras tels que θ j < θ ∗ sont appelés sous-optimaux. Onnote :– Θ j : l’ensemble des problèmes ou le bras j est sous-optimal– Θ ∗ j : l’ensemble des problèmes où le bras j est l’unique bras optimalRegret et tirage des bras sous-optimaux Le regret d’une stratégie, qu’on veut minimiser,s’exprime en faisant intervenir les ∆ j = (θ ∗ − θ j ) et le nombre de tirages T n (j) de chacun desbras sous-optimaux :R n (θ 1 , ..., θ k ) =∑∆ j E[T n (j)]j:θ j

Remarque 2.1 Cette expression du regret en fonction du nombre de tirage des bras sousoptimauxest vraie aussi dans le contexte plus général des bandits paramétriques avec ∆ j = µ j −µ ∗(dans le cas gaussien, moyenne et paramètres sont confondus)La borne inférieure Intuitivement, une bonne stratégie est une stratégie qui va assez peutirer les bras sous-optimaux. Mais le théorème suivant nous dit que toute stratégie qui tireraitmême très peu les bras sous-optimaux, doit tout de même les tirer asymptotiquement chacunau moins de l’ordre deln nI(θ j ,θ ∗ ) .Theorème 2.1 Soit (I t ) une stratégie qui vérifie que pour tout paramètre Θ ∈ Θ ∗ jpour tout a > 0 ∑ i≠jE Θ [T n (i)] = o(n a )(la stratégie tire très peu les bras sous-optimaux dans les problèmes où il y a un unique optimal)Alors on a, pour tout problème où le bras j est sous-optimal, ie Θ ∈ Θ j :lim infn→∞E Θ [T n (j)]ln(n)≥1I(θ j , θ ∗ )Analyse de la borne Le terme qui intervient I(θ j , θ ∗ ) est la divergence de Kullback entredeux distributions normales de paramètres θ j et θ ∗ de variance connue σ 2 . Elle est définie ennotant f(x; θ) la densité de N ( θ, σ 2) par :I(θ, λ) =∫R[ ( f(x; θ)log= E Y ∼θ[log)f(x, λ)( f(Y ; θ)f(Y, λ)]f(x, θ) dx)]Cette dernière écriture fait apparaître un lien entre cette divergence et le rapport de vraisemblancef(Y ;θ)f(Y,λ) . La loi des grands nombres nous donne par exemple que si Y i est une famille i.i.dd’observations suivant de loi paramétrée par θ,1nn∑( ) f(Yi ; θ) p.s.log→ I(θ, λ)f(Y i , λ)i=1C’est ainsi que cette quantité apparaîtra dans la démonstration. La Kullback entre deux gaussiennespeut bien sûr concrètement êre calculée et on obtient :.I(θ, λ) =(θ − λ)22σ 210

Démonstration du théorème Pour fixer les idées, on va supposer que j = 1 et que dansΘ = (θ 1 , θ 2 , ..., θ k ) le bras θ 2 est un bras optimal (pas nécessairement unique). Fixons ɛ > 0 etmontrons que()lim P (1 − ɛ) ln(n)Θ T n (1) < = 0 (1)n→∞ I(θ 1 , θ 2 )L’hypothèse de l’énoncé concerne les problèmes où il y a un unique bras optimal, on va donc s’yramener en introduisant, pour λ > θ 2 le paramètre Γ = (λ, θ 2 , ..., θ k ). On a ainsi Γ ∈ Θ ∗ 1 et parhypothèse, pour tout a > 0 :E Γ [n − T n (1)] = ∑ i≠1E Γ [T n (i)] = o(n a )On en déduit alors par l’inégalité de Markov, pour tout 0 < δ < 1 que :() ()(1 − δ) ln(n)(1 − δ) ln(n)P Γ T n (1) < = P n − T n (1) > n −I(θ 1 , λ)I(θ 1 , λ)≤ E Γ[n − T n (1)]n − O(ln(n)) = o(na−1 )Et donc en particulier que lim n→∞ P Γ(T n (1)

En effet,P Γ (A) ======∑1≤n 1 ≤n∑1≤n 1 ≤n∑1≤n 1 ≤n∑1≤n 1 ≤n∑1≤n 1 ≤n∑1≤n 1 ≤nP(A ∩ (T 1 (n) = n 1 )) =∑ ∫g(Y 1,1 , ..., Y 1,n1 , n 1 )dP γ1≤n 1 ≤nT 1 (n)=n 1∫∏n 1g(y 1,1 , ..., y 1,n1 , n 1 ) f(y 1,i , λ)dy 1,1 ...dy 1,n1T 1 (n)=n 1 i=1∫∏n 1f(y 1,i , λ) ∏n 1g(y 1,1 , ..., y 1,n1 , n 1 )f(y 1,i , θ 1 )dy 1,1 ...dy 1,n1T 1 (n)=n 1f(yi=1 1,i , θ 1 )i=1∫∏n 1f(Y 1,i , λ)g(Y 1,1 , ..., Y 1,n1 , n 1 )T 1 (n)=n 1f(Yi=1 1,i , θ 1 ) dP Θ∫g(Y 1,1 , ..., Y 1,n1 , n 1 ) exp(−L n1 )f(Y 1,i , θ 1 )dP ΘT 1 (n)=n 1∫g(Y 1,1 , ..., Y 1,n1 , T 1 (n))1 (T1 (n)=n 1 ) exp(−L T1 (n))f(Y 1,i , θ 1 )dP Θ= E Θ[1A exp(−L T1 (n)) ]Introduisons maintenant l’événement{(1 − δ) ln(n)C n = T n (1) 1

En posant ˜ L n =I(θ 1,λ)(1−δ) ln(n) max (1−δ) ln(n) L1≤i≤ i on a L ˜ n → I(θ 1 , λ) P Θ − p.s et doncI(θ 1 ,λ)Ainsi lim n→∞ P Θ (A n ) = 0 et donc :P Θ(T n (1) θ 2 telque |I(θ 1 , λ) − I(θ 1 , θ 2 )| < δI(θ 1 , θ 2 ). On a finalement :P Θ(T n (1)

– N t (j) (ou T t (j)) : nombre de tirages du bras j avant l’instant t– S t (j) : récompenses cumulées obtenues par le bras j avant t– ˆµ t (j) = St(j)N t(j): moyenne empirique avant l’instant t des récompenses issues du bras jLai-Robbins introduisent une grandeur U t (j) pour chaque bras qui vérifie notamment U t (j) >ˆµ t (j) (son choix est assez complexe, nous ne le préciserons pas ici). U t (j) peut donc s’interprétercomme une Upper Confidence Bound pour le bras j et l’algorithme proposé fonctionne de lamanière suivante. On fixe 0 < δ < 1 K et :1. n=1..K : tirer le bras n2. A l’instant n :– choisir j n ∈ argmax{ˆµ n (j) : N n (j) ≥ δn}– si n = km + j (division euclidienne de n par k) on tire le bras j si ˆµ n (j n ) ≤ U n (j), lebras j n sinonLa stratégie proposée nécessite donc le calcul d’un indice de confiance U t (j) pour chaque bras,mais ce n’est pas une politique d’indice qui choisirait simplement le bras d’indice le plus élevé àchaque tour. L’exploration est ici assurée par le fait qu’on propose à chaque tour une alternativeau meilleur bras courant.L’exemple du cas gaussien En pratique, j’ai implémenté l’algorithme ci-dessus dans la casgaussien en choisissant l’indice défini par U t (j) = ˆµ t (j) + σ √ 2a t,Nt(j) aveca n,i = ln(n)i(1 +√ )in 2Dans un article de 1995,[10], Katehakis et Robbins montrent que pour le problème gaussien,on peut trouver une politique plus simple asymptotiquement optimale : la politique d’indiceassociée aux indices√2 log(t)B t (j) = ˆµ t (j) + σN t (j)Cet indice coïncide en fait avec celui d’UCB.2.2.2 L’idée d’UCB : une politique d’indice simpleL’article d’Auer et al. de 2002 [2] marque une étape importante dans les algorithmes de bandits,puisqu’il présente une politique d’indice, simple à comprendre et à implémenter, et pourlaquelle il propose une analyse à temps fini : c’est-à-dire un majorant du regret au temps n etnon plus une borne supérieure asymptotique. De plus, UCB est un algorithme destiné à un cadrenon nécessairement paramétrique où les récompenses de chaque bras sont supposées bornées.On note Y j,t les observations successive du bras j, i.i.d. de moyenne µ j . En posant (en plusdes notations S t (j) et N t (j) déjà introduites) :– ˆµ j,s = 1 ∑ ss t=1 Y j,s– c s,t =√α log(t)s14

L’indice d’UCB est B j (t) = ˆµ j,Nt(j) + c Nt(j),t. Cela représente la borne supérieure d’un intervallede confiance pour la moyenne µ j d’où l’appelation UCB.Pour majorer le regret de cette stratégie, il faut majorer l’espérance du nombre de tirage d’unbras sous-optimal. Supposons pour simplifier le bras 1 optimal et le bras 2 sous-optimal.L’idée d’UCB est que lorsque les bras 1 et 2 sont suffisament tirés on a à la fois :– pas de trop grande sous-estimation du bras optimal : µ 1 ≤ B 1 (t) (∗)– pas de trop grande sur-estimation du bras sous-optimal : µ 2 ≥ ˆµ 2,Nt(2) −c Nt(2),t (∗∗), doncB 2 (t) ≤ µ 2 + 2c Nt(2),tLorsqu’on est dans cette situation et qu’on tire le bras sous-optimal (cf. figure 1)Figure 1 – un tirage du bras sous-optimalon a B 2 (t) ≥ B 1 (t) donc 2c Nt(2),t ≥ ∆ 2 ce qui se réécrit au vu de l’expression de c s,t :4α log(t)N t (2) ≤∆ 2 2Ainsi, pour N t (2) assez grand, soit (∗) soit (∗∗) doit être pris en défaut. Or des inégalitésde concentration pour la moyenne empirique permettent de prouver que ceci arrive avec uneprobabilité assez faible.En effet, dans UCB pour le cadre des récompenses dans [0, 1], c s,t peut être choisi avec α = 3/2de sorte qu’on ait d’après l’inégalité de Hoeffding :P(ˆµ s (j) − µ j ≥ c s,t ) ≤ 1 t 3 (3)P(ˆµ s (j) − µ j ≤ −c s,t ) ≤ 1 t 3 (4)Finalement, on prouve la borne suivante sur le nombre de tirage des bras sous-optimaux :Theorème 2.2 Pour la stratégie UCB, on a pour α = 3/2 :E[N n (2)] ≤4α ln(n)∆ 2 2+ 1 + π2315

Preuve Posons K n =⌈4α ln(n)∆ 2 2⌉n∑n∑N n (2) ≤ K n + 1 It=2,Nt(2)≥K n= K n + 1 Bt(2)≥Bt(1),N t(j)≥K nt=K n t=K nn∑N n (2) ≤ K n + [1 µ1 ≥ˆµ 1,Nt (1)+c + 1 Nt (1),t µ 2 ≤ˆµ 2,Nt (2)−c ] Nt (2),tt=K nn∑E[N n (2)] ≤ K n + P ( )n∑µ 1 ≥ ˆµ 1,Nt(1) + c Nt(1),t + P ( )µ 2 ≤ ˆµ 2,Nt(2) − c Nt(2),t} {{ } } {{ }t=K n t=K nE[N n (2)] ≤ K n +E[N n (2)] ≤ K n +E[N n (2)] ≤n∑t=K n s ∗ =1∞∑4α ln(n)∆ 2 jAt∑P (µ 1 ≥ ˆµ 1,s ∗ + c s ∗ ,t) +t∑t=1 s ∗ =11t 3 ++ 1 + π23n∑t∑t=K n s=11t 3 ≤ K n + 2n∑t∑t=K n s=1∞∑t=11t 2BP ( )µ 2 ≤ ˆµ 2,s − c Nt(2),s(5)□2.2.3 UCB pour les gaussiennesLes bandits gaussiens ne rentrent pas dans le cadre des récompenses bornées ci-dessus caron ne peut pas utiliser l’inégalité de Hoeffding pour la moyenne empirique d’une gaussienne. Onpeut toutefois, en changeant légèrement l’indice adapter la preuve d’UCB, et en utilisant uneautre inégalité de concentration adaptée aux gaussiennes, adapter la preuve ci-dessus. On a parexemple l’inégalité de Chernoff :P(ˆµ j,s − µ j ≥ ɛ) ≤ e − 12σ 2 ɛ2 squi nous conduit à choisir dans l’indice de confiance pour les bras gaussiens c s,t =√α log(t)savecα = 6σ 2 pour que les équations 3 et 4 soient encore vraies et que la preuve fonctionne de lamême manière.2.2.4 L’optimalité d’UCB ?L’optimalité d’UCB dans le cadre non paramétrique est difficile à étudier, on va donc s’interrogersur son optimalité dans le cadre des bandits binaires et de son adaptation aux banditsgaussiens ci-dessus. On rappelle qu’on a les bornes suivantes, si j est sous-optimal :E[N n (j)]≤4 ln(n)(θ j − θ ∗ ) 2 + 1 + π23E[N n (j)] ≤ 24σ2 ln(n)(µ j − µ ∗ ) 2 + 1 + π23bandits binairesbandits gaussiensComparons ces bornes supérieures avec la borne inférieure asymptotique de Lai-Robbins.16

– pour les Bernoullis, on a par l’inégalité de Pinsker I(θ j , θ ∗ ) ≥ 2(θ j − θ ∗ ) donc la borneobtenue est (strictement) supérieure à 8 fois la borne optimale.– pour les Gaussiennes, on a directement I(θ j , θ ∗ ) = (µ j−µ ∗ ) 2donc la borne obtenue est2σ 2égale à 12 fois la borne optimale.Si on pouvait prendre des valeurs de α plus petites, on pourrait se rapprocher de cette borneoptimale. Mais on verra aussi qu’en raisonnant plus finement on peut gagner un facteur 4indépendamment de la valeur de α.2.3 Des raffinements successifs pour obtenir l’optimalité2.3.1 Inégalité maximale et ”peeling-trick”Une première manière de gagner un peu est de majorer différamment les termes A et B del’équation 5 ci-dessus. On n’utilise non plus l’inégalité de Hoeffding (resp. Chernoff) mais plutôtune inégalité maximale. Prenons l’exemple des gaussiennes :Proposition 2.1 X t i.i.d. ∼ N ( µ, σ 2) et S k = ∑ kt=1 X t. Alors on a les inégalités maximalessuivantesP( max S k − kµ ≥ ɛ) ≤ e − 1 21≤k≤nP( min S k − kµ ≤ −ɛ) ≤ e − 1 21≤k≤nPreuve On peut se ramener à (X t ) centrée.Remarquons que M n = e λSn est une sous-martingale :ɛ 2nσ 2ɛ 2nσ 2E[M n+1 − M n |F n ] = M n E[e λX n+1− 1|F n ] ≥ M n λE[X n+1 ] = 0On a alors d’après l’inégalité maximale : P(sup k=1..n M k ≥ C) ≤ 1 C E[M n] d’où() ()P sup S k ≥ ɛ = P sup M k ≥ e λɛ ≤ e −λɛ E[e λSn ] = e −(λ ɛ n −ln(E[eλX 1 ]))nk=1..nk=1..nineg.max.Ensuite en minorant le terme de droite en λ on trouve comme dans la technique de Chernoff(voir plus bas) P(max 1≤k≤n S k − kµ ≥ ɛ) ≤ e − 1 2Le terme A de l’équation 5 vérifieɛ 2nσ 2 .P ( µ 1 ≥ ˆµ 1,Nt(1) + c Nt(1),t) ≤ P (∃s ≤ t : µ1 ≥ ˆµ 1,s + c s,t ) = P(∃s ≤ t : S s (1) − sµ 1 ≤ − √ )αs log(t)Afin d’utiliser l’inégalité maximale, il faut que le second membre de l’inégalité ne dépende pasde s on va donc effectuer un découpage (peeling) selon les valeurs de s. Soit γ > 1.□17

≤≤(P ∃s ≤ t : S s (1) − sµ 1 ≤ − √ )αs log(t) ≤⌈ ⌉ ln(t)ln(γ)∑k=1⌈ ⌉ ln(t)ln(γ)∑k=1⌈ ⌉ ln(t)≤ln(γ)∑IMk=1Figure 2 – Le peeling⌈ ⌉ ln(t)ln(γ)∑k=1(√ )P ∃γ k ≤ s < γ k+1 : S s (1) − sµ 1 ≤ − αγ k log(t)P(√)mins=1...⌊γ k+1 ⌋ (S s(1) − sµ 1 ) ≤ − αγ k log(t)e − 12σ 2 γ k+1 αγk log(t)=( ln(t)ln(γ) + 1 ) 1t α2γσ 2(P ∃γ k ≤ s < γ k+1 : S s (1) − sµ 1 ≤ − √ )αs log(t)Or ceci est le terme général d’une série convergente (et dont on sait majorer la somme) pourα > 2σ 2 γ. On peut donc prendre α > 2σ 2 (puisque γ > 1 est quelconque). En revanche lasomme obtenue diverge lorsque α se rapproche de 2σ 2 . Ainsi on obtient pour les gaussiennesasymptotiquement :E[T n (j)] ≤ 4βσ2 ln(n)(µ j − µ ∗ ) 2 + o β(ln(n))pour β > 2 (avec divergence du reste en 2).Il manque donc toujours un facteur 4 pour se rapprocher de l’optimalité...2.3.2 Un autre découpageDans UCB on a été trop exigent lorsqu’on suppose à la fois que le bras optimal n’est passous-estimé et que le bras sous-optimal n’est pas surestimé. Ici on ne se sert s’intéresse qu’aupremier événement et on effectue le découpage suivant :N n (2) =n∑1 (µ1 ≥B 1 (t)) +t=1n∑t=11 (It=2)∩(µ 1 ≤B 1 (t))} {{ }CL’espérance du premier terme se majore comme précédement, à l’aide du peeling-trick. Lamanière de majorer le terme C a été proposée dans un contexte plus général (celui de l’algorithmeKL-UCB) par Aurélien Garivier et Olivier Cappé dans [4]. Nous l’écrivons ici pour les18

gaussiennes :n∑1 (It=2)∩(µ 1 ≤B 1 (t)) ≤t=1=≤=≤n∑t=1 s=1n∑t=1 s=1n∑t∑1 (It=2)∩(µ 1 ≤B 2 (t))∩(N t(2)=s) (6)t∑t∑t=1 s=1n∑s=1n∑s=11 α log(t)(It=2)∩(µ 1 ≤ˆµ s(2)+√)∩(N st(2)=s)1 α log(n)(It=2)∩(µ 1 ≤ˆµ s(2)+√)∩(N st(2)=s)1(µ1 ≤ˆµ s(2)+√ α log(n)s )1(µ1 ≤ˆµ s(2)+√ α log(n)s )n∑t=s1 (It=2)∩(N t(2)=s)⌈⌉Ensuite, on peut poser K n = (1 + ɛ) α log(n) et majorer l’espérance le terme C :σ 2(√ )n∑α log(n)C ≤ K n + P µ 1 ≤ ˆµ s (2) +≤ K n +ss=K n+1(√ )n∑1≤ K n + P µ 1 ≤ ˆµ s (2) + (µ 1 − µ 2 )1 + ɛs=K} n+1{{ }Dn∑s=K n+1⎛P ⎝µ 1 ≤ ˆµ s (2) +√⎞α log(n)⎠K nOn montre alors que le terme D (toujours à l’aide d’inégalité de concentration ou d’inégalitésmaximales) est négligeable devant log(n) et alors la borne supérieure asymptotique qu’on obtienten combinant ce nouveau découpage et l’astuce du peeling-trick pour la surestimation du brasoptimal est :E[T n (2)] ≤ (1 + ɛ) βσ2 ln(t)(µ j − µ ∗ ) 2 + o β(ln(n))et ce pour tout ɛ > 0 et β > 2. On est donc très proche de l’optimalité dans le cas des gaussiennes.Il n’en reste pas moins qu’en appliquant le même raisonnement dans le cadre des Bernoullis,on n’est proche asymptotiquement que de la majoration de la borne inférieure par l’inégalitéde Pinsker, qui n’est dans ce cas pas une égalité. Pour obtenir une borne supérieure faisantapparaître explicitement les divergences de Kullback qui interviennent dans la borne inférieure,un algorithme faisant intervenir directement des Kullback pourrait donc être intéressant... Cesera KL-UCB.2.4 L’algorithme KL-UCB et le formalisme associéUn algorithme de bandit basé sur des divergences de Kullback entre distributions empiriques,et qui atteindrait la borne inférieure a été présenté par Honda et Takemura dans [9] : il s’agitde DMED (Deterministic Minimum Empirical Divergence). Ce n’est toutefois pas directement19

une politique d’indice (on tient à jour une liste de bras à jouer), au contraire de l’algorithmeKL-UCB (qui a une certaines ressemblance avec DMED pour des distributions à support fini).Ca dernier algorithme a été étudié par l’équipe STA de Telecom, tout d’abord dans la thèse deSarah Filippi, puis dont l’optimalité a été montrée séparément par Aurélien Garivier et OlivierCappé dans [4] et par Rémi Munos, Odalric-Ambrym Maillard et Gilles Stoltz dans [13].2.4.1 De bonnes inégalités de concentrationKL-UCB va être optimal car au lieu de se servir de l’inégalité de Hoeffding comme dansUCB, on va utiliser une ”meilleure” inégalité de concentration. Une manière d’en construire estla méthode de Chernoff (voir par exemple [14]). On introduit les notations suivantes, pour unevariable aléatoire Z :[φ Z (λ) = log E e λZ] log de la transformée de Laplace ou fonction génératrice de Zφ ∗ Z(x) = sup λ∈R + {λx − φ Z (λ)}Si x > E[Z], le sup sur R + ci-dessus est aussi le sup sur R (cf. [14]), et φ ∗ Z(x) apparaît commela transformée de Fenchel-Legendre de la fonction φ Z .L’argument de Chernoff pour obtenir une majoration de la probabilité de déviation P(Z > x)est le suivant :P(Z ≥ x) = P(e λZ ≥ e λx )≤ e −λx E [ e λZ] = e −(λx−φ Z(λ))MarkovEt ceci pour tout λ > 0. En optimisant en λ ∈ R + puis en appliquant ceci à des familles i.i.d,on obtient le lemme suivant.Lemme 2.1 Soit Z un variable aléatoire et (Z n ) une famille i.i.d de loi celle de Z alors :P(Z ≥ x) ≤ e −φ∗ Z (x)P(S n ≥ x) ≤ e −nφ Z∗(xnP(ˆµ n ≥ x) ≤ e −nφ Z∗(x)Ces inégalités de concentration, avec la fonction φ ∗ Zsont optimales au sens des grandes déviations :Theorème 2.3 Avec les notations précédentes si Z est à valeurs dans R on a :Une conséquence pour les gaussiennes1limn→∞ n ln(P(ˆµ n ≥ x)) = −φ Z ∗ (x))Dans le cas où Z ∼ N ( 0, σ 2) ont peut explicitementcalculer la transformée de Laplace (e σ2 λ 22 ) puis optimiser pour obtenir φ ∗ Z(x) =x22σ 2 .L’inégalité de concentration utilisée ci-dessus pour l’adaptation d’UCB aux gaussiennes étaitdonc une ”bonne” inégalité de concentration, ce qui justifie qu’on peut obtenir une borne optimale.20

Une conséquence pour les variables aléatoires bornées L’inégalité de Hoeffding nes’obtient pas à partir de φ ∗ Zmais en utilisant avant d’optimiser en λ la majoration suivante deφ Z pour a ≤ Z ≤ b p.s :[φ Z (λ) = E e λZ] ( s 2 (b − a) 2 )≤ exp8(voir par ex [14]) et on optimise ensuite en λ en se servant de cette forme. Ainsi on obtient pourZ ∈ [0; 1] :P(S n ≥ x) ≤ e − 2x2nP(ˆµ n ≥ x) ≤ e −2nx2Et pour les Bernoullis ? On pourra avoir une meilleure inégalité de concentration pourles Bernoullis, et plus généralement pour les v.a. appartenant à une famille exponentielle à unparamètre, en cherchant directement une expression du taux optimal φ ∗ Z (x).2.4.2 KL-UCB pour la famille exponentielleOn suppose que pour chaque j les Y j,t appartiennent à une famille exponentielle de paramètreθ j . C’est à dire qu’il existe deux fonctions b et c (supposées connues et fixées pour tous les bras)telles que Y j,t possède une densité par rapport à la mesure de Lesbesgue ou de comptage de laforme :p θj (x) = exp(xθ j − b(θ j ) + c(x))Cette famille de distributions (p θ ) a la particularité que chacune est exactement caractérisée parsa moyenne µ(θ) = b ′ (θ).Transformée de Fenchel-Legendre dans une famille exponentielle La transformée deFenchel-Legendre de φ Z pour une variable aléatoire Z ∼ p θ appartenant à une famille exponentiellepeut être calculée. On noteφ˜Z (x) = sup{λx − ln E pθ [exp(λZ)]}λ∈Rgrandeur qui coïncide avec φ ∗ Zdéfinie plus haut si x > E[Z].Définition 2.1 Dans le cas d’une famille exponentielle, on a vu que la distribution ne dépendque de sa moyenne µ(θ) donc on peut introduire la notation pour Z ∼ p θd(x, µ(θ)) := ˜ φ Z (x)Lemme 2.2 Soit Z ∼ p θ . Avec les notations précédentes, on a pour x = µ(β), le sup dans ladéfinition de ˜φ Z (x) est atteint en λ = β − θ etd(µ(β), µ(θ)) = KL(p β , p θ ) = µ(β)(β − θ) − b(β) + b(θ)21

Preuve d(µ(β), µ(θ)) = ˜φ Z (µ(β)) où Z ∼ p θ . Calculons cette transformée de Legendre.[E e λZ] ∫= exp(λx) exp(θx − b(θ) + c(x))dx∫R= exp(b(λ + θ) − b(θ)) exp((λ + θ)x − b(λ + θ) + c(x))dxR= exp(b(λ + θ) − b(θ))˜φ Z (µ(β)) = sup {λµ(β) − b(λ + θ) + b(θ)}λLe sup est atteint pour λ ∗ vérifiant µ(β) = b ′ (θ + λ ∗ ) ⇔ µ(β) = µ(θ + λ ∗ ) soit λ ∗ = β − θ etdoncd(µ(β), µ(θ)) = (β − θ)µ(β) − b(β) + b(θ)Vérifions que KL(p β , p θ ) est égal à cette grandeur :∫ ( )exp(xβ − b(β) + c(x))KL(p β , p θ ) = logexp(θx − b(θ) + c(x))dxR exp(xθ − b(θ) + c(x)))∫= ((β − θ)x − b(β) + b(θ)) exp(θx − b(θ) + c(x))dx = (β − θ)µ(β) − b(β) + b(θ)RCe résultat permet d’obtenir, par la méthode de Chernoff, une inégalité de concentration pourla moyenne empirique d’une famille i.i.d de loi p θ :Lemme 2.3 Soit ˆµ n = 1 n∑ nt=1 X t où X t i.i.d de loi p θ . Alors pour tout x > µ(θ) :P(ˆµ n ≥ x) ≤ e −nd(x,µ(θ))On peut par ailleurs étudier la régularité de l’application d à travers le lemme suivant :Lemme 2.4 L’application x ↦→ d(x, µ) est continue, strictement décroissante à gauche de µPreuve Notons µ = µ(θ). Notons tout d’abord que l’application µ : θ ↦→ µ(θ) est strictementcroissante et à dérivée > 0 : µ −1 est donc également dérivable et strictement croissante. D’aprèsle lemme 2.2 :d(x, µ) = x(µ −1 (x) − θ) − b(µ −1 (x)) + b(θ) = H(µ −1 (x))Soit H(y) = µ(y)(y − θ) − b(y) + b(θ) : H est dérivable avec H ′ (y) = µ ′ (y)(y − θ) + µ(y) − b ′ (y) =µ ′ (y)(y − θ) et on a d(x, µ) = H(µ −1 (x)). Ainsi, d est dérivable en x par composition de deuxfonctions dérivables etddx d(x, µ) = H′ (µ −1 (x)) × µ ′ −1 (x) = µ ′ (µ −1 (x))(µ −1 (x) − θ)µ ′ −1 (x)quantité strictement négative si x < µ (⇔ µ −1 (x) < θ) d’où la décroissance. La continuité vientde la dérivabilité.□□22

L’algorithme KL-UCB pour la famille exponentielle Maintenant que la grandeur d estbien définie on peut introduire l’indice utilisé pour chaque bras dans l’algorithme KL-UCB :{( )}St (j)u t (j) = max q ∈ θ : N t (j)dN t (j) , q ≤ ln(t) + c ln(ln(t))Une borne de regretTheorème 2.4 Si j est un bras sous-optimal et j ∗ un bras optimal, on a pour tout ɛ > 0 lenombre de tirages du bras j dans l’algorithme KL-UCB avec c = 3 qui vérifie :E[N n (j)] ≤log(n)d(µ j , µ ∗ j )(1 + ɛ) + R n(ɛ)Démonstration On peut montrer de la même manière que dans la version la plus précised’UCB (calcul effectué pour les gaussiennes page 19) que :[n∑n∑]E[N n (2)] ≤ P(µ 1 > u 1 (t)) + E 1 (sd(ˆµ2,s ,µ 1 ) u 1 (t)) est petit pour chaque t, en se servant d’une martingale bien choisie.Etude du terme A On commence par établir le théorème suivant qui va nous aider à majorerchacun des termes de la somme dans A :Theorème 2.5 Soit (X t ) une suite de va i.i.d. suivant p θ telle que E[p θ ] = µ, et ɛ une suiteF t−1 -prévisible ou σ(X 1 , ..., X t ) ⊂ F t−1 . En posant pour tout δ > 0, avec d(x, µ) comme définici-dessus :S(t) =t∑ɛ s X s , N(t) =s=1t∑ɛ s ,s=1u(n) = argmax {q > ˆµ n : N(n)d (ˆµ(n), q) ≤ δ} .ˆµ(t) = S(t)N(t) ,AlorsP(u(n) < µ) ≤ e⌈δ ln(n)⌉ exp(−δ)Demonstration du théorème On définit pour tout λ ∈ R et tout µ, φ µ (λ) = ln E[exp(λX 1 )]où X 1 ∼ p θ (d’espérance µ d’où l’indexation par la moyenne). Si bien que d(x, µ) = sup λ {λx −φ µ (λ)} : on note que d’après le lemme 2.2, d(x, µ) = λ(x)x − φ µ (λ(x)) pour un certain λ(x) =µ −1 (x) − θ (pour µ = µ(θ)).23

Une martingale Pour tout λ ∈ R la variable aléatoireest une martingale. En effet,W λ t= exp(λS(t) − N(t)φ µ (λ))[ ]E exp (λ {S(t + 1 − S(t)}) |F t[ ]= E exp (λɛ t+1 X t+1 ) |F t = 1 ɛt+1 =0 + 1 ɛt+1 =1E[e λX]()= exp ɛ t+1 ln E [exp (λX 1 )]( )= exp ɛ t+1 φ µ (λ) = exp({N(t + 1) − N(t)} φ µ (λ))donc E [exp(λS(t + 1) − N(t + 1)φ µ (λ))|F t ] = exp(λS(t) − N(t)φ µ (λ)) en utilisant le fait queN(t + 1) et S(t) sont F t - mesurables.Le peeling trick L’idée est de raisonner suivant la valeur de N(n) : mais plutôt que d’utiliserune borne de l’union on va découper astucieusement en tranche de taille de plus en plus grande,et sur chacune on fera intervenir la martingale précédemment définie, pour un λ adapté. Fixonsγ > 1 et posons t k = ⌊ γ k⌋ . On a alors :P (u(n) < µ) ≤⌈ln(n)/ ln(γ)⌉∑k=1P((t k−1 < N(n) ≤ t k ) ∩ (u(n) < µ) )} {{ }A kSur A k on a ˆµ(n) < µ et N(n)d(ˆµ(n), µ) > δ. Et t k−1 < N(n) ≤ t k ⇒ γ k−1 ≤ N(n) ≤ γ k . Ona donc :– d(ˆµ(n), µ) ≥ δN(n) ≥ δγ k– d(µ, µ) = 0d’après le lemme 2.4, il existe un unique ˆµ(n) < z k < µ tel que d(z k , µ) = δ et pour ce zγ kk ilexiste un λ(z k ) (d’après le lemme 2.2) tel que d(z k , µ) = λ(z k )z k −φ µ (λ(z k )). On peut remarquerque λ(z k ) = µ −1 (z k ) − θ < 0 et donc :λ(z k )ˆµ(n) − φ µ (λ(z k )) ≥ λ(z k )z k − φ µ (λ(z k )) = d(z k , µ) = δγ k ≥On vient de montrer queD’oùP(A k ) ≤ POn a doncA k ⊂(λ(z k )S(n) − N(n)φ µ (λ(z k )) ≥ δ )γδγN(n)(( )) (W λ(z k) δn ≥ exp ≤ exp − δ )E[W λ(z k)n ] =(−γ Markov γexp δ )(E[W λ(z k)0 ] = exp − δ )martingale γγOn choisit maintenant γ =obtient que :P (u(n) < µ) ≤⌈ ⌉ (ln(n)exp − δ )ln(γ) γδδ−1 et en remarquant que (pour δ > 1) ln (δδ−1P (u(n) < µ) ≤ ⌈δ ln(n)⌉ exp (−δ + 1))≥ 1 δ(concavité) on24

Remarque 2.2 L’algorithme UCB pour les bandits gaussiens décrit et étudié dans la partieprécédente était en fait un cas particulier de KL-UCB. En effet, les lois gaussiennes de variancesconnues forment une famille exponentielle, pour laquelle on a d(µ, µ ′ ) = (µ−µ′ ) 2: on peut donc2σ 2utiliser le formalisme de la preuve ci-dessus pour prouver l’optimalité de cet algorithme.2.4.3 KL-UCB pour des variables aléatoires indépendantes bornéesTransformée de Fenchel-Legendre pour des variables aléatoires bornéesLemme 2.5 Soit X une variable aléatoire à valeurs dans [0, 1] d’espérance µ. Alors pour toutλ ∈ RE[exp(λX)] ≤ 1 − µ + µ exp(λ) = E[exp(λX 1 )]où X 1 suit B(µ)On en déduit donc par la méthode de Chernoff l’inégalité de concentration suivante pour lamoyenne empirique d’une somme de variables alétoires indépendantes à valeurs dans [0, 1] :Lemme 2.6 (X t ) une famille de va indépendantes à valeurs dans [0, 1], de moyenne µ, etˆµ(n) = 1 n∑ nt=1 X t alors pour tout x > µ :où d(x, y) = KL(B(x), B(y))P(ˆµ(n) > x) ≤ e −nd(x,µ)Demonstration du lemme Soit λ > 0, on applique la technique usuelle de Chernoff :Et particulier, on a :P(ˆµ(n) ≥ x) = P(S n ≥ nx) = P(e λSn ≥ e λnx )≤≤lemme2.5e −λnx E[e λ ∑ nt=1 Xt ] =indep.e −λnxn ∏t=1e −λnx ( E[e λY ]) navec Y ∼ B(µ)= e −n(λx−log E[eλY ])P(ˆµ(n) ≥ x) ≤ e −nφ∗ Y (x)E[e λXt ]mais d’après la définition 2.1 et le lemme 2.2, pour Y ∼ B(µ), et x > µ, on a φ ∗ Y (x) = ˜φ Y (x) =d(x, µ)Comme pour démontrer l’inégalité de Hoeffding, on se sert ici d’une majoration de φ Z la transforméede Laplace d’une v.a. bornée : mais cette inégalité est plus fine que la précédente, etsurtout c’est une égalité pour les variables de Bernoulli, ce qui justifie que la version modifiéede KL-UCB qui va en découler sera optimale pour les bandits binaires...□□26

L’algorithme KL-UCB pour les variables aléatoires bornées Vu le lemme précédent,on définit pour un jeu de bandit à récompenses dans [0; 1] l’indice suivant :{( )}St (j)u t (j) = max q ∈ θ : N t (j)dN t (j) , q ≤ ln(t) + c ln(ln(t))où d(x, y) = KL(B(x), B(y)) (correspond à l’indice précédent pour le jeu de bandits binaires).Une borne de regret On a la même borne de regret :E[N n (j)] ≤log(n)d(µ j , µ ∗ j )(1 + ɛ) + R n(ɛ)toujours pour d(x, y) = KL(B(x), B(y)) (donc l’algorithme est optimal pour les Bernoulli).Ce qui change dans la preuve...change en deux endroits :On pose φ µ (λ) = log E[exp(λX)] où X ∼ B(µ) La preuveDans la partie A Dans la démonstration du théorème 2.5, Wt λ n’est plus une martingalemais une surmartingale. En effet,[ ] [ ] ()E exp (λ {S(t + 1 − S(t)}) |F t−1 = E exp (λɛ t+1 X t+1 ) |F t−1 = exp ɛ t+1 ln E [exp (λX 1 )]( ) ()≤ exp ɛ t+1 φ µ (λ) = exp {N(t + 1) − N(t)} φ µ (λ)On n’a donc plus l’égalité E[W λ(z k)n ] = E[W λ(z k)0 ], mais l’inégalité E[W λ(z k)n ] ≤ E[W λ(z k)0 ] qu’ondéduit de la propriété de surmartingale nous suffit !Dans la partie B On procède de la même manière mais en utilisant l’inégalité de concentrationdéduite du lemme 2.6 à la place de celle utilisée dans l’équation (7).2.5 D’autres gestions de l’explorationLes bornes à horizon fini qu’on obtient sont des majoration de R n . On peut aussi imaginerqu’on joue jusqu’à un horizon n connu à l’avance. On peut montrer que l’algorithme modifiéen remplaçant dans l’indice de KL-UCB (ou même plus tôt UCB) t par n a la même borne deregret. On peut d’ailleurs s’intéresser à d’autres formes de gestion de l’exploration :– remplacer t partN t(j)– remplacer t parnN t(j)(diminuer l’exploration des bras beaucoup tirés...)(...et tenir de plus compte de l’horizon)L’algorithme MOSS (Minimax Optimal Strategy in the Stochastic Case) proposé par Audibertet Bubeck (cf. [1]) était en quelque sorte une modification d’UCB en utilisant l’indicenN . t(j)Par ailleurs, dans [4] sur des tests numériques, l’algorithme KL-UCB+ (qui utilise un indicetmodifié tenant compte deN t(j)) semble donner de meilleurs résultats que KL-UCB. On verradans le cadre des algorithmes d’inspiration bayésienne étudiés dans la partie 4 que ces gestionsalternatives de l’exploration peuvent apparaître naturellement.27

3 Gittins et la résolution du problème bayésienD’aucuns affirment que Gittins dans son article de 1979 a ”résolu” le multiarmed banditproblem dans le cadre bayésien. Ce n’est pas entièrement vrai, puisqu’il a abordé uniquement lesdeux cadres des bandits binaires et gaussiens évoqués ci-dessus. Ces deux problèmes sont en faitdes exemples de Family of Alternative Bandit Process (FABP), qui sont des MDP particuliersque l’on va présenter brièvement ci-dessous, et pour lesquels Gittins a démontré de manièregénérale qu’il existait des politiques d’indice optimales. Mais comprendre exactement commentces problèmes se placent dans ce cadre demande un peu de précision.3.1 Un cadre plus général : Family of Alternative Bandit ProcessOn suppose connue la notion de processus decisionnel de Markov (ou MDP) qui est unprocessus stochastique contrôlé assignant des récompenses aux transitions entre états. Voici unexemple graphique où l’on voit les états (S 0 , S 1 , S 2 ), les actions possibles (a 0 , a 1 ) en chaque état,les probabilités de transition vers les autres états étant donné le choix d’une action en un état,et les récompenses qui résultent de ces transitions (flèches jaunes).On rappelle que résoudre un MDP c’est trouver une politique optimale (choix d’une actionen fonction de la trajectoire jusqu’à présent dans le MDP). L’optimalité peut se mesurer selonplusieurs critères. Nous nous concentrerons sur deux d’entre eux : le critère infini discounté(maximiser l’espérance de la somme infinie discountée des récompenses), et le critère fini sansdiscount (maximiser l’espérance de la somme finie des récompenses).Pour des MDP à espace d’états et d’actions finis, une résolution ”exacte” est possible grâceà la résolution d’une équation de programmation dynamique. Nous allons voir plus loin commentla résolution de MDP nous conduira à des politiques intéressantes pour le problème dubandit.Qu’est-ce qu’un Bandit process ? Un processus de bandit D est un MDP très simplepossédant :– un espace d’états X– deux actions {0, 1}– l’action 0 correspond à un gel du processus, caractérisé par les transitions et récompensessuivantes :P (x, 0, x) = 1 R(x, 0) = 0Un BP est donc entièrement caractérisé par la transition et la récompense associée à l’action 1,qui correspondent à la continuation du processus de bandit.28

Qu’est-ce qu’une FABP ? Une famille de processus de bandits alternants (ou Family of AlternativeBandit Process - FABP) est obtenue en concaténant K processus de bandit D 1 , ..., D K ,ce qui forme le MDP suivant :– espace d’état X 1 × X 2 × ... × X K– actions ɛ j = (0..010..0) j = 1...K où le 1 est en position j– le choix de l’action j continue le processus j et gèle les autres, ce qu’on peut écrire :p((x 1 , ..., x K ), ɛ j , (y 1 , ..., y K )) = p Dj (x j , 1, y j ) × ∏ 1 yk =x kk≠jDans notre problème... Ce sont les paramètres courants des a posteriori qui vont jouerle rôles des états de chacun des ”bandit process”, et les mises à jours bayésiennes celui destransitions. On va regarder plus en détails dans les sections suivantes comment la formulationsous forme de MDP apparaît naturellement lorsqu’on cherche à résoudre les deux problèmes debandits binaires et gaussiens.La politique d’indice de Gittins pour des FABP Gittins donne une résolution de cettefamille de MDP, pour le critière infini discounté, via une politique indice optimale. Dans ce cadreinfini discounté, le premier indice introduit par Gittins est pour un bras D dans l’état x :[ ∑τ−1]Et=0 γt R(t)|x(0) = xν(D, x) = sup [ ∑τ−1]temps d’arrêt>0 Et=0 γt |x(0) = xqui correspond à la récompense maximale par unité de temps discounté qu’on peut obteniren choisissant le bras D qui est dans l’état x (γ est le facteur de discount). La politique deGittins peut alors être vue comme le choix à chaque tour du bras maximisant cette ”récompenseinstantanée”. Mais une autre manière d’interpréter ces indices (et de les calculer...) est de faireintervenir pour chaque bras un problème de calibration, que nous appelerons dans la suite leproblème B λ , et que nous étudierons en détails dans le cas particulier des bandits Bernoullis.L’idée majeure est de réduire la dimension du problème : pour chaque bras on va seramener à la résolution de plusieurs MDP beaucoup plus simples permettant le calcul de l’indicede Gittins.Contributions de ce stage Dans la suite nous allons adapter l’idée de Gittins, au sens oùnous allons aussi regarder les problèmes de bandits bayésiens comme des MDP, et que nousallons aussi introduire les problèmes de calibration associés, mais ces MDP seront traités directementsans discount et avec un horizon fini. Ceci conduira à la définition de nouveaux indices,dépendant du temps de jeu, qui définiront une politique optimale pour le problème du bandit àhorizon fini.Nous allons donc détailler la modélisation de ce problème comme un MDP, ainsi que sa résolutionpar un calcul d’indices de type indices de Gittins. Nous montrerons en particulier l’optimalitéd’une telle politique. Ceci se généralisera également au problème des bandits gaussiens avec priorgaussiens, qui définissent pourtant un MDP un peu plus compliqué.29

3.2 Le problème de bandits binaires bayésienOn se donne :– θ 1 , ..., θ K i.i.d. ∼ Beta(a, b)– une suite (V t ) t≥1 i.i.d suivant U([0, 1]) indépendante des θ j– une stratégie I t construite récursivement avec I 0 une variable aléatoire quelconque etI t ∈ σ(X 1 , ..., X t , I 0 , ..., I t−1 ) donnant l’action choisie après l’observation de t tirages– X t = 1 (Vt≤θ It−1 ) donne la récompense obtenue à l’instant tCeci modélise le problème du bandit : on veut choisir le bras à tirer à l’instant t + 1 à partir del’observation des récompenses successivement obtenues et des bras successivement tirés jusqu’àl’instant t . La filtration associée que l’on considère et qui résume l’information disponible àl’instant t après l’observation de t tirages est :F t = σ(X 1 , ..., X t ) = σ(I 0 , X 1 , I 1 , X 2 , I 2 , ..., I t−1 , X t )⎛0⎞0Statistique suffisante résumant le jeu On définit S 0 = ⎝. . ⎠ ∈ M K,2 (N) et on utilise0 0⎛ ⎞ ⎛ ⎞0 00 0. .les matrices élémentaires E j,1 =⎜1 0⎟⎝. . ⎠ et E . .j,2 =⎜0 1⎟ où seule la j-ème ligne est non nulle.⎝. . ⎠0 00 0On définit par récurrence {St = S t−1 + E It−1 ,2−X tR t = X t(S t ) 0≤t≤T résume l’histoire du jeu à l’instant T : S T (j, 1) (resp. S T (j, 2)) donne le nombre de1 (resp. de zéros) qui ont été observés en tirant le bras j avant T et S t − S t−1 nous donneprécisemment le bras qui a été tiré à l’instant t et la récompense obtenue. On a doncF t = σ(S 0 , S 1 , ..., S t )On comprend bien sur l’illustration suivante pour T = 11 comment le jeu est résumé : danscette partie il y a 3 bras et on a tiré trois fois le bras 1, observé un 1 et deux 0, six fois le bras2 avec cinq 1 et un 0 et deux fois le bras 3 sans obtenir de récompense.On peut noter que grâce à l’update bayésien, la j-ème ligne de S t représente également exactementl’état de l’a posteriori courant sur le bras j (si on lui rajoute l’a priori initial Beta(a, b)).Cela sera utile dans le lemme suivant, qui permet d’interpréter S t et R t comme respectivement30

les états et les récompenses dans un MDP, dont on précisera les transitions et la fonction derécompense immédiate.Lemme 3.1E[θ j |F t ] = E[θ j |S t ] =S t (j, 1) + aS t (j, 1) + S t (j, 2) + a + bPreuveCalculons l’espérance conditionnelle de gauche.E[θ j |F t ] = E[θ j |I 0 , X 1 , ..., I t−1 , X t ]∑=E[θ j |I0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ]i 0 ,...,i t−1 , x 1 ,...,x t×1 (I0 =i 0 )∩...∩(I t−1 =i t−1 )∩(X 1 =x 1 )∩...∩(X t=x t)Où l’on somme sur les éléments tels que P ((I 0 = i 0 ) ∩ ... ∩ (I t−1 = i t−1 ) ∩ (X 1 = x 1 ) ∩ ... ∩ (X t = x t )) ≠0. Calculons plus précisemment E[θ j |I0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ]. On a :p(θ j |I 0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ) = p(I 0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t |θ j )π(θ j )p(I 0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t )= P((V 1 ≤ / ≥ θ i0 ) ∩ ... ∩ (V t ≤ / ≥ θ it−1 )|θ j )π(θ j )P(I 0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t )∏∝ (1 − θ j ) 1−x lθ x lj (1 − θ j) b θjaAinsi on a montré queL(θ j |I0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ) = Betaet vu l’espérance d’une loi beta on a alorsE[θ j |I0 = i 0 , X 1 = x 1 , ..., I t−1 = i t−1 , X t = x t ] =l : i l−1 =j(a +t∑1 (il−1 =j)x l , b +l=1a + ∑ tl=1 1 (i l−1 =j)x la + b + ∑ tl=1 1 (i l−1 =j)=)t∑1 (il−1 =j)(1 − x l )l=1S t (j, 1) + aS t (j, 1) + S t (j, 2) + a + bpar définition de S t . Il en est de même pour E[θ j |F t ], ce qui démontre la première égalité.S t(j,1)+aLa variable aléatoireS étant σ(S t(j,1)+S t(j,2)+a+b t)-mesurable, et σ(S t ) ⊂ F t on a aussi[]S t (j, 1) + aE[θ j |S t ] = E[E[θ j |F t ]|S t ] = ES t (j, 1) + S t (j, 2) + a + b∣ S S t (j, 1) + at =S t (j, 1) + S t (j, 2) + a + b□31

3.3 La résolution du problème de bandit comme résolution d’un MDPNotre but est de montrer que (S t ) t≥0 est une trajectoire dans un MDP, sous une politiquedéterminée par I t , avec la récompense naturelle R t = X t . Le calcul suivant permet d’avoir uneidée du MDP à considérer :P(S t+1 = S + E j,1 |S t = S, I t = j) = P(X t+1 = 1|S t = S, I t = j)= P(V t+1 ≤ θ j |S t = S, I t = j)= E[1 Vt+1 ≤θ j|S t = S, I t = j]= E[E[1 Vt+1 ≤θ j|S t = S, θ j ]|S t = S]= E[θ j |S t = S]=lemmeS(j, 1) + aS(j, 1) + S(j, 2) + a + bOn considère le MDP donnée par :– les états S ∈ M K,2,( N) (représentant les paramètres de la loi beta donnant le posteriorsur chacun des bras)– les actions 1...K (choix d’observer un bras)– les transitions P(S, a, S + E a,1 ) = 1 − P (S, a, S + E a,2 ) =)– les récompenses R(S, a) ∼ B(S(a,1)+aS(a,2)+a+bS(a,1)+aS(a,1)+S(a,2)+a+bLe calcul ci-dessus montre que (S t , R t ) est une trajectoire sous la politique donnée par I t pource MDP, selon le schéma suivant :On peut résoudre plusieurs types de problème de bandit :1. résoudre le problème infini discounté (comme cela est fait par Gittins) : trouver unestratégie (politique) maximisant E[ ∑ ∞t=1 γt−1 X t ] avec 0 < γ < 12. résoudre le problème à horizon T (ce qu’on a envie de faire comme dans le cadrefréquentiste) : trouver une stratégie maximisant E[ ∑ Tt=1 X t]Ce problème revient donc à résoudre le MDP ci-dessus, càd en trouver une politique optimale :1. pour le premier cas, dans le cadre horizon infini, discount γ2. pour le second cas, dans le cadre d’un horizon fini T , sans discount (avec une récompenseterminale nulle)On connaît la forme de politique optimale pour ces différents critères :32

1. dans le cadre infini, il existe des politiques markoviennes stationnaires optimales, donnéespar l’équation de Bellmann : cela signifie que à chaque instant le choix de I t se ferauniquement en fonction de S t2. dans le cadre fini, il existe des politiques markoviennes optimales (mais non stationnaires) :le choix de I t va dépendre de S t et du temps de jeu tRemarque 3.1 On voit donc que dans ces stratégies optimales pour le problème du bandit, markoviennesdans les deux cas, l’ordre dans lequel ont été tirés les bras ainsi que l’ordre d’apparitiondes 0 et des 1 n’influence pas la décision prise.Dans le cas fini qui nous intéresse à partir de maintenant (puisque c’est là qu’on se différenciedu traitement de Gittins), on peut explicitement calculer par programmation dynamique lapolitique optimale π, via le calcul de la fonction valeur optimale V :V (T, S) = 0V (t, S) = max j,1) + (1 − R(S, j)) × V (t + 1, S + E j,2 ))j=1...Kπ(t, S) = argmax j=1...K (R(S, j) + R(S, j) × V (t + 1, S + E j,1 ) + (1 − R(S, j)) × V (t + 1, S + E j,2 ))Le calcul est toutefois coûteux car le nombre d’états est très grand, on va donc s’inspirer despolitiques d’indice proposées par Gittins et montrer qu’il suffit de calculer des indices à chaqueinstant pour chaque bras et de choisir celui qui a l’indice le plus grand. Dans le cadre infini,l’indice du bras j à l’instant t dépend de S t (j, :) uniquement, dans le cadre fini il semble naturelque cet indice dépende aussi du temps de jeu t.Le calcul des indices repose sur une simplification du problème.3.4 Les indices de Gittins3.4.1 Problème de calibration associé à chaque bras : un problème d’arrêt optimalà horizon fixéOn s’intéresse maintenant à un bras fixé parmi les K ci-dessus. On suppose qu’à un instantt du jeu, ce bras est dans l’état (s 1 , s 2 ) = (S t (j, 1), S t (j, 2)). On notera alors plus simplementpour un bras donné ˜S t = (S t (j, 1), S t (j, 2)).Pour définir l’indice de confiance accordé à un brasdans un état S t à l’instant t, il convient de présenter le problème ”un bras et demi”, qui peut serésoudre comme un MDP plus simple que le précédent ou en traitant directement le problèmed’arrêt optimal associé à l’aide de la notion d’enveloppe de Snell.Problème B λ et arrêt optimal Le problème B λ est le jeu suivant. Soit λ ∈ [0; 1] un réelfixé. On joue sur un horizon temporel T et à chaque instant de jeu, on peut choisir de tirer lebras et de recevoir la récompense associée ou de ne pas jouer et de recevoir la récompense λ. Leproblème est modélisé par :– θ ∼ Beta(a, b) l’a priori sur le bras– (V t ) ⊥ θ i.i.d. ∼ U([0, 1])– X t = 1 (Vt≤θ),˜Xt = X t 1 It−1 =1, ˜Ft = σ( ˜X 1 , ..., ˜X t )33

– I t˜Ft -mesurable à valeurs dans {0; 1} indiquant si on joue (1) ou non (0) : on ajoute queI t peut également dépendre d’une tribu indépendante de ˜F tLes états résumant le problème sont ici donné par :{ ˜St = ˜S t−1 + 1 (It−1 =1)E 1,2−Xt˜R t = X t 1 (It−1 =1) + λ1 (It−1 =0)On vérifie que l’on a :– P( ˜S t = S| ˜S t−1 = S, I t−1 = 0) = 1– P( ˜S t = S + 1| ˜S t−1 = S, I t−1 = 1) =S(1)+aS(1)+S(2)+a+b– E[ ˜R t | ˜S t−1 = S, I t−1 = 0] = λ– E[ ˜R t | ˜S S(1)+at−1 = S, I t−1 = 1] =S(1)+S(2)+a+bCe qui nous donne les transitions et la fonction de récompense immédiate associée au MDP( ˜S t−1 , I t−1 ) −→ ( ˜S t , ˜R t ), qui a un espace d’état et un nombre d’actions bien plus faible que leMDP initial à K bras...Equation de Bellmann et solution du MDP On écrit l’équation de Bellmann pourla fonction valeur optimal de ce MDP, qui dépend de λ et qu’on notera en toute généralitéV (λ, t, (s 1 , s 2 )), ou V (t, (s 1 , s 2 )) lorsqu’il n’y a pas de confusion possible.V (T, (s 1 , s 2 )) = 0{V (t, (s 1 , s 2 )) = max λ + V (t + 1, (s 1 , s 2 ));(+ 1 −s 1 + as 1 + s 2 + a + bs 1 + as 1 + s 2 + a + b +)V (t + 1, (s 1 , s 2 + 1)s 1 + as 1 + s 2 + a + b V (t + 1, (s 1 + 1, s 2 )}La politique optimale choisissant en (t, (s 1 , s 2 )) l’argmax. L’équation de Bellmann nous permetde montrer le lemme suivant :Lemme 3.2 Les politiques optimales sont des politiques d’arrêt : si à l’instant t on décide dechoisir λ (soit d’arrêter de jouer), on choisit également λ à l’instant t + 1Démonstration Supposons qu’une politique optimale choisisse l’action 0 dans l’état (s 1 , s 2 )en t : on a alors par définition de la politique optimales 1 + aλ + V (t + 1, (s 1 , s 2 )) ≥s 1 + s 2 + a + b + s 1 + as 1 + s 2 + a + b V (t + 1, (s 1 + 1, s 2 )s 1 + a+s 1 + s 2 + a + b V (t + 1, (s 1 + 1, s 2 )Or on a également par définition de la fonction valeur :V (t + 1, (s 1 + 1, s 2 )) ≥ λ + V (t + 2, (s 1 + 1, s 2 ))V (t + 1, (s 1 , s 2 + 1)) ≥ λ + V (t + 2, (s 1 , s 2 + 1))34

ce dont on déduit :λ + V (t + 1, (s 1 , s 2 ))V (t + 1, (s 1 , s 2 ))≥≥s 1 + as 1 + s 2 + a + b + s 1 + as 1 + s 2 + a + b (λ + V (t + 2, (s 1 + 1, s 2 )))s 1 + a+s 1 + s 2 + a + b (λ + V (t + 2, (s 1, s 2 + 1)))s 1 + as 1 + s 2 + a + b + s 1 + as 1 + s 2 + a + b V (t + 2, (s 1 + 1, s 2 ))s 1 + a+s 1 + s 2 + a + b V (t + 2, (s 1, s 2 + 1))Or si on n’a pas tiré le bras en t, on est toujours dans le même état (s 1 , s 2 ) en t + 1 et pardéfinition de la politique optimale, l’argmax est alors atteint pour le premier argument, ce quicorrespond à ne pas tirer le bras en t + 1.Remarque 3.2 Le lemme précédent permet de simplifier l’équation de Bellman et de mettreλ(T − t) à la place du membre de gauche.Calcul du temps d’arrêt de jeu Comme d’après le lemme précédent les politiques optimalessont des politiques d’arrêt, on peut introduire des temps d’arrêt pour expliciter la fonctionvaleur :[ τ−1]∑V (λ, t, (s 1 , s 2 )) = sup E ˜R( ˜S s , 1) + λ(T − τ) ∣ ˜S t = (s 1 , s 2 )t≤τ≤Ts=t[ τ∑]= sup E (X s − λ) ∣ ˜S t = (s 1 , s 2 ) + λ(T − t)t≤τ≤Ts=t+1= sup E (a+s1 ,b+s 2 )0≤τ≤T −t[ τ∑(X s − λ) |S 0 = (0, 0)s=1= sup E (a+s1 ,b+s 2 ) [W s ] + λ(T − t)0≤τ≤T −t]+ λ(T − t)où le sup est pris sur un ensemble de temps d’arrêt et où la dernière espérance est prise sous leproblème à un bras avec a priori Beta(a + s 1 , b + s 2 ) sur θ. La variable aléatoire W t vaut W t =∑ ts=1 X s − tλ. On introduit également la notation Z 0 (λ, t ′ , s 1 , s 2 ) = sup 0≤τ≤t ′ E (a+s1,b+s2) [W s ].On a le lien suivant entre la fonction valeur optimale et cette fonction Z 0 :V (λ, t, (s 1 , s 2 )) = λ(T − t) + Z 0 (λ, T − t, s 1 , s 2 )Il est alors optimal de s’arrêter de jouer en t dans l’état (s 1 , s 2 ) (I s = 0 pour tout s ≥ t) danschacun des cas suivant :– V (λ, t, (s 1 , s 2 )) = λ(T − t)– le temps d’arrêt optimal à partir de t vérifie τ = 0 p.s.– Z 0 (λ, T − t, s 1 , s 2 ) = 0□35

Les ”deux” résolutions du problème B λ En pratique, on peut résoudre B λ comme unMDP par programmation dynamique. Si on veut calculer V (λ, t, (s 1 , s 2 )) pour savoir si on joueoù on continue à ce stade, il suffit de se placer sur l’espace d’états (s, s 1 + u, s 2 + s − u) pour(s, u) tels que 0 ≤ u ≤ s ≤ T − t (tableau triangulaire) :Figure 3 – Fonction valeur pour B 0.75 sur un horizon T = 13 : la matrice V représenteV (0.75, s, u, s − u) et la matrice P (pour politique) dit si l’on doit ou non continuer de jouer.Ainsi, on voit qu’avec λ = 0.75 sur un horizon 13 avec un a priori initial (1, 1) on doit s’arrêterde jouer. Par contre, pour T = 12 avec un a priori (2, 1) il faudrait continuer...La vision du problème B λ comme un problème d’arrêt optimal nous permet d’utiliser unoutil adapté pour le résoudre, issu des mathématiques pour la finance : l’enveloppe de Snell(voir [12]).Définition 3.1 Soit (W t ) 0≤t≤T une suite de variables aléatoires adaptée à la filtration F t . L’enveloppede Snell (Z t ) de cette suite est la plus petite surmartingale majorant W t . Elle est définiepar récurrence par :Z T = W TZ t = sup(W t , E[Z t+1 |F t ]) pour 0 ≤ t < TL’enveloppe de Snell se calcule par récurrence descendante pour des chaînes de Markov (nonnécessairement homogènes) comme c’est le cas ici pour W s : ce calcul ”backwards” est en fait trèssimilaire à la résolution en utilisant l’équation de Bellmann ! L’intérêt du calcul de l’enveloppede Snell et que le temps d’arrêt optimal du problème avant l’horizon T vérifieT ∗ = inf{0 ≤ k ≤ T : Z t = W t }On peut interprêter T ∗ de la manière suivante pour en comprendre l’optimalité : tant qu’on estavant T ∗ , le gain qu’on peut obtenir dans le futur E[Z t+1 |F t ]) est supérieur au gain si on s’arrêtemaintenant W t .36

3.4.2 Définition de l’indice de confiance d’un bras et méthodes de calculOn définit l’indice de confiance d’un bras à l’instant t dans l’état (s 1 , s 2 ) commeDéfinition 3.2ν(t, (s 1 , s 2 )) = sup{λ ∈ [0, 1] : dans B λ à t après avoir observé (s 1 , s 2 )l’action suivante est de tirer le bras}= sup{λ ∈ [0, 1] : Z 0 (λ, t ′ , s 1 , s 2 ) ≥ 0}= inf{λ ∈ [0, 1] : V (λ, t, s 1 , s 2 ) = λ(T − t)}Remarque 3.3 On note que dans la suite, on sera souvent amené à travailler alternativementsoit au temps courant t, soit en considérant le temps restant T − t, qu’on notera pour simplifiert ′ : en particulier, les indices de Gittins peuvent être vu comme dépend de t ou de t ′ .Tout d’abord cet indice est bien défini : en effet, la fonction Z 0 (λ, t ′ , s 1 , s 2 ) est dans un premiertemps décroissante. En effet si λ ′ < λ :S τ − λτ < S τ − λ ′ τ ∀τE[S τ − λτ] < E[S τ − λ ′ τ] ∀τE[S τ − λτ] < Z 0 (λ ′ , T − t, s 1 , s 2 ) ∀τZ 0 (λ, T − t, s 1 , s 2 ) < Z 0 (λ ′ , T − t, s 1 , s 2 )On peut même dire que Z 0 est une fonction affine par morceaux de λ : le nombre de tempsd’arrêt est en fait fini et on prend le sup d’un nombre fini de fonction affine. Z 0 est donc affinepar morceaux et décoissante, donc convexe.Figure 4 – Z 0 (λ, 100, 4, 5) comme fonction de λCalculer un indice revient donc à chercher le zéro d’une fonction convexe dont l’évaluationest coûteuse (et dont on ne sait rien sur la régularité) : on pourra par exemple employer laméthode de la sécante.37

Interprétation des indices Dans le problème B λ la valeur de λ correspond en quelque sorteau prix du ticket de jeu : si on tire le bras (action 1) on accepte de perdre λ. L’indice de Gittinsd’un bras correspond alors au prix le plus élevé qu’on est prêts à payer pour jouer ce bras. Cetteinterprétation permet d’avoir une première idée de pourquoi la politique d’indice associée vaêtre optimale...Indices et politique optimale dans B λ Lorsqu’on joue à partir de t et en (s 1 , s 2 ) le problèmeB ν(t,(s1 ,s 2 )) on a deux politiques optimales :– soit arrêter de jouer– soit continuer de jouer, et ce pour tout s > t tel que ν(s, ˜S s ) > ν(t, (s 1 , s 2 )) : en effet,ν(s, ˜S s ) correspond à la limite supérieure des λ pour lesquels dans B λ on joue en (s, ( ˜S s )),donc si le λ contre lequel on joue est ν(t, (s 1 , s 2 )) cela impose de continuer...Cette remarque sera utilisée plus tard pour comprendre l’optimalité de la politique d’indiceassociée : on a exprimé la politique optimale dans B λ en fonction des indices introduits.3.4.3 Quelques propriétés des indices de GittinsLes indices de Gittins dépendent par définition :– du temps courant de jeu t et de l’horizon T ou du temps restant t ′– du nombre d’observations de 0 et de 1 jusqu’à t donné par (s 1 , s 2 )– du paramètre (a, b) de l’a priori initialUne propriété de décroissance On a la propriété suivante :Proposition 3.1 Si on ne joue pas un bras, son indice baisse :ν(t + 1, (s 1 , s 2 )) ≤ ν(t, (s 1 , s 2 ))Démonstration Soit y < ν(t + 1, (s 1 , s 2 )). Supposons que y > ν(t, (s 1 , s 2 )) : la politiqueoptimale dans B y à partir de t est alors d’arrêter de jouer, puis en t + 1 on continue car y

Démonstration On a d’après une des définitions équivalentes de 3.2 :{[ ∑τν(t, (s 1 , s 2 )) = sup λsup E∣(a+s1 ,b+s 2 ) (X s − λ) ] }≥ 00≤τ≤T −ts=1{[ τ }∑ ]= sup λsup E∣(a+s1 ,b+s 2 ) X s ≥ λE(a+s1 ,b+s 2 )[τ]0≤τ≤T −ts=1{[ τ }∑ ]= sup λsup E∣(a+s1 ,b+s 2 ) X s ≥ λE(a+s1 ,b+s 2 )[τ]0≤τ≤T −ts=1{= sup λsup λ ≤ E [ ∑ τ(a+s 1 ,b+s 2 ) s=1 X }s]∣0

suivants, pour une bras j et pour t ∈ [|0; T − 1|] :g j (t) = ν(t, (S t (j, 1), S t (j, 2)))g j (t) = mins≤t g j(s)Avec la convention g j (t) = 0 si t ≥ T . g j (t) est l’indice courant du bras j et g j (t) (indiceminimum) est le minimum des indices jusqu’à présent(il représente la valeur du palier courantque l’on peut voir sur la figure 5). Cet indice est décroissant en t.Figure 5 – Evolution des indices associés à un bras fixé au cours du jeuLa démonstration procède en deux temps : d’abord majorer la récompense cumulée pour unestratégie quelconque par une grandeur indépendante de la stratégie exprimée en fonctions desindices ci-dessus. Puis se rendre compte que ce majorant correspond exactement à la récompensecumulée de la stratégie de Gittins, d’où l’optimalité de cette politique.Lemme 3.3 Pour tout bras j,[∑ T] [∑ T]E X t 1 (It−1 =j) ≤ E g j (t − 1)1 (It−1 =j)t=1avec cas d’égalité précisé dans la démonstration.40t=1

Démonstration du lemme Introduisons pour j fixé la suite des temps d’arrêt définie parτ 0 = 0 et{}τ 1 = inf t > 0 | g j (t − 1) > g j (t){}τ k+1 = min(T, inf inf t > τ k | g j (t − 1) > g j (t)Et N = min{k|τ k = T }. Soit i ≤ N − 1. Sur [τ i + 1; τ i+1 ], on a par construction des tempsd’arrêt ci-dessus g j (t − 1) = g j (τ i ). Montrons maintenant que[ τi+1] [∑τi+1]E X t 1 (It−1 =j)∣ F ∑τ i≤ E g j (τ i )1 (It−1 =j)∣ F τ it=τ i +1t=τ i +1On travaille conditionnellement à la tribu engendrée par τ i et on suppose qu’à partir de τ i etjusqu’à la fin du jeu en T , on joue au jeu B gj (τ i ) (contre le bras j). Comme on l’a déjà noté dansl’étude du problème B λ la stratégie optimale, exprimée en fonction des indices, est alors :– soit de s’arrêter de jouer et donc de recevoir une récompense g j (τ i ) juqu’à la fin du jeu– soit de continuer, et ce tant que g j (t) > g j (τ i ), ce qui revient à s’arrêter en τ i+1La grandeur :τ i+1∑t=τ i +1(Xt 1 (It−1 =j) + g j (τ i )1 (It−1 ≠j))+ T ∑τ i+1 +1est une récompense cumulée pour le problème B gj (τ i ) à partir de τ i+1 pour la politique suivantedéterminée par les instants de jeu du bras j dans la stratégie I t du problème à plusieurs bras :– on tire le bras à l’instant t si I t−1 = j– on reçoit g j (τ i ) si I t−1 ≠ jCeci conduit à une stratégie J t pour le problème B gj (τ i ) : elle est en effet mesurable par rapportà la tribu engendrée par le bras j et par rapport aux tribus indépendantes associées aux autresbras. On a alors :⎡⎤τ∑i+1(E ⎣ Xt 1 (It−1 =j) + g j (τ i )1 (It−1 ≠j)) T ∑+ g(τ i ) ∣t=τ i +1∣ F τ i⎦} {{ }espérance (conditionnelle) de lag(τ i )∣ ≤ (T − τ i )g j (τ i )τ i+1 +1récompense de la stratégie J tavec égalité (puisqu’on a décrit toutes les politiques optimales) ssiSoit I t ≠ j ∀t ∈ [τ i ; τ i+1 − 1] (conditions E j,i )Soit I t = j ∀t ∈ [τ i ; τ i+1 − 1]} {{ }espérance (conditionnelle) de larécompense d’une stratégie optimale(8)Pour qu’il y ait égalité, il faut donc qu’au niveau du bras j sur la figure 5, le bras soit joué soitsur tout un palier, soit ne soit jamais joué au cours du palier (et vu la décroissance de l’indice,41

alors τ i+1 = τ i + 1). L’équation (8) est équivalente à[ τi+1(τ∑i+1)]∑E X t 1 (It−1 =j) + g j (τ i )(τ i+1 − τ i ) − g j (τ i )1 (It−1 =j) + (T − τ i+1 )g(τ i ) − (T − τ i )g(τ i )∣ F τ i≤ 0t=τ i +1t=τ i +1[ τi+1] [∑τi+1]⇔ E X t 1 (It−1 =j)∣ F ∑τ i≤ E g j (τ i )1 (It−1 =j)∣ F τ it=τ i +1t=τ i +1[ τi+1] [∑τi+1]⇔ E X t 1 (It−1 =j)∣ F ∑τ i≤ E g j (t − 1)1 (It−1 =j)∣ F τ it=τ i +1t=τ i +1Et le cas d’égalité est toujours donné par les conditions (E j,i ). En prenant l’espérance et ensommant sur i on obtient alors[ τi+1] [∑τi+1]∑E X t 1 (It−1 =j) ≤ E g j (t − 1)1 (It−1 =j)t=1t=1[ T] [∑T]∑E X t 1 (It−1 =j) ≤ E g j (t − 1)1 (It−1 =j)t=1(en appliquant à τ N−1 ). On a alors qu’il y a égalité ssi pour tout i ≤ N la condition (E j,i ) estvérifiée.L’espérance de la somme des récompenses obtenue par la politique I t dans le jeu à plusieursbras est donnée par :]]E [X t ] =≤égalité 2[K∑ ∑ TE X t 1 (It−1 =j)j=1t=1t=1≤égalité 1[K∑ ∑ TE g j (t − 1)1 (It−1 =j)j=1t=1[K∑ T] [∑T]∑E g ∗ (t − 1)1 (It−1 =j) = E g ∗ (t − 1)j=1t=1où g ∗ (t) = max j=1...K g j (t). On a majoré l’espérance du gain obtenu par une quantité indépendantede la stratégie. La deuxième étape est de remarquer que cette grandeur est exactement l’espérancede récompense pour la stratégie de Gittins. Pour voir cela, il convient d’étudier chacun des casd’égalité ci-dessus, qui doivent être réalisés dans la stratégie optimale :– égalité 1 : L’égalité 1 a lieu d’après le lemme ssi pour tout bras, on a soit joué le bras surtout un palier ou l’indice minimum est constant, soit on ne l’a pas joué du tout– égalité 2 : L’égalité 2 a lieu ssi on a toujours joué le bras tel que l’indice minimal courantétait maximumDans cette stratégie réalisant la borne sup, on peut remarquer que lorsqu’on ne joue pas enbras, son indice minimal courant g j (t) est égal à son indice courant g j (t). En effet, au départindices et indices minimaux sont confondus, et pour les bras non joués, l’indice décroît (donct=1□42

est toujours égal à l’indice minimal). Quant au bras joué, il l’est tant que l’indice est supérieurà l’indice minimal, et donc on arrête quand l’indice est égal au nouvel indice minimal. Ainsilorsqu’un bras est en cours de jeu son indice est supérieur à son indice minimal et donc à tousles indices des bras non joués, et lorsqu’on arrête de le jouer ce bras, on choisit comme ”nouveaubras” (on peut reprendre le même) celui d’indice minimal le plus haut, donc d’indice le plusélevé. Cette stratégie revient donc exactement à la stratégie de Gittins (la proriété utilisée estici la décroissance des indices ).Remarque 3.5 Dans son article original [7], Gittins démontrait l’optimalité (pour le cadreinfini discounté) d’une politique d’indice pour le cadre général des FABP. La démonstrationétait assez peu précise, et par la suite d’autres démonstrations ont été proposées, notammentcelle de Weber (1992) qui fait intervenir les problèmes de calibration que nous avons considéré.Ces différentes preuves (mais toujours dans le cadre infini) ont été répertoriées et explicitéespar Frostig et Weiss dans [6], et la preuve de Weber est à nouveau détaillée par Gittins dans sonlivre [8] de manière un peu plus littéraire. Je me suis inspirée de ces deux dernières référencespour adapter au cadre fini sans discount la preuve d’optimalité.3.5 Tests de l’algorithme de GittinsNous appelons algorithme de Gittins la politique d’indice associée aux indices précédents.3.5.1 Mise en oeuvre pratique de l’algorithmeCalcul d’un indice Comme on l’a déjà expliqué le calcul d’un indice revient à chercher lezéro de la fonction convexe Z 0 (λ, T −t, s 1 , s 2 ), qui est coûteuse à évaluer : chacune de ses valeurss’obtient par résolution d’un problème B λ ce qui peut être assez long, surtout si le temps restantest grand. On veut donc minimiser le nombre de problèmes B λ à résoudre pour le calcul d’unseul indice. On utilise pour cela une méthode type méthode de la sécante :□Figure 6 – A partir de deux minorants de l’indice, on en obtient un troisième en traçant lasécante associée aux deux premiersComme valeur de x 1 on peut proposer le minorant simpleétape rechercher de manière dichotomique un nouveau minorant.43s 1 +as 1 +s 2 +a+b, et on peut à chaque

Calcul et stockage des indices Au cours du jeu à plusieurs bras, les bras non joués ont unindice qui décroît : il est donc inutile de calculer les indices de tous les bras à chaque tour dejeu. On compare l’indice du bras en cours de jeu aux derniers indices calculés pour les autres(leur indice courant étant plus petit, on n’a à le calculer que si l’indice courant est plus petitque l’indice en mémoire) De plus, comme on est ammenés pour tester l’algorithme à le faire dejouer de nombreuses parties, dès qu’un nouvel indice ν(t ′ , s 1 , s 2 ) est calculé on le stocke dansune matrice d’indices de Gittins GI.3.5.2 Comparaison avec les autres algorithmesLa politique de Gittins est théoriquement optimale pour le problème bayésien : on tire uniformémentun paramètre pour les bras, et on joue la politique de Gittins jusqu’à l’horizon T .Sur la figure 8 (page suivante), on compare le regret obtenu pour un jeu à horizon T = 200”bayésien” (comme décrit ci-dessus) et des jeux ”fréquentistes” (càd où les paramètres desbras sont fixes) différents. Dans chaqu’un des cas, l’espérance est calculée en moyennant surN = 1000 parties. On peut avoir avoir différentes allures du regret pour les différents problèmesfréquentistes (ce qui est normal, vu la dépendence des bornes sup et inf obtenues en les paramètresdu problème) contre un regret bayésien un peu plus faible. Pour avoir une idée de lapertinence de l’algorithme de Gittins pour la résolution du problème fréquentiste (pour lequelon n’a aucune garantie théorique), nous allons comparer cet algorithme avec les algorithmesfréquentistes usuels sur des problèmes donnés (figure 9 page suivante)Gittins a été testé sur de nombreux problèmes et semble avoir de très bonnes performances(on y reviendra lorsqu’on le comparera aux autres algorithmes d’inspiration bayésienne). Lafigure 7 permet une comparaison simultanée sur de nombreux problèmes :Figure 7 – Regret cumulé à T = 200 (calculé avec N = 500 simulations) dans un problème àdeux bras 0.5 contre θ en fonction de θ pour les algorithmes de Gittins et KL-UCBSi l’on zoome sur ce qui se passe au centre, il est moins clair que Gittins l’emporte (mais ilne coûte pas trop cher de se tromper).44

Figure 8 – La courbe bleu clair présente le jeu bayésien contre différents jeux fréquentistesFigure 9 – Sur un problème à faibles récompenses, l’algorithme de Gittins (en bleu) sembleavoir un regret bien plus faible que les autres45

3.5.3 Comprendre la manière dont Gittins joueTout d’abord dans un problème simple à deux bras (0.45/0.55) visualisons la politique deGittins sur la figure 10. En bleu et en rouge on a les indices de Gittins ; ceux entourés correspondentau bras joué (celui d’indice le plus élevé). Les croix correspondent à la moyennes 1 +aa 1 +s 2 +a+bbayésienne ( ). On voit qu’il y a d’abord une phase d’exploration où les deux bras sontjoués, puis assez rapidement l’algorithme se concentre sur le bras optimal. L’exploration diminueau cours du jeu (à la fin on ne se sert que de l’estimée de la moyenne), et ce de manière plusflagrante pour le bras qui est beaucoup joué. On voit ici que sur une partie, l’algorithme deGittins semble prendre des risques et diminuer assez rapidement son exploration.Pour confirmer cette tendance, on peut s’intéresser sur la figure 11 à la distribution du regretet du nombre de tirages du bras optimal. On voit que Gittins, qui semble meilleur puisque ladistribution de son regret et plus décalée vers la gauche par rapport à celle de KL-UCB alt,tire en moyenne beaucoup plus le bras optimal au cours d’une partie (distribution du hautglobalement shiftée vers la droite) : il y a donc moins d’exploration. Le risque pris par Gittinsse mesure aussi avec le ”pic” de faibles tirages du bras optimal (il y a plus de parties où on setrompe complètement).3.6 Les idées de bayésiennes : une motivation des politiques d’indice3.6.1 Un bonus de confianceOn a vu que les algorithmes fréquentistes prenaient souvent la forme moyenne empirique +bonus de confiance. Or pour les bandits Bernoullis, on a également vu que :etν(t, s 1 , s 2 ) >s 1 + as 1 + s 2 + a + bs 1 +as 1 +s 2 +a+best la moyenne de l’a posteriori donc un estimateur bayésien du paramètre du bras.Ainsi non seulement la politique d’indice proposée par Gittins dès 79 a motivé les politiquesd’indice apparues plus tard, mais les différentes politiques d’indice bayésiennes et fréquentistessemblent du même type...On peut toutefois noter des différences, par exemple entre l’indice UCB classique√B j (t) = S t(j)N j (t) + α ln(t)N j (t)et l’indice de Gittins associé B j (t) = ν(t, S t (j), N j (t)−S t (j)). En effet, en l’absence d’observationdu bras l’indice UCB associé va augmenter pour favoriser le futur tirage du bras (ou va resterstable si on joue à horizon connu et qu’on remplace ln(t) par ln(T )) alors que l’indice de Gittinsassocié va diminuer, accordant moins de confiance au bras lorsqu’on se rapproche de la fin dujeu. L’horizon semble donc plus important dans Gittins et l’exploration résolumment plus faible.46

Il faudrait bien sûr avoir une expression explicite des indices, ce qui ne peut se faire à lamain que pour des petits horizons. On peut en effet résoudre le problème B λ pour un horizon 1ou 2 et voir soi-même les valeurs limites (cf figure 12).Figure 12 – Calcul des indices pour T − 1 et T − 2On a ainsi :ν(T − 1, s 1 , s 2 ) =soit B j (T − 1) =ν(T − 2, s 1 , s 2 ) =soit B j (T − 1) =s 1 + as 1 + s 2 + a + bS j (T − 1) + aN j (T − 1) + a + bs 1+a+1s 1 +s 2 +a+b+1s 1 + as 1 + s 2 + a + b × 1 +1 + s 1+aS j (T − 1) + aN j (T − 1) + a + b × 1 +s 1 +s 2 +a+bS j(T −2)+a+1N j (T −2)+a+b+11 + S j(T −2)+aN j (T −2)+a+b3.6.2 Le cas gaussien : une autre illustrationJusqu’à présent on n’a étudié que le cas des bandits Bernoullis, mais Gittins dans [7] évoquele traitement bayésien du problème de bandit gaussien. Nous nous intéressons à ce problème icicar obtenir une expressions des indices est plus simple, et on voit mieux la ressemblance avecles indices UCBLe problème et le MDP associé La variance σ 2 est supposée connue et on a Y jt ∼ N ( µ j , σ 2)conditionnellement à µ j avec un a priori µ j ∼ N ( ξ 0 , σ02 ) (= N ξ0 , m −1 )0 . Les bras sont également48

supposés indépendants. Des calculs d’a posteriori montrent que :Lemme 3.4 Si µ ∼ N ( ξ, m −1) et que L(Y |µ) = N ((, µ) , σ 2 ) on a :L(µ|Y = y) = N( mξ + σ −2 ym + σ −2 , (m + σ−2 ) −1 )Et on a également par récurrence si Y t est i.i.d conditionnellement à µ de loi N ( µ, σ 2) et µ ale même a priori :(mξ + σ −2 ∑ )ts=1L(µ|Y 1 , ..., Y t ) = NY sm + tσ −2 , (m + tσ −2 ) −1Comme pour le cas des Bernoullis, on va représenter le problème par un MDP dont lesparamètres sont les paramètres de l’a posteriori courant, (ξ, m) ∈ R × N : l’espace d’état estici continu donc toute résolution explicite est impossible. Le MDP est le suivant (il dépend de(ξ 0 , m 0 ) hyperparamètres de l’a priori initial :Et on veut toujours maximiser pour un horizon T fini, E [ ∑ Tt=1 X t]. On a :ξ j (t) = m 0ξ 0 + σ −2 S t (j)m 0 + σ −2 N j (t)m j (t) = m 0 + σ −2 N j (t)Explicitation des indices On peut toujours définir de la même manière les indices associésà chaque bras (dépendant du temps et de l’état de l’a posteriori). On pourrait justifier commepour les Bernoulli l’équivalence entre un problème de calibration B λ et la formulation suivantedes indices :E[ ∑ τt=1ν(t, ξ, m, σ) =X t|S 0 = (ξ, m)]E[τ|S 0 = (ξ, m)]sup0

Preuve Pour un bras donné, X t ∼ N ( µ, σ 2) conditionnellement à µ et µ ∼ N ( ξ, m −1) . Onpeut introduire :˜X t = X t − ξσ˜µ = µ − ξAlors ( ˜X t ) est indépendante conditionnellement à µ (et donc à ˜µ) de loi conditionnelle N (µ − ξ, 1)càd N (˜µ, 1). Ainsi finalement :L( ˜X t |˜µ) = N (˜µ, 1)˜µ = N ( 0, m −1)La suite ( ˜X t ) représente un nouveau bras, où on joue avec σ = 1 et l’a posteriori courant sur cebras est donné par ˜S t . On peut alors écrire :[ τ∑] [ τ∑] [ τ∑]E X t |S 0 = (ξ, m) = E ξ + σ ˜X t |S 0 = (ξ, m) = E ξ + σ ˜X∣ ∣∣t ˜S0 = (ξ, m)t=1t=1t=1Et finalement :ν(t, ξ, m, σ) = sup0

Figure 13 – Indice ˜ν(T − t, m) pour différentes valeurs du temps restant t en fonction desvaleurs de m (étude sur un horizon T = 10)On cherche toujours l’indice ˜ν(t, m) en regardant la valeur limite de λ telle que Ṽ (λ; t, m) =λ(T − t). L’implémentation de cette résolution donne les courbe d’indice de la figure 13La décroissance en m que l’on retrouve aussi dans l’indice UCB semble aussi apparaître, maison ne peut pas vraiment mesurer si elle est bien aussi en √ 1m. Le bonus de confiance sembleégalement augmenter en t à m fixé.Perspectives Afin de comparer mieux les indices de confiances issus de Gittins avec les indicesclassique, il faudrait chercher une expression un peu plus explicite dans des cas où on peuteffectuer des approximations par exemple... Même pour le cas gaussien, le calcul approché n’apu être fait que sur des faibles horizons du fait de la complexité de calcul.51

4 Algorithmes bayésiens basés sur les quantiles d’a posterioriJusqu’à présent on a étudié d’un point de vue assez théorique le problème bayésien présentépar Gittins. Cela nous a toutefois conduit à un algorithme assez efficace en pratique, bien quedifficile à implémenter. Nous allons dans cette partie étudier de nouveaux algorithmes basés surune manière plus simples d’exploiter un a posteriori. Au cours de mon stage, j’ai pu tester cesdifférents algorithmes et les comparer aux algorithmes fréquentistes étudiés plus haut. J’ai aussicherché à obtenir des bornes de regret optimales. Comme on le verra, il m’a été necessaire debien comprendre les démonstrations des bornes de regret fréquentistes, qui ont été présentéesdans la partie 2, afin de pouvoir les adapter au cadre bayésien.4.1 Présentation de l’algorithme et réglage du quantileComme expliqué dans la partie 1, on se place dans un modèle où l’on dispose d’un a priorisur chacun des bras. On rappelle qu’on tient à jour S t = (π1 t, ..., πt K) a posteriori sur les brasavant le t-ème tour de jeu.Définition 4.1 On appelle quantile-UCB de paramètres β et c l’algorithme qui choisit à l’instantt le bras maximisant l’indiceq t (j) = quantile d’ordre 1 −et qui effectue une mise a jour de l’a posteriori du bras tiré.1t β ln(t) c de la distribution πt jCet algorithme existe dans des situations quelconques, ou les calculs d’a posteriori sont difficilesvoire impossible, mais je me suis surtout focalisée sur le cas des bandits binaires et des banditsgaussiens où les indices deviennent respectivement :q t (j) =1quantile d’ordre 1 −t β ln(t) c de la distribution Beta(S t(j) + a, N t (j) − S t (j) + b)q t (j) =(1quantile d’ordre 1 −t β ln(t) c de la distribution N S t (j)N t (j) + (σ/σ 0 ) 2 , σ 2 )N t (j) + (σ/σ 0 ) 2Plusieurs paramètres permettent de calibrer le dilemme entre exploration et exploitation : àchaque nouvelle observation, la distribution a posteriori est plus concentrée autour de la moyennebayésienne (elle prend l’allure d’une gaussienne lorsque le nombre d’observations est suffisant,selon le phénomène de Bernstein-Von Mises) , mais on prend un quantile de plus en plus grandlorsque t augmente. De plus, la croissance du quantile est paramétrée par β et c (on négligerapar la suite l’importance -théorique - de c en prenant c = 0 dans les expériences). Plus β estgrand, plus on explore (quantile plus grand).Dans l’étude numérique qui suit, menée pour les bandits binaires, on a comparé les algorithmesquantile-UCB pour β = 0.5, 1, 1.5 (en ajoutant également UCB et KL-UCB) pour différentstypes de problèmes à deux bras. Sur les courbes des figures 14 à 18 on a tracé le regret cumulé(estimé sur N=2000 simulations) en fonction du temps. L’horizon est choisi en fonction duproblème.52

Figure 14 – Regret cumulé pour le low reward problem 0.1/0.2 : Q 0.5 ≤ Q 1 ≤ KL-UCB ≤Q 1.5 ≤ UCBFigure 15 – Regret cumulé pour le standard reward problem 0.45/0.55 : Q 1 ≤ Q 0.5 ≤KL-UCB ≤ UCB ≤ Q 1.5Figure 16 – Regret cumulé pour le standard reward problem 0.8/0.9 : Q 1 ≤ KL-UCB ≤ Q 1.5 ≤UCB ≤ Q 0.553

Figure 17 – Regret cumulé pour le very low reward problem 0.01/0.02 : Q 0.5 ≤ Q 1 ≤ KL-UCB ≤Q 1.5 ≤ UCBFigure 18 – Regret cumulé pour le very high reward problem 0.98/0.99 : Q 1 ≤ KL-UCB ≤Q 0.5 ≤ Q 1.5 ≤ UCB54

Remarque 4.1 Choix de l’horizon : pour des problèmes extrêmes du type des deux derniers, ilconvient de prendre un horizon plus grand (tel qu’on puisse au moins observer quelques 1 pour0.01/0.02 ou quelques 0 pour 0.98/0.99).On peut conclure que le réglage du quantile avec β = 1 semble toujours donner de bonnesperformances comparables à (voire meilleures que) celles de KL-UCB. Les algorithmes basés surd’autres choix de quantile ont une efficacité qui semble plus dépendre du problème. Ainsi unalgorithme plus risqué (β = 0.5) semble plus efficace pour des problèmes à faibles récompenses,et inversement.Un autre aspect du quantile peut être réglé : on peut choisir de remplacer t dans la tailletndu quantile par l’horizon n, ou par les grandeursN j (t)ou encoreN j (t). On peut étudier l’impactde ce choix sur la figure 19 pour β = 1Figure 19 – Impact de l’horizon pour le low reward problemL’ordre croissant de performance qui apparaît sur cette figure est : quantile 1 − 1 t , 1 − 1 n ,1 − N j(t)tpuis 1 − N j(t)n. On étudiera pourtant par la suite l’algorithme quantile-UCB classiqueavec β = 1. (L’ordre ne varie pas d’un problème à l’autre)On focalisera par la suite notre étude sur l’algorithme quantile-UCB avec β = 1.4.2 Comparaison avec Gittins et les algorithmes fréquentistesNous allons ici comparer les performances et la manière de jouer de l’algorithmes quantile-UCB (β = 1, c = 0) avec ceux de l’algorithme de Gittins et de l’algorithme KL-UCB, sur les 5problèmes de bandit Bernoulli à deux bras déjà utilisés :– le problème à faibles récompenses 0.1/0.2 (A)– le problème à récompenses sandards 0.45/0.55 (B)– le problème à récompenses élevées 0.8/0.9 (C)– le problème à très faibles récompenses 0.01/0.02 (D)– le problème à récompenses très élevées 0.98/0.99 (E)On utilisera toujours un horizon T = 500 (plus faible que précédemment, en raison de la complexiténumérique de l’algo de Gittins) et T = 1000 pour les problèmes ”extrêmes”.55

Regret cumulé pour les problèmes A,B,C,D,E (de haut en bas etde gauche à droite). Gittins (en rouge) semble être le meilleurlorsque les récompenses ne sont pas trop élevées. KL-UCB (envert) et quantile-UCB (en bleu) semblent avoir des comportementsassez similaires.56

Nombre moyen de tirages du bras optimal pour les problèmes A,B,C,D,E.Le nombre de tirages du bras optimal de Gittins (rouge) semble diminuerlorsque les récompenses deviennent élevées (il est même critique pour leproblème à récompenses très élevées). Au contraire, dans KL-UCB (vert) etquantile-UCB (bleu), le nombre de tirages du bras optimal semble assez peuinfluencé par le problème (on a choisi pour les 3 premier et les 2 derniers desproblèmes à même écart entre les bras).57

Distributions empiriques du nombre de tirages des bras (haut) et du regret à la fin du jeu (bas)pour les problèmes A,B,C,D,E. Gittins (rouge) est un algorithme qui semble prendre nettementplus de risques que les deux autres : la distributions du nombre de tirages du bras optimal estnettement décalée vers la droite, mais un pic de très faible tirages du bras optimal commence àapparaître pour le problème à récompenses élevées. Pour les problèmes extrêmes, ces distributionsempiriques sont beaucoup plus étalées, mais Gittins semble se concentrer sur les valeurs extrêmes(très faibles tirages ou très forts tirages). Pour le problème à très fortes récompenses, il semblequ’on joue presque un unique bras au cours du jeu (avec une chance sur deux de se tromper donc)Ceci est peut-être dû au fait que l’horizon n’est pas adapté pour les très fortes récompenses: 1000alors qu’il devrait être idéalement d’au moins 10 000 à 100 000.Là aussi on constate que KL-UCB et Quantile-UCB ont des comportements assez similaires,même si Quantile-UCB (en bleu) a une distribution du regret légèrement plus décalée vers lesfaibles valeurs.58

L’étude numérique ci-dessus a permis de constater à nouveau que l’algorithme de Gittinsprend plus de risque (explore moins) que KL-UCB mais aussi que Quantile-UCB, qui sembleavoir un comportement résolument proche de celui de Kl-UCB. Nous allons maintenant adopterun éclairage plus théorique pour comprendre la proximité de ces deux algorithmes, et démontrerune borne de regret pour Quantile-UCB dans les cas particuliers des bandits gaussiens et desbandits Bernoullis.4.3 Borne de regret pour les bandits gaussiensGrâce à un encadrement assez précis du quantile d’une gaussienne, on arrive à voir quel’algorithme Quantile-UCB est dans ce cadre assez proche de la version d’UCB pour les gaussiennesévoquée plus haut. Afin d’obtenir une borne optimale, on va recourir à toutes les astucesévoquées dans la partie : le peeling-trick et le découpage plus astucieux.Encadrement du quantile d’une loi normaleLemme 4.1 Le quantile d’ordre 1 − γ de la distribution Si N ( µ, σ 2 0)vérifie( ) 1µ + σ 0√2 ln √ − 3 ( ))( )11(ln2πγ 2 ln √ ≤ q 1−γ ≤ µ + σ 0√2 ln √2πγ 2πγPreuve Il suffit de montrer ce résultat dans le cas centré réduit. On se sert de l’encadrementsuivant pour la queue de la normale : si X ∼ N (0, 1) :)1√ (x −1 − x −3 ) exp(− x2≤ P(X ≥ x) ≤ 1)√ x −1 exp(− x22π 22π 2Un majorant du quantile d’ordre 1 − γ est :{x ∗ + = min x ∈ R :(1Or √2πx −1 exp− x22)1√2πx −1 exp) }(− x2≤ γ2( )≤ γ ⇔ x 2 + 2 ln(x) ≥ 2 ln 1γ √ On peut choisir x =2πcomme majorant de x ∗ + et donc comme majorant du quantile.Un minorant du quantile estx ∗ − = max(1Or √2π(x −1 − x −3 ) exp√sous la forme x =− x222 ln(1γ √ 2π{x ∈ R :)≥ γ1√2π(x −1 − x −3 ) exp) }(− x2≥ γ2( ) (⇔ x 2 + 2 ln x 3≤ 2 ln 1x 2 −1γ √ 2π)(1 − u). u doit vérifier l’équation :( ) ( ( ) )11−2 lnγ √ u + 3 ln 2 ln2πγ √ (1 − u)2π59(− 2 ln√( )2 ln 1γ √ 2π). Recherchons un tel x( ) )12 lnγ √ (1 − u) − 12π} {{ }A≤ 0

Le terme A est positif donc il suffit de choisir u tel que( )( ( ))112 lnγ √ u − 3 ln(1 − u) ≥ 3 ln 2 ln2π } {{ }γ √ 2πBLe terme B est négatif donc il suffit de choisir u tel que( ( ))u ≥ 3 ln 2 ln 1γ √ 2π( )2 2 ln 1γ √ 2πce qui donne un minorant de x ∗ − et du quantile et conclut la preuve.□Une borne de regretTheorème 4.1 On considère le multimarmed bandit gaussien où les moyennes sont supposéescomprises dans un intervalle [−M, M], avec un a priori N ( 0, σ 2 0)sur les bras. L’algorithmeβ-quantile, pour β > 1 vérifie pour tout ɛ > 0R n ≤∑j µ j

Pour fixer les idées, supposons que le bras 1 est optimal et supposons que 2 est sous-optimal,notre but est de majorer le nombre de tirages du bras 2. On notera ∆ = θ 1 − θ 2 .N n (2)≤n∑1 (µ1 >q 1 (N t(1),S t(1),t)) +t=1n∑t=11 (µ1 ≤q 1 (N t(1),S t(1),t))∩(I t=2)} {{ }(1)Or si I t = 2 et que µ 1 ≤ q 1 (N t (1), S t (1), t) on a µ 1 ≤ q 1 (N t (1), S t (1), t) ≤ q 2 (N t (2), S t (2), t). Etd’après le lemme 4.1 pour le bras sous-optimal :√√q 2 (N t (2), S t (2), t) ≤ ˆµ b 2,N + σ 2β ln(t) − ln(2π)t(2)N t (2) + (σ/σ 0 ) 2 ≤ ˆµb 2,N + σ 2β ln(t)t(2)N t (2) + (σ/σ 0 ) 2q 2 (N t (2), S t (2), t) ≤ ˆµ 2,Nt(2) + σOn commence par réécrire le terme (1) :n∑1 (µ1 ≤q 1 (N t(1),S t(1),t))∩(I t=2) ≤t=1n∑t=1√2β ln(t)N t (2)1 (µ1 ≤ˆµ 2,Nt (2)+σ√ 2β ln(t)N t (2) )∩(It=2) ≤n∑s=11(µ1 ≤ˆµ 2,s +σ√ 2β ln(n)s )On a ici utilisé la même astuce que dans la preuve d’UCB pour les gaussiennes en (6) page 19.D’où finalement,(√ )n∑n∑2β ln(n)E[N n (2)] ≤ P (µ 1 > q 1 (N t (1), S t (1), t)) + P µ 1 ≤ ˆµ 2,s + σst=1s=1} {{ } } {{ }(3)(4)Traitement du terme (3) D’après le lemme 4.1 on a pour le bras optimal :( ) ( ))q 1 (N t (1), S t (1), t) > µ b √ 2 ln t β√2π− 3 2(ln ln t β√2π1,N t(1)+ σN t (1) + (σ/σ 0 ) 2d’où⎛√ √√√ ( ) (⎜2 ln t β√P (µ 1 > q 1 (N t (1), S t (1), t)) ≤ P ⎝µ 1 > µ b 1,N + σ 2π− 3 2(ln ln t βt(1)N t (1) + (σ/σ 0 ) 2√2π))( ) ( ))Notons v t = 2 ln t β√2π− 3 2(ln ln t β√2πet fixons un réel γ ∈]0, 1[. On va utiliser unemajoration plus fine qu’une simple borne de l’union avec l’utilisation d’un ”peeling-trick” :découpage de [1; t] en intervalles sur lequel on va appliquer une inégalité maximale (cf proposition2.1).⎞⎟⎠61

≤≤≤peeling≤≤≤ineg.max.(√P (µ 1 > q 1 (N t (1), S t (1), t)) ≤ P ∃1 < s ≤ t µ 1 > µ b 1,s + σ(√S sP ∃1 < s ≤ t µ 1 >s + (σ/σ 0 ) 2 + σ (P ∃1 < s ≤ t (S s − sµ 1 ) < −ln(t)/ ln(1/γ)∑j=0ln(t)/ ln(1/γ)∑j=0ln(t)/ ln(1/γ)∑j=0ln(t)/ ln(1/γ)∑j=0)v ts + (σ/σ 0 ) 2(σ √ v t (s + (σ/σ 0 ) 2 ) − µ 1 (σ/σ 0 ) 2)))v ts + (σ/σ 0 ) 2(P ∃s ∈ [γ j+1 t; γ j t] (S s − sµ 1 ) < −(σ √ v t (s + (σ/σ 0 ) 2 ) − M(σ/σ 0 ) 2))(())P ∃s ∈ [γ j+1 t; γ j t] (S s − sµ 1 ) < − σ√v t (γ j+1 t + (σ/σ 0 ) 2 ) − M(σ/σ 0 ) 2(Pmins∈[1;γ j t]())(S s − sµ 1 ) < − σ√v t (γ j+1 t + (σ/σ 0 ) 2 ) − M(σ/σ 0 ) 2(√ ) 2e − 1 vt(γ2γ j j+1 t+(σ/σ 0 ) 2 )−Mσ/σ 2 t 0Or :((√ 2e − 1 vt(γ2γ j j+1 t+(σ/σ 0 ) 2 )−Mσ/σ 2 −t 0) 1 v t (γ j+1 t+(σ/σ 0 ) 2 )2 γ≤ ej t1−M− 1 2 γvt σ/σ(1−M √ 02v≤ et (1+(σ/σ 0 ) 2 )(2Pour t tel que v t ≥ (σ/σ 0) 2 (M/σ 0 ) 2 σ1+(σ/σ 0 ) 2 (1− √ σ/σon a 1 − M √ 2 γ) 2 0≥ γ et :vt(1+(σ/σ0 ) )) 2√) 2σ/σ 2 0v t (γ j+1 t+(σ/σ 0 ) 2 )) 2e − 12γ j t(√vt(γ j+1 t+(σ/σ 0 ) 2 )−Mσ/σ 2 0) 2≤ e − 1 2 γ2 v tNotons t 0 (γ) = inf{t ∈ R : v t ≥ (σ/σ 0) 21+(σ/σ 0 ) 2 (M/σ 0 ) 2 σ(1− √ γ) 2 }. Pour t ≥ t 0 (γ) :P (µ 1 > q 1 (N t (1), S t (1), t)) ≤ln(t)ln(1/γ) e− 1 2 γ2 v t≤ (ln(t))2ln(1/γ)1t βγ2Et doncn∑t=t 0 (γ)P (µ 1 > q 1 (N t (1), S t (1), t))≤≤=1ln(1/γ)n∑ (ln(t)) 2ln(1/γ)2∫ ∞1t βγ21 (ln(t)) 2dtln(1/γ) 1 t βγ21 2ln(1/γ) (βγ 2 − 1) 362

⌊ ⌋Traitement du terme (4) Soit ɛ > 0. Si K n := 2σ 2 (1+ɛ) ln(n)≤ s ≤ n :∆ 2(√ ) (√ )2β ln(n)2β ln(n)P µ 1 ≤ ˆµ 2,s + σ= P ∆ ≤ ˆµ 2,s − µ 2 + σss(≤ P ∆ ≤ ˆµ 2,s − µ 2 + √ ∆ )1 + ɛ≤P(ˆµ 2,s − µ 2 ≥ ∆( )≤ e −2s∆ 1− √ 11+ɛ(1 −))1√ 1 + ɛD’où(4) ≤ 2σ2 (1 + ɛ) ln(n)∆ 2 +≤2σ2 (1 + ɛ) ln(n)∆ 2 +n∑s=K ne −2s∆ ()1− √ 11+ɛ1− √ 1log(n) 1+ɛe−4 ∆( )1 − e −2∆ 1− √ 11+ɛConclusion Ainsi on a la majoration suivante, pour γ ∈] 1 √ β; 1[ et ɛ ∈]0; 1[ :E[N n (2)] ≤On conclut donc que2(1 + ɛ)βσ2(µ 1 − µ 2 ) 2 ln(n) + t 0(γ) +E[N n (2)] ≤d’où le résultat asymptotique sur le regret.1 2ln(1/γ) (βγ 2 − 1)2(1 + ɛ)βσ2(µ 1 − µ 2 ) 2 ln(n) + o β(ln(n))1− √ 1log(n) 1+ɛe−4 ∆+31 − e −2∆ ()1− √ 11+ɛ□4.4 Borne de regret pour les bandits binaires4.4.1 Encadrement des quantiles d’une loi BetaLoi beta et loi binomiale Soit X suivant la loi Beta(a, b). Il est connu que X a la loi de laa-ème statistique d’ordre parmi a + b − 1 variables aléatoires uniformes indépendantes (qu’onnotera U 1 , ...U a+b−1 ). On a alors :P(X ≥ x) = P(au moins b variables uniformes sont ≥ x)( a+b−1)∑= P 1 Ui ≥x ≥ bi=1P(X ≥ x) = P (S a+b−1,1−x ≥ b) (9)P(X ≥ x) = P (S a+b−1,x ≤ a − 1) (10)63

où S n,p est une loi binômiale de paramètres n et p. Cette remarque permet dans un premiertemps de voir que l’algorithme bayésien est proche de l’algorithme CP-UCB evoqué dans [4].En effet, l’indice de confiance utilisé dans l’algorithme bayésien avec un a priori uniforme est :1sup{x ∈ [0, 1] | P(X ≥ x) ≥t β log(t) c } avec X ∼ Beta(S n(j) + 1, N n (j) − S n (j) + 1)= sup{x ∈ [0, 1] | P (S m,x ≤ X) ≥=u CP (S n (j), N n (j) + 1,1t β log(t) c } avec m = N n(j) + 1 et X = S n (j))1t β log(t) ccontre l’indice u CP (S n (j), N n (j),1t β log(t) c )dans CP-UCB.Une première majoration du quantile d’une loi Beta Les inégalités de Hoeffding etChernoff nous donnent des majorations de la queue de la binômiale :P (S a+b−1,x ≤ a − 1) ≤ e − 2a+b−1 (a−1−(a+b−1)x)2a−1−(a+b−1)d(P (S a+b−1,x ≤ a − 1) ≤ e a+b−1 ,x)desquelles ont déduit une majoration des quantiles d’une loi beta :Lemme 4.2 Le quantile d’ordre 1 − γ de la distribution Si Beta(a, b) vérifie√a − 1q 1−γ ≤a + b − 1 + ln(1/γ)2(a + b − 1){( ) }a − 1q 1−γ ≤ argmax (a + b − 1)dx∈[0;1]a + b − 1 , x ≤ ln(1/γ)(11)(12)où d(θ, θ ′ ) = KL(B(θ), B(θ ′ )) distance de Kullback entre deux distributions de BernoulliUn encadrement Si les inégalités de concentration qu’on a déjà manipulées nous donnentune majoration de la queue de la binômiale, il nous en faudrait une minoration pour pouvoirégalement minorer le quantile d’une beta et donc l’indice utilisé quand Quantile-UCB.La méthode des types présenté dans le livre de Dembo & Zeintouni [5] donne un résultat deconcentration plus fin pour des variables aléatoires à support fini. Nous allons l’utiliser dans lecadre des variables aléatoires de Bernoulli pour obtenir l’encadrement souhaité.Introduisons quelques notations : µ une loi de probabilité à support fini dans Σ = (a 1 , ..., a N ),n un entier et Y = (Y 1 , ..., Y n ) un n-échantillon de loi µ.– un type est la loi empirique L Y n associée à l’échantillon Y– on note L n l’ensemble des types possible pour les n-échantillons– et pour ν ∈ L n , T n (ν),la classe de type de ν, est le nombre d’échantillons Y de type ν :T n (ν) = {Y ∈ Σ n | L y n = ν}Si µ est une loi binômiale de paramètre p, son type est L Y n = ( )S nn, n−Snn ainsi on peut réécrire :( kP µ (S n = k) = P µ(L X n = Bn))64

Dans le cadre des Bernoulli, il n’y a que n + 1 classes de types (paramétrées par le nombre i de1 observés) donc |L n | = n + 1. Le cardinal de la i-ème classe est ( ni).Proposition 4.1 (Sanov, Probabilités de grandes déviations) Si Y est une échantillon de loiµ :1|L n | e−nKL(ν,µ) ≤ P µ (L Y n = ν) ≤ e −nKL(ν,µ)Ce qui se réécrit si Y = (X 1 , ..., X n ) est un n-échantillon de B(µ) :1n + 1 e−nKL(B( k n ),B(µ)) ≤ P(S n = k) ≤ e −nKL(B( k n ),B(µ)) (13)Preuve Montrons le premier encadrement dans le cadre général. On rappelle en plus de la divergencede Kullback la notion d’entropie d’une variable aléatoire discrète de loi ν = (ν(a 1 ), ..., ν(a N )) :H(ν) = −N∑ν(a i ) ln(ν(a i ))On montre tout d’abord par un calcul direct que pour ν ∈ L n et Y ∈ T n (ν)i=1P µ ((Y 1 , ..., Y n ) = Y ) = e −n[H(ν)+KL(ν|µ)]Ainsi cette probabilité ne dépend pas de Y mais uniquement de ν : elle est constante sur uneclasse de type d’où :P µ (L Y n = ν) = |T n (ν)|e −n[H(ν)+KL(ν|µ)] (14)Il ne reste plus alors qu’à démontrer le lemme suivant :Lemme 4.3 1|L n| enH(ν) ≤ |T n (ν)| ≤ e nH(ν)Preuve du lemme D’après l’égalité (14) appliqué au cas particulier où µ = ν ∈ L n (dans cecas la divergence de Kullback est nulle),1 ≥ P ν (L Y n = ν) = |T n (ν)|e −n[H(ν)]d’où la majoration de |T n (ν)|. Pour obtenir la minoration, on va montrer que si µ = ν ∈ L n , νest le type le plus probable dans L n : càd pour tout ν ′ ∈ L nEn effet, on aP ν (L Y n = ν) ≥ P ν (L Y n = ν ′ ) (15)P ν (L Y n = ν)P ν (L Y n = ν ′ ) = |T n(ν)| ∏ Ni=1 ν(a i) nν(a i)|T n (ν ′ )| ∏ Ni=1 ν(a i) = ∏Nnν′ (a i )i=1nν ′ (a i )!nν(a i )! ν(a i) n[ν(a i)−ν ′ (a i )]car le cardinal de T n (ν) est le nombre de partitions ordonnées de n observations en nν(a 1 )observations de a 1 , ..., nν(a N ) observations de a N donc est égal au coefficient multinômial) ). L’expression ci-dessus est un produit de termes de typem! l−mor on peut(nnν(a 1 ),...,nν(a N )l!( ln65

montrer (disjonction de cas l > ou ≤ m) que m!l!≥ l m−l . Alors on obtient avec l = nν(a i ) etm = nν ′ (a i ) :P ν (L Y n = ν)NP ν (L Y n = ν ′ ) ≥ ∏[nν(a i )] n[ν′ (a i )−ν(a i )] ν(a i ) n[ν(a i)−ν ′ (a i )] = n ∑ Ni=1 (ν(a i)−ν ′ (a i )) = 1i=1ce qui démontre (15). On en déduit la minoration souhaitée par :1 = ∑ν ′ ∈L nP ν (L Y n = ν ′ ) ≤ |L n |P ν (L Y n = ν) = |L n ||T n (ν)|e −nH(ν)Remarque 4.2 Ce raisonnement avec les types a permis pour le cas des Bernoullis de trouverune minoration astucieuse du coefficient ( nk)intervenant dans P(Sn = k)On déduit ainsi de cette proposition la minoration1n+1 e−nKL(B( k n ),B(µ)) ≤ P(S n,µ = k) ≤P(S n,µ ≥ k) et finalement l’encadrement :1n + 1 e−nd( k n ,µ) ≤ P(S n,µ ≥ k) ≤ e −nd( k n ,µ) (16)D’où le lemme ci-dessous :Lemme 4.4 Le quantile d’ordre 1 − γ de la loi Beta(a, b) vérifie : ũ(a, b, γ) ≤ q 1−γ ≤ u(a, b, γ)avec{( )}a − 1ũ(a, b, γ) = argmax (a + b − 1)dx> a−1a + b − 1 , x ≤ ln(1/γ) − ln(a + b)a+b−1u(a, b, γ) = argmaxx> a−1a+b−1pour γ tel que ln(1/γ) − ln(a + b) > 0{(a + b − 1)dPreuve D’après l’encadrement (16) on a :( a − 1a + b − 1 , x )≤ ln(1/γ)(a + b) −1 a−1−(a+b−1)d(e a+b−1 ,x) a−1−(a+b−1)d(≤ P(X ≥ x) = P(S a+b−1,1−x ≥ b) ≤ e a+b−1 ,x)Pour obtenir une majoration du quantile, on remarque quea−1−(a+b−1)d(e a+b−1 ,x) ≤ γ ⇒ P(X ≥ x) ≤ γ ⇒ q 1−γ ≤ xa−1−(a+b−1)d(Or e a+b−1 ,x) ≤ γ ⇔ (a + b − 1)d(a, x) ≥ ln(1/γ) et on choisit comme majorant duquantile le plus petit majorant obtenu par cette méthode :x ∗ = argmin x>a−1 {(a+b−1)d(a, x) ≥ ln(1/γ)} = argmaxa+b−1x>a−1 {(a+b−1)d(a, x) ≤ ln(1/γ)}a+b−1Pour obtenir une minoration du quantile, on remarque que(a + b) −1 a−1−(a+b−1)d(e a+b−1 ,x) ≥ γ ⇒ P(X ≥ x) ≥ γ ⇒ q 1−γ ≥ xOr (a + b) −1 a−1−(a+b−1)d(e a+b−1 ,x) ≥ γ ⇔ (a + b − 1)d( a−1a+b−1, x) ≤ ln(1/γ) − ln(a + b) et on choisitcomme minorant du quantile le plus grand minorant obtenu par cette méthode :x ∗ a − 1= argmax x>a−1 {(a + b − 1)d( , x) ≤ ln(1/γ) − ln(a + b)}a+b−1a + b − 1□}□66

4.4.2 Lien avec l’algorithme KL-UCBAinsi pour le cas des bandits Bernoulli, l’indice de Quantile-UCB avec a priori uniforme, q j (t),quantile d’ordre 1 − 1 de Beta(St β ln(t) ct (j) + 1, N t (j) − S t (j) + 1) vérifie ũ j (t) ≤ q j (t) ≤ u j (t)avec :{ ( )}St (j)u j (t) = argmax dx> S t (j) N t (j) , x β ln(t) + c ln(ln(t))≤N t (j)N j (t)ũ j (t) = argmaxx> S t (j)N t (j)+1{ ( )St (j)dN t (j) + 1 , x ≤ β ln(t) + c ln(ln(t)) − ln(N }t(j) + 2)(N t (j) + 1)Justification L’expression ũ j (t) est bien définie pour β ≥ 1 et s’obtient directement par lelemme 4.4 tandis que pour u j (t) on a d’abord :{ ( )St (j)q j (t) ≤ argmax dx> S t (j) N j (t) + 1 , x ≤N j (t)+1puis on remarque que ceci est bien inférieur à u j (t). Soit en effet x >}β ln(t) + c ln(ln(t))N t (j) + 1St(j)N j (t)+1 tel que d (St(j)N t(j)+1 , x )≤β ln(t)+c ln(ln(t))N t(j)+1. Si x < St(j)N t(j)on a trivialement x de y ↦→ d(y, x) sur ]0, x[ d St(j)N , x β ln(t)+c ln(ln(t))t(j)≤N t(j)+1puis d St(j)N , x t(j)≤d’où x ≤ u 1 (t).β ln(t)+c ln(ln(t))N t(j)Conclusion L’algorithme Quantile-UCB est a priori très différent des algorithmes fréquentistespour la résolution du problème de bandit usuel (fréquentiste), car on introduit artificiellementun a priori et on se ramène à des calculs de quantiles de loi Beta. Mais on voit que la politiqued’indice qu’il définit est très proche de celle donnée par KL-UCB (pour les mêmes paramètres βet c). En effet, u j (t) correspond exactement à l’indice de KL-UCB, quant à ũ j (t) il correspondtà une version biaisée de KL-UCB+ : la grandeur gérant l’exploration n’est plus t maisN . t(j)+2Cet autre type d’exploration intervient donc naturellement dans l’algorithme Quantile-UCB.4.4.3 Une borne de regretMaintenant qu’on a montré la proximité entre Quantile-UCB et KL-UCB, on peut espérermontrer une borne de regret pour Quantile-UCB, en s’inspirant de la preuve de KL-UCB détailléedans la partie 2. La première idée, qui sera présentée dans ce rapport, est d’adapter directementla preuve de KL-UCB, en gérant le fait que ũ j (t) est différent de u j (t) : ceci nous fait perdre unpeu et je n’ai pu prouver ainsi l’optimalité que pour β ≥ 2.tDu fait de la gestion de l’exploration enN t(j)+2, on aurait en fait plutôt besoin d’une bornede regret pour KL-UCB+, qui ne pourra s’obtenir de la même manière que KL-UCB. L’idée(rédigée en dehors de ce rapport) est de quantifier la sous-estimation du bras optimal de manièreplus fine : non plus directement µ 1 > ũ 1 (t) mais plutôt µ 1 − b t > ũ 1 (t) où on introduit un termecorrectif b t .67

Theorème 4.2 Pour l’algorithme β-quantile avec les paramètres β ≥ 2 et c ≥ 3, on a la borneasyptotique suivante pour le nombre de tirages de chaque bras sous optimal j :E[N n (j)] ≤(1 + ɛ)βd(θ j , θ ∗ j ) ln(n) + o ɛ (ln(n))Démonstration On suppose que le bras 1 est optimal et que le bras 2 est non optimal. Oncommence le découpage de la même manière :N j (2) ≤n∑1 (µ1 >q 1 (t)) +t=1n∑t=11 (µ1 ≤q 1 (t))∩(I t=2)Ensuite on utilise la minoration de q 1 (t) par ũ 1 (t) et celle de q 2 (t) par u 2 (t) pour écrire :N j (2) ≤n∑1 (µ1 >ũ 1 (t)) +t=1n∑t=11 (µ1 ≤u 2 (t))∩(I t=2)On en déduit comme dans la preuve de KL-UCB que :[n∑n∑]E[N n (2)] ≤ P(µ 1 > ũ 1 (t)) + E 1 (sd(ˆµ2,s ,µ 1 )N t(1)+1Posons b(t) = β log(t) + c log(log(t)) On en déduit donc que dpose δ k = b(t) − log(γ k + 1) ≥ 0 et on a :( )St (1)dN t (1) + 1 , µ 1P((t k−1 < N t (1) + 1 ≤ t k ) ∩ (ũ 1 (t) < µ 1 ))} {{ }A k> δ kγ k( )St(1)N , µ t(1)+1 1> b(t)−log(γk +1). Onγ k68

Soit ensuite, toujours d’après les propriétés de décroissance de d(., µ 1 ) à gauche de µ 1 , z k ∈S[ t(1)N , µ t(1)+1 1] tel que d(z k , µ 1 ) = δ k. Et on a pour ce zγ k k l’existence de λ(z k ) < 0 tel que d(z k , µ 1 ) =λ(z k )z k − φ µ1 (λ(z k )). On en déduit que :A kA kA kA kA k⊂⊂⊂⊂⊂(λ(z k )z k − φ µ1 (λ(z k )) ≥ δ )kγ(k )δ kλ(z k )z k − φ µ1 (λ(z k )) ≥γ(N t (1) + 1)()S t (1)λ(z k )N t (1) + 1 − φ δ kµ 1(λ(z k )) ≥γ(N t (1) + 1)(λ(z k )S t (1) − (N t (1) + 1)φ µ1 (λ(z k )) ≥ δ )kγ(λ(z k )S t (1) − N t (1)φ µ1 (λ(z k )) ≥ δ )kγOn introduit de nouveau la martingale Wt λ = exp (λS t (1) − N t (1)φ µ1 (λ)) on obtient :(P(A k ) ≤ P W λ(z k)t ≥ exp( δ ) (kγ ) ≤ exp − δ ) [ ](kE W λ(z k)t =Markov γexp − δ )kmartingale γAinsi :On a alorsOr⌈ln(t+1)/ ln(γ)⌉∑k=1On a ainsi :e log(γk +1)γ≤P(µ 1 > ũ 1 (t)) ≤P(µ 1 > ũ 1 (t)) ≤ e − b(t)γ⌈ln(t+1)/ ln(γ)⌉∑k=1(γ k +1) ≤⌈ln(t+1)/ ln(γ)⌉∑k=1⌈ln(t+1)/ ln(γ)⌉∑k=1⌈ln(t+1)/ ln(γ)⌉∑k=1e − b(t)+log(γk +1)γe log(γk +1)γ( )ln(t + 1)P(µ 1 > ũ 1 (t)) ≤ (t + 2)+ 1 e − b(t)γln(γ)( ln(t + 1)(γ ln(t+1)/ ln(γ) +1) ≤ln(γ)Remarque 4.3 Ici la perte par rapport à KL-UCB est la facteur t + 2 devant le majorant, quinous conduira à pouvoir prendre seulement β ≥ 2En choisissant γ =b(t)b(t)−1on obtient :P(µ 1 > ũ 1 (t)) ≤ (t + 2)(b(t) ln(t + 1) + 1)e −b(t)+1)+ 1 (t+2)D’où :(A) ≤n∑t=2e(t + 2)(β ln(t) ln(t + 1) + c ln(ln(t)) ln(t + 1) + 1)t β ln(t) c69

Et pour β ≥ 2 et c ≥ 3 :Donc (A) = o(ln(n))(A) ≤ Cn∑t=2Finalement pour c ≥ 3 et pour β ≥ 2 on a :t ln(t) 2 n∑t 2 ln(t) 3 = C 1t ln(t) = O (ln(ln(n)))E[N n (2)] ≤t=2(1 + ɛ)βd(µ 2 , µ 1 ) ln(n) + o ɛ (ln(n))Remarque 4.4 Ici on n’a pas cherché à expliciter les sommes de séries intervenant, donnantfinalement une borne asymptotique. Il suffirait de détailler un peu plus pour avoir une borne entemps fini.□70

5 Bilan du stageEn conclusion, une approche bayésienne constitue un bon angle d’attaque pour l’étude duproblème de bandit. Gittins l’avait naturellement adoptée, et après l’avoir bien comprise etadaptée au cadre qui nous intéresse, son approche a conduit à un algorithme efficace en pratiquepour le problème du bandit dans un cadre fréquentiste et à horizon fini. Il reste bien sûr à comprendrede manière plus théorique et à obtenir une approximation des indices de Gittins pourpouvoir pleinement les comparer à ceux des autres politiques d’indice, et donner une borne deregret pour un problème fréquentiste.En effet, les algorithmes proposés ultérieurement ont souvent été des variations de politiquesd’indice, on peut donc considérer que Gittins a largement inspiré ses sucesseurs. De plus ona pu voir que les indices de Gittins, sans en avoir une expression précise, sont également desbornes supérieures de confiance par rapport à une moyenne empirique, donc la similarité entreles approches bayésiennes et fréquentistes est à creuser.J’ai également pu faire le lien entre l’algorithme Quantile-UCB, fondé sur l’idée bayésienned’utilisation de quantile d’a posteriori et son meilleur challenger fréquentiste, KL-UCB. Si lesidées des deux algorithmes semblent différentes, on a pu à la fois constater en pratique et comprendreen théorie, dans le cadre des bandits binaires et des bandits gaussiens, que les indicesutilisés par ces deux algorithmes sont très semblables.On a ainsi obtenu une garantie théorique dans des cas particuliers simples pour l’algorithmeQuantile-UCB, qui présente l’avantage d’être plus facile à implémenter que KL-UCB, et quipourra être testé ultérieurement de manière générale pour des distributions plus complexes avecd’autres a priori.De la même manière que KL-UCB a conduit à l’algorithme KL-UCRL pour l’apprentissaged’un MDP, nous pourrons ultérieurement étudier des approches bayésiennes pour l’explorationdes MDP, c’est un des axes possibles de ma future thèse.Le travail effectué au cours de ce stage m’a aussi permis de découvrir le monde de la recherche,en alternant le travail intial de bibliographie et la réflexion sur de nouvelles pistes,toujours guidée dans mon travail par des réunions et échanges avec mes encadrants. J’ai aussipu au cours de mon stage assister à quelques séminaires (séminaires des doctorants, SMILE,états de la recherches en apprentissage statistique) qui m’ont permis de m’ouvrir à d’autresaxes de recherche. Enfin j’ai eu moi-même la chance de présenter une partie de notre travail auséminaire de l’INRIA de Lille, et si le faire en anglais devant une équipe de recherche familièredu domaine représentait pour moi un défi, j’ai beaucoup apprécié de pouvoir le relever si tôt.Ce stage a donc véritablement constitué une introduction à ma thèse, que j’effectuerai àpartir de septembre dans le même laboratoire encadrée par Olivier Cappé, Aurélien Garivier etRémi Munos.71

Références[1] Jean-Yves Audibert, Sébastien Bubeck, Regret Bounds and Minimax Policies under PartialMonitoring Journal of Machine Learning Research, 2010[2] Peter Auer , Nicolo Cesa-Bianchi, Paul Fischer , Finite-time analysis of the multiarmedbandit problem Machine Learning 47,235-256, 2002[3] Aposotlos Burnetas, Michael Katehakis Optimal adaptive policies for sequential allocationproblems Advanced Applied Mathematics,1996[4] Olivier Cappé, Aurélien Garivier The KL-UCB algorithm for bounded stochastic banditsand beyond COLT, 2011[5] Amir Dembo, Ofer Zeitouni, Large Deviations Techniques and Applications, 2nd EditionSpringer, 1998[6] Esther Frostig, Gideon Weiss Four proofs of Gittins’ multiarmed bandit theorem In AppliedProbability Trust, 1999[7] John Gittins, Bandit Processes and Dynamic Allocation Indices In Journal of the RoyalStatistical Society, 1979[8] John Gittins, Kevin Glazebrook and Richard Weber Multi-armed bandit allocation indices(2nd Edition) Wiley, 2011[9] Junya Honda, Akimichi Takemura An asympototically Optimal Bandit Algorithm for BoundedSupport Models COLT 2010[10] Michael Katehakis, Herbert Robbins Sequential choice from several populationsProc.Natl.Acad.Sci. USA,Vol 92 pp.8584-8585, septembre 1995[11] T.L. Lai, Herbert Robbins, Asymptotically efficient adaptive allocation rules in Advancesin applied mathematics, 1985[12] Damien Lamberton, Bernard Lapeyre Introduction au calcul stochastique appliqué à lafinance, chapitre 2 Ellipse, 1997[13] Odalric-Ambrym Maillard, Rémi Munos, Gilles Stoltz A finite-time analysis of Multi-armedbandits problems with Kullback-Leibler Divergence COLT, 2011[14] Pascal Massart, Exponential and Information Inequalities notes de cours d’une école d’étéà Saint-Flour, chapitre 272

rapport de stage de master

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?