Monte Carlo Optimization - Seminarium szkoleniowe
Monte Carlo Optimization - Seminarium szkoleniowe
Monte Carlo Optimization - Seminarium szkoleniowe
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 1 / 38<strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong><strong>Seminarium</strong> <strong>szkoleniowe</strong>Eliza Bujnowska28 lutego 2006
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 2 / 38Zagadnienia optymalizacji metod¡ <strong>Monte</strong> <strong>Carlo</strong>Przeszukiwanie stochastyczneMetody gradientoweSymulowane wy»arzaniePrior feedback
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 2 / 38Zagadnienia optymalizacji metod¡ <strong>Monte</strong> <strong>Carlo</strong>Przeszukiwanie stochastyczneMetody gradientoweSymulowane wy»arzaniePrior feedbackAproksymacja stochastycznaOptymalizacja przy brakuj¡cych danychAlgorytm oczekiwania-maksymalizacji (EM)Algorytm <strong>Monte</strong> <strong>Carlo</strong> EM (MCEM)
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 3 / 38Przeszukiwanie stochastyczneZagadnienie optymalizacji mo»na sprowadzi¢ do szukania rozwi¡zaniaproblemumax θ∈Θ h(θ)funkcji h(θ) w przestrzeni Θ.Przy zaªo»eniu, »e przestrze« Θ jest ograniczona, najprostszymrozwi¡zaniem jest wygenerowanie próby u 1 , . . . , u m ∼ U Θ oraz u»ycie jakonaturalnego estymatora rozwi¡zania aproksymacji:h ∗ m = max(h(u 1 ), . . . , h(u m )).Metoda jest zbie»na wraz z m → ∞, cho¢ mo»e by¢ wolna, gdy» »adnewªasno±ci funkcji h nie s¡ brane pod uwag¦.
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 4 / 38Maksymalizacja metod¡ <strong>Monte</strong> <strong>Carlo</strong> przykªadRozwa»my funkcj¦:h(x) = [cos(50x) + sin(20x)] 2Funkcja jest zdeniowana w przedziale ograniczonym, generujemyu 1 , . . . , u m ∼ U Θ i u»ywamy aproksymacji h ∗ .Dokªadny wynik maksimum h(x) wynosi 3.832, co jest zgodne z rezultatemotrzymanym metod¡ <strong>Monte</strong> <strong>Carlo</strong>.Obok wykresu funkcji przedstawiono oszacowanie funkcji przy wylosowaniu5000 obserwacji z rozkªadu jednostajnego U(0, 1).
Maksymalizacja metod¡ <strong>Monte</strong> <strong>Carlo</strong> przykªad (2)Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 5 / 38
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 6 / 38Przeszukiwanie stochastyczne (2)Kolejny kierunek, to powi¡zanie funkcji h z rozkªademprawdopodobie«stwa.∫Je±li przykªadowo, h jest dodatnio okre±lona iΘh(θ)dθ < +∞ rozwi¡zanie problemu maksymalizacji h(θ) jestrównowa»ne ze znalezieniem warto±ci modalnej funkcji g¦sto±ci h.
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 6 / 38Przeszukiwanie stochastyczne (2)Kolejny kierunek, to powi¡zanie funkcji h z rozkªademprawdopodobie«stwa.∫Je±li przykªadowo, h jest dodatnio okre±lona iΘh(θ)dθ < +∞ rozwi¡zanie problemu maksymalizacji h(θ) jestrównowa»ne ze znalezieniem warto±ci modalnej funkcji g¦sto±ci h.W ogólnym przypadku, je±li powy»sze warunki nie s¡ speªnione mo»nadokona¢ transformacji podanej funkcji h(θ) do funkcji H(θ) speªniaj¡cejnast¦puj¡ce warunki:H jest nieujemnie okre±lona i speªnia warunek ∫ H < ∞.Maksymalizacja h(θ) jest równowa»na maksymalizacji H(θ) na Θ.
Przeszukiwanie stochastyczne (2)Kolejny kierunek, to powi¡zanie funkcji h z rozkªademprawdopodobie«stwa.∫Je±li przykªadowo, h jest dodatnio okre±lona iΘh(θ)dθ < +∞ rozwi¡zanie problemu maksymalizacji h(θ) jestrównowa»ne ze znalezieniem warto±ci modalnej funkcji g¦sto±ci h.W ogólnym przypadku, je±li powy»sze warunki nie s¡ speªnione mo»nadokona¢ transformacji podanej funkcji h(θ) do funkcji H(θ) speªniaj¡cejnast¦puj¡ce warunki:H jest nieujemnie okre±lona i speªnia warunek ∫ H < ∞.Maksymalizacja h(θ) jest równowa»na maksymalizacji H(θ) na Θ.Mo»na zastosowa¢ nast¦puj¡ce transformacje:H(θ) = exp(h(θ)/T ) lubH(θ) = exp(h(θ)/T )1 + exp(h(θ)/T ) ,gdzie T jest parametrem sªu»¡cym do przyspieszania zbie»no±ci / unikanialokalnych maksimów.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 6 / 38
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 7 / 38Minimalizacja funkcji przykªad 2Rozwa»my funkcj¦:h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) ++(xcos(10y) − ysin(10x)) 2 cosh(cos(20y)y),która osi¡ga minimum globalne równe 0 w punkcie (0,0).Aby otrzyma¢ rozwi¡zanie problemu, mo»na wylosowa¢ prób¦ z rozkªadug¦sto±ci proporcjonalny do exp(−h(x, y)), a nast¦pnie wylicza¢ minimumkolejnych h(x i , y i ).Z drugiej strony, mo»na równie» stosowa¢ losowanie próby z funkcji g¦sto±ciproporcjonalnej doh(x, y) = exp{−(xsin(20y) + ysin(20x)) 2 − (xcos(10y) − ysin(10x)) 2 }
Minimalizacja funkcji przykªad 2 cd.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 8 / 38
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 9 / 38Metody gradientoweMetoda optymalizacji oparta na wyznaczeniu gradientu funkcji jestnumerycznym przybli»eniem problemu maksymalizacji funkcji.Polega ona na wygenerowaniu ci¡gu (θ j ), który zbiega do dokªadnegorozwi¡zania θ ∗ , przy zaªo»eniu, »e przestrze« Θ ⊂ R d i funkcja s¡ wypukªe.Ci¡g tworzony jest rekurencyjnieθ j+1 = θ j + α j ∇h(θ j ),gdzie α j > 0, a ∇h jest gradientem funkcji h. W zale»no±ci od doboruci¡gu (α j ) algorytm zbiega do maksimum.
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 10 / 38Metody gradientowe (2)Przy ogólniejszych warunkach, ci¡g (θ j ) mo»e by¢ zmodykowany przezzakªócenia stochastyczne:θ j+1 = θ j + α j2β j∆h(θ j , β j ζ j )ζ j ,gdzie zmienne ζ j pochodz¡ z rozkªadu jednostajnego na sferze ||ζ|| = 1, a∆h(x, y) = h(x + y) − h(x − y) jest w przybli»eniu równe 2||y||∇h(x).Inaczej ni» w podej±ciu deterministycznym, algorytm nie koniecznie pod¡»aw kierunku najszybszego spadku w θ j . Pozwala to na unikni¦cie lokalnychmaksimów lub punktów siodªowych h.Zbie»no±¢ (θ j ) do rozwi¡zania θ ∗ zale»y od doboru ci¡gów (α j ) i (β j ).Wystarczaj¡co mocnym warunkiem zbie»no±ci ci¡gu (θ j ) jest zbie»no±¢ α jdo 0 oraz wyra»enia α jdo niezerowej staªej.βj
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 11 / 38Metody gradientowe - przykªadCi¡g dalszy przykªadu funkcji:h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) ++(xcos(10y) − ysin(10x)) 2 cosh(cos(20y)y),Poni»ej przedstawiono wyniki trzech przebiegów algorytmu z ró»nymiwarto±ciami (α i , β i ) oraz punktem startowym (0.65, 0.8). Liczba iteracjiwynika z warunku zatrzymania ||θ T − θ T −1 || < 10 −5 .αj βj θT h(θT ) minth(θt) Iteracje T1/10j 1/10j (-0.166,1.02) 1.287 0.115 501/100j 1/100j (0.629,0.786) 0.00013 0.00013 931/10log(1+j) 1/j (0.0004,0.245) 4.24 × 10 −6 2.163 × 10 −7 58
Metody gradientowe - przykªad cd.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 12 / 38
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 13 / 38Symulowane wy»arzanieMetoda ta polega na wprowadzeniu zmiennej skaluj¡cej (zwanejtemperatur¡), której zmniejszanie powoduje szybsze ruchy wzdªu»powierzchni optymalizowanej funkcji h. Odpowiednia zmiana zmiennejskaluj¡cej pozwala z du»ym prawdopodobie«stwem unikn¡¢ utkni¦ciarozwi¡zania w maksimum lokalnym.Mamy dane T > 0, θ1 T , θT 2 , . . . próba generowana z rozkªaduπ(θ) ∝ exp(h(θ)/T ).Warunek T → 0 zapewnia szybsze przeszukiwanie dziedziny funkcji h wpocz¡tkowych krokach algorytmu oraz koncentacj¦ warto±ci symulowanychz rozkªadu coraz bli»ej maksimum.
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 14 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa1 Rozpoczynamy od warto±ci θ 0 .2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa naotoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±cipoprzedniego kroku g(|ζ − θ 0 |)).3 Kolejny punkt wybieramy zgodnie z wzorem:{ ζ z p-stwem p = min{exp(∆hi /Tθ i+1 =i ), 1}θ i z p-stwem 1 − p,gdzie ∆h i = h i (ζ) − h i (θ 0 ).4 Aktualizuj T i na T i+1 .
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 14 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa1 Rozpoczynamy od warto±ci θ 0 .2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa naotoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±cipoprzedniego kroku g(|ζ − θ 0 |)).3 Kolejny punkt wybieramy zgodnie z wzorem:{ ζ z p-stwem p = min{exp(∆hi /Tθ i+1 =i ), 1}θ i z p-stwem 1 − p,gdzie ∆h i = h i (ζ) − h i (θ 0 ).4 Aktualizuj T i na T i+1 .
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 14 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa1 Rozpoczynamy od warto±ci θ 0 .2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa naotoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±cipoprzedniego kroku g(|ζ − θ 0 |)).3 Kolejny punkt wybieramy zgodnie z wzorem:{ ζ z p-stwem p = min{exp(∆hi /Tθ i+1 =i ), 1}θ i z p-stwem 1 − p,gdzie ∆h i = h i (ζ) − h i (θ 0 ).4 Aktualizuj T i na T i+1 .
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 14 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa1 Rozpoczynamy od warto±ci θ 0 .2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa naotoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±cipoprzedniego kroku g(|ζ − θ 0 |)).3 Kolejny punkt wybieramy zgodnie z wzorem:{ ζ z p-stwem p = min{exp(∆hi /Tθ i+1 =i ), 1}θ i z p-stwem 1 − p,gdzie ∆h i = h i (ζ) − h i (θ 0 ).4 Aktualizuj T i na T i+1 .
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 15 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa (2)h(ζ) ≥ h(θ i ) ζ zostanie zaakceptowany z prawdopodobie«stwem 1, aθ i b¦dzie zawsze zmieniane na ζ.h(ζ) < h(θ 0 ) ζ mo»e by¢ zaakceptowany z niezerowymprawdopodobie«stwem p. Umo»liwia to ucieczk¦ z ewentualnegomaksimum lokalnego i daje szans¦ na znalezienie maksimumglobalnego.
Symulowane wy»arzanie - przykªad 1Rozwa»my funkcj¦:h(x) = [cos(50x) + sin(20x)] 2 ,zastosujmy algorytm symulowanego wy»arzania w celu znalezieniamaksimum funkcji.W t-tej iteracji algorytm znajduje si¦ w punkcie (x (t) , h(x (t) )):1 Generujemy u ∼ U(a t , b t ), gdzie a t = max(x (t) − r, 0) ib t = min(x (t) + r, 1);2 Akceptujemy x (t+1) = u z prawdopodobie«stwemp (t) = min(exp( h(u)−h(x(t) )), 1);TtW przeciwnym przypadku ustalamy x (t+1) = x (t) ;3 Aktualizujemy T t na T t+1 .Na wykresach zaprezentowano wyniki algorytmu dla r = 0.5 iT t = 1/log(t).Warto±¢ r sªu»y do kontrolowania rozmiaru przedziaªu wokóª bie»¡cegopunktu, w tym przykªadzie obci¦to przedziaª do (0, 1).Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 16 / 38
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 17 / 38Symulowane wy»arzanie - przykªad 1 cd.Na wykresach przedstawiono ró»ne trajektorie dla 2500 par (x (t) , h(x (t) )).
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 18 / 38Symulowane wy»arzanie problem zbie»no±ciDenicjaNiech ε - przestrze« sko«czenie wymiarowa i h - maksymalizowana funkcja.1 Stan e j ∈ ε mo»e by¢ osi¡gni¦ty przyjmuj¡c warto±¢ h ze stanu e i ∈ ε,je±li istnieje ci¡g stanów e 1 , . . . , e n ª¡cz¡cych e i i e j , w taki sposób, »eh(e k ) ≥ h dla k = 1, . . . , n;2 Wysoko±¢ maksimum e i jest to najwi¦ksza warto±¢ d i taka, »e istniejestan e j , dla którego zachodzi warunek h(e j ) > h(e i ), który jestmo»liwy do osi¡gni¦cia ze stanu e i i przyjmuje warto±¢ h(e i ) + d i .Z tego wynika, »e h(e i ) + d i jest warto±ci¡ przyjmowan¡ dla najwy»szegoprzej±cia ª¡cz¡cego e i z e j , a wi¦c optymalnym ci¡giem przej±¢.Przyjmijmy dodatkowo d i = −∞, je±li e i jest globalnym maksimum.Niech O oznacza zbiór maksimów lokalnych E, a O jest podzbiorem zbioruO maksimów globalnych.
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 19 / 38Symulowane wy»arzanie problem zbie»no±ci (2)TwierdzenieRozwa»my system, w którym mo»liwe jest poª¡czenie dwóchprzypadkowych stanów sko«czonym ci¡giem stanów. Je±li dla ka»degoh > 0 i ka»dej pary (e i , e j ), stan e i mo»e by¢ osi¡gni¦ty przyjmuj¡c warto±¢h ze stanu e j , wtedy i tylko wtedy gdy e j mo»e by¢ osi¡gni¦ty z e iprzyjmuj¡c warto±¢ h. Je±li (T i ) zbiega do 0, ci¡g (θ i ) zdeniowanyzgodnie z algorytmem symulowanego wy»arzania speªniawtedy i tylko wtedygdzie D = min{d i : e i ∈ O − O}.lim i→∞ P(θ i ∈ O) = 1∞∑exp(−D/T i ) = +∞,i=1
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 20 / 38Symulowane wy»arzanie problem zbie»no±ci (3)Przedstawione twierdzenie jest warunkiem koniecznym i wystarczaj¡cym naokre±lenie stopnia spadku temperatury, tak aby algorytm zbiegaª do zbiorumaksimów globalnych.Nie rozwi¡zuje to jednak problemu wyznaczania T , gdy» D w praktyce niejest znane.Je±li przykªadowo ustalimy T i = Γ/log(i), to otrzymujemy zbie»no±¢rozwi¡zania do maksimum globalnego, wtedy i tylko wtedy, gdy Γ ≥ D.Zamiast zmiennej skaluj¡cej deniowanej logarytmicznie, mo»na u»y¢geometrycznejT i = α i T 0 (0 < α < 1).
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 21 / 38Symulowane wy»arzanie - przykªad 2Ci¡g dalszy przykªadu funkcji:h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) ++(xcos(10y) − ysin(10x)) 2 cosh(cos(20y)y),Stosujemy algorytm SA do znalezienia lokalnego minimum funkcji h.Poni»ej przedstawiono wyniki uzyskane w zale»no±ci od doboru spadkutemperatury (T i ). Wybrany punkt startowy to (0.5, 0.4), algorytmstosowano do ci¡gu 5000 punktów.Nr T i θ T h(θ T ) min t h(θ t ) Acc1 1/10i (−1.94, −0.48) 0.198 4.02 × 10 −7 0.99982 1/log(1 + i) (−1.99, −0.13) 3.408 3.82 × 10 −7 0.963 100/log(1 + i) (−0.56, 0.43) 0.002 4.71 × 10 −9 0.68884 1/10log(1 + i) (0.12, −0.15) 0.036 2.38 × 10 −7 0.71
Symulowane wy»arzanie - przykªad 2 cd.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 22 / 38
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 23 / 38Prior feedbackPrior feedback (lub recursive integration) jest podej±ciem opieraj¡cym si¦na zbie»no±ci wzgl¦dem T wyra»enia exp(h(θ)/T ) (tzw. miary Gibbsa) dorozkªadu jednostajnego na zbiorze globalnych maksimów h.TwierdzenieRozwa»my h - funkcj¦ o warto±ciach rzeczywistych zdeniowan¡ nadomkni¦tym i ograniczonym zbiorze Θ ⊂ R p . Je±li istnieje jednoznacznerozwi¡zanie θ ∗ speªniaj¡ceθ ∗ = argmax θ∈Θ h(θ),tolim λ→∞∫Θ θeλh(θ) dθ∫Θ eλh(θ) dθ = θ∗przy zaªo»eniu, »e funkcja h jest ci¡gªa w punkcie θ ∗ .
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 24 / 38Prior feedback (2)WniosekNiech π b¦dzie dodatnio okre±lon¡ funkcj¡ g¦sto±ci na Θ. Je±li istniejejednoznaczny estymator najwi¦kszej wiarygodno±ci θ ∗ , to speªnia onwarunek:lim λ→∞∫θe λl(θ|x) π(θ)dθ∫e λl(θ|x) π(θ)dθ = θ∗ .ENW mo»e by¢ przedstawiony jako granica estymatorów Bayesazwi¡zanych z arbitralnym rozkªadem π i obserwacjami odpowiadaj¡cymipot¦dze λ wiarygodno±ci exp{λl(θ|x)}. Dla λ ∈ N,δ π λ (x) = ∫θe λl(θ|x) π(θ)dθ∫e λl(θ|x) π(θ)dθjest estymatorem Bayesa zwi¡zanym z rozkªadem a priori π orazodpowiadaj¡c¡ prób¡ skªadaj¡c¡ si¦ z λ powtórze« pocz¡tkowej próby x.
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 25 / 38Prior feedback (3)Wraz ze zwi¦kszaniem rozmiaru próby, wpªyw rozkªaduprawdopodobie«stwa a priori zmniejsza si¦, a rozkªad zwi¡zany z funkcj¡exp(λl(θ|x))π(θ) jest coraz bardziej skoncentrowany wokóª globalnegomaksimum l(θ|x) wraz ze zwi¦kszaniem λ.Z praktycznego punktu widzenia, metoda ta mo»e by¢ implementowanapoprzez obliczanie estymatorów Bayesa δλi π (x), dla i = 1, 2 . . . do momentustabilizacji.W przypadku stosowania iteracyjnego algorytmu obliczania δ π λ (x),poprzednie rozwi¡zanie (wzgl¦dem λ) zapewnia nowy punkt startowy wkolejnym kroku, dla wi¦kszej warto±ci λ [analogia do metody symulowanegowy»arzania].
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 26 / 38Aproksymacja stochastycznaPod tym poj¦ciem kryj¡ si¦ metody polegaj¡ce na aproksymacji funkcjicelu, w odró»nieniu od poprzedniej cz¦±ci po±wi¦conej metodomprzeszukiwaniu Θ. Przedstawione poni»ej metody mog¡ by¢ w efekcieobci¡»one dodatkowym bª¦dem, zwi¡zanym z poszukiwaniem maksimumaproksymacji funkcji h.Wi¦kszo±¢ z przestawionych metod aproksymacji stosuje si¦ jedynie domodeli z brakuj¡cymi danymi (ang.: missing data models).Przedstawione metody b¦d¡ opieraªy si¦ na zaªo»eniu, »e funkcja celu hspeªnia warunek h(x) = E[H(x, Z)].
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 27 / 38Optymalizacja przy brakuj¡cych danychMetody zwi¡zane z modelowaniem brakuj¡cych danych najwygodniej jestrozpatrywa¢ jako modele, których wiarygodno±ciowa funkcja oceny jestwyra»ana jako:∫g(x|θ) = f (x, z|θ)dz,lub bardziej ogólnie, przy optymalizowaniu funkcji h(x), jako warto±¢oczekiwanah(x) = E[H(x, Z)].Z
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 28 / 38Optymalizacja przy brakuj¡cych danych cd.Je±li warunek g(x|θ) = ∫ Zf (x, z|θ)dz zachodzi, a wektor Z sªu»y jedyniedo uproszczenia oblicze«. Sposób jego wyboru, tak aby speªniaª warunekh(x) = E[H(x, Z)] nie powinien wpªywa¢ na warto±¢ estymatora.Funkcja L c (θ|x, z) = f (x, z|θ) jest funkcj¡ wiarygodno±ci peªnych danych(x, z) (complete-data likelihood, complete-model).
Algorytm oczekiwania - maksymalizacjiAlgorytm oczekiwania-maksymalizacji (ang. Expectation-Maximization)jest algorytmem do rozwi¡zywania problemów brakuj¡cych danych wkontek±cie wiarygodno±ci. W pierwotnej wersji nie jest to jednak algorytmstochastyczny.Niech X 1 , . . . , X n ∼ iid z rozkªadu g(x|θ) - zmienne obserwowane. Zale»ynam na obliczeniun∏ˆθ = argmaxL(θ|x) = g(x i |θ).i=1Chcemy jednak uzupeªni¢ model o zmienne brakuj¡ce z, gdzieX , Z ∼ f (x, z|θ). Dodatkowo zachodzi:k(z|θ, x) =f (x, z|θ)g(x|θ)Jest to rozkªad warunkowy brakuj¡cych danych Z przy obserwowanychdanych x.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 29 / 38
Algorytm oczekiwania - maksymalizacji (2)Na podstawie powy»szej równo±ci mo»na zaobserwowa¢ nast¦puj¡c¡zale»no±¢ mi¦dzy wiarygodno±ci¡ peªnych danych L c (θ|x, z), awiarygodno±ci¡ obserwowanych danych L(θ|x).dla dowolnego θ 0 .logL(θ|x) = E θ 0 [logLc (θ|x, z)] − E θ 0 [logk(z|θ, x)],Na potrzeby omawianego algorytmu oznaczmy warto±¢ oczekiwan¡wiarygodno±ci logartymicznej jako:Q(θ|θ 0 , x) = E θ 0 [logLc (θ|x, z)].Nast¦pnie dla ustalonego θ 0 maksymalizujemy Q(θ|θ 0 , x) wzgl¦dem θ, aje±li ˆθ (1) jest warto±ci¡ maksymalizuj¡c¡ to wyra»enie, to powtarzamyproces modykuj¡c warto±¢ θ 0 na ˆθ (1) . Post¦puj¡c iteracyjnie otrzymujemyci¡g estymatorów ˆθ (j) , j = 1, 2, . . ., gdzie ˆθ (j) jest warto±ci¡ θmaksymalizuj¡c¡ wyra»enie Q(ˆθ (j) |ˆθ (j−1) , x).Q(ˆθ (j) |ˆθ (j−1) , x) = max θ Q(θ|ˆθ (j−1) , x).Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 30 / 38
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 31 / 38Algorytm oczekiwania - maksymalizacji (3)KROK EObliczQ(θ|ˆθ (m) , x) = Eˆθ (m) [logLc (θ|x, z)],gdzie warto±¢ oczekiwana odpowiada k(z|ˆθ m , x).
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 31 / 38Algorytm oczekiwania - maksymalizacji (3)KROK EObliczQ(θ|ˆθ (m) , x) = Eˆθ (m) [logLc (θ|x, z)],gdzie warto±¢ oczekiwana odpowiada k(z|ˆθ m , x).KROK MMaksymalizuj Q(θ|ˆθ (m) , x) w θ oraz przyjmijθ (m+1) = argmax θ Q(θ|ˆθ (m) , x).
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 32 / 38Algorytm oczekiwania - maksymalizacji (4)TwierdzenieCi¡g (ˆθ (m) ) zdefniowany jakoQ(ˆθ (j) |ˆθ (j−1) , x) = max θ Q(θ|ˆθ (j−1) , x).speªniaL(ˆθ (j+1) |x) ≥ L(ˆθ (j) |x)z równo±ci¡ zachodz¡c¡ wtedy i tylko wtedy, gdyQ(ˆθ (j+1) |ˆθ (j) , x) = Q(ˆθ (j) |ˆθ (j) , x).
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 33 / 38Algorytm oczekiwania - maksymalizacji (5)Zaprezentowane twierdzenie gwarantuje, niezmniejszanie si¦ funkcjiwiarygodno±ci logarytmicznej w ka»dym kroku iteracji, jednak dalej niejeste±my w stanie stwierdzi¢, »e ci¡g (ˆθ (j) ) zbiega do estymatoranajwi¦kszej wiarygodno±ci.Aby zapewni¢ t¦ zbie»no±¢ potrzebujemy dalszych warunków naodwzorowanie ˆθ (j) → ˆθ (j+1) .Twierdzenie poni»ej jest warunkiem gwarantuj¡cym zbie»no±¢ do punktustacjonarnego (lokalnego ekstremum lub punktu przegi¦cia).TwierdzenieJe±li warto±¢ oczekiwana wiarygodno±ci peªnych danych Q(θ|θ 0 , x) jestfunkcj¡ ci¡gª¡ zarówno θ, jak i θ 0 , to ka»dy punkt graniczny ci¡gu EM(ˆθ (j) ) jest punktem stacjonarnym L(θ|x), a L(ˆθ (j) |x) zbiega monotoniczniedo L(ˆθ|x) dla punktu stacjonarnego ˆθ.
Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 34 / 38<strong>Monte</strong> <strong>Carlo</strong> EMProblemem w implementacji algorytmu EM jest konieczno±¢ wyliczaniawarto±ci oczekiwanej funkcji wiarygodno±ci Q(θ|θ 0 , x) w ka»dym kroku E.W celu przezwyci¦»enia tej trudno±ci zaproponowano podej±cie <strong>Monte</strong><strong>Carlo</strong> (MCEM) polegaj¡ce na symulowaniu Z 1 , . . . , Z m z rozkªaduwarunkowego k(z|x, θ), a nast¦pnie maksymalizacj¦ aproksymowanejwarto±ci funkcji wiarygodno±ci dla peªnych danychˆQ(θ|θ 0 , x) = 1 m∑logL c (θ|x, z).mi=1Warto±¢ ta zbiega do Q(θ|θ 0 , x) wraz z m → ∞.Proponuje si¦ zwi¦kszanie m wraz z kolejnymi iteracjami.
Dzi¦kuj¦ za uwag¦.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 35 / 38