13.07.2015 Views

Monte Carlo Optimization - Seminarium szkoleniowe

Monte Carlo Optimization - Seminarium szkoleniowe

Monte Carlo Optimization - Seminarium szkoleniowe

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 1 / 38<strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong><strong>Seminarium</strong> <strong>szkoleniowe</strong>Eliza Bujnowska28 lutego 2006


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 2 / 38Zagadnienia optymalizacji metod¡ <strong>Monte</strong> <strong>Carlo</strong>Przeszukiwanie stochastyczneMetody gradientoweSymulowane wy»arzaniePrior feedback


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 2 / 38Zagadnienia optymalizacji metod¡ <strong>Monte</strong> <strong>Carlo</strong>Przeszukiwanie stochastyczneMetody gradientoweSymulowane wy»arzaniePrior feedbackAproksymacja stochastycznaOptymalizacja przy brakuj¡cych danychAlgorytm oczekiwania-maksymalizacji (EM)Algorytm <strong>Monte</strong> <strong>Carlo</strong> EM (MCEM)


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 3 / 38Przeszukiwanie stochastyczneZagadnienie optymalizacji mo»na sprowadzi¢ do szukania rozwi¡zaniaproblemumax θ∈Θ h(θ)funkcji h(θ) w przestrzeni Θ.Przy zaªo»eniu, »e przestrze« Θ jest ograniczona, najprostszymrozwi¡zaniem jest wygenerowanie próby u 1 , . . . , u m ∼ U Θ oraz u»ycie jakonaturalnego estymatora rozwi¡zania aproksymacji:h ∗ m = max(h(u 1 ), . . . , h(u m )).Metoda jest zbie»na wraz z m → ∞, cho¢ mo»e by¢ wolna, gdy» »adnewªasno±ci funkcji h nie s¡ brane pod uwag¦.


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 4 / 38Maksymalizacja metod¡ <strong>Monte</strong> <strong>Carlo</strong> przykªadRozwa»my funkcj¦:h(x) = [cos(50x) + sin(20x)] 2Funkcja jest zdeniowana w przedziale ograniczonym, generujemyu 1 , . . . , u m ∼ U Θ i u»ywamy aproksymacji h ∗ .Dokªadny wynik maksimum h(x) wynosi 3.832, co jest zgodne z rezultatemotrzymanym metod¡ <strong>Monte</strong> <strong>Carlo</strong>.Obok wykresu funkcji przedstawiono oszacowanie funkcji przy wylosowaniu5000 obserwacji z rozkªadu jednostajnego U(0, 1).


Maksymalizacja metod¡ <strong>Monte</strong> <strong>Carlo</strong> przykªad (2)Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 5 / 38


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 6 / 38Przeszukiwanie stochastyczne (2)Kolejny kierunek, to powi¡zanie funkcji h z rozkªademprawdopodobie«stwa.∫Je±li przykªadowo, h jest dodatnio okre±lona iΘh(θ)dθ < +∞ rozwi¡zanie problemu maksymalizacji h(θ) jestrównowa»ne ze znalezieniem warto±ci modalnej funkcji g¦sto±ci h.


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 6 / 38Przeszukiwanie stochastyczne (2)Kolejny kierunek, to powi¡zanie funkcji h z rozkªademprawdopodobie«stwa.∫Je±li przykªadowo, h jest dodatnio okre±lona iΘh(θ)dθ < +∞ rozwi¡zanie problemu maksymalizacji h(θ) jestrównowa»ne ze znalezieniem warto±ci modalnej funkcji g¦sto±ci h.W ogólnym przypadku, je±li powy»sze warunki nie s¡ speªnione mo»nadokona¢ transformacji podanej funkcji h(θ) do funkcji H(θ) speªniaj¡cejnast¦puj¡ce warunki:H jest nieujemnie okre±lona i speªnia warunek ∫ H < ∞.Maksymalizacja h(θ) jest równowa»na maksymalizacji H(θ) na Θ.


Przeszukiwanie stochastyczne (2)Kolejny kierunek, to powi¡zanie funkcji h z rozkªademprawdopodobie«stwa.∫Je±li przykªadowo, h jest dodatnio okre±lona iΘh(θ)dθ < +∞ rozwi¡zanie problemu maksymalizacji h(θ) jestrównowa»ne ze znalezieniem warto±ci modalnej funkcji g¦sto±ci h.W ogólnym przypadku, je±li powy»sze warunki nie s¡ speªnione mo»nadokona¢ transformacji podanej funkcji h(θ) do funkcji H(θ) speªniaj¡cejnast¦puj¡ce warunki:H jest nieujemnie okre±lona i speªnia warunek ∫ H < ∞.Maksymalizacja h(θ) jest równowa»na maksymalizacji H(θ) na Θ.Mo»na zastosowa¢ nast¦puj¡ce transformacje:H(θ) = exp(h(θ)/T ) lubH(θ) = exp(h(θ)/T )1 + exp(h(θ)/T ) ,gdzie T jest parametrem sªu»¡cym do przyspieszania zbie»no±ci / unikanialokalnych maksimów.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 6 / 38


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 7 / 38Minimalizacja funkcji przykªad 2Rozwa»my funkcj¦:h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) ++(xcos(10y) − ysin(10x)) 2 cosh(cos(20y)y),która osi¡ga minimum globalne równe 0 w punkcie (0,0).Aby otrzyma¢ rozwi¡zanie problemu, mo»na wylosowa¢ prób¦ z rozkªadug¦sto±ci proporcjonalny do exp(−h(x, y)), a nast¦pnie wylicza¢ minimumkolejnych h(x i , y i ).Z drugiej strony, mo»na równie» stosowa¢ losowanie próby z funkcji g¦sto±ciproporcjonalnej doh(x, y) = exp{−(xsin(20y) + ysin(20x)) 2 − (xcos(10y) − ysin(10x)) 2 }


Minimalizacja funkcji przykªad 2 cd.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 8 / 38


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 9 / 38Metody gradientoweMetoda optymalizacji oparta na wyznaczeniu gradientu funkcji jestnumerycznym przybli»eniem problemu maksymalizacji funkcji.Polega ona na wygenerowaniu ci¡gu (θ j ), który zbiega do dokªadnegorozwi¡zania θ ∗ , przy zaªo»eniu, »e przestrze« Θ ⊂ R d i funkcja s¡ wypukªe.Ci¡g tworzony jest rekurencyjnieθ j+1 = θ j + α j ∇h(θ j ),gdzie α j > 0, a ∇h jest gradientem funkcji h. W zale»no±ci od doboruci¡gu (α j ) algorytm zbiega do maksimum.


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 10 / 38Metody gradientowe (2)Przy ogólniejszych warunkach, ci¡g (θ j ) mo»e by¢ zmodykowany przezzakªócenia stochastyczne:θ j+1 = θ j + α j2β j∆h(θ j , β j ζ j )ζ j ,gdzie zmienne ζ j pochodz¡ z rozkªadu jednostajnego na sferze ||ζ|| = 1, a∆h(x, y) = h(x + y) − h(x − y) jest w przybli»eniu równe 2||y||∇h(x).Inaczej ni» w podej±ciu deterministycznym, algorytm nie koniecznie pod¡»aw kierunku najszybszego spadku w θ j . Pozwala to na unikni¦cie lokalnychmaksimów lub punktów siodªowych h.Zbie»no±¢ (θ j ) do rozwi¡zania θ ∗ zale»y od doboru ci¡gów (α j ) i (β j ).Wystarczaj¡co mocnym warunkiem zbie»no±ci ci¡gu (θ j ) jest zbie»no±¢ α jdo 0 oraz wyra»enia α jdo niezerowej staªej.βj


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 11 / 38Metody gradientowe - przykªadCi¡g dalszy przykªadu funkcji:h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) ++(xcos(10y) − ysin(10x)) 2 cosh(cos(20y)y),Poni»ej przedstawiono wyniki trzech przebiegów algorytmu z ró»nymiwarto±ciami (α i , β i ) oraz punktem startowym (0.65, 0.8). Liczba iteracjiwynika z warunku zatrzymania ||θ T − θ T −1 || < 10 −5 .αj βj θT h(θT ) minth(θt) Iteracje T1/10j 1/10j (-0.166,1.02) 1.287 0.115 501/100j 1/100j (0.629,0.786) 0.00013 0.00013 931/10log(1+j) 1/j (0.0004,0.245) 4.24 × 10 −6 2.163 × 10 −7 58


Metody gradientowe - przykªad cd.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 12 / 38


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 13 / 38Symulowane wy»arzanieMetoda ta polega na wprowadzeniu zmiennej skaluj¡cej (zwanejtemperatur¡), której zmniejszanie powoduje szybsze ruchy wzdªu»powierzchni optymalizowanej funkcji h. Odpowiednia zmiana zmiennejskaluj¡cej pozwala z du»ym prawdopodobie«stwem unikn¡¢ utkni¦ciarozwi¡zania w maksimum lokalnym.Mamy dane T > 0, θ1 T , θT 2 , . . . próba generowana z rozkªaduπ(θ) ∝ exp(h(θ)/T ).Warunek T → 0 zapewnia szybsze przeszukiwanie dziedziny funkcji h wpocz¡tkowych krokach algorytmu oraz koncentacj¦ warto±ci symulowanychz rozkªadu coraz bli»ej maksimum.


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 14 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa1 Rozpoczynamy od warto±ci θ 0 .2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa naotoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±cipoprzedniego kroku g(|ζ − θ 0 |)).3 Kolejny punkt wybieramy zgodnie z wzorem:{ ζ z p-stwem p = min{exp(∆hi /Tθ i+1 =i ), 1}θ i z p-stwem 1 − p,gdzie ∆h i = h i (ζ) − h i (θ 0 ).4 Aktualizuj T i na T i+1 .


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 14 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa1 Rozpoczynamy od warto±ci θ 0 .2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa naotoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±cipoprzedniego kroku g(|ζ − θ 0 |)).3 Kolejny punkt wybieramy zgodnie z wzorem:{ ζ z p-stwem p = min{exp(∆hi /Tθ i+1 =i ), 1}θ i z p-stwem 1 − p,gdzie ∆h i = h i (ζ) − h i (θ 0 ).4 Aktualizuj T i na T i+1 .


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 14 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa1 Rozpoczynamy od warto±ci θ 0 .2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa naotoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±cipoprzedniego kroku g(|ζ − θ 0 |)).3 Kolejny punkt wybieramy zgodnie z wzorem:{ ζ z p-stwem p = min{exp(∆hi /Tθ i+1 =i ), 1}θ i z p-stwem 1 − p,gdzie ∆h i = h i (ζ) − h i (θ 0 ).4 Aktualizuj T i na T i+1 .


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 14 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa1 Rozpoczynamy od warto±ci θ 0 .2 Losujemy ζ z jednostajnego rozkªadu prawdopodobie«stwa naotoczeniu ν(θ 0 ) (w ogólnym przypadku: otoczenie warto±cipoprzedniego kroku g(|ζ − θ 0 |)).3 Kolejny punkt wybieramy zgodnie z wzorem:{ ζ z p-stwem p = min{exp(∆hi /Tθ i+1 =i ), 1}θ i z p-stwem 1 − p,gdzie ∆h i = h i (ζ) − h i (θ 0 ).4 Aktualizuj T i na T i+1 .


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 15 / 38Symulowane wy»arzanie z modyfikacj¡ Metropolisa (2)h(ζ) ≥ h(θ i ) ζ zostanie zaakceptowany z prawdopodobie«stwem 1, aθ i b¦dzie zawsze zmieniane na ζ.h(ζ) < h(θ 0 ) ζ mo»e by¢ zaakceptowany z niezerowymprawdopodobie«stwem p. Umo»liwia to ucieczk¦ z ewentualnegomaksimum lokalnego i daje szans¦ na znalezienie maksimumglobalnego.


Symulowane wy»arzanie - przykªad 1Rozwa»my funkcj¦:h(x) = [cos(50x) + sin(20x)] 2 ,zastosujmy algorytm symulowanego wy»arzania w celu znalezieniamaksimum funkcji.W t-tej iteracji algorytm znajduje si¦ w punkcie (x (t) , h(x (t) )):1 Generujemy u ∼ U(a t , b t ), gdzie a t = max(x (t) − r, 0) ib t = min(x (t) + r, 1);2 Akceptujemy x (t+1) = u z prawdopodobie«stwemp (t) = min(exp( h(u)−h(x(t) )), 1);TtW przeciwnym przypadku ustalamy x (t+1) = x (t) ;3 Aktualizujemy T t na T t+1 .Na wykresach zaprezentowano wyniki algorytmu dla r = 0.5 iT t = 1/log(t).Warto±¢ r sªu»y do kontrolowania rozmiaru przedziaªu wokóª bie»¡cegopunktu, w tym przykªadzie obci¦to przedziaª do (0, 1).Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 16 / 38


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 17 / 38Symulowane wy»arzanie - przykªad 1 cd.Na wykresach przedstawiono ró»ne trajektorie dla 2500 par (x (t) , h(x (t) )).


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 18 / 38Symulowane wy»arzanie problem zbie»no±ciDenicjaNiech ε - przestrze« sko«czenie wymiarowa i h - maksymalizowana funkcja.1 Stan e j ∈ ε mo»e by¢ osi¡gni¦ty przyjmuj¡c warto±¢ h ze stanu e i ∈ ε,je±li istnieje ci¡g stanów e 1 , . . . , e n ª¡cz¡cych e i i e j , w taki sposób, »eh(e k ) ≥ h dla k = 1, . . . , n;2 Wysoko±¢ maksimum e i jest to najwi¦ksza warto±¢ d i taka, »e istniejestan e j , dla którego zachodzi warunek h(e j ) > h(e i ), który jestmo»liwy do osi¡gni¦cia ze stanu e i i przyjmuje warto±¢ h(e i ) + d i .Z tego wynika, »e h(e i ) + d i jest warto±ci¡ przyjmowan¡ dla najwy»szegoprzej±cia ª¡cz¡cego e i z e j , a wi¦c optymalnym ci¡giem przej±¢.Przyjmijmy dodatkowo d i = −∞, je±li e i jest globalnym maksimum.Niech O oznacza zbiór maksimów lokalnych E, a O jest podzbiorem zbioruO maksimów globalnych.


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 19 / 38Symulowane wy»arzanie problem zbie»no±ci (2)TwierdzenieRozwa»my system, w którym mo»liwe jest poª¡czenie dwóchprzypadkowych stanów sko«czonym ci¡giem stanów. Je±li dla ka»degoh > 0 i ka»dej pary (e i , e j ), stan e i mo»e by¢ osi¡gni¦ty przyjmuj¡c warto±¢h ze stanu e j , wtedy i tylko wtedy gdy e j mo»e by¢ osi¡gni¦ty z e iprzyjmuj¡c warto±¢ h. Je±li (T i ) zbiega do 0, ci¡g (θ i ) zdeniowanyzgodnie z algorytmem symulowanego wy»arzania speªniawtedy i tylko wtedygdzie D = min{d i : e i ∈ O − O}.lim i→∞ P(θ i ∈ O) = 1∞∑exp(−D/T i ) = +∞,i=1


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 20 / 38Symulowane wy»arzanie problem zbie»no±ci (3)Przedstawione twierdzenie jest warunkiem koniecznym i wystarczaj¡cym naokre±lenie stopnia spadku temperatury, tak aby algorytm zbiegaª do zbiorumaksimów globalnych.Nie rozwi¡zuje to jednak problemu wyznaczania T , gdy» D w praktyce niejest znane.Je±li przykªadowo ustalimy T i = Γ/log(i), to otrzymujemy zbie»no±¢rozwi¡zania do maksimum globalnego, wtedy i tylko wtedy, gdy Γ ≥ D.Zamiast zmiennej skaluj¡cej deniowanej logarytmicznie, mo»na u»y¢geometrycznejT i = α i T 0 (0 < α < 1).


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 21 / 38Symulowane wy»arzanie - przykªad 2Ci¡g dalszy przykªadu funkcji:h(x, y) = (xsin(20y) + ysin(20x)) 2 cosh(sin(10x)x) ++(xcos(10y) − ysin(10x)) 2 cosh(cos(20y)y),Stosujemy algorytm SA do znalezienia lokalnego minimum funkcji h.Poni»ej przedstawiono wyniki uzyskane w zale»no±ci od doboru spadkutemperatury (T i ). Wybrany punkt startowy to (0.5, 0.4), algorytmstosowano do ci¡gu 5000 punktów.Nr T i θ T h(θ T ) min t h(θ t ) Acc1 1/10i (−1.94, −0.48) 0.198 4.02 × 10 −7 0.99982 1/log(1 + i) (−1.99, −0.13) 3.408 3.82 × 10 −7 0.963 100/log(1 + i) (−0.56, 0.43) 0.002 4.71 × 10 −9 0.68884 1/10log(1 + i) (0.12, −0.15) 0.036 2.38 × 10 −7 0.71


Symulowane wy»arzanie - przykªad 2 cd.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 22 / 38


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 23 / 38Prior feedbackPrior feedback (lub recursive integration) jest podej±ciem opieraj¡cym si¦na zbie»no±ci wzgl¦dem T wyra»enia exp(h(θ)/T ) (tzw. miary Gibbsa) dorozkªadu jednostajnego na zbiorze globalnych maksimów h.TwierdzenieRozwa»my h - funkcj¦ o warto±ciach rzeczywistych zdeniowan¡ nadomkni¦tym i ograniczonym zbiorze Θ ⊂ R p . Je±li istnieje jednoznacznerozwi¡zanie θ ∗ speªniaj¡ceθ ∗ = argmax θ∈Θ h(θ),tolim λ→∞∫Θ θeλh(θ) dθ∫Θ eλh(θ) dθ = θ∗przy zaªo»eniu, »e funkcja h jest ci¡gªa w punkcie θ ∗ .


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 24 / 38Prior feedback (2)WniosekNiech π b¦dzie dodatnio okre±lon¡ funkcj¡ g¦sto±ci na Θ. Je±li istniejejednoznaczny estymator najwi¦kszej wiarygodno±ci θ ∗ , to speªnia onwarunek:lim λ→∞∫θe λl(θ|x) π(θ)dθ∫e λl(θ|x) π(θ)dθ = θ∗ .ENW mo»e by¢ przedstawiony jako granica estymatorów Bayesazwi¡zanych z arbitralnym rozkªadem π i obserwacjami odpowiadaj¡cymipot¦dze λ wiarygodno±ci exp{λl(θ|x)}. Dla λ ∈ N,δ π λ (x) = ∫θe λl(θ|x) π(θ)dθ∫e λl(θ|x) π(θ)dθjest estymatorem Bayesa zwi¡zanym z rozkªadem a priori π orazodpowiadaj¡c¡ prób¡ skªadaj¡c¡ si¦ z λ powtórze« pocz¡tkowej próby x.


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 25 / 38Prior feedback (3)Wraz ze zwi¦kszaniem rozmiaru próby, wpªyw rozkªaduprawdopodobie«stwa a priori zmniejsza si¦, a rozkªad zwi¡zany z funkcj¡exp(λl(θ|x))π(θ) jest coraz bardziej skoncentrowany wokóª globalnegomaksimum l(θ|x) wraz ze zwi¦kszaniem λ.Z praktycznego punktu widzenia, metoda ta mo»e by¢ implementowanapoprzez obliczanie estymatorów Bayesa δλi π (x), dla i = 1, 2 . . . do momentustabilizacji.W przypadku stosowania iteracyjnego algorytmu obliczania δ π λ (x),poprzednie rozwi¡zanie (wzgl¦dem λ) zapewnia nowy punkt startowy wkolejnym kroku, dla wi¦kszej warto±ci λ [analogia do metody symulowanegowy»arzania].


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 26 / 38Aproksymacja stochastycznaPod tym poj¦ciem kryj¡ si¦ metody polegaj¡ce na aproksymacji funkcjicelu, w odró»nieniu od poprzedniej cz¦±ci po±wi¦conej metodomprzeszukiwaniu Θ. Przedstawione poni»ej metody mog¡ by¢ w efekcieobci¡»one dodatkowym bª¦dem, zwi¡zanym z poszukiwaniem maksimumaproksymacji funkcji h.Wi¦kszo±¢ z przestawionych metod aproksymacji stosuje si¦ jedynie domodeli z brakuj¡cymi danymi (ang.: missing data models).Przedstawione metody b¦d¡ opieraªy si¦ na zaªo»eniu, »e funkcja celu hspeªnia warunek h(x) = E[H(x, Z)].


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 27 / 38Optymalizacja przy brakuj¡cych danychMetody zwi¡zane z modelowaniem brakuj¡cych danych najwygodniej jestrozpatrywa¢ jako modele, których wiarygodno±ciowa funkcja oceny jestwyra»ana jako:∫g(x|θ) = f (x, z|θ)dz,lub bardziej ogólnie, przy optymalizowaniu funkcji h(x), jako warto±¢oczekiwanah(x) = E[H(x, Z)].Z


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 28 / 38Optymalizacja przy brakuj¡cych danych cd.Je±li warunek g(x|θ) = ∫ Zf (x, z|θ)dz zachodzi, a wektor Z sªu»y jedyniedo uproszczenia oblicze«. Sposób jego wyboru, tak aby speªniaª warunekh(x) = E[H(x, Z)] nie powinien wpªywa¢ na warto±¢ estymatora.Funkcja L c (θ|x, z) = f (x, z|θ) jest funkcj¡ wiarygodno±ci peªnych danych(x, z) (complete-data likelihood, complete-model).


Algorytm oczekiwania - maksymalizacjiAlgorytm oczekiwania-maksymalizacji (ang. Expectation-Maximization)jest algorytmem do rozwi¡zywania problemów brakuj¡cych danych wkontek±cie wiarygodno±ci. W pierwotnej wersji nie jest to jednak algorytmstochastyczny.Niech X 1 , . . . , X n ∼ iid z rozkªadu g(x|θ) - zmienne obserwowane. Zale»ynam na obliczeniun∏ˆθ = argmaxL(θ|x) = g(x i |θ).i=1Chcemy jednak uzupeªni¢ model o zmienne brakuj¡ce z, gdzieX , Z ∼ f (x, z|θ). Dodatkowo zachodzi:k(z|θ, x) =f (x, z|θ)g(x|θ)Jest to rozkªad warunkowy brakuj¡cych danych Z przy obserwowanychdanych x.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 29 / 38


Algorytm oczekiwania - maksymalizacji (2)Na podstawie powy»szej równo±ci mo»na zaobserwowa¢ nast¦puj¡c¡zale»no±¢ mi¦dzy wiarygodno±ci¡ peªnych danych L c (θ|x, z), awiarygodno±ci¡ obserwowanych danych L(θ|x).dla dowolnego θ 0 .logL(θ|x) = E θ 0 [logLc (θ|x, z)] − E θ 0 [logk(z|θ, x)],Na potrzeby omawianego algorytmu oznaczmy warto±¢ oczekiwan¡wiarygodno±ci logartymicznej jako:Q(θ|θ 0 , x) = E θ 0 [logLc (θ|x, z)].Nast¦pnie dla ustalonego θ 0 maksymalizujemy Q(θ|θ 0 , x) wzgl¦dem θ, aje±li ˆθ (1) jest warto±ci¡ maksymalizuj¡c¡ to wyra»enie, to powtarzamyproces modykuj¡c warto±¢ θ 0 na ˆθ (1) . Post¦puj¡c iteracyjnie otrzymujemyci¡g estymatorów ˆθ (j) , j = 1, 2, . . ., gdzie ˆθ (j) jest warto±ci¡ θmaksymalizuj¡c¡ wyra»enie Q(ˆθ (j) |ˆθ (j−1) , x).Q(ˆθ (j) |ˆθ (j−1) , x) = max θ Q(θ|ˆθ (j−1) , x).Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 30 / 38


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 31 / 38Algorytm oczekiwania - maksymalizacji (3)KROK EObliczQ(θ|ˆθ (m) , x) = Eˆθ (m) [logLc (θ|x, z)],gdzie warto±¢ oczekiwana odpowiada k(z|ˆθ m , x).


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 31 / 38Algorytm oczekiwania - maksymalizacji (3)KROK EObliczQ(θ|ˆθ (m) , x) = Eˆθ (m) [logLc (θ|x, z)],gdzie warto±¢ oczekiwana odpowiada k(z|ˆθ m , x).KROK MMaksymalizuj Q(θ|ˆθ (m) , x) w θ oraz przyjmijθ (m+1) = argmax θ Q(θ|ˆθ (m) , x).


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 32 / 38Algorytm oczekiwania - maksymalizacji (4)TwierdzenieCi¡g (ˆθ (m) ) zdefniowany jakoQ(ˆθ (j) |ˆθ (j−1) , x) = max θ Q(θ|ˆθ (j−1) , x).speªniaL(ˆθ (j+1) |x) ≥ L(ˆθ (j) |x)z równo±ci¡ zachodz¡c¡ wtedy i tylko wtedy, gdyQ(ˆθ (j+1) |ˆθ (j) , x) = Q(ˆθ (j) |ˆθ (j) , x).


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 33 / 38Algorytm oczekiwania - maksymalizacji (5)Zaprezentowane twierdzenie gwarantuje, niezmniejszanie si¦ funkcjiwiarygodno±ci logarytmicznej w ka»dym kroku iteracji, jednak dalej niejeste±my w stanie stwierdzi¢, »e ci¡g (ˆθ (j) ) zbiega do estymatoranajwi¦kszej wiarygodno±ci.Aby zapewni¢ t¦ zbie»no±¢ potrzebujemy dalszych warunków naodwzorowanie ˆθ (j) → ˆθ (j+1) .Twierdzenie poni»ej jest warunkiem gwarantuj¡cym zbie»no±¢ do punktustacjonarnego (lokalnego ekstremum lub punktu przegi¦cia).TwierdzenieJe±li warto±¢ oczekiwana wiarygodno±ci peªnych danych Q(θ|θ 0 , x) jestfunkcj¡ ci¡gª¡ zarówno θ, jak i θ 0 , to ka»dy punkt graniczny ci¡gu EM(ˆθ (j) ) jest punktem stacjonarnym L(θ|x), a L(ˆθ (j) |x) zbiega monotoniczniedo L(ˆθ|x) dla punktu stacjonarnego ˆθ.


Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 34 / 38<strong>Monte</strong> <strong>Carlo</strong> EMProblemem w implementacji algorytmu EM jest konieczno±¢ wyliczaniawarto±ci oczekiwanej funkcji wiarygodno±ci Q(θ|θ 0 , x) w ka»dym kroku E.W celu przezwyci¦»enia tej trudno±ci zaproponowano podej±cie <strong>Monte</strong><strong>Carlo</strong> (MCEM) polegaj¡ce na symulowaniu Z 1 , . . . , Z m z rozkªaduwarunkowego k(z|x, θ), a nast¦pnie maksymalizacj¦ aproksymowanejwarto±ci funkcji wiarygodno±ci dla peªnych danychˆQ(θ|θ 0 , x) = 1 m∑logL c (θ|x, z).mi=1Warto±¢ ta zbiega do Q(θ|θ 0 , x) wraz z m → ∞.Proponuje si¦ zwi¦kszanie m wraz z kolejnymi iteracjami.


Dzi¦kuj¦ za uwag¦.Eliza Bujnowska () <strong>Monte</strong> <strong>Carlo</strong> <strong>Optimization</strong> 28 lutego 2006 35 / 38

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!