Download ePaper

Algoritmy numerickÃ© optimalizace

Algoritmy numerickÃ© optimalizace Algoritmy numerickÃ© optimalizace

from staff.utia.cas.cz More from this publisher

27.01.2015 Views

Algoritmy numerické optimalizace Michal Kočvara 8. ledna 2004

Algoritmy numerické optimalizace

Michal Kočvara

8. ledna 2004

Obsah

1 Úvod 5

1.1 Značení . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.1 Funkce . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.2 Konvexita . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.3 Matice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.1.4 Algoritmy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.2 Optimalizační úloha . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.3 Klasifikace optimalizačních úloh . . . . . . . . . . . . . . . . . . . . . 6

1.3.1 Konvexní versus nekonvexní . . . . . . . . . . . . . . . . . . . 6

1.3.2 Lokální versus globální . . . . . . . . . . . . . . . . . . . . . . 6

1.3.3 Spojitá versus diskrétní . . . . . . . . . . . . . . . . . . . . . 7

1.3.4 Hladká versus nehladká . . . . . . . . . . . . . . . . . . . . . 7

1.3.5 Podmíněná versus nepodmíněná . . . . . . . . . . . . . . . . 7

I Nepodmíněná optimalizace 9

2 Podmínky optimality 13

2.1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

3 Algoritmy 15

3.1 Úvod . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

3.2 Typy konvergence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

4 Metody typu line-search 17

4.1 Hledání délky kroku . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

4.1.1 Testování délky kroku . . . . . . . . . . . . . . . . . . . . . . 17

4.1.2 Volba nového α . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1.3 Konečná terminace Wolfeho algoritmu . . . . . . . . . . . . . 19

4.2 Konvergence metod typu line-search . . . . . . . . . . . . . . . . . . 19

4.3 Hledání směrů poklesu . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.4 Rychlost konvergence . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

4.4.1 Metoda největšího spádu . . . . . . . . . . . . . . . . . . . . 21

4.4.2 Newtonova metoda . . . . . . . . . . . . . . . . . . . . . . . . 22

4.4.3 Quasi-Newtonova metoda . . . . . . . . . . . . . . . . . . . . 22

4.5 Metoda BFGS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

4.6 Invariance Newtonovy a quasi-Newtonovy metody, metrika . . . . . 27

4.7 Praktické quasi-Newtonovy metody . . . . . . . . . . . . . . . . . . . 28

4.8 L-BFGS a CG . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

4.9 Modifikované Newtonovy metody . . . . . . . . . . . . . . . . . . . . 31

4.9.1 Volba E k . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4 OBSAH

5 Metody typu Trust-Region 33

5.1 Základní algoritmus . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

5.2 Jak řešit (TRS) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2.1 Cauchyho bod . . . . . . . . . . . . . . . . . . . . . . . . . . 36

5.2.2 Metoda dogleg . . . . . . . . . . . . . . . . . . . . . . . . . . 37

5.3 Metoda Steihaugova . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

5.4 Přesné řešení (TRS) . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

5.4.1 Lehký případ . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

5.4.2 Těžký případ (hard case) . . . . . . . . . . . . . . . . . . . . 40

5.5 Scaling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

Kapitola 1

Úvod

1.1 Značení

1.1.1 Funkce

Necht’ f : R n → R. Její gradient v bodě x ∈ R n je vektor

⎛ ⎞

∂f(x)

∂x 1

∇f(x) =

⎜

. ⎟

⎝

∂f

⎠

∂x n

a její Hessián symetrická n × n matice

( ∂

∇ 2 2 f(x)

f(x) =

.

∂x i ∂x j

)i,j=1,...,n

Řekneme, že f je (spojitě) diferencovatelná jestliže pro všechna i existuje parciální

derivace ∂f(x)/∂x i (a je spojitá).

1.1.2 Konvexita

Řekneme, že množina S ⊂ R n je konvexní, když ∀x,y ∈ S platí

αx + (1 − α)y ∈ S ∀α ∈ [0,1].

Funkce f : R n → R je konvexní když ∀x,y ∈ S platí

f(αx + (1 − α)y) ≤ αf(x) + (1 − α)f(y) ∀α ∈ [0,1].

Funkce f : R n → R je konkávní když −f je konvexní.

1.1.3 Matice

Zavedeme množiny

M m

S m

S m +

reálné matice m × m

symetrické matice z M m

symetrické pozitivně semidefinitní matice z M m

Značení A 0 znamená, že matice A z S m je pozitivně semidefinitní. Podobně

A ≻ 0 znamená, že A je pozitivně definitní.

6 KAPITOLA 1. ÚVOD

1.1.4 Algoritmy

V iteračních algoritmech pracujeme s posloupnostmi iteračních bodů x k ∈ R n ,

k = 1,2,.... Hodnoty funkcí a jejich derivací v těchto bodech budeme často pro

zjednodušení označovat

f k = f(x k ), ∇f k = ∇f(x k ), ∇ 2 f k = ∇ 2 f(x k ) atd.

1.2 Optimalizační úloha

Necht’ X ⊂ R n a f : R n → R. Optimalizační úlohou nazveme problém

najdi x ∗ ∈ X aby f(x) ≥ f(x ∗ ) ∀x ∈ X . (OÚ)

1.3 Klasifikace optimalizačních úloh

1.3.1 Konvexní versus nekonvexní

Definice 1.3.1. (i) Řekneme, že x∗ je globální řešení OÚ, jestliže f(x) ≥ f(x∗ ) ∀x ∈

X.

(ii) x je lokální řešení OÚ, jestliže ∃O ǫ(x) : f(x) ≥ f(x) ∀x ∈ X ∩ O ǫ (x).

Věta 1.3.1. Necht’ X ≠ ∅ je konvexní a f je (ryze) konvexní na X. Necht’ x ∈ X

je lokální řešení OÚ. Potom x je (jednoznačné) globální řešení OÚ.

Důkaz. Globálnost: Dle předpokladu ∃O ǫ (x) : f(x) ≥ f(x) ∀x ∈ X ∩ O ǫ (x).

Předpokládejme, že x není globální řešení, tedy že ∃ˆx ∈ X : f(ˆx) < f(x). Potom

(konvexita f)

∀λ ∈ (0,1) : f(λˆx + (1 − λ)x) ≤ λf(ˆx) + (1 − λ)f(x) < λf(x) + (1 − λ)f(x) = f(x).

Pro λ > 0 dostatečně malé je λˆx+(1−λ)x ∈ X ∩O ǫ (x). Dostali jsem spor s definicí

lokálního řešení.

Jednoznačnost je triviální.

Pro některé algoritmy pro konvexní optimalizační úlohy lze ukázat: pro danou

úlohu, dané ε a počáteční aproximaci x 0 můžeme odhadnout počet aritmetických

operací nutných k nalezení x takového, že ‖x−x ∗ ‖ ≤ ε. Takový odhad nelze provést

pro žádný algoritmus nekonvexní optimalizace.

Chceme-li tedy řešit (nelineární) optimalizační úlohu, naše první otázka by měla

být: Je naše OÚ konvexní

1.3.2 Lokální versus globální

Většina algoritmů pro nelineární OÚ nalezne nanejvýš lokální řešení úlohy. Algoritmů

pro hledání globálního minima zatím není mnoho, nejsou příliš robustní,

nejsou vhodné pro problémy vyšší dimenze a často jsou založeny na heuristických

myšlenkách a nemohou zaručit nalezení globálního optima.

V tomto textu se budeme zabývat výhradně algoritmy pro hledání lokálních

řešení. Je však třeba říci, že mnoho praktických úloh vyžaduje nalezení globálního

minima a je velmi žádoucí vyvinout dobré globální algoritmy.

1.3. KLASIFIKACE OPTIMALIZAČNÍCH ÚLOH 7

1.3.3 Spojitá versus diskrétní

V mnoha praktických úlohách je X ⊂ Z n nebo X ⊂ Z n1 × R n2 . Takové úlohy

nazýváme úlohami diskrétní nebo celočíselné optimalizace. Tyto úlohy jsou v zásadě

nekonvexní a vyžadujeme nalezení globálního řešení.

V tomto textu se budeme zabývat pouze algoritmy pro úlohy spojité optimalizace.

1.3.4 Hladká versus nehladká

Občas se setkáme s problémem minimalizace funkce, pro niž v některých bodech

neexistuje gradient, tzv. nehladké (nediferencovatelné) funkce. To jsou například

obecné konvexní funkce. Pro takové funkce byly vyvinuty speciální optimalizační

algoritmy, pracující s tzv. subgradientem. Zde se budeme zabývat výhradně ”

hladkou”

optimalizací

1.3.5 Podmíněná versus nepodmíněná

Konečně, je-li X = R n , mluvíme o nepodmíněné optimalizaci. O ní pojednává první

část tohoto textu. Druhá část se zabývá podmíněnou optimalizací, tedy případem,

kdy X je podmnožinou R n (a X ≠ R n ).

8 KAPITOLA 1. ÚVOD

Část I

Nepodmíněná optimalizace

11

V této části se budeme zabývat úlohou

Najdi x ∗ ∈ X aby f(x) ≥ f(x ∗ ) ∀x ∈ X (NO)

kde f : R n → R je dle potřeby jednou či dvakrát spojitě diferencovatelná a X = R n .

Kapitola 2

Podmínky optimality

2.1

Věta 2.1.1 (nutná podmínka 1. řádu). Necht’ x ∗ je lokální řešení NO a f

spojitě diferencovatelná na otevřeném okolí x ∗ . Potom ∇f(x ∗ ) = 0.

Důkaz. Předpokládejme, že ∇f(x ∗ ) ≠ 0. Označme p = −∇f(x ∗ ); pak

p T ∇f(x ∗ ) = −‖∇f(x ∗ )‖ < 0.

Protože ∇f je spojitá, existuje T > 0 takové, že

Dle Taylorovy věty

tedy

p T ∇f(x ∗ + tp) < 0

t ∈ [0,T].

∀t ∈ (0,T] ∃t ∈ (0,t) : f(x ∗ + tp) = f(x ∗ ) + tp T ∇f(x ∗ + tp)

f(x ∗ + tp) < f(x ∗ )

∀t ∈ (0,T]

takže f je klesající ve směru p a x ∗ není lokální řešení—spor s předokladem věty.

Věta 2.1.2 (nutná podmínka 2. řádu). Necht’ x ∗ je lokální řešení NO a ∇ 2 f

spojitá na otevřeném okolí x ∗ . Potom ∇f(x ∗ ) = 0 a ∇ 2 f(x ∗ ) 0.

Důkaz. : Předpokládejme, že ∇ 2 f(x ∗ ) ̸ 0. Pak existuje p tak, že p T ∇ 2 f(x ∗ )p <

0. Ze spojitosti

∃T > 0 ∀t ∈ [0,T] : p T ∇ 2 f(x ∗ + tp)p < 0.

Podle Taylorovy věty

∀t ∈ (0,T] ∃t ∈ (0,t) : f(x ∗ +tp) = f(x ∗ )+tp T ∇f(x ∗ )+ 1 2 t2 p∇ 2 f(x ∗ +tp)p < f(x ∗ )

což je spor.

Věta 2.1.3 (postačující podmínka 2. řádu). Necht’ ∇ 2 f spojitá na otevřeném

okolí x ∗ , ∇f(x ∗ ) = 0 a ∇ 2 f(x ∗ ) ≻ 0. Potom x ∗ je striktní lokální minimum f.

Důkaz. Ze spojitosti: ∃r > 0 : ∇ 2 f(x) ≻ 0 na kouli B = {z | ‖z − x ∗ ‖ < r}. Necht’

p ∈ R n , p ≠ 0 a ‖p‖ < r. Pak x ∗ + p ∈ B, tedy

f(x ∗ + p) = f(x ∗ ) + p T ∇f(x ∗ ) + 1 2 pT ∇ 2 f(z)p

= f(x ∗ ) + 1 2 pT ∇ 2 f(z)p.

kde z = x ∗ + tp, t ∈ (0,1). Protože z ∈ B, pak p T ∇ 2 f(z)p > 0 a tedy f(x ∗ + p) >

f(x ∗ ).

14 KAPITOLA 2. PODMÍNKY OPTIMALITY

Kapitola 3

Algoritmy

3.1 Úvod

Téměř všechny algoritmy nepodmíněné optimalizace 1 jsou algoritmy iterační. Je-li

dána počáteční iterace x 0 , generují posloupnost bodů

x 0 ,x 1 ,x 2 ,...

Algoritmus nazveme monotonním, jestliže

Všechny algoritmy pak splňují

pro dostatečně velké k a nějaké m > 0.

3.2 Typy konvergence

f(x k ) < f(x k−1 ) ∀k = 1,2,...

f(x k ) < f(x k−m )

Definice 3.2.1. (i) Optimalizační algoritmus (OA) konverguje globálně, když

posloupnost iterací {x} k konverguje k lokálnímu řešení NO pro každé x 0 .

Definice 3.2.2. Necht’ x k → x ∗ a označme q k = ‖x k+1 − x ∗ ‖

‖x k − x ∗ ‖ .

(i) OA konverguje lineárně, když limsup q k < 1.

(ii) OA konverguje superlineárně, když lim q k = 0.

(iii) OA konverguje kvadraticky, když ‖x k+1 − x ∗ ‖ = O(‖x k − x ∗ ‖ 2 ).

Konverguje-li OA kvadraticky, znamená to, že počet přesných cifer se v každé

iteraci zhruba zdvojnásobí.

1 S výjimkou některých algoritmů pro minimalizaci kvadratických funkcí

16 KAPITOLA 3. ALGORITMY

Kapitola 4

Metody typu line-search

Metody typu line-search (metody spádových směrů) jsou definovány následujícím

schematickým algoritmem

Algoritmus 4.0.1 (Algoritmus typu line-search—koncept). Je dáno x 0 . Pro

k = 0,1,2,...

(i) najdi směr (poklesu) d k

(ii) najdi α k tak, aby x k + α k d k bylo ”

lepší” než x k

(iii) x k+1 = x k + α k d k

Metodám hledání směru v kroku (i) se budeme věnovat později. Nejprve se

blíže podíváme na krok (ii)—hledání přibližného minima jednodimenzionální funkce

f(x + αd) (vzhledem k α).

4.1 Hledání délky kroku

Chceme najít hodnotu parametru α tak, aby f(x + αd) bylo ”

dostatečně lepší” než

f(x). Pro pevné x a d zavedeme funkci

q(α) = f(x + αd). (4.1)

V následujícím budeme předpokládat, že d je směr poklesu pro funkci f, tedy že

q ′ (0) < 0.

Poznámka. Funkce q(·) není dána explicitním předpisem. Pro dané α musíme

vždy vypočítat hodnotu q(α) a q ′ (α) pomocí definice (4.1). Tento výpočet (zvláště

výpočet derivace) může být drahý, proto se snažíme nalézt hodnotu α k+1 v kroku

(ii) Algoritmu 4.0.1 v co nejmenším počtu kroků, také z toho důvodu, že krok (ii)

se může opakovat mnohokrát.

Na druhou stranu, obvykle není třeba hledat přesné (globální) minimum q; naším

hlavním cílem je minimalizovat f.

4.1.1 Testování délky kroku

Abychom definovali algoritmus hledání délky kroku, potřebujeme kritérium pro

ověření kvality současného α. Definujme nejprve abstraktní podmínky (a), (b), (c).

18 KAPITOLA 4. METODY TYPU LINE-SEARCH

Test pro α > 0:

(a) α vyhovuje

(b) α je příliš velké

α

q(0)

Označme

q(α)

α L ...příliš malé α, ležící ”

nalevo” od vyhovujícího

α R ...příliš malé α, ležící ”

napravo” od vyhovujícího

Nyní můžeme definovat koncepční algoritmus pro hledání délky kroku

Algoritmus 4.1.1 (Koncepční algoritmus pro hledání délky kroku). .

(i) Zvol α > 0, α L , α R (např. α L = α R = 0)

(ii) Proved’ test α. V případě

(a) skonči

(b) polož α R = α a jdi na (iii)

(iii) Je-li α R = 0, zvol α > α L . Jinak zvol α ∈ (α L ,α R ) a jdi na (ii).

Klíčová otázka dobrého algoritmu je vhodná volba testu pro vyhovující α. První

nápad je definovat test na základě podmínek optimality prvního řádu:

(a) q ′ (α) = 0

(b) q ′ (α) > 0

Tento test však nemusí vést na fungující algoritmus, protože funkce q je obecně

nekonvexní. Co ve výše uvedeném testu chybí je kontrola poklesu q(α). Např.

všechny tři body označené v obrázku vyhovují tomuto testu, přestože prostřední

a pravý bod zjevně nevyhovují naší představě.

V současné době nejpoužívanější test je tzv.

Wolfeho test:

Zvol 0 < m 1 < m 2 < 1

(a) q(α) ≤ q(0) + m 1 αq ′ (0) a q ′ (α) ≥ m 2 q ′ (0) (skonči)

(b) q(α) > q(0) + m 1 αq ′ (0) (α R = α)

Tento test zaručí jak dostatečný pokles q(α), tak dostatečný nárůst q ′ (α) vzhledem

k α = 0.

4.2. KONVERGENCE METOD TYPU LINE-SEARCH 19

(a)

q(0)

4.1.2 Volba nového α

m q’(0)

2

Nové α v kroku (iii) Algoritmu 4.1.1 se nejčastěji volí podle následujícího předpisu:

Extrapolace (α R není známo): Zvol α NEW ≫ α, např. α NEW = cα, c > 1 (c je

pevné, např. c = 2).

Interpolace (α R je známo): Zvol α L < α NEW < α R , např. α NEW = 1 2 (α L + α R ).

4.1.3 Konečná terminace Wolfeho algoritmu

Wolfeho algoritmem nazveme algoritmus 4.1.1 s Wolfeho testem.

Věta 4.1.1. Necht’ q ∈ C 1 , zdola omezená. Potom Wolfeho algoritmus skončí v

konečném počtu kroků.

Důkaz. Rozlišíme případ extrapolace (nikdy nenastane případ (b) v kroku (ii)) a

interpolace (případ (b) nastane alespoň jednou).

Extrapolace. Předpokládejme sporem, že k → ∞ (k značí krok algoritmu). Pak

α → ∞ a q(α) ≤ q(0) + m 1 αq ′ (0), tedy q(α) → −∞, což je spor s předpokladem

omezenosti q.

Interpolace. Předpokládejme opět, že k → ∞. Potom ∃α ∗ : α L → α ∗ , α R → α ∗ .

Z podmínek (b) a (c) pak plyne q(α ∗ ) = q(0) + m 1 α ∗ q ′ (0). Protože α R > α ∗ ∀α R ,

platí dále (podmínka (b))

q(α R ) > q(0) + m 1 q ′ (0)(α ∗ + α R − α ∗ ) = q(α ∗ ) + m 1 q ′ (0)(α R − α ∗ ).

Dělíme-li tento vztah (α R − α ∗ ), dostaneme

v limitě pak

q(α R ) − q(α ∗ )

α R − α ∗ > m 1 q ′ (0),

q ′ (α ∗ ) ≥ m 1 q ′ (0) > m 2 q ′ (0).

Naopak z podmínky (c) dostaneme v limitě

a to je spor.

q ′ (α ∗ ) ≤ m 2 q ′ (0)

4.2 Konvergence metod typu line-search

Chování algoritmu 4.0.1 je dáno volbou směru d k a délkou kroku α k . Volbou d k se

budeme detailně zabývat v příští kapitole, zde nejprve odvodíme nutnou podmínku

pro d k , která zaručuje konvergenci algoritmu 4.0.1.

20 KAPITOLA 4. METODY TYPU LINE-SEARCH

Označme

cos θ k =

−dT k ∇f k

‖∇f k ‖ ‖d k ‖ .

θ k je tedy úhel mezi směrem záporného gradientu f (tj. směrem největšího poklesu)

a směrem d k . Abychom dostali konvergentní algoritmus, musí být cosθ k

” dostatečně

kladný” jak to specifikuje následující lemma.

Lemma 4.2.1. Uvažujme algoritmus 4.0.1 s konkrétní volbou d k a α k . Necht’ pro

všechna k platí

r cos 2 θ k (∇f k ) 2 ≤ f(x k ) − f(x k+1 ) (4.2)

kde r > 0 nezávisí na k. Jestliže

potom

(i) bud’ f(x k ) → −∞

(ii) nebo liminf ‖∇f k ‖ = 0.

řada

∞∑

cos 2 Θ k diverguje, (4.3)

k=1

Důkaz. Je-li posloupnost {f(x k )} zdola omezená hodnotou f ∗ , pak

∞∑

cos 2 Θ k ‖∇f k ‖ 2 ≤ 1 r

k=1

∞∑

(f(x k ) − f(x k+1 )) ≤ 1 r (f(x 1) − f ∗ ) < +∞.

k=1

Kdyby ‖∇f k ‖ ≥ δ > 0, pak by nutně platilo δ 2 ∑ ∞ cos 2 Θ k < ∞ a to je spor s

předpokladem.

Věta 4.2.2 (Zoutendijk). Necht’ algoritmus 4.0.1 splňuje Wolfeho test. Je-li ∇f

Lipschitzovsky spojitý na okolí O = {x | f(x) ≤ f(x 0 )}, pak platí (4.3).

Důkaz. Z Wolfeho podmínky především plyne, že x k ∈ O. Dle definice q(α) a θ

platí pro všechna k

α k q ′ (0) = α k d T k ∇f k = −α k cos θ k ‖∇f k ‖ ‖d k ‖ = −cos θ k ‖x k+1 − x k ‖ ‖∇f k ‖.

Z Wolfeho podmínky (a) 1 tedy plyne (připomeňme, že q(0) = f(x k ), q(α) =

f(x k+1 ))

m 1 cos θ k ‖∇f k ‖ ‖x k+1 − x k ‖ ≤ f(x k ) − f(x k+1 ). (4.4)

Z podmínky (a) 2 pak plyne (odečteme-li d T k ∇f k na obou stranách nerovnosti)

d T k (∇f k+1 − ∇f k ) ≥ (m 2 − 1)d T k ∇f k = (1 − m 2 )cos θ k ‖∇f k ‖ ‖d k ‖.

Necht’ L je Lipschitzovská konstanta pro ∇f; z Cauchy-Schwarzovy nerovnosti plyne

Dělíme-li obě nerovnosti ‖d k ‖, máme

k=1

d T k (∇f k+1 − ∇f k ) ≤ L‖x k+1 − x k ‖ ‖d k ‖.

(1 − m 2 )cos θ k ‖∇f k ‖ ≤ L‖x k+1 − x k ‖.

Vynásobíme-li obě strany ‖∇f k ‖ a použijeme-li (4.4), dostáváme (4.3) s r = m 1 (1−

m 2 )/L.

4.3. HLEDÁNÍ SMĚRŮ POKLESU 21

4.3 Hledání směrů poklesu

Připomeňme, že v metodách typu line-search počítáme novou iteraci formulí x k+1 =

x k + α k d k . Směr d k je směrem poklesu, pokud je směrová derivace f v bodě x k a

ve směru d k záporná, tedy pokud d T k ∇f k < 0.

Při hledání d k budeme uvažovat metody založené na vzorci

kde B k ∈ S n je regulární. Protože

platí, že

d k = B −1

k ∇f k

d T k ∇f k = −∇f T k B −1

k ∇f k ,

d k je směrem poklesu, právě když B k je positivně definitní.

Různou volbou B k dostaneme různé metody typu line-search. Dvěma ”

extrémními”

volbami dostaneme dvě známé metody:

B k = I

B k = ∇ 2 f k

. . . metoda největšího spádu

. . . Newtonova metoda

Pokud je B k aproximací ∇ 2 f k , hovoříme o quasi-Newtonově metodě (metodě s

proměnnou metrikou). V metodách tohoto typu je nová aproximace B k počítána z

B k−1 aktualizací

B k = B k−1 + W k−1

. . . quasi-Newtonova metoda

Věta 4.3.1 (globální konvergence quasi-Newtonovy metody). Necht’ B k ≻

0, ‖B k ‖ ‖B −1

k

‖ ≤ M ∀k a algoritmus typu line-search splňuje Wolfeho podmínku.

Pak je tento algoritmus globálně konvergentní.

Důkaz. Z předpokladů na B k plyne, že cos θ k ≥ 1/M (použitím ‖B k x‖ ≥

Aplikací Lemma 4.2.1 (Zoutendijk) dostaneme liminf ‖∇f k ‖ = 0.

‖x‖

‖B −1

k

‖).

4.4 Rychlost konvergence

Zopakujme nejprve pro úplnost známé věty pro dvě ”

krajní metody”, metodu

největšího spádu a metodu Newtonovu.

4.4.1 Metoda největšího spádu

Věta 4.4.1. Necht’ f je dvakrát spojitě diferencovatelná. Necht’ {x k } je generovaná

metodou největšího spádu (tedy B k = I) s přesným hledáním délky kroku. Předpokládejme,

že x k → x ∗ a ∇ 2 f(x ∗ ) ≻ 0. Potom

f(x k+1 ) − f(x ∗ ) ≤

kde λ 1 ≤ ... ≤ λ n jsou vlastní čísla ∇ 2 f(x ∗ ).

Důkaz. Důkaz lze nalézt v základní literatuře.

(

λn − λ 1

λ n + λ 1

) 2

(f(x k ) − f(x ∗ )),

Jak je vidět, rychlost konvergence metody je pouze lineární a závislá na podmíněnosti

Hessiánu. Například pro cond (∇ 2 f(x ∗ )) ≈ 800 (což je relativně velmi dobře podmíněný

problém) a f(x 1 ) = 1, f(x ∗ ) = 0, je koeficient lineární konvergence q k ≈

0.9975. To znamená, že f(x 1000 ) ≈ 0.08, což je velmi pomalá konvergence.

22 KAPITOLA 4. METODY TYPU LINE-SEARCH

4.4.2 Newtonova metoda

Věta 4.4.2. Necht’ ∇ 2 f je spojitý a invertibilní v okolí řešení x ∗ . Potom Newtonova

metoda konverguje superlineárně. Je-li navíc f ∈ C 3 , konvergence je kvadratická.

Důkaz. Označme r zbytek v Taylorově rozvoji 2. řádu:

(0 =)∇f(x ∗ ) = ∇f(x) + ∇ 2 f(x)(x ∗ − x) + r(X ∗ − x).

Označme dále x + = x + d, kde d je Newtonův směr, tedy

Odečtením obou rovnic dostáváme

0 = ∇f(x) + ∇ 2 f(x)(x + − x).

0 = ∇ 2 f(x)(x ∗ − x + ) + r(x ∗ − x)

Z předpokladů spojitosti a invertibility pak plyne

‖x ∗ − x + ‖ ≤ M‖r(x ∗ − x)‖,

kde ‖(∇ 2 f) −1 ‖ ≤ M

Z definice a spojitosti dostáváme r(x ∗ − x) = o(‖x ∗ − x‖) (superlineární konvergence).

Pro f ∈ C 3 pak analogickým postupem dostaneme r(x ∗ −x) = O(‖x ∗ −x‖ 2 ),

tedy kvadratickou konvergenci.

4.4.3 Quasi-Newtonova metoda

Předpokládejme nyní, že B k ≻ 0 ∀k, a že délka kroku α splňuje Wolfeho podmínky.

Předpokládejme navíc, že při určování délky kroku vždy nejprve zkusíme krok α k =

1, vyhovuje-li Wolfeho testu.

Uvedeme nejprve bez důkazu obecnou větu o rychlosti konvergence. Poté dokážeme

speciální případ této věty.

Věta 4.4.3 (Dennis-Moré). Necht’ f je třikrát spojitě diferencovatelná. Necht’

dále x k+1 = x k + α k d k , d k je směr poklesu a α k splňuje Wolfeho podmínku s m 1 ≤

1/2. Jestliže x k → x ∗ , ∇f(x ∗ ) = 0 a ∇ 2 f(x ∗ ) ≻ 0, a jestliže navíc d k splňuje

potom

‖∇f k + ∇ 2 f k d k ‖

lim

= 0, (4.5)

k→∞ ‖d k ‖

(i) ∃k 0 : α k = 1 splňuje Wolfeho podmínku pro k ≥ k 0

(ii) když α k = 1 pro k ≥ k 0 , {x k } konverguje superlineárně.

Pro d k = −B −1

k ∇f k je podmínka (4.5) ekvivalentní tzv. Dennis-Morého podmínce

‖(B k − ∇ 2 f(x ∗ ))d k ‖

lim

= 0. (4.6)

k→∞ ‖d k ‖

K důkazu superlineární konvergence tedy stačí ukázat, že B k konverguje k Hessiánu

∇ 2 f(x ∗ ) pouze po směrech d k (nikoli všude).

Následující lemma uvádí alternativní podmínku superlineární konvergence.

Lemma 4.4.4 (kritérium superlineární konvergence). Necht’ g : R n → R n ,

x k → x ∗ a g(x ∗ ) = 0. Necht’ ∇g je spojitý na okolí x ∗ a ∇g(x ∗ ) je invertibilní.

Potom

q k := ‖x k+1 − x ∗ ‖

‖x k − x ∗ ‖ → 0 ⇐⇒ ‖g(x k+1)‖

‖x k+1 − x k ‖ → 0.

4.4. RYCHLOST KONVERGENCE 23

Důkaz. Pro obecné k označme x := x k , x + := x k+1 . Označme G střední hodnotu

∇g mezi x + a x ∗ :

g(x + ) = 0 + G(x + − x ∗ ).

Ze spojitosti ∇g plyne, že G je omezená a ”

stejnoměrně” invertibilní ve smyslu

∃l,L > 0

l‖g + ‖ ≤ ‖x + − x ∗ ‖ ≤ L‖g + ‖

pro x + blízko x ∗ (L = ‖G −1 ‖ a l = ‖G‖ −1 ). Dělíme pravou stranu ‖x + − x‖ a

použijeme trojúhelníkovou nerovnost:

L‖g + ‖

‖x + − x‖ ≥ ‖x + − x ∗ ‖

‖x + − x‖ ≥

‖x + − x ∗ ‖

‖x + − x ∗ ‖ + ‖x − x ∗ ‖ =

‖g + ‖

Jestliže → 0, pak q → 0 a dostáváme ⇐ .

‖x + − x‖

K důkazu ⇒ použijeme identitu

‖g + ‖

‖x + − x‖ =

‖g + ‖ ‖x + − x ∗ ‖

‖x + − x ∗ ‖ ‖x − x ∗ ‖

‖x − x ∗ ‖

‖x + − x‖ .

q

1 + q .

První zlomek na pravé straně je menší než 1/l, druhý je roven q (jdoucímu k nule).

Stačí ukázat omezenost třetího:

‖x − x ∗ ‖

‖x + − x‖ ≥ ‖x − x∗ ‖ − ‖x ∗ − x + ‖

‖x − x ∗ = 1 − q

‖

kde 1 − q je zdola omezeno pro q → 0 (například jednou polovinou).

Věta 4.4.5 (Dennis-Moré pro quasi-Newtonovu metodu). Necht’ je třikrát

spojitě diferencovatelná. Necht’ dále x k+1 = x k + d k (tedy α k = 1 ∀k) a d k =

−B −1

k ∇f k. Konečně necht’ x k → x ∗ , ∇f(x ∗ ) = 0 a ∇ 2 f(x ∗ ) ≻ 0. Potom {x k }

konverguje superlineárně, právě když platí podmínka (4.6).

Důkaz. Přepíšeme nejprve podmínku (4.6) jako

v k := (B k − ∇ 2 f(x ∗ )) x k+1 − x k

‖x k+1 − x k ‖ → 0

Použijeme opět zkrácené značení x := x k , x + := x k+1 . Z definice (d k = −B −1

k ∇f k)

platí

(B k − ∇ 2 f(x ∗ ))(x + − x) = −∇f(x) − ∇ 2 f(x ∗ )(x + − x)

Označme G střední hodnotu ∇ 2 f mezi x a x + :

Potom

= ∇f(x + ) − ∇f(x) − ∇ 2 f(x ∗ )(x + − x) − ∇f(x + ).

∇f(x + ) − ∇f(x) = G(x + − x)

(B k − ∇ 2 f(x ∗ ))(x + − x) = (G − ∇ 2 f(x ∗ ))(x + − x) − ∇f(x + ). (4.7)

Dělením ‖x + − x‖ a znormováním dostaneme

‖v‖ ≤ ‖G − ∇ 2 f(x ∗ )‖ + ‖∇f(x +)‖

‖x + − x‖

a (převede levou stranu v (4.7) doprava a ∇f(x + ) doleva)

‖∇f(x + )‖

‖x + − x‖ ≤ ‖G − ∇2 f(x ∗ )‖ + ‖v‖

Protože ∇f(x + ) → 0 a ‖G − ∇ 2 f(x ∗ )‖ → 0 (ze spojitosti), dostáváme tvrzení

věty.

24 KAPITOLA 4. METODY TYPU LINE-SEARCH

4.5 Metoda BFGS

Připomeňme, že v quasi-Newtonově metodě počítáme nový směr jako d k = −B −1

k ∇f k,

kde B k je aproximací ∇ 2 f k . Aby metoda byla výpočetně levná a přitom efektivní,

klademe na B k následující požadavky

(i) B k je počítána rekurzivně podle vzorce B k+1 = B k +M k , kde M k je ”

jednoduchá”

(má hodnost 1–2)

(ii) B k ≻ 0, symetrická pro všechna k

(iii) B k splňuje tzv. quasi-Newtonovskou rovnici (qN rovnici, sečnou rovnici)

kde s k = x k+1 − x k a y k = ∇f k+1 − ∇f k .

B k+1 s k = y k (4.8)

(iv) B k+1 je ”

nejbližší” matice k B k splňující (ii)-(iii) v tom smyslu, že řeší úlohu

min

B ‖B − B k‖ s.t. B = B T , Bs k = y k . (4.9)

Poznámka. qN rovnice je motivována následující úvahou. Označme

m k+1 (d) = f k+1 + ∇f T k+1d + 1 2 dT B k+1 d

kvadratický model f v x k+1 . Rozumný požadavek na m k+1 je, aby její gradient v

současném bodě x k+1 a v předcházejícím bodě x k byl roven gradientu f v těchto

bodech. V bodě x k+1 je ∇m k+1 (0) = ∇f k+1 a náš požadavek je splněn automaticky.

V bodě x k pak chceme, aby

∇m k+1 (−α k d k ) = ∇f k+1 − α k B k+1 d k = ∇f k .

Z druhé rovnice dostáváme okamžitě qN rovnici.

Různé varianty quasi-Newtonovy metody nyní dostaneme různou volbou normy

v (4.9). Davidon (1959) navrhl použít normu

‖A‖ W = ‖W 1 2 AW

1

2 ‖F (zde ‖M‖ F =

√ ∑m

2

ij je Fredholmova norma)

−1

kde W splňuje Wy k = s k . Konkrétně navrhl požít W = ˜G

k , kde ˜G k je průměrný ”

Hessián”

∫ 1

˜G k = ∇ 2 f(x k + τα k d k )dτ . (4.10)

0

Pro tuto volbu normy lze explicitně vyřešit úlohu (4.9). Jejím řešením je matice

B k+1 = (I − y ks T k

yk Ts )B k (I − s kyk

T

k yk Ts ) + y kyk

T

k yk Ts k

((DFP) B )

Tato metoda byla na počátku 60. let rozpracována a popularizována Fletcherem a

Powellem, odtud její název DFP.

Z Sherman-Morrison-Woodburyho formule (viz dodatek) dostaneme vzorec pro

aktualizace inverse B k , označme ji W k := B −1

k :

W k+1 = W k + s ks T k

yk Ts − W ky k yk TW k

k yk TW . ((DFP) W )

ky k

Z praktického hlediska je výhodné mít aktualizační formuli nikoli pro B k ale

pro její inverzi W k . K tomu můžeme použít výše odvozený vzorec. Můžeme ovšem

4.5. METODA BFGS 25

aplikovat Davidonův postup přímo na aproximaci (∇ 2 f) −1 , kde ve (iv) nahradíme

optimalizační úlohu v B úlohou

min

W ‖W − W k‖ s.t. W = W T , Wy k = s k .

Jejím řešením dostaneme následující aktualizační formuli:

W k+1 = (I − s kyk

T

yk Ts )W k (I − y ks T k

k yk Ts ) + s ks T k

k yk Ts k

((BFGS) W )

Tato formule (a z ní odvozená metoda) dostala název po svých (nezávislých) objevitelích

Broyden-Fletcher-Goldfarb-Shanno, tedy BFGS.

Podobně jako u DFP, můžeme použít Sherman-Morrison-Woodburyho formuli

k odvození BFGS vzorce pro B k :

B k+1 = B k + y kyk

T

yk Ts − B ks k s T k B k

k s T k B . ((DFP) B )

ks k

Protože matice je symetrická pozitivně definitní právě když totéž platí pro její inverzi,

pozitivní definitnost (DFP) a (BFGS) jsou ekvivalentní vlastnosti. Následující

věta ukazuje, že (DFP) (a tedy i (BFGS)) zachovává pozitivní definitnost za předpokladu,

že součin y T s je kladný.

Věta 4.5.1. Necht’ B k ≻ 0. Potom y T s > 0 právě když B k+1 z (DFP) B je pozitivně

definitní.

Důkaz. B k+1 je zjevně symetrická pokud je symetrická B k .

⇐ Tuto implikaci dostaneme z qN rovnosti B k+1 s = y přenásobením zleva s T .

⇒ Necht’ u ≠ 0 a položme v = u − yT u

y T s. Pak

s

u T B k+1 u = v T B k v + (uT y) 2

což je součet dvou nezáporných členů. Je-li první z nich nenulový, jsme hotovi. V

opačném případě je v = 0 (B k je pozitivně definitní) a proto u = yT u

y T s je paralelní

s

k s. Navíc je y T u ≠ 0 (jinak by bylo u = 0). Tedy druhý člen je nenulový a proto

kladný dle předpokladu.

Poznámka. y T s > 0 plyne z Wolfeho podmínky!

Poznámka. V jednodimenzionálním případě (n = 1) je W k+1 = s/y a jeden krok

qN metody se redukuje na

x k+1 = x k −

s T y

x k − x k−1

∇f k − ∇f k−1

∇f k

což je známá metoda sečen pro řešení rovnic v jedné dimenzi.

Následující věta dokazuje globální konvergenci metody BFGS. Přes usilovnou

snahu mnoha matematiků se dosud podařilo dokázat tvrzení věty pouze pro konvexní

funkce.

Věta 4.5.2 (globální konvergence BFGS). Necht’ f je konvexní, dvakrát spojitě

diferencovatelná. Necht’ existuje m > 0 a M > 0 tak, že

m‖z 2 ‖ ≤ z T ∇ 2 f(x)z ≤ M‖z‖ 2

pro všechna z ∈ R n a všechna x ∈ Ω := {y | f(y) ≤ f(x 0 )}. Potom BFGS algoritmus

s Wolfeho podmínkou generuje {x k } takovou, že x k → x ∗ , kde x ∗ je řešení NO.

26 KAPITOLA 4. METODY TYPU LINE-SEARCH

Důkaz. Z předpokladu plyne ∇ 2 f ≻ 0, takže f má jednoznačné globální minimum.

Připomeňme, že ˜G k označuje průměrný Hessián (viz (4.10)) splňující y k = ˜G k s k .

Označme z k = ˜G 1 2

k

s k = ˜G − 1 2

k

y k. Potom

m k = yT k s k

s T k s k

Z formule (BFGS) B plyne

Definujeme

= sT k ˜G k s k

s T k s k

≥ m

tr B k+1 = trB k + ‖y k‖ 2

cos θ k =

sT k B ks k

‖s k ‖ ‖B k s k ‖ ,

tedy θ k je úhel mezi s k a B k s k . Potom

Dále platí

Definujme

M k = yT k y k

y T k s k

= zT k ˜G k z k

z T k z k

− ‖B ks k ‖ 2

s T k B ks k

.

q k = sT k B ks k

s T k s k

‖B k s k ‖ 2

s T k B ks k

= ‖B ks k ‖ 2 ‖s k ‖ 2

(s T k B ks k ) 2 s T k B ks k

‖s k ‖ 2 = q k

cos 2 θ k

.

yk T det B k+1 = detB s k s T k s k

k

s T k B ks k s T k s k

ψ(B) = tr B − log(detB).

= detB k

m k

q k

.

≤ M .

Lze snadno ukázat, že ψ(B) > 0 (použij ψ(B) = ∑ (λ i − log λ i ), kde λ i jsou vlastní

čísla B). Použitím výše odvozených formulí pak dostaneme

ψ(B k+1 ) = ψ(B k ) + M k −

cos 2 − log m k + log q k

θ k

q k

= ψ(B k ) + (M k − log m k − 1) +

[

1 − q k

cos 2 θ k

+ log

]

q k

cos 2 + log cos 2 θ k .

θ k

Protože 1 − t + log t ≤ 0 ∀t > 0, je obsah hranaté závorky nekladný, takže

0 < ψ(B k+1 ) ≤ ψ(B 1 ) + ck +

k∑

log cos 2 θ j

kde předpokládáme, že c = M − log m − 1 > 0. Ze Zoutendijkovy věty 4.2.1 plyne,

že ‖∇f k ‖ ↛ 0, když cos θ j → 0. Předpokládejme tedy sporem, že cos θ j → 0. Pak

existuje k 1 > 0 tak, že ∀j > k 1

log cos 2 θ j < −2c.

j=1

Tedy ∀k > k 1

∑k 1

0 < ψ(B 1 ) + ck + log cos 2 θ j +

j=1

k∑

j=k+1

∑k 1

= ψ(B 1 ) + log cos 2 θ j + 2ck 1 − ck .

j=1

Pro dostatečně velká k je pravá strana záporná, což je spor.

(−2c)

Věta 4.5.3 (lokální konvergence BFGS). Necht’ f je dvakrát spojitě diferencovatelná

a posloupnost iterací {x} k generovaná metodou BFGS konverguje k x ∗ v

němž je ∇ 2 f Lipschitzovský. Potom {x k } konverguje superlineárně.

Důkaz. [, Theorem 8.6]

4.6. INVARIANCE NEWTONOVY A QUASI-NEWTONOVY METODY, METRIKA27

4.6 Invariance Newtonovy a quasi-Newtonovy metody,

metrika

Uvažujme afinní lineární transformaci

y = Ax + a

s regulární maticí A. Funkce f se tedy transformuje

Pak pro gradient a Hessián platí

Věta 4.6.1. Necht’ B k splňuje

f y (y) = f x (A −1 (y − a)).

∇ x f x = A T ∇ y f y a ∇ 2 xxf x = A T ∇ 2 yyf y A.

B k,x = A T B k,y A (4.11)

pro všechna k. Potom je metoda typu line-search x k+1 = x k −α k B −1

k ∇f k invariantní

vůči afinní transformaci.

Důkaz. Důkaz provedeme indukcí. Pro k = 1 (počáteční iteraci) máme okamžitě

y 1 = Ax 1 + a. Pro k > 0 potom

y k+1 = y k − α k B −1

k,y ∇ yf k,y

= Ax k + a − α k AB −1

k,x AT A −T ∇f x

= Ax k+1 + a.

Poznámka.

• Newtonova metoda je afinně invariantní (Hessián splňuje (4.11))

• metoda největšího spádu není afinně invariantní (B k = I a identita samozřejmě

nesplňuje (4.11))

• qN metoda s B 0 = I není invariantní, ale pro vyšší k je ”

téměř” invariantní.

BFGS (DFP) metoda s B 0 = ∇ 2 f 0 je afinně invariantní.

Je-li metoda afinně invariantní, pak iterační historie nezávisí na afinní tranformaci

proměnných; metoda je tedy ”

odolná” vůči špatné podmíněnosti.

Směr d k v metodě největšího spádu (tedy záporný gradient v x k ) můžeme jiným

způsobem definovat jako

x k,r − x k

d k = lim

(4.12)

r→0 ‖x k,r − x k ‖ 2

kde x k,r minimalizuje funkci f na r-okolí bodu x k . Podobně pak lze odvodit, že

směr d k v Newtonově metodě je směrem největšího spádu ve smyslu definice (4.12)

s metrikou danou normou ‖ · ‖ = ‖ · ‖ ∇2 f(x k ). Stejně tak quasi-Newtonova metoda

je metodou největšího spádu s metrikou ‖ · ‖ = ‖ · ‖ Bk . Z toho důvodu se qN metodě

rovněž říká metoda s proměnnou metrikou.

28 KAPITOLA 4. METODY TYPU LINE-SEARCH

4.7 Praktické quasi-Newtonovy metody

V metodě BFGS aproximujeme Hessián ∇ 2 f maticí B k , přičemž B k+1 počítáme

podle schematického vzorce

B k+1 = B k + γγ T + B k δδ T B k

kde γ a δ jsou nějaké vektory. Podobně počítáme W k , aproximaci inverse Hessiánu.

Z výše uvedeného vzorce vidíme, že (pro k > 1) matice B k je vždy plná (protože

dyadický součin vektorů je obecně plná matice). A to i v případě, kdy samotný

Hessián je matice řídká! Z této úvahy je patrné, že metoda BFGS je vhodná pouze

pro malé a střední úlohy, ale naprosto nevhodná pro úlohy velké dimenze. Pamět’

nutná k uložení jedné (plné) matice B k je úměrná n 2 . Počítáme-li ve dvojité přesnosti,

kdy jedno číslo potřebuje 8 Bytů, pak pro úlohu dimenze n = 10000 potřebujeme

8 ·(10 4 ) 2 ≈ 1 GByte. To je ještě na hranici současné (dostupné) techniky. Problémy

vyšší dimenze jsou pak z důvodu omezené paměti prakticky neřešitelné

Víme-li, že Hessián našeho problému velké dimenze je (velmi) řídký, můžeme v

takovém případě použít Newtonovu metodu kombinovanou s efektivní metodou na

řešení soustav rovnic s řídkou maticí. Pokud to ovšem nevíme, či pokud je výpočet

Hessiánu příliš drahý, je naším východiskem tzv. BFGS metoda s omezenou pamětí.

Dříve než tuto metodu zavedeme, uved’me algoritmus, kterým lze alternativně

počítat BFGS aktualizaci. Algoritmus uvedeme pro matici W, aproximaci inverze

Hessiánu. Algoritmus je založen na myšlence, že v praxi nepotřebujeme explicitně

matici W, ale pouze její násobek vektorem g, tedy d = −Wg. Připomeňme, že

s i = x i+1 − x i a y i = ∇f i+1 − ∇f i .

Algoritmus 4.7.1 (m-tá BFGS aktualizace). Máme dáno W 0 , ∇f m , páry

(s i ,y i ),i = 1,...m.

Chceme spočítat d = −Wg, kde W je m-tá BFGS aktualizace W 0 .

Položíme d = −h m , kde h m spočítáme ve dvou krocích

(i) q m = g; for i = m,...,1 do

(ii) h 0 = W 0 q 0 ; for i = 1,...,m do

γ i = sT i qi

s T i y , q i−1 = q i − γ i y i

i

β i = yT i hi−1

yi Ts , h i = h i−1 + (γ i − β i )s i .

i

Použijeme-li tento algoritmus místo explicitní formule (BFGS) W pro W k+1 , nemusíme

ukládat celou (plnou) matici W k+1 , stačí uložit pouze páry (s k ,y k ). Naše

potíže s pamětí pro úlohy velké dimenze jsou tedy odstraněny. Vyvstává ovšem nová

potíž: pro k ≫ n je Algoritmus 4.7.1 příliš drahý (vyžaduje příliš mnoho operací)

a prakticky nepoužitelný. Nasnadě je tedy myšlenka algoritmu přibližného, který

nepoužívá pro výpočet d = −Wg všech párů (s k ,y k ), ale pouze posledních m, kde

m je relativně malé. Tím se dostáváme k algoritmu L-BFGS (od Limited Memory

BFGS), jehož k-tá iterace je definována následovně:

Algoritmus 4.7.2 (k-tá iterace L-BFGS). .

(i) s 1 = x k−m+1 − x k−m ,...,s m = x k − x k−1

y 1 = ∇f k−m+1 − ∇f k−m ,...,y m = ∇f k − ∇f k−1

Zvol W 0 .

4.8. L-BFGS A CG 29

(ii) Spočítej d k = −W k ∇f k pomocí Algoritmu 4.7.1.

(iii) x k+1 = x k + α k d k , kde α k splňuje Wolfeho podmínku

(iv) k = k + 1

Poznámka. U standardní (plné) BFGS metody není volba W 0 příliš důležitá a po

dostatečném počtu kroků (limitně) nemá vliv na chování algoritmu. Hraje ale roli v

prvních (desítkách) iterací a je tedy důležitá v metodě L-BFGS, kde m ≈ 10 − 30.

Osvědčená volba je

Wk 0 = sT k−1 y k−1

yk−1 T y I .

k−1

Teoreticky lze očekávat, že L-BFGS konverguje tím rychleji, čím vyšší zvolíme m.

V praxi však zcela stačí volit m ≈ 20. Pro vyšší hodnoty neúměrně roste výpočetní

komplexita algoritmu 4.7.1. Množství praktických testů navíc ukázalo, že volba

m ≈ 20 je ”

optimální” nezávisle na n, tedy pro úlohy malé i velké dimenze.

4.8 L-BFGS a CG

V současné době neexistuje teorie rychlosti konvergence metody L-BFGS. Lze však

ukázat zajímavý vztah L-BFGS k nelineární variantě metody sdružených gradientů

(CG).

Připomeňme, že CG, jakožto metodu pro řešení soustev lineárních rovnic, lze

rovněž chápat jako metodu pro nepodmíněnou minimalizaci kvadratické funkce

f(x) = 1 2 xT Ax − bx se symetrickou pozitivně definitní maticí A. Připomeňme

základní algoritmus:

Algoritmus 4.8.1 (CG pro kvadratické funkce). Je dáno x 0 . Polož r 0 = Ax 0 −

b, p 0 = −r 0 .

for k = 0,1,2...

α k = rT k r k

p T k Ap k

x k+1 = x k + α k p k

r k+1 = r k + α k Ap k

. . .(přesný) line-search

. . .r k+1 = ∇f(x k+1 ) rekurzivně

β k+1 = rT k+1 r k+1

r T k r k

p k+1 = −r k+1 + β k+1 p k

. . .p k+1 je nový směr poklesu

end

Je známo, že tento algoritmus splňuje řadu podmínek, např. podmínky ortogonality

r T k r k = 0 a p T k Ap k = 0 i = 1,...,k − 1.

Pro CG metodu existuje obsáhlá teorie. Základní věta říká, že pokud A má r různých

vlastních čísel, pak CG skončí v nejvýše r krocích v přesném řešení (počítáme-li v

přesné aritmetice). Dále je známo, že rychlost konvergence CG závisí jednak na

podmíněnosti matice A, jednak na rozložení jejich vlastních čísel. Z toho důvodu se

ke zvýšení rychlosti konvergence používá tzv. předpodmínění.

Pro obecnou (nekvadratickou) funkci f existují různá zobecnění algoritmu 4.8.1.

Nejpřímější je zobecnění navržené Fletcherem a Reevesem:

30 KAPITOLA 4. METODY TYPU LINE-SEARCH

Algoritmus 4.8.2 (FR-CG pro nepodmíněnou minimalizaci). Je dáno x 0 .

Polož p 0 = −r∇f(x 0 ).

for k = 0,1,2...

použij line-search k nalezení α k

x k+1 = x k + α k p k

end

β FR

k+1 = ∇fT k+1 ∇f k+1

‖∇f k ‖ 2

p k+1 = −∇f k+1 + β FR

k+1 p k

Jiné varianty CG metody pro nelineární funkce se liší způsobem výpočtu koeficientu

β. Nejznámější je metoda Polak-Riviére (PR-CG):

a metoda Hestenes-Stiefel (HS-CG):

β PR

k+1 = ∇fT k+1 (∇f k+1 − ∇f k )

‖∇f k ‖ 2

β HS

k+1 = ∇fT k+1 (∇f k+1 − ∇f k )

(∇f k+1 − ∇f k ) T p k

.

Lze snadno nahlédnout, že všechny tyto metody jsou identické s Algoritmem 4.8.1

pokud f je konvexní kvadratická funkce.

Jaký je vztah těchto metod k metodě (L-)BFGS Připomeňme opět, že

s k = x k+1 − x k = α k p k , y k = ∇f k+1 − ∇f k .

Nový směr poklesu je v metodě HS-CG dán formulí

p k+1 = −∇f k+1 + ∇fT k+1 y k

y T k p k

(

= − I − s kyk

T )

yk Ts ≡ Ŵk+1∇f k+1 .

k

To připomíná jeden krok qN metody, nicméně matice Ŵk+1 není ani symetrická

ani pozitivně definitní. Můžeme použít její symetrizaci Ŵ T k+1Ŵk+1, ta ale nesplňuje

qN rovnici Ŵk+1y k = s k . Aby tato rovnice byla splněna, lze použít následující

modifikaci Ŵk+1:

(

W k+1 = I − s kyk

T ) (

yk Ts I − y ks T )

k

k yk Ts + s ks T k

k yk Ts .

k

To je ale přesně matice kterou dostaneme jednou BFGS aktualizací z matice identické

W 0 = I.

Uvažujme nyní CG metodu s přesným hledáním délky kroku, tedy takovou, že

∇f T k+1 p k = 0. Pak lze snadno ukázat, že

W k+1 ∇f k+1 = Ŵk+1∇f k+1 ,

a dále že metoda HS-CG je ekvivalentní s PR-CG. Závěr tedy je, že (za předpokladu

přesné délky kroku)

• metoda PR-CG je ekvivalentní s metodou BFGS s restartem W k = I v každém

kroku;

• metoda PR-CG je ekvivalentní s metodou L-BFGS s m = 1, W 0 = I.

4.9. MODIFIKOVANÉ NEWTONOVY METODY 31

4.9 Modifikované Newtonovy metody

Minimalizujeme-li nekonvexní funkci f Newtonovou metodou s omezeným krokem

(line-searchem), může se stát, že dojdeme do bodu x k , v němž je Hessián ∇ 2 f(x k )

indefinitní nebo singulární. V tom případě nemá kvadratický model konečné minimum,

nový směr d k není směrem poklesu a celá metoda havaruje, protože nenajde

odpovídající krok, splňující Wolfeho podmínku.

V takovém případě můžeme zkusit modifikovat Hessián tak, aby se celé jeho

spektrum posunulo do kladného oboru.

Algoritmus 4.9.1 (modifikovaná Newtonova metoda s omezeným krokem).

Je dáno x 0 . Pro k = 0,1,2,...

(i) polož B k = ∇ 2 f(x k ) + E k , kde E k = 0, je-li ∇ 2 f(x k ) ≻ 0, nebo takové, aby

B k ≻ 0

(ii) d k = B −1

k ∇f(x k)

(iii) najdi α k splňující Wolfeho podmínku

(iv) x x+1 = x k + α k d k

Snadno lze ukázat globální konvergenci této metody.

Věta 4.9.1. Necht’ f je dvatkát spojitě diferencovatelná na D a {x ∈ D : f(x) ≤

f(x 0 )} je kompaktní. Necht’ cond (B k ) ≤ C ∀k = 0,1,2... Potom lim ∇f(x k) = 0.

k→∞

Důkaz. Plyne ze Zoutendijkovy věty 4.2.1.

Co se týká rychlosti konvergence, je zřejmé, že platí-li E k = 0 pro k ≥ k 0 ,

metoda se stane standardní Newtonovou metodou a konvergence je kvadratická.

Pokud je však Hessián v bodě řešení singulární či ”

téměř singulární”, je E k ≠ 0 pro

všechna k a rychlost je pouze lineární. (Všimněte si, že při volbě E k = I − ∇ ” f(x k )

dostaneme metodu největšího spádu.)

4.9.1 Volba E k

Protože E k musí být dostatečně jednoduchá, nejčastější volbou je násobek identické

matice E k = τ k I, kde τ k > −λ min ∇ 2 f(x k ) a λ min je nejmenší vlastní číslo Hessiánu

v x k . Zbývá otázka, jak levně odhadnout λ min . K tomu se používá následující algoritmus.

Označme H := ∇ 2 f a její prvky h ij .

Algoritmus 4.9.2. .

Zvol β > 0

je-li min i h ii > 0, polož τ 0 = 0, jinak τ 0 = β/2.

for k = 0,1,2,...

zkus provést Choleského rozklad

LL T = H + τ k I ;

end

je-li úspěšný, skonči s τ = τ k

jinak τ k+1 = max(2τ k ,β/2);

32 KAPITOLA 4. METODY TYPU LINE-SEARCH

Příklad Necht’ f je nekonvenxní funkce, jejíž gradient a Hessián v bodě ξ = (2,1)

je

( ( )

4

∇f =

∇

−2)

2 2 0

f = .

0 −2

Její kvadratický model v tomto bodě je tedy funkce x 2 1 − x 2 2 jejíž isočáry jsou

znázorněny na obrázku (funkce je konvexní v horizontální ose a konkávní v ose

vertikální).

d

y

ζ

−g

ξ

x

Standardní Newtonova metoda by dala směr jdoucí do počátku, tedy směr vzrůstu.

Jeden krok metody největšího spádu pak jde do bodu η. Modifikací Hessiánu s τ = 3

dostaneme pozitivně definitní matici

( )

B = ∇ 2 5 0

f + 3I =

0 1

a směr d = −B −1 ∇f = (−4/5, 2) T , což je zjevně směr (výrazného) poklesu f na

okolí bodu ξ.

Kapitola 5

Metody typu Trust-Region

5.1 Základní algoritmus

Můžeme se ptát, jde-li—pro nekonvenxní funkce—algoritmus 4.9.1 lépe zformalizovat.

Tedy můžeme-li nalézt takový předpis pro volbu τ, který zaručí dobré konvergenční

vlastnosti, jak teoretické, tak praktické. Odpovědí je třída metod typu Trust-

Region (metod s omezeným krokem), o nichž pojednává tato kapitola. Metody jsou

založeny na následující ekvivalenci.

Věta 5.1.1. Bod p ∗ je globální minimum problému

právě když existuje λ ≥ 0 tak, že

min

p

m(p) := c + g T p + 1 2 pT Bp s.t. ‖p‖ ≤ ∆ (TRS)

(i)

(B + λI)p ∗ = −g

(ii) λ(∆ − ‖p ∗ ‖) = 0

(iii) B + λI 0.

Důkaz. Bez újmy na obecnosti, položme c = 0.

⇐ Z vlastností (i)+(iii) plyne, že p ∗ minimalizuje funkci ˆm(p) := 1 2 pT (B +λI)p+

g T p, odtud dostáváme ˆm(p) ≥ ˆm(p ∗ ) ∀p a tedy m(p) ≥ m(p ∗ ) + 1 2 λ(p∗T p ∗ − p T p).

Z předpokladů λ ≥ 0 a (ii) dále plyne, že je-li p T p ≤ ∆ 2 , pak m(p) ≥ m(p ∗ ) a tedy

p ∗ řeší (TRS).

⇒ Je-li ‖p ∗ ‖ < ∆, pak p ∗ je nepodmíněné minimum m(p) a věta platí s λ =

0. Předpokládejme ‖p ∗ ‖ = ∆. Z podmínek optimality 1. řádu pro podmíněnou

optimalizaci (Věta ) plyne, že existuje ν ≥ 0 takové, že ∇ p L(p ∗ ,ν) = 0, kde

L(p,ν) := m(p) + 1 2 ν(‖p‖2 − ∆ 2 ),

tedy platí (i) s λ = ν. Rovněž z podmínek optimality 1. řádu (komplementarita)

dostaneme okamžitě podmínku (ii). Použijeme-li podmínky optimality 2. řádu (Věta ),

dostaneme

s T (B + λI)s ≥ 0 ∀s : s T p ∗ = 0,

kde B + λI je Hessián Lagrangiánu ∇ 2 ppL(p,λ). Vezmeme nyní v, v T p ∗

zkonstruujeme p ′ = p ∗ + θv, θ ≠ 0 tak, že ‖p ′ ‖ = ∆.

≠ 0 a

34 KAPITOLA 5. METODY TYPU TRUST-REGION

v

p’

p*

Využitím (i) eliminujeme g T p z funkce L:

L(p ′ ,ν) = m(p ∗ ) + 1 2 (p′ − p ∗ ) T (B + νI)(p ′ − p ∗ ).

Protože (p ′ ) T p ′ = ∆ 2 , platí L(p ′ ,ν) = m(p ′ ) ≥ m(p ∗ ) a tedy v T (B +νI)v ≥ 0. Věta

je dokázána.

Základní schéma metody Trust-Region (TR) je následující: Zvol ∆ > 0; vyřeš

(TRS); není-li model dobrý, uprav ∆ a vrat’ se na (TRS); jinak aktualizuj x a jdi

na (TRS). Obrázek ukazuje stejný příklad jako na konci minulé kapitoly, tentokrát

s TR krokem, zde označeným jako η.

y

η

ζ

−g

ξ

x

Kvalitu kvadratického modelu v k-tém kroku

měříme faktorem predikce modelu:

m k (p) = f k + ∇f(x k ) T p + 1 2 pT ∇ 2 f(x k )p

ρ k = f(x k) − f(x k + p k )

m k (0) − m k (p k )

:= δf k

δm k

; (5.1)

5.1. ZÁKLADNÍ ALGORITMUS 35

zde dělenec má význam skutečné redukce funkce f a dělitel je přepokládaná redukce.

Protože p k jsme získali minimalizací m k , je přepokládaná redukce vždy nezáporná:

m k (0) − m k (p) ≥ 0. Proto je-li ρ k < 0, znamená to nárůst funkce f a takový krok

musí být odmítnut. Ma druhé straně, je-li ρ k ≈ 1, model je dobrý a v další iteraci

můžeme zvětšit ∆ (tedy ”

oblast důvěry”). Pokud je ρ k kladné ale není blízké 1, stále

můžeme současný krok akceptovat, ale δ nezměníme. Konečně, je-li ρ k záporné či

blízké nule, krok odmítneme a zmenšíme ∆. Zde je detailní algoritmus:

Algoritmus 5.1.1 (Trust-Region). Dáno ∆ > 0,∆ 0 ∈ (0∆),η ∈ [0, 1 4 ].

for k=0,1,2,. . .

end

spočítej p k (přibližným) řešením (TRS)

if ρ k < 1 4

else

∆ k+1 = 1 4 ‖p k‖

if ρ k > 3 4 a ‖p k‖ = ∆ k

∆ k+1 = min(2∆ k ,∆)

else

∆ k+1 = ∆ k ;

if ρ k > η

else

x k+1 = x k + p k

x k+1 = x k ;

Věta 5.1.2 (globální konvergence TR). Necht’ f je dvakrát spojitě diferencovatelná

a omezené množině B. Necht’ x k ∈ B pro všechny x k generované algoritmem

TR s B k = ∇ 2 f(x k ). Pak existuje hromadný bod x ∗ posloupnosti {x k }, který splňuje

nutné podmínky optimality 1. a 2. řádu.

Důkaz. Existuje konvergentní podposloupnost (označme ji opět {x k }) pro níž nastane

jeden ze dvou případů:

(i) ρ k < 1 4 , ∆ k → 0 a tedy ‖p k ‖ → 0

(ii) ρ k ≥ 1 4 a inf ∆ k > 0

Větu dokážeme pro každý případ zvlášt’.

(i): Předpokládejme sporem, že v x ∗ existuje směr poklesu s, ‖s‖ = 1, tedy že

s T ∇f ∗ = −d, d > 0. Z Taylorova rozvoje f kolem x k dostaneme

tedy (viz (5.1))

f(x k + p k ) = m k (p k ) + o(‖p k ‖ 2 ),

δf k = δm k + o(‖p k ‖ 2 ). (5.2)

Uvažujme krok ε k = ‖p k ‖ ve směru s. Protože p k řeší (TRS) (a ze spojitosti), máme

δm k ≥ m k (0) − m k (ε k s) = −ε k s T ∇f k + o(ε k ) = ε k d + o(ε k ).

Z ε k → 0 (jsme v případu (i)) a z (5.2) plyne ρ k = 1 + o(1) a to je spor s

předpokladem ρ k < 1 4 . Platí tedy ∇f ∗ = 0.

36 KAPITOLA 5. METODY TYPU TRUST-REGION

Abychom dokázali podmínky 2. řádu, předpokládejme, že existuje s (‖s‖ = 1)

takové, že

s T B ∗ s = −d, d > 0 (5.3)

Uvažujme krok ε k ve směru σs, σ = ±1, tak, že σs T ∇f k ≤ 0. Potom z (TRS)

dostáváme

δm k ≥ m k (0) − m k (ε k σs) ≥ − 1 2 ε2 ks T B k s = 1 2 ε2 kd + o(ε 2 k),

kde poslední rovnost plyne ze spojitosti. Z (5.2) pak plyne ρ k = 1 + o(1), což je

spor, takže B k 0 a případ (i) je dokázán.

(ii): Platí f 1 = f ∗ ≥ ∑ δf k , tedy δf k → 0 a (protože ρ k ≥ 1 4 ) δm k → 0.

Definujme

m ∗ (p) := f ∗ + p T ∇f ∗ + 1 2 pT G ∗ p.

Necht’ ˜∆ splňuje 0 < ˜∆ < inf ∆k a necht’ ˜p řeší m ∗ (p) na ‖p‖ ≤ ˜∆. Položme

˜x = x ∗ + ˜p. Pro k dostatečně velké

‖˜x − x k ‖ ≤ ‖˜p‖ + ‖x k − x ∗ ‖ = ‖˜p‖ + o(1) ≤ ˜∆ + o(1) ≤ ∆ k ,

tedy ˜x − x k splňje omezení v (TRS). Potom

m k (˜x − x k ) ≥ m k (p k ) = f k − δm k .

V limitě f k → f ∗ , ∇f k → ∇f ∗ , ∇ 2 f k → ∇ 2 f ∗ (tedy G k → G ∗ ), δm k → 0 a

˜x − x k → ˜p k a z toho m ∗ (˜p) ≥ f ∗ = m ∗ (0). Tedy p = 0 minimalizuje m ∗ (p) na

‖p‖ ≤ ˜∆ a toto omezení není aktivní (platí ostrá nerovnost). Z toho plyne, že platí

podmínky optimality 1. a 2. řádu a tedy tvrzení věty.

Věta 5.1.3 (lokální konvergence TR). Splňuje-li x ∗ předpoklady věty 5.1.2 a

postačující podmínky optimality 2. řádu, potom ρ k → 1, x k → x ∗ , inf ∆ k > 0 a

‖p k ‖ ≤ ∆ k není aktivní pro k dostatečně veliká. Konvergence ke kvadratická.

Důkaz. Fletcher, Thm. 5.1.2

5.2 Jak řešit (TRS)

Zopakujme problém (TRS)

min

p

m(p) := f + ∇f T p + 1 2 pT Bp s.t. ‖p‖ ≤ ∆ (5.4)

a označme pro zbytek této kapitoly g = ∇f.

Metody pro řešení (TRS) můžeme rozdělit na (velmi) přibližné a (téměř) přesné.

5.2.1 Cauchyho bod

Cauchyho bod je bod ležící na směru záporného gradientu (v bodě x k ), který bud’

minimalizuje m na této polopřímce (v případě, že minimum leží uvnitř oblasti ‖p‖ ≤

∆), nebo leží na průsečíku s hranicí této oblasti. Je to tedy bod

p c = −τg, kde τ =

{

∆ pro g T Bg ≤ 0

min(∆,

g T g

g T Bg )

jinak.

5.2. JAK ŘEŠIT (TRS) 37

∆

x k

p c

p*

d N

−g

Obrázek ukazuje izočáry funkce f (čárkovaně) a kvadratického modelu m (plnou

čarou) v bodě x k , dále Newtonův směr d N , směr záporného gradientu −g, Cauchyho

bod p c a přesné řešení (TRS) p ∗ .

Přibližné metody řešení (TRS) mají za cíl najít bod, který je přinejmenším

lepší než Cauchyho bod (ve smyslu minimalizace m). Je zřejmé, že vezmeme-li za

přibližné řešení (TRS) právě Cauchyho bod, dostaneme metodu největšího spádu s

omezeným krokem.

5.2.2 Metoda dogleg

Podívejme se, jaký je efekt poloměru ∆ na (přesné) řešení (TRS). Předpokládejme,

že B k 0. Pak řešením nepodmíněného (TRS) je plný Newtonův krok p N =

−B −1 g. Je-li tedy ∆ dostatečně velké, je p ∗ = p N . Naopak, blíží-li se ∆ limitně

nule, kvadratický člen v (TRS) pozbývá vlivu a p ∗ se blíží −∆ g , směr se tedy

‖g‖

asymptoticky blíží směru záporného gradientu.

Metoda dogleg (jak ji nazval M. Powell) je přibližnou metodou pro řešení konvexních

(TRS). Myšlenkou je nahradit (křivočarou) trajektorii p ∗ (∆) dvěma úsečkami.

První úsečka jde z bodu p(0) (tedy x k ) do bodu minimalizujícího m(p) na směru

záporného gradientu

p U = − gT g

g T Bg g

(tedy bodu nalezeného metodou největšího spádu). Druhá pak jde z p U do p N .

Označme tuto aproximující traketrorii

˜p(τ) =

{ τpU , 0 ≤ τ ≤ 1

p U + (τ − 1)(p N − p U ), 1 ≤ τ ≤ 2.

p( ) ∆

p

N

∆

p U

−g

38 KAPITOLA 5. METODY TYPU TRUST-REGION

Přibližným řešením (TRS) je průsečík této křivky s hranicí ‖p‖ = ∆. Lze ukázat,

že pokud ‖p N ‖ ≥ ∆, pak takový bod existuje právě jeden a lze spočítat řešením

kvadratické rovnice v proměnné τ:

‖p U + (τ − 1)(p N − p U )‖ 2 = ∆ 2 .

5.3 Metoda Steihaugova

Jedná se opět o přibližnou metodu, vhodnou tentokrát i pro nekonvexní funkce. Je

to v podstatě metoda sdružených gradientů (použitá na minimalizaci kvadratického

modelu) s omezeným krokem a hlídáním směrů záporné křivosti (tj. směrů d, pro

něž d T Bd ≤ 0).

Algoritmus 5.3.1 (Steihaugova metoda). Dáno ǫ > 0; polož p 0 = 0, r 0 = g,

d 0 = −r 0 .

if ‖r 0 ‖ < ǫ

return p = p 0 ;

for j = 0,1,2,...

end.

if d T j Bd j ≤ 0

najdi τ tak, že p = p j +τd j minimalizuje m(p) v (5.4)

a splňuje ‖p‖ = ∆;

return p;

α j = rT j r j

d T j Bd ;

j

p j+1 = p j + α j d j ;

if ‖p j+1 ‖ ≥ ∆

najdi τ tak, že p = p j + τd j splňuje ‖p‖ = ∆;

return p;

r j+1 = r j + α j Bd j ;

if ‖r j+1 ‖ < ǫ‖r 0 ‖

return p = p j+1 ;

β j+1 = rT j+1 r j+1

rj Tr ;

j

d j+1 = r j+1 + β j+1 d j ;

Začne-li algoritmus s p 0 = 0, lze ukázat, že

0 ≤ ‖p 0 ‖ 2 < ... < ‖p j ‖ 2 ≤ ‖p j+1 ‖ 2 < ... < ‖p‖ 2 ≤ ∆

takže trajektorie generovaná algoritmem protne hranici ‖p‖ = ∆ právě jednou.

Navíc p 1 = p c , tedy v první iteraci dostaneme Cauchyho bod, který pak už jen

zlepšujeme.

V porovnání s metodou dogleg je Steihaugova metoda vhodná pro problémy

velké dimenze. V metodě dogleg musíme řešit soustavu Bp = g (abychom získali

bod p N ). To zde nemusíme. Nevýhodou Steihaugovu metody je fakt, že metoda

skončí když poprvé narazí na směr záporné křivosti, at’ je jakýkoliv. Z hlediska

TR algoritmu by bylo výhodné nalézt směr velké záporné křivosti. Toho můžeme

5.4. PŘESNÉ ŘEŠENÍ (TRS) 39

dosáhnout ve variantě Steihaugovy metody, kde základní CG algoritmus je nahrazen

Lanczosovou metodou [].

Další výhodou Steihaugovy metody je, že můžeme použít předpodmínění matice

B ke zrychlení konvergence metody, tak jak to známe z klasické metody sdružených

gradientů.

5.4 Přesné řešení (TRS)

Připomeňme, že (podle věty 5.1.1) p ∗ řeší (TRS) právě když existuje λ ≥ 0 tak, že

(B + λI)p ∗ = −g, λ(∆ − ‖p ∗ ‖) = 0, B + λI 0.

Strategie hledání p ∗ , založená na této ekvivalenci, je pak jasná: Je-li B ≻ 0, je λ = 0

a p ∗ je řešením soustavy Bp = −g. Pokud je B indefinitní, definujeme

p(λ) = −(B + λI) −1 g

pro λ dostatečně velké, aby (B + λI) ≻ 0, a hledáme λ > 0 aby

‖p(λ)‖ = ∆,

hledáme tedy kořen jednodimenzionální rovnice (v λ).

Necht’ B = QΛQ T , kde Q je ortogonální, Λ = diag (λ 1 ,λ 2 ,...,λ n ) a λ 1 ≤ λ 2 ≤

... ≤ λ n . Potom

p(λ) = −Q(Λ + λI) − 1Q T g = −

n∑

j=1

q T j g

λ j + λ q j ,

kde q j jsou sloupce Q (tedy vlastní vektory B). Protože q j jsou ortonormální, máme

‖p(λ)‖ 2 =

n∑

j=1

(q T j g)2

(λ j + λ) 2 .

Z toho vidíme, že ‖p(λ)‖ je spojitá nerostoucí funkce na (−λ 1 , ∞) a

lim ‖p(λ)‖ = 0.

λ→∞

Pro qj T g ≠ 0 navíc platí

lim

‖p(λ)‖ = ∞;

λ→−λ j

viz obrázek.

40 KAPITOLA 5. METODY TYPU TRUST-REGION

||p||

∆

−λ −λ −λ −λ

5.4.1 Lehký případ

3

2

Proto je-li q T j g ≠ 0, pak existuje řešení ‖p(λ)‖ − ∆ = 0 v intervalu (−λ 1, ∞). Toto

řešení můžeme najít Newtonovou metodou (pro hledání kořenů rovnic). Protože

Newtonova metoda se nechová příliš dobře má-li funkce velkou křivost (jako ‖p(λ)‖

v okolí −λ 1 , je vhodné rovnici ”

invertovat” a hledat řešení rovnice

1

∆ − 1

‖p(λ)‖ = 0,

která je v okolí −λ 1 téměř lineární. Aplikováním Newtovovy metody na tuto rovnici

dostaneme následující algoritmus:

Algoritmus 5.4.1 (přesné řešení (TRS)). Je dáno λ 0 ,∆ > 0.

for l = 0,1,2,...

1

*

end

faktorizuj B − λ l I = LL T

řeš LL T p l = −g, Ls l = p

( ) l

2 ( )

polož λ l+1 = λ l ‖pl ‖ ‖pl ‖ − ∆

+

‖s l ‖ ∆

Nutno zmínit, že pro nové λ l+1 může nastat λ l+1 < −λ 1 a faktorizace LL T

nemusí existovat—to je nutno ohlídat.

5.4.2 Těžký případ (hard case)

Pokud q T 1 g = 0, je hodnota p(−λ 1 ) konečná a nemusí existovat žádné λ ∈ (−λ 1 , ∞)

aby ‖p(λ)‖ = ∆. Věta 5.1.1 nám říká, že v tomto případě λ = −λ 1 . Jak ale najít

p ∗ Víme, že (B − λ 1 I)q 1 = 0, tedy q T 1 q j = 0 pro λ j ≠ λ 1 . Tedy

p =

∑

j:λ j≠λ 1

q T j g

λ j + λ q j + τq 1

5.5. SCALING 41

a

‖p‖ 2 =

∑ (qj Tg)2

(λ j + λ) 2 + τ2 .

j:λ j≠λ 1

Odtud plyne existence takového τ, že ‖p‖ = ∆.

5.5 Scaling

Algoritmy numerickÃ© optimalizace

Algoritmy numerickÃ© optimalizace ... View more Algoritmy numerickÃ© optimalizace

Delete template?

Save as template ?

Algoritmy numerickÃ© optimalizace Algoritmy numerickÃ© optimalizace