disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald

disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald

ub.ed.ub.uni.greifswald.de
von ub.ed.ub.uni.greifswald.de Mehr von diesem Publisher
31.01.2014 Aufrufe

4. Grundlagen der Optimalsteuerung und sei sie stetig differenzierbar. Sei u ∗ (·) eine open-loop optimale Lösung von (4.12). Dann erfüllt die entsprechnede closed-loop Lösung û(·, ·) für alle t ∈ [t 0 , t 1 ] die Bedingung û(t, x(t)) = û(t 0 , x(t 0 )) = arg max v∈Ω W (t 0, x(t 0 ), v), und W (t, x, v) erfüllt die partielle Differentialgleichung: ∂W (t, x, v) − ∂t oder anders geschrieben: ∂W (t, x, v) − ∂t und = n∑ i=1 = ∂W (t, x, v) f(t, x, v) + g(t, x, v) ∂x ∂W (t, x, v) ∂x i f i (t, x, v)+g(t, x, v), ∀(t, x, v) ∈ [t 0 , t 1 )×R n ×Ω W (t 1 , x(t 1 ), v) = q(x(t 1 )), x(t 1 ) ∈ R n . Beweis: Der Beweis folgt analog vom Satz 3.2. W (t + ∆t, x(t + ∆t), v) ist die Wertefunktion für den Teil der Lösung, der zum Zeitpunkt t + ∆t mit dem Zustand x(t + ∆t) und der konstanten Steuerung v beginnt. Es gilt folgende Gleichung: t+∆t ∫ W (t, x, v) = g(τ, x(τ), v)dτ + W (t + ∆t, x(t + ∆t), v). t Da W stetig differenzierbar vorausgesetzt wird und g stetig ist, kann die t+∆t ∫ Approximation g(τ, x(τ), v)dτ = g(t, x(t), v))∆t + o(∆t) verwendet werden: o(∆t) mit lim ∆t→0 ∆t t W (t, x, v) = { g(t, x(t), v)∆t + W (t + ∆t, x(t + ∆t), v) } + o(∆t), = 0. Laut des Satzes von Taylor ergibt sich: W (t + ∆t, x(t + ∆t), v) = W (t, x(t), v) + W t (t, x(t), v)∆t + W x (t, x(t), v)ẋ(t)∆t + o(∆t). Setzt man dieses Ergebnis in die vorhergehende Gleichung ein, dividiert durch ∆t und beachtet ẋ = f(t, x, v), so folgt für ∆t → 0 und für jedes fixierte t die partielle Differentialgleichung 0 = g(t, x(t), v) + W t (t, x(t), v) + W x (t, x(t), v)f(t, x(t), v), 72

4.5. Bellman-Prinzip die in der Form ∂W (t, x, v) − ∂t = ∂W (t, x, v) f(t, x, v) + g(t, x, v). ∂x geschrieben werden kann. Da die Gleichung W (t 0 , x, v) = J(v), v ∈ Ω (für diese spezielle Aufgabe) gilt, kann die optimale Lösung durch die punktweise Maximierung dieser berechneten Funktion W (t 0 , x, v) erhalten werden. û(t 0 , x(t 0 )) = arg max v∈Ω W (t 0, x(t 0 ), v). Die Randbedingung W (t 1 , x(t 1 ), v) = q(x(t 1 )) folgt unmittelbar. Im Falle mehrerer Steuerungsintervalle gilt die notwendige Bedingung analog. Es sei u(t) = v = (v 0 , v 1 , . . . , v n−1 ) mit v k ∈ Ω, k = 0, . . . , n − 1. Die Funktion W (t, x, v) wird dann für alle t ∈ [t n−1 ; t n ] als W (t, x, v) = ∫ t n und für alle t ∈ [t s−1 ; t s ], 1 ≤ s ≤ n − 1 als W (t, x, v) = t g(τ, x(τ), v)dτ + q(x(t n )), ∫ t s t g(τ, x(τ), v)dτ definiert. Dann folgt für alle t ∈ [t k−1 ; t k ], 1 ≤ k ≤ n: û(t, x) = û(t k−1 , x(t k−1 )) = arg max W (t k−1, x(t k−1 )), v), v∈Ω ∂W (t, x, v) ∂W (t, x, v) − = f(t, x, v) + g(t, x, v), ∂t ∂x W (t k − 0, x, v) = W (t k , x, û(t k , x)), 1 ≤ k < n, W (t n − 0, x, v) = q(x(t n )), ∀v ∈ Ω. Die hinreichende Bedingung lässt sich analog dem Fall einer stückweise stetigen Steuerung formulieren und beweisen. Satz 4.9 Hinreichende Bedingung. Wenn es auf [t 0 , T ] × R n × Ω eine reelle, stetig differenzierbare Funktion W (t, x, v) gibt, die die Gleichung ∂W (t, x, v) − ∂t = ∂W (t, x, v) f(t, x, v) + g(t, x, v), ∂x 73

4.5. Bellman-Prinzip<br />

die in der Form<br />

∂W (t, x, v)<br />

−<br />

∂t<br />

=<br />

∂W (t, x, v)<br />

f(t, x, v) + g(t, x, v).<br />

∂x<br />

geschrieben werden kann. Da die Gleichung W (t 0 , x, v) = J(v), v ∈ Ω (für diese<br />

spezielle Aufgabe) gilt, kann die optimale Lösung durch die punktweise Maximierung<br />

dieser berechneten Funktion W (t 0 , x, v) erhalten werden.<br />

û(t 0 , x(t 0 )) = arg max<br />

v∈Ω W (t 0, x(t 0 ), v).<br />

Die Randbedingung W (t 1 , x(t 1 ), v) = q(x(t 1 )) folgt unmittelbar.<br />

Im Falle mehrerer Steuerungsintervalle gilt die notwendige Bedingung analog. Es sei<br />

u(t) = v = (v 0 , v 1 , . . . , v n−1 ) mit v k ∈ Ω, k = 0, . . . , n − 1. Die Funktion W (t, x, v)<br />

wird dann für alle t ∈ [t n−1 ; t n ] als<br />

W (t, x, v) =<br />

∫ t n<br />

und für alle t ∈ [t s−1 ; t s ], 1 ≤ s ≤ n − 1 als<br />

W (t, x, v) =<br />

t<br />

g(τ, x(τ), v)dτ + q(x(t n )),<br />

∫ t s<br />

t<br />

g(τ, x(τ), v)dτ<br />

definiert. Dann folgt für alle t ∈ [t k−1 ; t k ], 1 ≤ k ≤ n:<br />

û(t, x) = û(t k−1 , x(t k−1 )) = arg max W (t k−1, x(t k−1 )), v),<br />

v∈Ω<br />

∂W (t, x, v) ∂W (t, x, v)<br />

− = f(t, x, v) + g(t, x, v),<br />

∂t<br />

∂x<br />

W (t k − 0, x, v) = W (t k , x, û(t k , x)), 1 ≤ k < n,<br />

W (t n − 0, x, v) = q(x(t n )), ∀v ∈ Ω.<br />

Die hinreichende Bedingung lässt sich analog dem Fall einer stückweise stetigen<br />

Steuerung formulieren und beweisen.<br />

Satz 4.9 Hinreichende Bedingung.<br />

Wenn es auf [t 0 , T ] × R n × Ω eine reelle, stetig differenzierbare Funktion W (t, x, v)<br />

gibt, die die Gleichung<br />

∂W (t, x, v)<br />

−<br />

∂t<br />

=<br />

∂W (t, x, v)<br />

f(t, x, v) + g(t, x, v),<br />

∂x<br />

73

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!