disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald

disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald

ub.ed.ub.uni.greifswald.de
von ub.ed.ub.uni.greifswald.de Mehr von diesem Publisher
31.01.2014 Aufrufe

4. Grundlagen der Optimalsteuerung Satz 4.6 (Notwendige Bedingung). Es existiere die Wertefunktion V (t, x) für das Problem (4.1) auf [t 0 , T ] × R n und sei stetig differenzierbar: V x (t, x) = d V (t, x). dx Sei u ∗ (·) eine open-loop optimale Lösung von (4.1). Dann erfüllt die entsprechnede closed-loop Lösung û(·, ·) die Bedingung û(t, x) = arg max u∈Ω H(t, x, u, V x(t, x)) für alle x ∈ R n und alle t ∈ [t 0 , T ] und V (t, x) erfüllt die partielle Differentialgleichung: −V t (t, x) = max u∈Ω H(x, u, V x(t, x), t), t ∈ [t 0 , T ], V (T, x T ) = q(x(T )). Beweis: Laut der Definition der Funktion V ist V (t + ∆t, x(t + ∆t)) die Wertefunktion für den Teil der Lösung, der zum Zeitpunkt t + ∆t mit dem Zustand x(t + ∆t) beginnt. Dann folgt für alle ∆t: ⎧ 0 ≤ ∆t ≤ T − t: ⎫ t+∆t ⎨ ∫ ⎬ V (t, x) = max g(τ, x(τ), u(τ))dτ + V (t + ∆t, x(t + ∆t)) u(·) zulässig ⎩ ⎭ . t Da V als stetig differenzierbar vorausgesetzt wird und g stetig ist, kann für jeden Stetigkeitspunkt t von u(·) t+∆t ∫ g(τ, x(τ), u(τ))dτ für kleine ∆t-Werte durch g(t, x(t), u(t))∆t + o(∆t) t approximiert werden und es folgt: V (t, x) = max { } g(t, x(t), u(t))∆t + V (t + ∆t, x(t + ∆t)) + o(∆t). u(·) zulässig Nach dem Satz von Taylor ergibt sich: V (t + ∆t, x(t + ∆t)) = V (t, x(t)) + V t (t, x(t))∆t + V x (t, x(t))ẋ(t)∆t + o(∆t). Setzt man dieses Ergebnis in die vorhergehende Gleichung ein, dividiert durch ∆t und beachtet ẋ = f(t, x, u), so folgt für ∆t → 0 und für jedes fixierte t die partielle Differentialgleichung 0 = max u∈Ω { g(t, x, u) + Vt (t, x) + V x (t, x)f(t, x, u) } . Gemäß der Definition der Hamiltonfunktion H lässt sich, weil V t (t, x(t)) nicht von u abhängt, die partielle Differentialgleichung in der Form −V t (t, x) = max u∈Ω H(t, x, u, V x(t, x)) (4.8) schreiben. Die Randbedingung V (T, x T ) = q(x(T )) folgt unmittelbar. Die partielle Differentialgleichung (4.8) wird Hamilton-Jacobi-Bellman-Gleichung 68

4.5. Bellman-Prinzip genannt. 6 Zusammen mit den Endbedingungen entsteht eine Evolutionsgleichung, deren globale Lösbarkeit, wie im Satz gefordert, im Allgemeinen nicht gesichert ist. Satz 4.7 Hinreichende Bedingung. Wenn es auf [t 0 , T ] × R n eine reelle, stetig differenzierbare Funktion V (t, x) gibt, die die Hamilton-Jacobi-Bellman-Gleichung erfüllt, und wenn die durch −V t (t, x) = max u∈Ω H(x, u, V x(t, x), t), (4.9) V (T, x T ) = q(x(T )) û(t, x) = arg max u∈Ω H(x, u, V x(t, x), t) (4.10) bestimmte (closed-loop) Steuerung zulässig ist, dann ist die entsprechende open-loop Steuerung u ∗ (·) mit der zugehörigen Zustandstrajektorie x ∗ (·) eine optimale Lösung von (4.1). Beweis: Die linke Seite von (4.9) ist unabhängig von u, daher kann diese Gleichung auch in der Form max [V t(t, x) + H(x, u, V x (t, x), t)] = 0 (4.11) u∈Ω dargestellt werden. Wir nehmen die zulässige Steuerung u ∗ (·) und wählen eine beliebige (und auf [t 0 , T ] zulässige) Steuerung u − (·). Seien x ∗ (·) und x − (·) die jeweils eindeutigen Zustandstrajektorien, die durch u ∗ (·) beziehungsweise u − (·) auf dem Intervall [t 0 , T ] erzeugt werden, so dass x ∗ (t 0 ) = x − (t 0 ) = x 0 gilt. Dann folgt aus (4.10) und (4.11): 0 =V t (t, x ∗ ) + H(x ∗ (t), u ∗ (t), V ∗ x (t, x ∗ ), t) ≥ V t (t, x − ) + H(x − (t), u − (t), V x (t, x − ), t). Mit der Definition der Hamiltonfunktion H = g +V x ·f und unter Berücksichtigung von dV (t, x) ∂V (t, x) ∂V (t, x) = + f(t, x, u) dt ∂t ∂x 6 Der Name bezieht sich auf William Rowan Hamilton (1805-1865), der zur Entwicklung der Variationsrechnung wesentliche Ergebnisse beitrug, auf Carl Gustav Jacobi (1804-1851), der in der Variationsrechnung weitreichende Beiträge zur Theorie der hinreichenden Bedingungen geleistet hat und auf Richard Bellman (1920-1984), der die dynamische Programmierung auf den Weg brachte. Eigentlich stammt diese Gleichung von Constantin Carathéodory (1873-1950), dessen Name nicht erwähnt wurde. 69

4. Grundlagen der Optimalsteuerung<br />

Satz 4.6 (Notwendige Bedingung).<br />

Es existiere die Wertefunktion V (t, x) für das Problem (4.1) auf [t 0 , T ] × R n und sei<br />

stetig differenzierbar: V x (t, x) = d V (t, x).<br />

dx<br />

Sei u ∗ (·) eine open-loop optimale Lösung von (4.1). Dann erfüllt die entsprechnede<br />

closed-loop Lösung û(·, ·) die Bedingung<br />

û(t, x) = arg max<br />

u∈Ω H(t, x, u, V x(t, x)) für alle x ∈ R n und alle t ∈ [t 0 , T ]<br />

und V (t, x) erfüllt die partielle Differentialgleichung:<br />

−V t (t, x) = max<br />

u∈Ω H(x, u, V x(t, x), t), t ∈ [t 0 , T ],<br />

V (T, x T ) = q(x(T )).<br />

Beweis:<br />

Laut der Definition der Funktion V ist V (t + ∆t, x(t + ∆t)) die Wertefunktion für<br />

den Teil der Lösung, der zum Zeitpunkt t + ∆t mit dem Zustand x(t + ∆t) beginnt.<br />

Dann folgt für alle ∆t: ⎧ 0 ≤ ∆t ≤ T − t:<br />

⎫<br />

t+∆t<br />

⎨ ∫<br />

⎬<br />

V (t, x) = max g(τ, x(τ), u(τ))dτ + V (t + ∆t, x(t + ∆t))<br />

u(·) zulässig ⎩<br />

⎭ .<br />

t<br />

Da V als stetig differenzierbar vorausgesetzt wird und g stetig ist, kann für jeden<br />

Stetigkeitspunkt t von u(·)<br />

t+∆t ∫<br />

g(τ, x(τ), u(τ))dτ für kleine ∆t-Werte durch g(t, x(t), u(t))∆t + o(∆t)<br />

t<br />

approximiert werden und es folgt:<br />

V (t, x) = max<br />

{ }<br />

g(t, x(t), u(t))∆t + V (t + ∆t, x(t + ∆t)) + o(∆t).<br />

u(·) zulässig<br />

Nach dem Satz von Taylor ergibt sich:<br />

V (t + ∆t, x(t + ∆t)) = V (t, x(t)) + V t (t, x(t))∆t + V x (t, x(t))ẋ(t)∆t + o(∆t).<br />

Setzt man dieses Ergebnis in die vorhergehende Gleichung ein, dividiert durch ∆t und<br />

beachtet ẋ = f(t, x, u), so folgt für ∆t → 0 und für jedes fixierte t die partielle<br />

Differentialgleichung<br />

0 = max<br />

u∈Ω<br />

{<br />

g(t, x, u) + Vt (t, x) + V x (t, x)f(t, x, u) } .<br />

Gemäß der Definition der Hamiltonfunktion H lässt sich, weil V t (t, x(t)) nicht von u<br />

abhängt, die partielle Differentialgleichung in der Form<br />

−V t (t, x) = max<br />

u∈Ω H(t, x, u, V x(t, x)) (4.8)<br />

schreiben. Die Randbedingung V (T, x T ) = q(x(T )) folgt unmittelbar.<br />

Die partielle Differentialgleichung (4.8) wird Hamilton-Jacobi-Bellman-Gleichung<br />

68

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!