disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald

disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald disser1.pdf (2006 KB) - Ernst-Moritz-Arndt-Universität Greifswald

ub.ed.ub.uni.greifswald.de
von ub.ed.ub.uni.greifswald.de Mehr von diesem Publisher
31.01.2014 Aufrufe

4. Grundlagen der Optimalsteuerung Trotz vieler Untersuchungen ist die Theorie der hinreichenden Bedingungen für spezielle Optimalsteuerungsprobleme (unter anderem, für die Aufgaben mit stückweise konstante Steuerungen) noch nicht abgeschlossen. Gabasov und Kirillova haben in ihren Arbeiten studiert ( [8]), dass das Pontrjaginsche Maximumprinzip für die in u stetigen Prozesse auf Prozesse mit stückweise konstanten Steuerungen im Allgemeinen nicht übertragbar ist. Für stückweise konstante Steuerfunktionen gilt das Maximumprinzip nur approximativ (Quasimaximumprinzip). Gabasov und Kirillova zeigten z.B., dass die Differenz zwischen dem Maximum der Hamilton-Funktion und dem Wert der Hamilton-Funktion für die optimale Steuerung u ∗ (t) kleiner ε gemacht werden kann und dass dieser Abstand nach Null strebt, falls die Länge der Steuerintervalle h genügend klein gewählt worden ist. Bei den Steuerintervallen fester Länge gilt das nicht. Trotzdem wenden in der Regel viele Autoren das Pontrjaginsche Maximumprinzip auch in den Aufgaben mit stückweise konstanten Steuerungen, obwohl die notwendigen Bedingungen in solchen Fällen nicht gesichert sind. 4.5. Bellman-Prinzip Eine zentrale Methode der Dynamischen Programmierung ist das Bellman-Prinzip. Dynamische Programmierung kann dann erfolgreich eingesetzt werden, wenn das Optimierungsproblem aus vielen gleichartigen Teilproblemen besteht, und eine optimale Lösung des Problems sich aus optimalen Lösungen der Teilprobleme zusammensetzt. Das Verfahren der dynamischen Programmierung besteht darin, zuerst die optimalen Lösungen der kleinsten Teilprobleme direkt zu berechnen, und diese dann geeignet zu einer Lösung eines nächstgrößeren Teilproblems zusammenzusetzen. Diese Idee wurde 1957 von Bellman formuliert. 5 In der Steuerungstheorie kann man das Prinzip der dynamischen Programmierung einsetzen, um eine Gleichung herzuleiten (Hamilton-Jacobi-Bellman-Gleichung), deren Lösung den optimalen Wert der Steuerung ergibt. Die Argumentation ist dabei folgende: Wenn das Problem zeitabhängig ist, kann man den optimalen Wert des Zielfunktionals zu einem bestimmten Zeitpunkt betrachten. Zu untersuchen ist also eine Gleichung für die optimale Lösung, die das Zielfunktional auch zu einem späteren Zeitpunkt optimal erhält. Diese Überlegung führt zur Hamilton-Jacobi-Bellman- Gleichung. Damit kann man das Problem in Zeitschritte einteilen, anstatt es auf einmal lösen zu müssen. 5 Richard Bellman (1920-1984), amerikanischer Mathematiker und Physiker, Erfinder der Dynamischen Programmierung. Nach ihm sind mehrere Algorithmen und Methoden der Diskreten Optimierung und benachbarter Gebiete benannt worden, z.B. der Algorithmus von Bellman und Ford und das Optimalitätsprinzip. 66

4.5. Bellman-Prinzip Auf dieser Basis lässt sich eine notwendige und hinreichende Bedingung konstruieren. 4.5.1. Eine notwendige und hinreichende Optimalitätsbedingung für die Aufgaben mit stückweise stetigen Steuerungen Wir betrachten das Optimalsteuerungsproblem (4.1) und definieren eine Wertefunktion V (t, x t ) : [t 0 , T ] × R n → R gemäß ∫ T V (t, x t ) = max u(·) g(τ, x(τ), u(τ))dτ + q(x(T )), (4.7) t wobei u(·) : [t, T ] → R m zulässig auf [t, T ] und x(·) die zugehörige Trajektorie mit x(t) = x t ∈ R n ist. V (t, x t ) gibt den optimalen Wert des Zielfunktionals ausgehend vom Zeitpunkt t ∈ [t 0 , T ] und dem Ausgangspunkt x t ∈ R n an, also den maximalen Wert des Zielfunktionals für das zum Zeitpunkt t verbleibende Zeitintervall [t, T ] und für den Startpunkt x t . Dabei gilt auch x(T ) = x T ∈ R n . Bei folgenden Überlegungen werden wir zwei unterschiedliche Formen von Steuerungen betrachten. In der Optimalsteuerung ist es üblich, Steuerungen als Funktionen von der Zeit t (und häufig vom in der Regel festen Anfangszustand x 0 ) zu betrachten. Diese Steuerungen nennen wir open-loop-Form (offene Schleife) und werden im Weiteren optimale Steuerung in solcher Form als u ∗ (·) bezeichnen. Diese Form hat einen Nachteil: Falls sich das System von der optimalen Trajektorie wegentwickelt, würde die Steuerung nicht optimal. Die closed-loop-Form oder Rückkopplungsform u(t, x t ) beschreibt eine Abhängigkeit der Steuerfunktionen von der Zeit t und auch vom gegenwärtigen Zustand x(t) = x t ∈ R n . Wir bezeichnen die closed-loop optimale Steuerung û(t, x t ). Bei deterministischen optimalen Steuerungsproblemen ist diese Unterscheidung nicht von einer großer Bedeutung, weil man das optimale x = x(t, x 0 ) in die Rückkopplungslösung einsetzen kann und so eine äquivalente Lösung in offener Schleife erhalten kann. Eine optimale closed-loop-Lösung kann daher immer in eine optimale open-loop- Lösung in offener Schleife umgeformt werden und umgekehrt. Einfachheitshalber werden wir in folgenden Sätzen V (t, x t ) als V (t, x) und u(t, x t ) als u(t, x) bezeichnen. Die Hamiltonfunktion H ist für das Problem (4.1) gemäß H(t, x, u, V x (t, x)) = g(t, x, u) + V x (t, x) · f(t, x, u). erklärt. Nun können wir das Bellman-Prinzip formulieren. 67

4.5. Bellman-Prinzip<br />

Auf dieser Basis lässt sich eine notwendige und hinreichende Bedingung<br />

konstruieren.<br />

4.5.1. Eine notwendige und hinreichende<br />

Optimalitätsbedingung für die Aufgaben mit<br />

stückweise stetigen Steuerungen<br />

Wir betrachten das Optimalsteuerungsproblem (4.1) und definieren eine Wertefunktion<br />

V (t, x t ) : [t 0 , T ] × R n → R gemäß<br />

∫ T<br />

V (t, x t ) = max<br />

u(·)<br />

g(τ, x(τ), u(τ))dτ + q(x(T )), (4.7)<br />

t<br />

wobei u(·) : [t, T ] → R m zulässig auf [t, T ] und x(·) die zugehörige Trajektorie mit<br />

x(t) = x t ∈ R n ist.<br />

V (t, x t ) gibt den optimalen Wert des Zielfunktionals ausgehend vom Zeitpunkt<br />

t ∈ [t 0 , T ] und dem Ausgangspunkt x t ∈ R n an, also den maximalen Wert des<br />

Zielfunktionals für das zum Zeitpunkt t verbleibende Zeitintervall [t, T ] und für den<br />

Startpunkt x t . Dabei gilt auch x(T ) = x T ∈ R n .<br />

Bei folgenden Überlegungen werden wir zwei unterschiedliche Formen von<br />

Steuerungen betrachten. In der Optimalsteuerung ist es üblich, Steuerungen als<br />

Funktionen von der Zeit t (und häufig vom in der Regel festen Anfangszustand<br />

x 0 ) zu betrachten. Diese Steuerungen nennen wir open-loop-Form (offene Schleife)<br />

und werden im Weiteren optimale Steuerung in solcher Form als u ∗ (·) bezeichnen.<br />

Diese Form hat einen Nachteil: Falls sich das System von der optimalen Trajektorie<br />

wegentwickelt, würde die Steuerung nicht optimal. Die closed-loop-Form oder<br />

Rückkopplungsform u(t, x t ) beschreibt eine Abhängigkeit der Steuerfunktionen<br />

von der Zeit t und auch vom gegenwärtigen Zustand x(t) = x t ∈ R n .<br />

Wir bezeichnen die closed-loop optimale Steuerung û(t, x t ). Bei deterministischen<br />

optimalen Steuerungsproblemen ist diese Unterscheidung nicht von einer großer<br />

Bedeutung, weil man das optimale x = x(t, x 0 ) in die Rückkopplungslösung<br />

einsetzen kann und so eine äquivalente Lösung in offener Schleife erhalten kann. Eine<br />

optimale closed-loop-Lösung kann daher immer in eine optimale open-loop- Lösung<br />

in offener Schleife umgeformt werden und umgekehrt. Einfachheitshalber werden wir<br />

in folgenden Sätzen V (t, x t ) als V (t, x) und u(t, x t ) als u(t, x) bezeichnen.<br />

Die Hamiltonfunktion H ist für das Problem (4.1) gemäß<br />

H(t, x, u, V x (t, x)) = g(t, x, u) + V x (t, x) · f(t, x, u).<br />

erklärt. Nun können wir das Bellman-Prinzip formulieren.<br />

67

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!