01.03.2013 Aufrufe

Es erkennt hier eine sprudelnde Quelle. Wir auch. - ULV Leoben ...

Es erkennt hier eine sprudelnde Quelle. Wir auch. - ULV Leoben ...

Es erkennt hier eine sprudelnde Quelle. Wir auch. - ULV Leoben ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

96<br />

Zur Person:<br />

2000-2002: Produktionslogistiker bei Infineon Techn.<br />

2002: Assistent am Institut für Mathematik C, TU Graz<br />

Reinforcement Learning<br />

Wie erlernt man optimales Verhalten in <strong>eine</strong>r unbekannten Umgebung, ohne<br />

diese vollständig erforscht zu haben?<br />

Ziel unserer Arbeit ist es, interne (Ähnlichkeits-)<br />

Strukturen des Zustandsraumes so<br />

auszunutzen, dass optimales Verhalten <strong>auch</strong><br />

dann erlernt werden kann, wenn nur ein<br />

kl<strong>eine</strong>r Teil der Zustände erforscht wurde.<br />

Dazu ist es zunächst nötig, Modelle für die<br />

Ähnlichkeit von Zuständen zu entwerfen, um<br />

dann in <strong>eine</strong>m zweiten Schritt entsprechende<br />

Algorithmen zu entwickeln.<br />

(Anwendungen: z.B. Robotik, Spiele)<br />

R.Ortner: Pseudometrics for State Aggregation in Average Reward Markov Decision Processes,<br />

ALT 2007.<br />

Ronald Ortner<br />

Lehrstuhl für Informationstechnologie<br />

an der MUL seit: 2003<br />

Email: rortner@unileoben.ac.at<br />

www.unileoben.ac.at/~rortner<br />

Markov Entscheidungsprozesse bieten ein<br />

allgem<strong>eine</strong>s Modell für Problemstellungen,<br />

in denen ohne vorhergehendes Wissen und<br />

all<strong>eine</strong> durch positives/negatives Feedback<br />

der Umgebung optimales Verhalten erlernt<br />

werden soll. Typische Reinforcement Learning<br />

Algorithmen müssen in jedem möglichen<br />

Zustand Erfahrungsdaten sammeln,<br />

bevor sie optimal agieren. In praktischen<br />

Problemen ist der Zustandsraum allerdings<br />

so groß, dass solche Algorithmen ineffizient<br />

sind.<br />

EU-Forschungsprojekte:<br />

Forschungsschwerpunkte:<br />

Künstliche Intelligenz<br />

Reinforcement Learning<br />

Maschinelles Lernen<br />

Computational Geometry

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!