Es erkennt hier eine sprudelnde Quelle. Wir auch. - ULV Leoben ...
Es erkennt hier eine sprudelnde Quelle. Wir auch. - ULV Leoben ...
Es erkennt hier eine sprudelnde Quelle. Wir auch. - ULV Leoben ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
96<br />
Zur Person:<br />
2000-2002: Produktionslogistiker bei Infineon Techn.<br />
2002: Assistent am Institut für Mathematik C, TU Graz<br />
Reinforcement Learning<br />
Wie erlernt man optimales Verhalten in <strong>eine</strong>r unbekannten Umgebung, ohne<br />
diese vollständig erforscht zu haben?<br />
Ziel unserer Arbeit ist es, interne (Ähnlichkeits-)<br />
Strukturen des Zustandsraumes so<br />
auszunutzen, dass optimales Verhalten <strong>auch</strong><br />
dann erlernt werden kann, wenn nur ein<br />
kl<strong>eine</strong>r Teil der Zustände erforscht wurde.<br />
Dazu ist es zunächst nötig, Modelle für die<br />
Ähnlichkeit von Zuständen zu entwerfen, um<br />
dann in <strong>eine</strong>m zweiten Schritt entsprechende<br />
Algorithmen zu entwickeln.<br />
(Anwendungen: z.B. Robotik, Spiele)<br />
R.Ortner: Pseudometrics for State Aggregation in Average Reward Markov Decision Processes,<br />
ALT 2007.<br />
Ronald Ortner<br />
Lehrstuhl für Informationstechnologie<br />
an der MUL seit: 2003<br />
Email: rortner@unileoben.ac.at<br />
www.unileoben.ac.at/~rortner<br />
Markov Entscheidungsprozesse bieten ein<br />
allgem<strong>eine</strong>s Modell für Problemstellungen,<br />
in denen ohne vorhergehendes Wissen und<br />
all<strong>eine</strong> durch positives/negatives Feedback<br />
der Umgebung optimales Verhalten erlernt<br />
werden soll. Typische Reinforcement Learning<br />
Algorithmen müssen in jedem möglichen<br />
Zustand Erfahrungsdaten sammeln,<br />
bevor sie optimal agieren. In praktischen<br />
Problemen ist der Zustandsraum allerdings<br />
so groß, dass solche Algorithmen ineffizient<br />
sind.<br />
EU-Forschungsprojekte:<br />
Forschungsschwerpunkte:<br />
Künstliche Intelligenz<br />
Reinforcement Learning<br />
Maschinelles Lernen<br />
Computational Geometry