neue Endversion16112006.indd - ULV Leoben - Montanuniversität ...
neue Endversion16112006.indd - ULV Leoben - Montanuniversität ...
neue Endversion16112006.indd - ULV Leoben - Montanuniversität ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
mMINING METALLURGY MATERIALS<br />
m m<br />
WWW.UNILEOBEN.AC.AT<br />
Pawlow‘sche Steuerungen<br />
Universitätslehrerverband der<br />
<strong>Montanuniversität</strong> <strong>Leoben</strong> (<strong>ULV</strong>)<br />
Motiviert durch Beobachtungen der Konditionierung durch Belohnung und Bestrafung,<br />
untersuchen wir Algorithmen für das Erlernen von optimalen Steuerungen mittels<br />
„Reinforcement“.<br />
Das Ziel unserer <strong>neue</strong>n Arbeit ist aber, eine hohe Qualität der<br />
Steuerung auch während der Lernphase zu garantieren. Die<br />
Schwierigkeit dabei ist zu entscheiden, wann es sich rentiert,<br />
eine Steuerung weiter zu testen bzw. wann man sich mit den<br />
bisher gefundenen Steuerungen zufrieden geben soll.<br />
Bild rechts: Nach wenigen Schritten ist das Resultat noch<br />
zufällig, während nach vielen Schritten fast alle Algorithmen<br />
eine optimale Steuerung gefunden haben. Der Vorteil unseres<br />
Algorithmus lässt sich im mittleren Bereich feststellen, wo die<br />
durchschnittliche Performance signifikant über der der anderen<br />
Algorithmen liegt.<br />
Ronald Ortner<br />
Informationstechnologie<br />
an der MUL seit: 2003<br />
Zur Person:<br />
2000 – 2002 Produktionslogistiker bei Infineon Tech.<br />
2002 Assistent am Inst. f. Mathematik C der TU Graz<br />
Im sogenannten Reinforcement Learning gilt es, ein Steuerungsproblem<br />
durch Auswerten von erfolgreichen und erfolglosen<br />
Versuchen zu lösen. Das heißt, für verschiedene Steuerungen<br />
erhält man positives bzw. negatives Feedback, das auch oft<br />
einem zufälligen Einfluss unterliegt. Es ist nicht verwunderlich,<br />
dass durch eine genügend große Anzahl von Versuchen eine<br />
optimale Steuerung ermittelt werden kann.<br />
Literatur:<br />
[1] P. Auer and R. Ortner, Logarithmic Online Regret Bounds for Undiscounted Reinforcement<br />
Learning, accepted for Neural Information Processing Systems (NIPS) 2006.<br />
[2] P. Auer, R. Ortner, and T. Jaksch, Empirical Evaluation of a New Reinforcement<br />
Learning Algorithm, Technical Report 2006.<br />
Forschungsschwerpunkte:<br />
Künstliche Intelligenz<br />
Reinforcement Learning<br />
Markov Decision Processes