11.02.2013 Aufrufe

neue Endversion16112006.indd - ULV Leoben - Montanuniversität ...

neue Endversion16112006.indd - ULV Leoben - Montanuniversität ...

neue Endversion16112006.indd - ULV Leoben - Montanuniversität ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

mMINING METALLURGY MATERIALS<br />

m m<br />

WWW.UNILEOBEN.AC.AT<br />

Pawlow‘sche Steuerungen<br />

Universitätslehrerverband der<br />

<strong>Montanuniversität</strong> <strong>Leoben</strong> (<strong>ULV</strong>)<br />

Motiviert durch Beobachtungen der Konditionierung durch Belohnung und Bestrafung,<br />

untersuchen wir Algorithmen für das Erlernen von optimalen Steuerungen mittels<br />

„Reinforcement“.<br />

Das Ziel unserer <strong>neue</strong>n Arbeit ist aber, eine hohe Qualität der<br />

Steuerung auch während der Lernphase zu garantieren. Die<br />

Schwierigkeit dabei ist zu entscheiden, wann es sich rentiert,<br />

eine Steuerung weiter zu testen bzw. wann man sich mit den<br />

bisher gefundenen Steuerungen zufrieden geben soll.<br />

Bild rechts: Nach wenigen Schritten ist das Resultat noch<br />

zufällig, während nach vielen Schritten fast alle Algorithmen<br />

eine optimale Steuerung gefunden haben. Der Vorteil unseres<br />

Algorithmus lässt sich im mittleren Bereich feststellen, wo die<br />

durchschnittliche Performance signifikant über der der anderen<br />

Algorithmen liegt.<br />

Ronald Ortner<br />

Informationstechnologie<br />

an der MUL seit: 2003<br />

Zur Person:<br />

2000 – 2002 Produktionslogistiker bei Infineon Tech.<br />

2002 Assistent am Inst. f. Mathematik C der TU Graz<br />

Im sogenannten Reinforcement Learning gilt es, ein Steuerungsproblem<br />

durch Auswerten von erfolgreichen und erfolglosen<br />

Versuchen zu lösen. Das heißt, für verschiedene Steuerungen<br />

erhält man positives bzw. negatives Feedback, das auch oft<br />

einem zufälligen Einfluss unterliegt. Es ist nicht verwunderlich,<br />

dass durch eine genügend große Anzahl von Versuchen eine<br />

optimale Steuerung ermittelt werden kann.<br />

Literatur:<br />

[1] P. Auer and R. Ortner, Logarithmic Online Regret Bounds for Undiscounted Reinforcement<br />

Learning, accepted for Neural Information Processing Systems (NIPS) 2006.<br />

[2] P. Auer, R. Ortner, and T. Jaksch, Empirical Evaluation of a New Reinforcement<br />

Learning Algorithm, Technical Report 2006.<br />

Forschungsschwerpunkte:<br />

Künstliche Intelligenz<br />

Reinforcement Learning<br />

Markov Decision Processes

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!