IEKP-KA/2013-8 - Institut für Experimentelle Kernphysik - KIT
IEKP-KA/2013-8 - Institut für Experimentelle Kernphysik - KIT
IEKP-KA/2013-8 - Institut für Experimentelle Kernphysik - KIT
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
6.3. Training des neuronalen Netzwerks 57<br />
Minimum der Fehlerfunktion E(w) gefunden ist und damit Over-Training verhindern. Dies<br />
passiert durch die sogenannte BFGS-Methode 7 , die eine schnelle Möglichkeit bietet ein globales<br />
Minimum zu finden [40]. Um dies zu testen, wird das Trainingssample in 10 Teile<br />
geteilt. Jedes dieser Teilsamples wird dann in einer Trainingsprozedur mit den übrigen<br />
neun Teilsamplen, bei gleichen Trainingseinstellungen, als Testsample verwendet. Es wird<br />
getestet ob in einem der 10 Trainingsprozeduren Over-Training stattfindet. Ist dies nicht<br />
der Fall, kann das Netzwerk bei gleichen Trainingseinstellungen mit der gesamten Trainingsauswahl<br />
trainiert werden ohne Over-Training zu riskieren.<br />
Um auf Over-Training zu testen, werden die Verteilungen der Ausgabewerte des neuronalen<br />
Netzwerks für das Test- und das Trainignssample verglichen. Sind die Werte gleich<br />
verteilt, hat kein Over-Training statt gefunden. Man erhält eine Ausgabe wie sie in Abbildung<br />
6.12 dargestellt ist für jede der 10 Trainingsprozeduren. Die Verteilung der Residuen<br />
wird nach<br />
r =<br />
t T raining − t T est<br />
(6.3)<br />
N T est + N T raining<br />
gebildet, wobei t T raining,T est der Ausgabewert des Trainings, bzw. des Testsamples für einen<br />
Bin und N T raining,T est der Inhalt des entsprechenden Bins ist. Die Residuen sollten über<br />
den möglichen Ausgabewerten zufällig verteilt sein und kein Muster aufweisen. Ist dies der<br />
Fall können die Verteilungen als gleich angesehen werden. Das ist, wie in Abbildung 6.12,<br />
für alle Teiltrainings der Fall, so dass man davon ausgehen kann, dass kein Over-Training<br />
stattfindet.<br />
6.3.2. Training mit Gewichten<br />
Eine weitere Möglichkeit das Training des neuronalen Netzwerkes zu optimieren, besteht<br />
in der Verwendung von Gewichten. Diese stellen eine Größe dar, mit der die Bedeutung<br />
eines Ereignisses für das Training beschrieben wird. Jedem Trainingsereignis wird dabei<br />
eine reelle Zahl zwischen 0 und 1 zugeordnet, wobei mit 1 gewichtete Ereignisse besonders<br />
stark in das Training einfließen und mit 0 gewichtete Ereignisse für das Training nicht<br />
beachtet werden. Für die Festlegung der Gewichte wird die Netzwerkausgabe nach einer<br />
Trainingsiteration betrachtet. Die Gewichte werden dann so gesetzt, dass bereits gut eingeordnete<br />
Ereignisse ein geringes Gewicht für das Training erhalten. Falsch eingeordnete<br />
Ereignisse erhalten ein hohes Gewicht. Dazu wird der Ausgabewert t des Netzwerks auf<br />
das Intervall zwischen 0 und 1 transformiert, wobei 1 einem Signal und 0 einem Untergrundereignis<br />
entspricht. Dann werden die Gewichte g linear nach diesem Ausgabewert<br />
mit g Sig = 1 − t für Signalereignisse und g Bkg = t für Untergrundereignisse festgelegt, wie<br />
es in Abbildung 6.13 dargestellt ist. Anschließend kann das Training mit einer gewöhnlichen<br />
Anzahl an Iterationen durchgeführt werden. Um den Ausgabewert des neuronalen<br />
Netzwerkes auch weiterhin als Wahrscheinlichkeit im Sinne der Bayes-Statistik nach Teil<br />
5.3.4 interpretieren zu können, muss eine an das Training anschließende Rückgewichtung<br />
nach<br />
t 1 · t 2<br />
˜t =<br />
(6.4)<br />
t 1 t 2 + (1 − t 1 )(1 − t 2 )<br />
durchgeführt werden, wobei t 1 der Ausgabewert nach einer Trainingsiteration und t 2 den<br />
Ausgabewert nach dem zweiten Training, darstellt. Die Methode Gewichte nach diesem<br />
Vorgehen festzulegen wird als Verstärkung bezeichnet. Der Einfluss der Verstärkung auf die<br />
Protonenunterdrückung der Netzwerke im Bereich 2−5 GV und 5−300 GV ist in Abbildung<br />
6.14 gezeigt. Demnach scheint das Training mit Gewichten für das Netzwerk bei niedrigen<br />
Energien ein Nachteil zu sein und wird daher nicht angewandt. Bei hohen Energien erreicht<br />
man durch das Verstärken einen kleinen Vorteil. Die Schwierigkeit bei der hier vorgestellten<br />
Methode liegt in der Stärke der Netzwerke nach bereits einer Trainingsiteration, so dass<br />
ein Großteil des Trainingssamples zu gering gewichtet wird.<br />
7 Broyden-Fletcher-Goldfarb-Shanno Methode<br />
57