Künstliche Neuronale Netze

12.05.2009 

www.is.cs.uni-fra ankfurt.de 

Einführung in die Methoden der 

Künstlichen Intelligenz 

Vorlesung 7 – Künstliche Neuronale Netze 

12. Mai 2009 

Andreas D. Lattner, 

Ingo J. Timm, René Schumann 

? 

Aldebaran Robotics 



2 

1

12.05.2009 

Inhalt der Vorlesung 

1. Wie arbeitet unser Gehirn? 

2. Neuronale Netzwerke (Idealisiertes Modell) 

3. Perzeptron (single-layer Netzwerke) 

4. Multilayer Netzwerke 

5. Einsatz von neuronalen Netzen 

6. Zusammenfassung 

3 

Funktionsweise unseres Gehirns 

93, S. 11, nach Lassen et al., 1988 

• Menschlicher Kortex 

(Großhirnrinde) läßt 

verschiedene Neuronentypen 

erkennen 

• Eine hierarchische Struktur 

ist zu erkennen 

• Unterschiedliche Aufgaben 

(z. B. vierte Schicht zuständig 

für Sinneswahrnehmungen) 

Quelle: Rojas, 19 

Wie arbeitet unser Gehirn? 

4 

2

12.05.2009 

Motorische Zelle 

Quelle: Rojas, 1993, S. 11, nach Stevens, 1992 


• Neuron wird auch Soma oder 

Zellkörper genannt. 

• Sie enthält Zellkern oder Nucleus. 

• Neuron besteht aus Zelleib mit 

dickem Zellfortsatz (Axon, 

Nervenfaser). 

• Dendriten (astartige 

Wucherungen) leiten elektrische 

Impulse an den Zellkörper weiter. 

• Aufbau einer elektrischen 

Spannung im Zellkern. 

• Entladung bei Überschreitung 

einer Schwelle. 

• Weiterleitung dieses Potentials an 

andere Zellen über Synapsen. 

• Zellkern-Axon-Synapsen- 

Dendriten der anderen Zellen. 

• Informationsweitergabe an 10 2 bis 

10 4 Zellen. 

5 

Aktionspotential 

Quelle: Köhler, 1990, nach Schmidt & Tewes, 1987 

• Phase 1: Ruhepotential 

• Phase 2: von außen, d. h. 

entweder von anderen Zellen 

oder von einem Rezeptor 

(z. B. Augen) kommt ein 

elektrischer Impuls. Der 

Schwellenwert wird überstiegen, 

die Zelle “feuert” von -90 mV auf 

einen positiven Wert innerhalb 

eines Bruchteils einer 

Millisekunde 

• Phase 3: Repolarisierung 

• Phase 4: Ruhepotential 

• Synapsen exitatorisch (erregend) 

oder inhibitorisch (hemmend). 

• Die Übertragung eines Potentials 

durch Synapsen sind entweder 

chemisch oder elektrisch. 


6 

3

12.05.2009 

Vergleich Gehirn-Computer 

• Eine Kollektion von einfachen Zellen führt uns zum 

Denken, Agieren und Bewußtsein 

• Vergleich zwischen Gehirnen und digitalen Computern 

• Speicher, Verarbeitungsgeschwindigkeit, Parallelität, Fehlertoleranz 

• Obwohl ein Computer millionenfach schneller bei Rechenoperationen 

ist als das Gehirn, ist das Gehirn schneller bei der 

Verarbeitung einer Aufgabe (z. B. Erkennung eines Gesichts) 


7 

2. Neuronale Netzwerke 

• Neuronale Netze (auch künstliche neuronale Netze, KNN) 

• Design ideal für induktives Lernen, können Generalisieren und 

sind deshalb für die Modellierung von Wert. 

• Breite Einsatzfelder 

• Ein neuronales Netz wird aus einer Anzahl von 

Units/Neuronen, zusammengesetzt, die durch Links 

verbunden sind. 

• Jeder Link hat ein numerisches Gewicht. Sie stellen das 

‘Gedächtnis’ in einem neuronalen Netz dar. Sie werden 

während des Lernvorgangs verändert. 

Neuronale Netzwerke 

8 

4

12.05.2009 

2. Neuronale Netzwerke 

• Einige Neuronen sind mit der 

Außenwelt verbunden und 

heißen Input- oder 

Outputneuronen. 

• Jedes Neuron hat einen Satz 

von Eingabelinks von anderen 

Neuronen, ein 

Aktivierungslevel und einen 

Satz von Ausgabe-Links zu 

anderen Neuronen. 


• Die Idee ist: jedes Neuron 

berechnet sein eigenes 

Aktivierungslevel (abhängig 

von Gewichten und Eingaben 

der Nachbarn). Dabei gibt es 

keine ‘globale’ Kontrolle über 

die Neuronen. 

• Aufbau eines Netzwerkes: 

• Wieviele Neuronen braucht 

man? 

• Welche Art von Neuronen 

braucht man? 

• Wie sollen die Neuronen 

miteinander vernetzt sein? 

9 

Notation 


10 

5

12.05.2009 

Typisches Neuron 

• Typisches Neuron 

• lineare Komponente Inputfunktion 

• nicht lineare Komponente Aktivierungsfunktion 

• elementarer Verarbeitungsschritt ist die Aktivierungsfunktion g, ein 

Beispiel: 

⎛ ⎞ 

a ⎜ ⎟ 

i 

= g( 

ini 

) = g 

∑w 

j, 

ia 

j 

⎝ j ⎠ 


11 

Aktivierungsfunktion 

⎧1,if 

x ≥ t 

⎧+ 

1,if 

x ≥ 0 

step t 

( 

x 

) 

= 

⎨ 

sign 

( 

x 

) 

= 

⎩0, 

if x < t 

⎩ ⎨ −1,if 

x < 0 

1 

sigmoid( 

x) 

= 1 + e 

−x 


12 

6

12.05.2009 

Logische Gatter 

• Neuronen mit einer Step-Funktion sind wie logische Gatter, 

wenn die Eingabewerte und die Schwellenwerte in einer 

bestimmten Art gesetzt sind. 


13 

Feed-Forward Netzwerke 

• Links sind unidirektional, keine 

Zyklen 

• Technisch gesehen sind sie 

gerichtete azyklische Graphen 

• Meistens in Schichten geordnet 

• Jedes Neuron der einen Schicht ist 

mit jedem Neuron der nächsten 

Schicht verlinkt (vollständig vernetzt) 

• Keine Links innerhalb einer Schicht, 

keine zurück zur letzten Schicht und 

keine, die Schichten überspringen 

Netzwerkstrukturen 

14 

7

12.05.2009 

Bemerkungen 

• Feed-Forward Netze haben keine 

internen Zustände außer deren 

Gewichte, die Aktivierung vom 

letzten Schritt (zeitmäßig) spielt 

keine Rolle. 

• Derartige Netzwerke können 

adaptive Versionen eines 

einfachen Reflex-Agenten 

implementieren. 

• Gut verständlich, deswegen in der 

weiteren Betrachtung. 

• Input-, Output- und 

Hiddenneuronen. 

• Perzeptrons sind Netzwerke 

ohne Hiddenschicht. Das macht 

das Lernen einfacher, sie sind 

aber limitiert, was die 

Repräsentation angeht. 

• Netzwerke mit ein oder mehreren 

Hiddenschichten werden 

Multilayer-Netzwerke genannt. 

• Mit einer Hiddenschicht kann man 

jede kontinuierliche Funktion der 

Eingaben repräsentieren, mit zwei 

Schichten sogar nicht 

kontinuierliche Funktionen. 

• Lernen als nichtlineare 

Regression. 


15 

Recurrent Netzwerke 

• Links können beliebig geformt 

werden. 

• Haben interne Zustände 

wegen Feedback. Sie sind in 

den Aktivierungsleveln 

gespeichert. 

• Das bedeutet auch, dass 

derartige Netzwerke weniger 

geordnet sind und deshalb 

“unstabil” werden können. 

• Lernen ist schwieriger aber sie 

können kompliziertere 

Agenten implementieren. 

• Hopfield Netze und Boltzmann 

Maschine 


16 

8

12.05.2009 

Hopfield Netzwerke 

• Wahrscheinlich die am besten 

verstandenen Recurrent- 

Netzwerke. 

• Sie benutzen bidirektionale 

Verbindungen mit 

symmetrischen Gewichten. 

• Alle Neuronen sind 

gleichzeitig Input- und 

Outputneuronen. 

• Aktivierungsfunktion ist Sign. 

• Aktivierungslevel können nur 

+-1 sein. 

• Es funktioniert wie ein 

Assoziativspeicher, nach dem 

Training versetzt ein neuer 

Stimulus das Netzwerk in ein 

stabiles Aktivierungsmuster. 

Dieses korrespondiert zu den 

Beispielen und zwar so, dass 

es möglichst ähnlich dem 

Stimulus ist. 

• Interessantes theoretisches 

Ergebnis: Hopfield Netze 

können bis zu 0.138n 

Trainingsbeispiele speichern, 

n ist die Anzahl der units. 


17 

Boltzmann Maschine 

• Benutzen auch symmetrische 

Gewichte, haben aber auch 

Neuronen, die weder Inputnoch 

Outputneuronen sind. 

• Sie unterliegen deshalb 

Zustandsveränderungen wie 

sie bei der Simulated 

Annealing Suche vorkommt. 

• Sie benutzen auch eine 

stochastische 

Aktivierungsfunktion, so dass 

die Wahrscheinlichkeit der 

Ausgabe 1 eine Funktion des 

totalen gewichteten Inputs ist. 


18 

9

12.05.2009 

Assoziative Netzwerke – Beispiel 

[Rojas, 1996] 

19 

Optimale Netzwerkstrukturen 

• Richtige Struktur ist entscheidend für Lernverlauf 

• Ist Struktur zu klein, kann man die gewünschte Funktion nicht 

repräsentieren. 

• Ist sie zu groß, dann haben wir eine Art große lookup table ohne 

Generalisierung. 

• Overfitting ist ein Problem. 


20 

10

12.05.2009 

Optimale Netzwerkstrukturen 

• Feed-forward Netze mit einer 

Hiddenschicht können jede 

kontinuierliche Funktion 

lernen, mit zwei 

Hiddenschichten sogar jede 

Funktion. 

• Die Anzahl der benötigten 

Neuronen ist allerdings ein 

Problem, sie kann exponentiell 

wachsen. 

• Keine gute Theorie 

vorhanden, um NERFs 

(Network Efficiently 

Representable Functions) zu 



• Man kann das Finden einer 

guten Netzwerkstruktur als ein 

Suchproblem definieren. Man 

hat versucht, es mit 

genetischen Algorithmen zu 

lösen, aber der Suchraum ist 

zu groß. 

• Die meisten Netzwerke 

verfeinern eine einmal 

gesetzte Struktur (z. B. 

Cascade Correlation). 

• Cross-Validation und 

Bootstrap-Methoden zum 

Testen. 

21 

Perzeptrons 

• Eigenschaften 

• Einschicht Feed- 

forward Netzwerk 

• Jedes 

Ouptutneuron ist 

unabhängig, 

deshalb kann nur 

ein Perzeptron 

betrachtet werden. 

Perzeptron 

22 

11

12.05.2009 

Ausdrucksfähigkeit von Perzeptrons 

• Neuronen können AND, OR 

und NOT repräsentieren, 

• also kann ein feed-forward 

Netzwerk jede Boolsche 

Funktion repräsentieren. 

• Gilt das auch für single-layer 

perceptrons? 

• Einige Boolsche Funktionen 

können repräsentiert werden: 

• Majority 

• Ein Entscheidungsbaum 

braucht O(2 n ), ein Perzeptron 

1 Neuron mit n Gewichten, 

also einfacher. 

• Allerdings sind einfache 

Perzeptrons limitiert in ihrer 

Repräsentationsfähigkeit 

• Sie können z. B. das 

Restaurantproblem nicht 

lösen, weil jeder Inputwert nur 

jeden Outputwert in eine 

Richtung beeinflussen kann, 

egal, was die anderen 

Inputwerte haben. 

Perzeptron 

23 

Ausdrucksfähigkeit von Perzeptrons 

I 1 I 2 O 

0 0 0 

0 1 1 

1 0 1 

1 1 0 

• Was können sie repräsentieren? 

• Probleme bei nicht linear separierbaren Funktionen. 

• Aber: ein Perzeptron kann alle linear separierbaren Funktionen 

lernen, wenn genug Beispiele vorhanden sind. 

Perzeptron 

24 

12

12.05.2009 

Lineare Separierbarkeit 

• Drei Eingaben 

• Ebene noch visualisierbar 

• I 1 +I 2 +I 3 =1.5 

Perzeptron 

• Neuron 

• Positive unter der Ebene 

• (-I 1 )+(-I 2 )+(-I 3 ) > -1.5 

• implementiert die Funktion 

25 

Lernen von linear separierbaren Funktionen 

• Die meisten Netzwerke folgen 

dem current-best-hypothesis 

Ansatz. 

• Hier ist die Hypothese ein 

Netzwerk, das durch die 

Gewichte bestimmt ist. Das 

Netzwerk wird dann 

aktualisiert, um es an die 

Beispiele anzupassen. 

• Die Gewichte werden 

sukzessive und in kleinen 

Schritten verändert. 

• Der einzige Unterschied zu 

logischen Algorithmen ist, 

dass der Lernprozess ein 

Beispiel mehrere Male 

benutzt. 

• Der Updateprozess ist 

typischerweise in Epochen 

unterteilt. Nach jeder Epoche 

werden die Gewichte neu 

geformt. 

Perzeptron 

26 

13

12.05.2009 

Generelles Schema 

• Generelle generische Methode des Lernens in neuronalen Netzen 

• O = Output, T = Target, Error = T - O 

• Gewichtsveränderung: 

• W j = W j + α × I j × Error, α ist die Lernrate 

Perzeptron 

27 

Perzeptrons und Entscheidungsbäume 

• Lokales und verteiltes Kodieren 

• Diskret und reell 

• Lernkurve für zwei Probleme: Majority, WillWait-Problem 

• Perzeptron gut für Majority, weil linear separabel, Entscheidungsbaum 

hat Probleme 

• WillWait gut für Entscheidungsbaum aber nicht linear separabel, auch 

hart für Perzeptron (65% Genauigkeit) 

Perzeptron 

28 

14

12.05.2009 

Multilayer Feed-forward Netzwerke 

• Rosenblatt Ende der 50er Jahre mit single-layer 

Perzeptrons. 

• Lernalgorithmen in Multilayer Netzwerken nicht effizient. 

Keine Garantie für das Finden eines globalen 

Minimums. 

• Backpropagation als häufigste Lernmethode (Bryson & 

Ho, 1969), aber erst Mitte der 80er gab es Rückenwind. 

Multilayer Netzwerke 

29 

Back-Propagation Lernen 

• Annahme: Konstruktion eines Netzwerkes zur Lösung des 

Restaurant-Problems. Ein Perzeptron ist nicht mächtig genug, aber 

versuchen wir es mit einem Zweischicht-Netzwerk. 

• 10 Attribute = 10 Inputneuronen, wieviel Hiddenunits? 


30 

15

12.05.2009 


• Lernen bei Perzeptrons einfach 

• Nur ein Gewicht zwischen Input 

und Output 

• Wenn Fehler vorhanden 

(Target, Output), t) dann werden 

die Gewichte verändert. 

• Bei Multilayer Netzwerken 

schwieriger 

• Viele Gewichte zwischen jedem 

Input und Output vorhanden 

• Back-Propagation Algorithmus 

• Verteilt die Gewichtsveränderungen 

‘vernünftig’ 

• Auch hier wird versucht, den 

Fehler zwischen Ziel und 

aktuellem Output zu minimieren 


• Outputschicht 

• Gewichtsveränderung ähnlich 

der des Perzeptrons. Zwei 

Unterschiede gibt es: 

• Aktivierung der 

Hiddenneuronen statt 

Inputneuronen. 

• Regel enthält einen Term für 

den Gradienten der 

Aktivierungsfunktion. Wenn 

Err i = (T - O) der Fehler des 

Outputneurons ist, dann ist die 

Gewichtsveränderung zwischen 

Neuron i und j 

w = w + α × a × Err × g´( 

in ) 

j, i j, 

i 

j i 

i 

31 


W j,i = W j,i + α ×a j × Err i × g’(in i ) 

• g’(in g( i i) ist die Ableitung der Aktivierungsfunktion g. Wir defineren einen neuen 

Fehlerterm Δ i , der für Outputneuronen als Δ i = Err i g’(in i ) definiert ist. 

W j,i = W j,i + α ×a j ×Δ i 

• Für die Veränderungen der Gewichte zwischen zwischen den Hidden- und 

den Inputneuronen wird Error-Back-Propagation eingesetzt. Die Idee ist, daß 

das Hiddenneuron j für einen Teil des Δ i -Fehlers eines jeden Outputneurons, 

mit dem es verbunden ist, verantwortlich ist. Also werden die Δ i -Werte 

abhängig von der Stärke der Verbindung aufgeteilt und zu den Δ j -Werten für 

die Hiddenschicht zurückpropagiert. 

Δ j = g’(in j ) ∑ i W j,i Δ i 


32 

16

12.05.2009 


Δ j = g’(in j ) ∑ i W j,i Δ i 

• Jetzt kann die Regel der Gewichtsveränderung zwischen der Hidden- und der 

Inputschicht folgendermaßen beschrieben werden: 

W k,,j = W k,,j + α ×I k ×Δ j 

• Der Algorithmus funktioniert folgendermaßen: 

• Errechne die Δ-Werte für die Outputunits, verwende den beobachteten 

Fehler. 

• Starte mit der Outputschicht, wiederhole das Folgende für jede Schicht 

des Netzwerks, bis die erste Hiddenschicht erreicht ist. 

• Propagiere die Δ-Werte zurück zur vorhergehenden Schicht. 

• Update der Gewichte zwischen den beiden Schichten. 


33 

Backpropagation Algorithmus 

Feed forward 

Error computation 

Backpropagation 

[Russell & Norvig, 2003] 

34 

17

12.05.2009 

Backpropagation – Illustration 

• Feedforward network with 

a 1 a 3 a 5 

initial weights 

w 13 

w 35 

• Lerning rate α 

1 1 

3 

5 

w 14 

w 36 

• Two inputs and outputs 

a 2 a 

w 4 a 

23 

w 6 

45 

• Compute output for first 1 2 

4 

6 

w 24 w 46 

examples 

• Compare to desired target 

value 

1 

1 

I1 I2 T1 T2 

1 1 1 0 

0 0 0 1 

... 

35 

Backpropagation – Illustration (2) 

• Compute error: Err=T-O 

a 1 a 3 a 5 Δ w 5 

13 

w 35 

1 1 

3 

5 

• W j,i = W j,i + α ×a j × Err i × g’(in i ) 

w 14 

w 36 

• Error term Δ i = Err i g’(in i ) 

a 2 a 

w 4 a 

23 

w 6 

45 

1 2 

• W j,i = W j,i + α ×a j ×Δ 

4 

6 

i 

w 24 w 46 

Δ 6 

• Compute error terms for output 

units Δ 5 and Δ 6 

I1 I2 T1 T2 

• Adaptation of weights for 

• w 36 and w 46 

0 0 0 1 

• w 35 and w 45 

1 1 1 0 

... 

36 

1 

1 

18

12.05.2009 


• Process hidden units 

• Compute error terms Δ 3 and Δ 4 

• Δ j = g’(in j ) ∑ i W j,i Δ i 

• W j,i = W j,i + α ×a j ×Δ i 

• Here: W k,j = W k,j + α ×I k ×Δ j 

1 

1 

a 1 a 3 Δ 3 

a 5 Δ 

w 5 

13 

w 35 

1 

3 

5 

w 14 

w 36 

2 

w 24 

4 

w 46 

6 

a 2 

w 23 

a 4 

w 45 

a 6 

Δ 4 Δ 6 

1 

1 

• Adaptation of weights for 

• w 13 and w 23 

I1 I2 T1 T2 

• w 14 and w 24 

1 1 1 0 

0 0 0 1 

... 

37 


• Compute output for second 

a 1 a 3 a 5 

example 

w 13 

w 35 

• Compare to desired target 0 1 

3 

5 

w 14 

w 36 

value 

a 

• ... 

2 a 

w 4 a 

23 

w 6 

45 

0 2 

4 

6 

w 24 

w 46 

1 

0 

I1 I2 T1 T2 

1 1 1 0 

0 0 0 1 

... 

38 

19

12.05.2009 

Trainingskurve 

• Trainingskurve mit einem Multilayer 

Netzwerk 

• Standard Lernkurve, 

Entscheidungsbaumlernen vs. 

neuronale Netze 


39 

Back-Propagation als Gradientenabstieg 

• BackProp-Lernen in Multilayer 

Netzwerken ist eine einfache 

Interpretation des Gradientenabstiegs 

im Gewichtsraum. 

• Der Gradient ist hier auf der 

Fehleroberfläche. 

• Back-Propagation erlaubt es uns, die 

Errechnung des Gradienten zwischen 

den Units so zu teilen, dass die 

Veränderung jeden Gewichts durch die 

Neuronen errechnet werden können 

(lokale Information). 


40 

20

12.05.2009 

Diskussion: ist BackProp-Lernen in Multilayer 

Netzwerken eine gute Methode für das maschinelle 

Lernen? 

• Ausdrucksfähigkeit 

• Rechenpower, -effizienz 

• Attribut-orientierte 

Repräsentation, haben nicht 

die Ausdrucksfähigkeit von 

generellen logischen 

Repräsentationen. 

• Sind gut geeignet für 

kontinuierliche Funktionen (im 

Gegensatz zu 

Entscheidungsbäumen). 

• 2 n /n Hiddenunits werden 

benötigt, um alle Boolschen 

Funktionen mit n Inputs zu 



• Die Effizienz hängt von der 

Trainingsphase ab. Wenn 

man m Beispiele und |W| 

Gewichte hat, dann benötigt 

jede Epoche O(m |W|) Zeit. 

• Aber: Man hat gezeigt, dass 

im schlimmsten Fall die 

Anzahl der Epochen 

exponentiell in n sein kann 

(Anzahl der Inputs). 

• Lokale Minima sind ein 

Problem, Simulated 

Annealing kann zum 

Verlassen lokaler Optima 

eingesetzt werden. 

41 



Lernen? 

• Generalisierung 

• Transparenz 

• Gut geeignet für 

Generalisierung und für reale 

Anwendungen. 

• Aber: keine Theorie dafür 

vorhanden. 

• Sensitivität zu Noise 

• Sehr fehlertolerant, weil nicht 

lineare Regression durchgeführt 

wird. 

• Neuronale Netze sind 

universelle Approximatoren und 

finden die beste Lösung, die zu 

den Beispielen und den 

Constraints passt. 

• Black Box, aber: 

Regelextraktion aus NN schafft 

Abhilfe 

• A priori Wissen 

• Gut, wenn vorhanden, 

KBANN, SHRUTI. 


42 

21

12.05.2009 



Lernen? 

• Insgesamt: einfache Feed-forward-Netzwerke erfüllen 

nicht unsere Wünsche für eine verständliche 

Lerntheorie, zumindest nicht in der gegenwärtigen 

Form. 


43 

Anwendungen mit neuronalen Netzen 

• Sprache 

• Lernen von Text zu Phonemen, 

Sprachgenerator anschließend 

• NETtalk von Sejnowski und 

Rosenberg, 1987 

• Erkennung von 

handgeschriebenen Buchstaben 

• Cun et al. 1989 

Anwendungen 

44 

22

12.05.2009 

Anwendungen mit neuronalen Netzen 

• Fahren eines Fahrzeuges 

• ALVINN (Autonomous Land Vehicle 

In a Neural Network), Pomerleau 

1993 

• 30x32 input units (Kamera) 

• 1 hidden layer mit 4 units 

• 30 output units (Lenkrichtung) 

• Backpropagation learning 

• Bis zu 55 miles per hour (~88 km/h) 

Anwendungen 

D. Pomerleau: Neural Network Vision for Robot 

Driving. In: The Handbook of Brain Theory and 

Neural Networks, M. Arbib, ed., 1995. 

45 

Zusammenfassung 

• Ein Neuronales Netz ist ein Rechenmodell, das durch Funktionsweise eines 

Gehirns motiviert ist. Es besteht aus vielen kleinen Einheiten, die parallel und 

ohne zentrale Kontrolle arbeiten. 

• Das Verhalten eines neuronalen Netzes wird durch die Topologie und die 

Neuronen bestimmt. Feed-forward Netzwerke (Verbindungen sind azyklische 

Graphen) sind einfach zu analysieren. Sie sind zustandsfreie Funktionen. 

• Ein Perzeptron ist ein Feed-forward Netzwerk mit einer Neuronenschicht und 

kann nur linear separable Funktionen repräsentieren. Wenn die Daten linear 

separabel sind, kann die Perzeptron Lernregel auf die Gewichte angewandt 

werden und die Daten werden exakt repräsentiert. 

• Multilayer feed-forward forward Netzwerke können jede Funktion repräsentieren, 

genug Neuronen vorausgesetzt. 

• Der Back-Propagation-Lernalgorithmus wird für Multilayer Feed-forward- 

Netzwerke verwendet. Hier wird das Gradientenabstiegsverfahren durchgeführt, 

um den Gesamtfehler zu minimieren. Es konvergiert in ein lokales Optimum, 

hat aber viel Erfolg in realen Anwendungen. Keine Garantie für das Finden 

eines globalen Optimums (wie hill-climbing). 

46 

23

Künstliche Neuronale Netze

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?