Diplomarbeit - Westfälische Wilhelms-Universität Münster

Westfälische Wilhelms-Universität Münster 

Thema: 

Optimierung künstlicher neuronaler Netze mit Swarm Intelligence 

Bachelorarbeit 

im Fachgebiet Informatik 

Themensteller: Prof. Dr. Wolfram-M. Lippe / PD Dr. Markus Borschbach 

Betreuer: PD Dr. Markus Borschbach 

vorgelegt von: Christian Grelle 

Ludwig-Wolker Str. 27 

48157 Münster 

0179/9200095 

c_grel01@uni-muenster.de 

Abgabetermin: 2008-10-02

Inhaltsverzeichnis 

- II - 

Abbildungsverzeichnis .................................................................................................... III 

Tabellenverzeichnis ......................................................................................................... III 

Abkürzungsverzeichnis ................................................................................................... III 

Symbolverzeichnis.......................................................................................................... IV 

1 Einleitung ...................................................................................................................... 1 

2 Swarm Intelligence ....................................................................................................... 4 

3 PSO - Particle Swarm Optimization ............................................................................. 7 

3.1 Metaheuristik ......................................................................................................... 7 

3.2 PSO und Feed-Forward-Netze ............................................................................... 9 

3.3 PSO und rekurrente Netze ................................................................................... 11 

3.4 Optimized-PSO und Feed-Forward-Netze .......................................................... 15 

4 ACO - Ant Colony Optimization ................................................................................ 19 

4.1 Metaheuristik ....................................................................................................... 19 

4.2 ACO und Feed-Forward-Netze ............................................................................ 22 

4.3 ACO-Backpropagation und Feed-Forward-Netze ............................................... 26 

5 ABC - Artificial Bee Colony Optimization ................................................................ 31 

5.1 Metaheuristik ....................................................................................................... 31 

5.2 ABC und Feed-Forward-Netze ............................................................................ 32 

6 Fazit ............................................................................................................................ 35 

Literaturverzeichnis ......................................................................................................... 37 

Anhang ............................................................................................................................ 41 

A Recherchierte Artikel ........................................................................................... 41

Abbildungsverzeichnis 

- III - 

Abb. 1.1: Kategorisierung der recherchierten Artikel .................................................... 2 

Abb. 2.1: Verfahrensklassifikation von Swarm Intelligence .......................................... 5 

Abb. 3.1: PSO für Feed-Forward-Netze Trainingsprozess ........................................... 10 

Abb. 3.2: Rekurrentes neuronales Netz ........................................................................ 12 

Abb. 3.3: Vorhersage der horizontalen Herdenbewegung ........................................... 14 

Abb. 3.4: OPSO Flussdiagramm .................................................................................. 16 

Abb. 4.1: Gaußsche Kern PDF aus fünf Gauß Funktionen .......................................... 24 

Abb. 4.2: ACO-BP Algorithmus .................................................................................. 29 

Tabellenverzeichnis 

Tab. 3.1: PSO-Metaheuristik ......................................................................................... 7 

Tab. 4.1: ACO-Metaheuristik ...................................................................................... 21 

Tab. 4.2: Pheromontabelle für Parameter .................................................................... 27 

Tab. 5.1: ABC-Algorithmus ........................................................................................ 34 

Tab. 6.1: PSO Artikel ................................................................................................... 41 

Tab. 6.2: ACO Artikel ................................................................................................. 42 

Tab. 6.3: ABC Artikel .................................................................................................. 42 

Abkürzungsverzeichnis 

ABC Artificial Bee Colony 

ACO Ant Colony Optimization 

ACO-BP Ant Colony Optimization-Backpropagation 

BP Backpropagation 

CPSO Constriction Type Particle Swarm Optimization 

MCN Maximum Cycle Number 

MSE Mean Squared Error 

OPSO Optimized Particle Swarm Optimization 

PDF Probability Density Function 

PSO Particle Swarm Optimization 

SEP Square Error Percentage 

SI Swarm Intelligence 

XOR Entweder-Oder

Symbolverzeichnis 

Particle Swarm Optimization 

D Dimensionen des Suchraums 

E() i Fehler des Netzes für Partikel i 

Epochs Anzahl Schleifenwiederholungen 

H Anzahl versteckter Neurone 

MaxEpochs maximale Anzahl Schleifenwiederholungen 

N bestimmte Anzahl Partikel 

P Datenset der Trainingspositionen 

P Anzahl der Eingabemuster im Datenset 

Pt () 

Zielposition des neuronalen Netzes 

V max 

Restriktionskonstante für v i nach oben 

V min 

Restriktionskonstante für v i nach unten 

Z() t Herdenposition zum Zeitpunkt t 

f ( x i ) Fitness des Partikels i an Position x 

i Partikel 

n Anzahl aller Partikel 

n 1 

Gewicht der kognitiven Komponente 

n 2 

Gewicht der sozialen Komponente 

p i 

kognitive Komponente des Partikels i 

r 1 

Zufallszahl 

r 2 

Zufallszahl 

t Zeitangabe 

p best 

soziale Komponente 

v i 

Geschwindigkeit des Partikels i 

w Trägheit der Geschwindigkeit 

w start 

Initialwert für w 

w end 

Terminalwert für w 

x i 

Position des Partikels i 

x Ausprägung der d -ten Dimension der Position des Partikels i 

id 

Ant Colony Optimization 

E Kantenmenge 

Err Netzfehler 

F( π , t) 

zu minimierende Zielfunktion 

G Graph 

JW ( ) Quadratsumme des Fehlers verursacht durch Gewichtsvektor W 

k 

M Gedächtnis der Ameise k 

k 

N Nachbarschaft einer Ameise k 

- IV -

N bestimmte Anzahl Ameisen 

∏ Menge aller Lösungen 

∏ * 

Menge mit optimalen Lösungen 

P Population von Lösungen 

Pi () 

Wahrscheinlichkeit für Bereich i 

PDF Probability Density Function 

Q Konstante 

SEP Quadrierter Fehleranteil 

Ω () t 

Menge aller Nebenbedingungen 

V Knotenmenge 

W Vektor aus allen Gewichten und Biases 

X Zustandsmenge 

X % Menge aller zulässigen Zustände 

Z Menge der Entscheidungsvariablen nach Überführung 

Z Entscheidungsvariable i 

i 

a i 

i -ter Abschnitt des Parameterbereichs 

∂ Ableitung 

e → Kante von i zu j 

i j 

i Knotenindex 

j Knotenindex 

k Ameise 

l Laufvariable 

m Variable für Anzahl Lösungen 

n Anzahl Ausgabeneuronen 

o 

n Anzahl Muster 

p 

η Lernrate 

o max 

Maximalwert der Ausgabesignale 

o min 

Minimalwert der Ausgabesignale 

p Muster 

k 

p ij 

Übergangswahrscheinlichkeit von i zu j der Ameise k 

ρ Verdunstungsrate 

p 

t i 

erwarteter Ausgabewert von Muster p und Neuron i 

p 

o i 

tatsächlicher Ausgabewert von Muster p und Neuron i 

π Lösungen ∈∏ 

q Parameter 

r Rang einer Lösung 

σ j 

Standardabweichung für Gaußfunktion j 

τ Pheromonwert 

k 

Δ τ 

Pheromonmenge, die von einer Ameise k abgelegt wird 

Erwartungswert für Gaußfunktion j 

μ j 

v Knoten 

w Gewichtung für Gaußfunktion j 

j 

x Zustand über G 

- V -

z Instanz einer Entscheidungsvariable i Z 

k 

x start 

Startzustand für eine Ameise k 

Artificial Bee Colony Optimization 

D Dimensionen im Suchraum 

MCN Anzahl Schleifendurchläufe 

SN Lösungspopulation 

fit i 

Fitnesswert der Lösung i 

j zufälliger Index für D 

k zufälliger Index für SN 

limit vorherbestimmte Anzahl an Schleifenwiederholungen 

− 1,1 

φ Zufallszahl in [ ] 

ij 

p i 

Wahlwahrscheinlichkeit von i 

(0,1) 

− 1,1 

rand Zufallszahl in [ ] 

v ij 

neue Lösung für die Dimension j 

x i 

i -te Lösung der Population 

x alte Lösung für die Dimension j 

ij 

- VI -

1 Einleitung 

Sind Löwen auf der Jagd, so kann man ein häufig wiederkehrendes Schema ausmachen. 

Während ein Löwe die oft wesentlich schnellere Beute scheinbar aussichtslos verfolgt, 

lauern weitere Löwen in der Nähe. Ist das Tier nah genug herangetrieben, geben sie ihr 

Versteck auf und erfassen die Beute. Ohne Direktion sind die Löwen ihren natürlichen 

Verhaltensweisen im Rudel gefolgt und haben ihre jeweilige Aufgabe erfüllt. Das Resultat 

ist ein Mehrgewinn gegenüber der Summe der individuellen Leistungen. Dieses als Swarm 

Intelligence (SI) bezeichnete Phänomen war in den letzten Jahren Untersuchungsgegenstand 

vieler Forschungen. 1 In Anlehnung an die in der Natur beobachteten Systeme wurden 

heuristische Optimierungsalgorithmen entwickelt, welche aufgrund einer hohen Flexibilität 

auf eine Vielzahl von Problemstellungen angewendet werden können. 2 

Künstliche neuronale Netze sind zu Schichten zusammengefasste Neuronen, die über gewichtete 

Verbindungen miteinander verknüpft sind. Durch eigenständige Adaption der 

Gewichte sind sie in der Lage, Lernvorgänge zu erzielen. 3 Aufgrund ihrer Fähigkeiten in 

den Bereichen Generalisierung, Anpassbarkeit, Selbstorganisation und Fehlertoleranz werden 

sie in immer mehr Forschungs- und Wirtschaftsbereichen eingesetzt. 4 Die Vielzahl von 

Anwendungsumgebungen bedingt eine individuelle Konfiguration um die spezifischen 

Probleme lösen zu können. Die Suche nach den richtigen Parameterwerten und einer guten 

Netzwerktopologie ist darum von großer Bedeutung. Das Trainieren der Netze führt in der 

Regel zu hochdimensionalen, nichtlinearen Optimierungsproblemen. Die prinzipielle 

Schwierigkeit bei der Lösung dieser Probleme besteht in der Praxis häufig darin, dass man 

nicht sicher sein kann, ob das globale oder nur ein lokales Optimum gefunden wurde. In 

der Mathematik entwickelte klassische Optimierungsverfahren wie Backpropagation finden 

selten optimale Lösungen. 5 

Auf SI basierende Heuristiken besitzen durch viele verstreute parallel wirkende Individuen 

eine höhere Abdeckung des Suchraums. Sie sind somit robuster gegen lokale Optima. Bei 

der Anwendung zur Optimierung neuronaler Netze kann SI neben den Netzwerkparametern 

auch für weitere Aufgaben wie die Strukturoptimierung eingesetzt werden. 6 

1 Vgl. BONABEAU, DORIGO, THERAULAZ (1999) S. XI. 

2 Vgl. BONABEAU, MEYER (2001), S. 111. 

3 Vgl. RUSSEL, NORVIG (2004), S. 896. 

4 Vgl. KARABOGA, AKAY, OZTURK (2007), S. 318. 

5 Vgl. YAN-PENG, MING-GUANG, JI-XIN (2006), S. 714. 

6 Vgl. MEISNER, SCHMUKER, SCHNEIDER (2006), S. 5 f. 

- 1 -

In dieser Ausarbeitung werden vorhandene auf SI basierende Methoden zur Optimierung 

von künstlichen neuronalen Netzwerken identifiziert. Recherchierte Artikel wurden in 

identisch funktionierende Kategorien zusammengefasst und für jede Kategorie wird ein 

repräsentatives Verfahren vorgestellt. 7 Abb. 1.1 gibt eine Übersicht über die Kategorien 

und in welchem Kapitel der Ausarbeitung sie vorgestellt werden. Die Kategorisierung hat 

in drei Dimensionen stattgefunden. Zunächst wird ein Verfahren einer SI-Metaheuristik 

zugeordnet. Hier wurden Particle Swarm Optimization (PSO), Ant Colony Optimization 

(ACO) und Artificial Bee Colony (ABC) Optimization als relevant ausfindig gemacht. Daraufhin 

wird der zu optimierende Netzwerktyp unterschieden. Die Kategorien sind Feed- 

Forward-Netze und rekurrente Netze. Zum Schluss werden die behandelten Netzkomponenten 

betrachtet. Hierbei wird zwischen einer Optimierung der Gewichtsparameter und 

der Netzwerktopologie unterschieden. 8 

Feed-Forward-Netze rekurrente Netze 

Gewichtsparameter 

Netzwerktopologie 

Gewichtsparameter 

Abb. 1.1: Kategorisierung der recherchierten Artikel 

Netzwerktopologie 

Kap. 3.2 

Kap. 3.3 

Kap. 3.4 

Kap. 4.2 

Kap. 4.3 

Kap. 5.2 

Die Ausarbeitung umfasst sechs Kapitel. Kap. 2 stellt die Grundprinzipien von SI vor und 

grenz sie im Rahmen einer Klassifizierung von anderen Optimierungsverfahren ab. Kap. 3 

bis 5 behandeln PSO, ACO und ABC zum Training neuronaler Netzwerke. Jedes Kapitel 

beinhaltet einen Abschnitt Metaheuristik. Hier wird der für alle nachfolgenden Optimierungsverfahren 

einheitliche Grundalgorithmus beschrieben. Er abstrahiert von den Metho- 

7 

Es wird für jede Kategorie nur ein repräsentatives Beispiel vorgestellt, da weitere Beispiele aufgrund 

der gleichen Funktionalität keinen neues Wissen beinhalten. Eine Übersicht über alle problemspezifisch 

relevanten Artikel findet sich in Anh. A. 

8 

Die Optimierung von Biases und Schwellenwerten der Neuronen verläuft analog zur Gewichtsoptimierung. 

- 2 -

den und veranschaulicht die generelle Funktionsweise. Konkrete Instanzen der Metaheuristik 

werden dann detailliert in der Beschreibung der Artikel vorgestellt. Hier werden die für 

die Kategorien repräsentatives Beispiele beschrieben. Jedes Beispiel ist gegliedert in 

Grundlagen, Arbeitsweise und Auswertung. In den Grundlagen wird das nötige Hintergrundwissen 

vermittelt, welches nicht direkt die Arbeitsweise beschreibt. Im Abschnitt 

Arbeitsweise wird das jeweilige Verfahren im Detail vorgestellt, wobei der Fokus auf der 

Erläuterung der Funktionalität liegt. Im Abschnitt Auswertung wird der Artikel abschließend 

knapp reflektiert. Bei relevanten Testergebnissen wird nicht auf konkrete Zahlen eingegangen, 

sondern eine qualitative Aussage getroffen, da die Ergebnisse aufgrund unterschiedlicher 

Anwendungen nicht vergleichbar sind. Zum Schluss werden in Kap. 4 die 

Ergebnisse zusammengefasst und ein Ausblick getroffen. 

- 3 -

2 Swarm Intelligence 

Das Forschungsgebiet der SI hat in den vergangenen Jahren zunehmende Aufmerksamkeit 

erlangt. Die SI überschneidet sich mit den Gebieten der Multi-Agenten Systeme und der 

künstlichen Intelligenz. Der Ausdruck „Swarm Intelligence“ wurde zuerst von BENI und 

WANG im Zusammenhang mit zellularen Robotersystemen genutzt. 9 Er wird für Arbeiten 

verwendet, die sich beim Design von Algorithmen oder verteilten Problemlösungseinheiten 

vom kollektiven Verhalten sozialer Insekten (z.B. Ameisen, Bienen) und anderer Populationen 

(z.B. Fisch-, Vogelschwärme) inspirieren lassen. 

Ein Schwarm stellt eine Gruppe von Individuen dar, die selbstorganisiert mittels verschiedener 

Interaktionsmechanismen und ohne zentrale Lenkung zusammenarbeiten. Auch 

wenn einzelne Interaktionen primitiv sind, so können sie zusammengenommen in effizienten 

Lösungen für schwierige Probleme resultieren. 10 Ein Schwarm stellt also ein emergentes 

System dar. Er besitzt Eigenschaften, über welche seine Komponenten nicht verfügen. 

Das hoch entwickelte soziale Verhalten von Schwärmen wird darum auch als Kollektive 

Intelligenz bezeichnet. 11 

BONABEAU und MEYER erkennen in SI-Algorithmen die Eigenschaften Flexibilität, Robustheit 

und Selbstorganisation, bei welchen sie anderen Algorithmen überlegen sind. SI- 

Verfahren erlauben eine schnelle Anpassung des Schwarms an eine sich ändernde Umwelt 

und bieten darum eine hohe Flexibilität. Selbst wenn einzelne Individuen ein Ziel nicht 

erreichen, so ist der Schwarm dennoch robust genug um seine Aufgabe zu erfüllen. 12 Die 

Selbstorganisation wird als ein charakterisierendes Merkmal von SI-Algorithmen angesehen. 

Sie erfordert direkte oder indirekte Interaktion. Direkte Interaktion geschieht z.B. 

durch visuellen, akustischen oder chemischen Kontakt. 13 Indirekte Kommunikation kann 

durch Reaktionen auf Veränderungen der Umwelt realisiert werden (s. Kap. 4.1). 

BONABEAU beschreibt die Selbstorganisation als „eine Reihe dynamischer Mechanismen, 

wobei eine Struktur auf globaler Ebene als Resultat der Interaktionen von Komponenten 

niedriger Ebenen entsteht. Handlungen werden auf der Basis von lokalen Informationen 

ausgeführt, ohne das globale Resultat zu betrachten.“ 14 Die charakteristischen Merkmale 

der Selbstorganisation sind positives Feedback, negatives Feedback, Fluktuation und multiple 

Wechselwirkungen. 

9 Vgl. BENI, WANG (1989), S. 425-428. 


11 Vgl. HEEREN (2006), S. 33. 


13 Vgl. ENGELBRECHT (2005), S. 184. 

14 BONABEAU et al. (1997), S. 5. 

- 4 -

Positives Feedback entspricht Rekrutierung und Verstärkung, wie etwa die Rekrutierung 

zur Inanspruchnahme einer Nahrungsquelle. Das legen von Pheromonspuren oder der 

Schwänzeltanz bei Bienen können als Beispiele für positives Feedback angesehen wer- 

den. 15 

Negatives Feedback bildet ein Gegengewicht zum positiven Feedback und hilft, das kollektive 

Muster zu stabilisieren. Es kann eine Sättigung signalisieren um Erschöpfung, 

Überfüllung und Konkurrenz zu vermeiden. 16 

Fluktuation und Zufälligkeit ermöglichen die Entdeckung von neuen Lösungen. Sie beleben 

Kreativität und Innovation. So können sie als „Keime“ wirken, an denen sich neue 

Strukturen bilden und wachsen. 17 

Zudem macht Selbstorganisation eine minimale Dichte von gegenseitig toleranten Individuen 

erforderlich, sodass sie ihre eigenen Aktivitäten, sowie die Anderer nutzen können 

(multiple Wechselwirkungen). 18 

Abb. 2.1: Verfahrensklassifikation von Swarm Intelligence 

15 Vgl. KARABOGA (2005), S. 2. 

16 Vgl. KARABOGA (2005), S. 2. 

17 Vgl. HEEREN (2006), S. 41. 

18 Vgl. HEEREN (2006), S. 41. 

- 5 - 

Quelle: Vgl.: FISCHER (2008), S. 154.

In Abb. 2.1 wird deutlich, wie SI einer Verfahrensklassifikation unterzogen werden kann. 

Das Verfahren wird der Klasse heuristischer Optimierungsalgorithmen zugeordnet, welche 

den exakten Verfahren gegenüberstehen. Heuristiken sind dadurch gekennzeichnet, dass 

durch Vorgehensregeln auf nichtwillkürliche Art und Weise mögliche Lösungen im Laufe 

des Suchprozesses ausgeschlossen werden. Aufgrund eines fehlenden Konvergenzbeweises 

kann dabei die Optimalität nicht garantiert werden. Es handelt sich deshalb um näherungsweise 

Lösungsverfahren. Heuristiken lassen sich weiterhin in Eröffnungsverfahren, 

Verbesserungsverfahren und unvollständige exakte Verfahren unterteilen. Erstere bestimmen 

eine zulässige Lösung und benötigen als Input keine gültigen Lösungen. Verbesserungsverfahren 

benötigen eine Ausgangslösung. Diese kann z.B. mit einem Eröffnungsverfahren 

erzeugt werden. Sie generieren iterativ Lösungen aus der Nachbarschaft bestehender 

Lösungen mit dem Ziel der Verbesserung der Güte. Unvollständig exakte Verfahren 

nutzen exakte Verfahren, die jedoch vorzeitig abgebrochen werden. Zu den typischen Metastrategien 

neuerer heuristischer Verbesserungsverfahren zählen Lokale Suchverfahren, 

Evolutionäre Algorithmen und Swarm Intelligence Systeme. Letztere sind den Naturanalogen 

Verfahren zuzuordnen. Naturanaloge Verfahren sind Metaheuristiken, die ihre informationsauswertenden 

und steuernden Prinzipien der Natur entlehnen. 19 

19 Vgl. FISCHER (2008), S. 153 f. 

- 6 -

3 PSO - Particle Swarm Optimization 

3.1 Metaheuristik 

Particle Swarm Optimization wurde erstmals 1995 von KENNEDY und EBERHARD beschrieben. 

Die ursprüngliche Intention des Particle Swarm Konzepts war eine grafische 

Simulierung der „graziösen und unvorhersagbaren Choreographie eines Vogelschwarms“ 20 . 

Aus den Visualisierungsuntersuchungen entwickelte sich ein populationsbasierter Optimierungsalgorithmus. 

Als Partikel bezeichnete Individuen bewegen sich bei PSO in einem mehrdimensionalen 

Suchraum. Jedes Partikel repräsentiert eine potentielle Lösung durch die Ausprägung der 

Dimensionen an der aktuellen Position. Positionsänderungen basieren auf der eigenen Erfahrung 

und der Nachahmung erfolgreicher Strategien anderer Individuen. Durch das sich 

ergebende kollektive Verhalten des Schwarms werden optimale Lösungen entdeckt. 21 

PSO-Metaheuristik 

1: Initialisierung von n Partikeln 

2: repeat 

3: for each Partikel i = 1,..., n do 

4: //Setze kognitive Komponente 

5: if f ( xi) > f( pi) 

then // f () bestimmt die Fitness 

6: pi = xi; 

7: end 

8: //Setze soziale Komponente 

9: if f( pi) > f( pbest) 

then 

10: pbest = pi 

; 

11: end 

12: end 

13: for each Partikel i= 1,..., n do 

14: vi( t+ 1) = w⋅ vi( t) + n1⋅r1⋅( pi − xi( t)) + n2⋅r2⋅( pbest − xi( t)) 

; 

15: xi( t+ 1) = xi( t) + vi( t+ 

1) ; 

16: end 

17: until Abbruchkriterium 

Tab. 3.1: PSO-Metaheuristik 

20 KENNEDY, EBERHARD (1995), S. 1943. 

21 Vgl. ENGELBRECHT (2007), S. 289. 

- 7 -

Die PSO-Metaheuristik ist in Tab. 3.1 dargestellt. 22 Jedes Partikel i wird an einer zufälli- 

gen Position xi = ( xi1, xi2,..., xiD) 

im Suchraum mit D Dimensionen initialisiert. Bewegung 

wird durch die Geschwindigkeit v = ( v1, v 2,..., 

v ) realisiert. Sie ist definiert als23 : 

i i i iD 

i i 1 1 i i 2 2 best i 

- 8 - 

v ( t+ 1) = w⋅ v ( t) + n ⋅r ⋅( p − x ( t)) + n ⋅r ⋅( p − x ( t)) 

. (3.1) 

Hierbei sind sowohl das Erfahrungswissen (kognitive Komponente), als auch die Interaktion 

der Individuen (soziale Komponente) berücksichtigt. Die kognitive Komponente 

p = ( p , p ,..., p ) speichert die beste besuchte Position des Partikels i . Die soziale 

= ( , ,..., ) bestimmt die beste bereits besuchte Position 

aller Partikel. n 1 und 2 n gewichten die kognitive und soziale Komponente. 1 r und r 2 sind 

Zufallszahlen im Bereich [0,1] . w ist die Trägheit der Geschwindigkeit. Sie wird oft so 

implementiert, dass sie ihren Wert linear zum Zeitverlauf ändert24 : 

i i1 i2 iD 

Komponente pbest pbest1 pbest 2 pbestD 

wstart − wend 

w = wstart − Epochs . (3.2) 

MaxEpochs 

w start ist der Initial-, w end der Terminalwert für w . Epochs steht für die Anzahl und 

MaxEpochs für die maximale Anzahl der Schleifenwiederholungen des Algorithmus. Ein 

großer Start- und kleiner Endwert bedingt eine grobe Suche mit großen Bewegungen zu 

Beginn und eine feine Suche zum Schluss des Optimierungsprozesses. 25 Um die Geschwindigkeit 

zu kontrollieren werden die Restriktionskonstanten V max und V min eingeführt. 

Wenn eine Geschwindigkeit den Grenzwert überschreitet, wird sie auf diesen zurückgesetzt: 

⎧vmax 

falls vi( t+ 1) > V 

⎪ 

vi( t+ 1) = ⎨vmin 

falls vi( t+ 1) < V 

⎪ 

⎩vi( 

t+ 

1) sonst 

max 

min 

. (3.3) 

Nachdem der Geschwindigkeitsvektor v i berechnet ist, werden die Positionen der Partikel 

aktualisiert26 : 

x ( t+ 1) = x ( t) + v ( t + 1) . (3.4) 

i i i 

22 

Vgl. ENGELBRECHT (2005), S. 19. Es handelt sich um die Global Best Heuristik. Im Gegensatz zur 

Local Best Variante, wo die soziale Kompontente dem besten Individuum in einer lokalen Nachbarschaft 

entspricht, entspricht die soziale Komponente hier dem global besten Individuum. 

23 

Vgl. KENNEDY, EBERHARD (2001), S. 312. 

24 

Vgl. MEISSNER et al. (2006), S. 8 f. 

25 

Vgl. SHI, EBERHART (1998), S. 69-73. 

26 

Vgl. ENGELBRECHT (2005), S. 93.

3.2 PSO und Feed-Forward-Netze 

SHAO-ZHONG, LI-BIAO, SHU-HUA (2007): The Application of Particle Swarm Optimization 

Algorithm in Training Forward Neural Network 

Grundlagen 

SHAO-ZHONG, LI-BIAO und SHU-HUA stellen in “The Application of Particle Swarm Optimization 

Algorithm in Training Forward Neural Network” eine Methode vor, wie mit dem 

Standard PSO-Algorithmus27 ein neuronales Feed-Forward-Netz optimiert werden kann28 . 

Die Autoren bezeichnen die Suche nach der optimalen Konfiguration der Netzwerkparameter 

als grundsätzlich sehr schwierige Aufgabe. Beim Backpropagation (BP) Optimierungsverfahren29 

bestehe der Nachteil langsamer Trainingsgeschwindigkeit und die Gefahr 

von Konvergenz in lokale Optima. Die Anwendung von PSO soll die Trainingszeit verkürzen 

und vor dem Problem lokaler Optima schützen. 30 

Der PSO-Algorithmus wird hier zum Training der Gewichtsparameter im Netzwerk eingesetzt. 

Jede Dimensionsausprägung id x der Position eines Partikels xi = ( xi1, xi2,..., xiD) 

entspricht 

der Ausprägung eines Gewichts. Gibt es N Gewichte, so bewegt sich das Partikel 

in einem N -dimensionalen Raum. Auf gleiche Weise kann der Schwellenwert der Aktivierungsfunktion 

jedes Neurons bestimmt werden. 

Arbeitsweise 

In Abb. 3.1 wird der PSO-Algorithmus als Flussdiagramm dargestellt. Aufbauend auf der 

PSO-Metaheuristik (s. Tab. 3.1) wird er für den Trainingsprozess der Feed-Forward- 

Netzwerke genutzt. Zunächst wird einmalig die Schwarmgröße n bestimmt und jedes Partikel 

mit einer Zufallsposition initialisiert. Hierauf folgt die Berechnung der Fitness der 

Partikel durch die Fitnessfunktion31 - 9 - 

1 

f() i = , (3.5) 

Ei () 

27 Vgl. KENNEDY, EBERHARD (1995), S. 1942-1948. 

28 Vgl. SHAO-ZHONG, LI-BIAO, SHU-HUA (2007), S. 455 ff. 

29 Backpropagation ist ein auf Gradientenabstieg basierendes und häufig angewandtes Verfahren zur Parameterbestimmung 

in neuronalen Netzen. 

30 Vgl. SHAO-ZHONG, LI-BIAO, SHU-HUA (2007), S. 455. 

31 Vgl. SHAO-ZHONG, LI-BIAO, SHU-HUA (2007), S. 456.

- 10 - 

wobei E() i dem Fehler des Netzes entspricht. Ist kein Abbruchkriterium erreicht, wird mit 

dem Fitnesswert die kognitive Komponente i p , sowie die soziale Komponente p best bestimmt. 

Nach (3.1) wird die Geschwindigkeit v i aktualisiert und nach (3.4) die neue Position 

der Partikel errechnet, welche somit eine neue Generation darstellen. Dieser Vorgang 

wird für alle Partikel so oft wiederholt, bis eine Abbruchbedingung erfüllt ist. 

Neue 

Generation 

bestimmen 

pi und pbest 

bestimmen 

falsch 

Start 

Schwarm 

initialisieren 

Fitness und 

Fehler 

berechnen 

Abbruchbedingung 

wahr 

Ende 

Quelle: Vgl. SHAO-ZHONG, LI-BIAO, SHU-HUA (2007), S. 457. 

Abb. 3.1: PSO für Feed-Forward-Netze Trainingsprozess 

Auswertung 

SHAO-ZHONG, LI-BIAO und SHU-HUA haben ein relativ simples und somit einfach zu implementierendes 

Verfahren zur Optimierung neuronaler Feed-Forward-Netze auf der 

Grundlage der PSO-Metaheuristik vorgestellt. Im Rahmen ihrer Untersuchungen vergleichen 

sie den PSO-Algorithmus mit dem klassischen BP-Verfahren. Als Vergleichsgrundlage 

dient das XOR-Problem, also das Training eines Netzes zum Erlernen der Entweder- 

Oder-Funktion. Sowohl die Iterationsdauer, als auch der erzielte Fehler sind im Test bei 

PSO geringer. Die Autoren kommen zu dem Schluss, dass PSO bei der Optimierung neu-

- 11 - 

ronaler Netze im Vergleich zu BP schneller und effizienter ist. 32 Dies kann so allerdings 

nicht auf alle Problemstellungen verallgemeinert werden, da das XOR-Problem einen geringen 

repräsentativen Charakter besitzt. 

3.3 PSO und rekurrente Netze 

PALANGPOUR, VENAYAGAMOORTHY, DUFFY (2006): Recurrent Neural Network Based 

Predictions of Elephant Migration in a South African Game Reserve 

Grundlagen 

PALANGPOUR, VENAYAGAMOORTHY und DUFFY stellen in „Recurrent Neural Network 

Based Predictions of Elephant Migration in a South African Game Reserve” eine Methode 

vor, um rekurrente neuronale Netze mit PSO zu optimieren. 33 

In südafrikanischen Wildreservaten werden seltene Vegetationsarten durch Elefantenpopulationen 

bedroht. Zum Schutz der Vegetation ist es wichtig, Aufenthaltsdauer und -orte der 

Herden zu kennen. Ziel der problemspezifischen Studie ist es, ein rekurrentes neuronales 

Netz zu trainieren, mit welchem die nächsten Positionen der Elefantenmigration vorhergesagt 

werden können. 34 

Ein Elman-Netz ist ein einfaches künstliches neuronales Netz, das durch vorhandene 

Rückkopplungen von Kanten zwischen den Neuronen in der Lage ist, zeitliche Abhängigkeiten 

von Eingaben implizit zu verarbeiten. In jedem Durchlauf wird der Zustand der versteckten 

Schicht in der Kontextschicht gespeichert. Wird dem Netzwerk ein Eingabemuster 

präsentiert, dient die Kontextschicht als zusätzlicher Input für die versteckte Schicht. Rekurrenten 

neuronalen Netzen wird es durch dieses Feedback ermöglicht, alle vorherigen 

Eingabemuster in den Funktionsablauf einzubeziehen. Die Gewichte von der versteckten 

Schicht zur Kontextschicht sind fest und auf 1 gesetzt. In den Untersuchungen werden 

zwei Netze verwendet. Eines dient zur Vorhersage der horizontalen, das andere zur Vorhersage 

der vertikalen Position der Herden. Die benutzte Topologie sieht 4 Eingangsneuronen, 

16 versteckte und 16 Kontextneuronen, sowie 1 Ausgangsneuron vor. Dem Netz 


33 Vgl. PALANGPOUR, VENAYAGAMOORTHY, DUFFY (2006), S. 4084 ff. 

34 Vgl. PALANGPOUR, VENAYAGAMOORTHY, DUFFY (2006), S. 4084.

- 12 - 

werden die aktuelle Position Z() t und 3 zeitverschobene Positionen Zt− ( 1) , Zt− ( 2) und 

Zt− ( 3) präsentiert. 35 

Eingabeschicht 

(4) 

Z(t+1) 

Ausgabeschicht 

Versteckte 

Schicht 

(16) 

Z(t) Z(t-1) Z(t-2) Z(t-3) 

Kontextschicht 

(16) 

Quelle: Vgl. PALANGPOUR, VENAYAGAMOORTHY, DUFFY (2006), S. 4085. 

Abb. 3.2: Rekurrentes neuronales Netz 

Arbeitsweise 

Als Optimierungsmethode für die rekurrenten Netze wählen die Autoren den PSO- 

Algorithmus, da dieser nach EBERHART und SHI flexibel und effektiv auf eine Vielzahl von 

Problemen angewandt werden kann. 36 Jedes Partikel repräsentiert mit seinem Positionsvektor 

eine potentielle Lösung des Problems. Die Werte des Vektors entsprechen jeweils einem 

Gewicht im rekurrenten neuronalen Netz. Die Partikel werden an Zufallspositionen 

initialisiert. Bei jeder Iteration des PSO-Algorithmus wird der Geschwindigkeitsvektor 

(3.1) mit kognitiver und sozialer Komponente neu berechnet und die Position des Partikels 

(3.4) aktualisiert. 

Durch dynamische, mit der Zeit variierende Parameter kann in PSO die Konvergenzgeschwindigkeit 

erhöht und das Problem lokaler Optima verringert werden. 37 Die Geschwindigkeit 

wird mit einer großen Trägheit w initialisiert, welche eine stückweise Verringe- 

35 Vgl. PALANGPOUR, VENAYAGAMOORTHY, DUFFY (2006), S. 4085. 

36 Vgl. EBERHART, SHI (2001), S. 81-86. 

37 Vgl. LING et al. (2002), S. 997-1002.

- 13 - 

rung erfährt. Eine globale Erforschung des Suchraums geht damit sukzessive in feine Verbesserungen 

über38 (s. Kap. 3.1): 

⎧0,8 

falls Epochs < 0,75⋅ 

MaxEpochs 

⎪ 

w = ⎨ 0, 4 ⋅[ Epochs −0,75 ⋅MaxEpochs] 

⎪ 

0,8 − 

sonst 

⎩ 

0, 25⋅ 

MaxEpochs 

(3.6) 

Die Trägheit wird für die ersten 75% der Iterationen konstant gehalten und danach linear 

mit der Anzahl Iterationen verringert. w max wurde auf 0,8 und w min auf 0,4 gesetzt. 

Die Gewichtung der kognitiven Komponente n 1 bleibt konstant, während die Gewichtung 

der sozialen Komponente n 2 zunächst gering ist und dann mit der Anzahl an Iterationen 

zunimmt. Die soziale Komponente hat somit zu Beginn wenig Einfluss auf die Geschwin- 

digkeit. Eine verfrühte Konvergenz hin zum global besten Partikel wird vermieden. 

Die Fitnessfunktion zur Bestimmung der Güte einer Partikelposition wird nach (3.5) mit 

P 

∑ 

2 

(3.7) 

t 1 

1 

Ei () = ( Zt () −Pt 

()) 

P = 

bestimmt39 , wobei P das Datenset der Trainingspositionen, Z( t ) die Ausgabeposition des 

neuronalen Netzes und Pt () die Zielposition darstellen. 

Auswertung 

PALANGPOUR, VENAYAGAMOORTHY und DUFFY stellen ein kurzfristiges Vorhersagesystem 

für die Bestimmung von Elefantenmigrationen in einem Wildreservat vor. Hierbei verwenden 

sie rekurrente neuronale Netzwerke und optimieren sie mit PSO. Die Netze werden 

180 Tage lang trainiert und sollen die folgenden 180 Tage die Herdenposition einen Tag 

im Voraus prognostizieren. 

In Abb. 3.3 werden beispielhaft die Vorhersageergebnisse des Netzes für die horizontale 

Herdenbewegung illustriert. Zielposition und Vorhersage werden als gepunktete und 

durchgezogene Linie dargestellt. Sie weisen keine deutlichen Abweichungen auf. Es ergibt 

sich ein quadratischer mittlerer Fehler (MSE) 40 von 0,67 km², welcher verdeutlicht, dass 

das vorgestellte Verfahren haltbar ist. 



40 Engl.: Mean Squared Error (MSE).

14 

12 

10 

8 

6 

4 

Ziel 

Vorhersage 

2 

180 200 220 240 260 280 300 320 340 360 

Zeit (Tage) 

- 14 - 

Quelle: Vgl. PALANGPOUR, VENAYAGAMOORTHY, DUFFY (2006), S. 4087 

Abb. 3.3: Vorhersage der horizontalen Herdenbewegung 

Da die Topologie der neuronalen Netzwerke bei den Untersuchungen vorherbestimmt war, 

lässt sich durch eine dynamische Strukturanpassung während des Optimierungsverfahrens 

die Vorhersagegenauigkeit wahrscheinlich zusätzlich verbessern.

3.4 Optimized-PSO und Feed-Forward-Netze 

- 15 - 

MEISNER, SCHMUKER, SCHNEIDER (2006): Optimized Particle Swarm Optimization 

(OPSO) and its application to artificial neural network training 

GRUNDLAGEN 

Seitdem die globalen Optimierungsfähigkeiten von PSO bekannt sind, wird das PSO Paradigma 

weiterentwickelt und verbessert. Eine ganze Reihe von Abwandlungen wurde bereits 

vorgeschlagen. 41 42 43 44 OPSO soll als Beispiel für eine Variation des in Kap. 3.2 und 

Kap. 3.3 instanziierten Standard PSO-Algorithmus (s. Tab. 3.1) eingeführt werden. 

Der Standard PSO-Algorithmus an sich beinhaltet Parameter, deren Initialisierung seine 

Performanz und sein Konvergenzverhalten während einer Problemlösung beeinflussen. 45 

Die beste Belegung der Parameter zu identifizieren ist ein eigenes Optimierungsproblem. 

MEISSNER, SCHMUKER und SCHNEIDER stellen in “Optimized Particle Swarm Optimization 

(OPSO) and its application to artificial neural network training” vor, wie die PSO- 

Heuristik für die Optimierung des PSO-Algorithmus genutzt werden kann. Es findet also 

eine Meta-Optimierung der Variablen des PSO-Algorithmus statt. Das OPSO-Konzept 

beruht auf einem übergeordneten Schwarm („Superschwarm“), der die Parameterbelegungen 

der untergeordneten Schwärme („Subschwarm“) bestimmt. 

Arbeitsweise 

Die Implementation von OPSO erweitert den Standard PSO-Algorithmus aus Kap. 3.1. Die 

Architektur wird in Abb. 3.4 illustriert: 

41 SHEN et al. (2004). 

42 CLERC, KENNEDY (2002). 

43 RASMUSSEN, KRINK (2003). 

44 VEERAMACHANENI ET AL. (2003). 

45 Vgl. MEISNER, SCHMUKER, SCHNEIDER (2006), S. 2.

Partikel 

aktualisieren 

falsch 

Start 

Superschwarm 


Fitness für 

jeden Partikel 

evaluieren 


1 

Ende 

wahr 

Abb. 3.4: OPSO Flussdiagramm 

wahr 

Subschwärme 


Zielfunktion 

evaluieren 


2 

falsch 

- 16 - 

Partikel 

aktualisieren 

Quelle: Vgl. MEISSNER, SCHMUKER, SCHNEIDER (2006) S.2. 

Zunächst werden sowohl Superschwarm, als auch ein Subschwarm für jedes Superschwarmpartikel 

initialisiert und die Fitness der jeweiligen Partikel ein erstes Mal evaluiert. 

Die Dimension des Superschwarms wird durch die Anzahl zu optimierender Parameter 

des Algorithmus bestimmt. 46 Dies sind die Gewichte der kognitiven und sozialen 

Komponente 1 n und 2 n aus (3.1), das Start- und Endgewicht w start und w end aus (3.2), so- 

wie die Geschwindigkeitsrestriktion V max aus (3.3). 47 Der Subschwarm ist entsprechend 

dem zugrunde liegenden Optimierungsproblem dimensioniert. Wenn sein Schleifendurch- 

lauf aus Partikelaktualisierung und -evaluierung entsprechend Tab. 3.1 durchgeführt ist, 

wird die Abbruchbedingung 2 getestet. Ist sie nicht erfüllt, wiederholt sich der innere 

Schleifendurchlauf des Subschwarms. Ist sie erfüllt, so wird in die äußere Schleife des Su- 

46 Vgl. MEISNER, SCHMUKER, SCHNEIDER (2006), S. 2. 

47 Vgl. MEISNER, SCHMUKER, SCHNEIDER (2006), S. 3.

- 17 - 

perschwarms gewechselt und die Abbruchbedingung 1 getestet. Meissner, Schmuker und 

Scheider schlagen für die Abbruchkriterien eine vorherbestimmte Anzahl an Schleifendurchläufen 

oder die Nichtverbesserung des MSE vor. 48 Ist die Abbruchbedingung 1 nicht 

erfüllt, so werden die Superschwarmpartikel aktualisiert und evaluiert, bevor der Algorithmus 

in den Subschwarm zurückwechselt. In jedem Durchgang des Superschwarms führen 

alle Subschwärme Optimierungsdurchläufe auf der Zielfunktion aus und geben ihre 

Fitnesswerte an den Superschwarm zurück. Die beste für den Superschwarm gefundene 

Lösung ist genau der Parametersatz, welcher die Subschwärme mit der höchstens Performanz 

für ihre Optimierungsaufgabe ausstattet. 

Die Autoren haben so die Gewichte und Biases von Feed-Forward-Netzen als Dimensionen 

im Subschwarm bestimmt. Zusätzlich zu diesen bereits in Kap. 3.2 beschriebenen Optimierungsaufgaben 

kann OPSO simultan andere problemabhängige Parameter bestimmen. 

Diese Eigenschaft wird genutzt, um Einfluss auf die Topologie der Netze zu nehmen. Zusammen 

mit den Subschwarm-Parametern wird die optimale Anzahl an versteckten Neuronen 

H im Netzwerk bestimmt. 49 Zur Optimierung von H ist eine weitere Dimension zum 

Superschwarm hinzuzufügen, wobei H auf die nächste Ganzzahl aufgerundet wird. Zusammen 

mit den bereits beschriebenen PSO-Parametern ergeben sich 6 Variablen, sodass 

sich die Partikel des Superschwarm während der Meta-Optimierung in einem 6dimensionalen 

Raum bewegen. 

Auswertung 

MEISSNER, SCHMUKER und SCHEIDER beschreiben eine Methode zur Parameteroptimierung 

des PSO-Algorithmus und ihre Anwendung zum Training neuronaler Netze. Um die Leistungsfähigkeit 

von OPSO zu analysieren wurden Untersuchungen auf einer Testsuite 

durchgeführt. 50 Im Gegensatz zu speziellen Optimierungsproblemen wie dem XOR- 

Problem (s. Kap. 3.2) erlaubt solch ein Satz von künstlichen Fitnessfunktionen eine stärkere 

Verallgemeinerung von Aussagen über die Performanz des Algorithmus. Es wurden 

zwei unimodale Funktionen (De Jong’s Sphere, Rosenbrock) und drei multimodale Funktionen 

(Rastrigin, Schaffer F6, Griewangk) zugrunde gelegt. Für die unimodalen Funktionen 

ergab sich ein im Vergleich zu den multimodalen Funktionen hohes n2 n1-Verhätnis. 51 

Die soziale Komponente wurde also durch die Optimierung stärker gewichtet als die kog- 

48 

Vgl. MEISNER, SCHMUKER, SCHNEIDER (2006), S. 6. 

49 

Vgl. MEISNER, SCHMUKER, SCHNEIDER (2006), S. 5 f. 

50 

Die genauen Untersuchungsaufbauten und Ergebnisse finden sich in MEISNER, SCHMUKER, SCHNEIDER 

(2006), S. 3-10. 

51 

Vgl. MEISNER, SCHMUKER, SCHNEIDER (2006), S. 3.

- 18 - 

nitive Komponente. Dies ist darauf zurückzuführen, dass der Schwarm hier eine Konzentration 

hin zum global besten Partikel p best erfährt. Die Diversität der Population nimmt 

ab, sodass weniger globale Exploration stattfindet. Da die unimodalen Funktionen keine 

lokalen Optima haben, wird eine schnellere Konvergenz zum globalen Optimum erreicht. 

Bei den multimodalen Funktionen mit vielen lokalen Optima ist hingegen eine globalere 

Suche vorteilhaft. Ein höherer Wert von n 1 erlaubt hier einen stärkeren Einfluss der indivi- 

duell besten Position p i mit der Folge einer langsameren Konzentration der Partikel im 

Suchraum. 52 

Zum Leistungsvergleich wurden der Standard PSO-Algorithmus und der Constriction Type 

PSO (CPSO), eine weitere PSO-Variante, heranzogen. In der Testsuite war OPSO durchschnittlich 

sowohl gegenüber PSO, als auch gegenüber CPSO in den Kriterien benötigte 

Epochen und Anzahl Fehler überlegen. 53 

Am n2 n1-Verhältnis wird deutlich, dass unterschiedliche Fitnesslandschaften mit unterschiedlich 

eingestellten PSO-Algorithmen verschieden gut bearbeitet werden können. 

Mögliche Anwendungsfelder für OPSO beinhalten die Optimierung einer großen Anzahl 

Problemstellungen mit ähnlichen Fitnesslandschaften. Der Algorithmus kann exemplarische 

Probleminstanzen optimieren und die erhaltenen PSO-Parameter können für die verbliebenen 

Instanzen genutzt werden. 54 

Kritisch zu betrachten ist an der Meta-Optimierung durch PSO die Frage nach der richtigen 

Einstellung der Parameter auf Meta-Ebene. Werden PSO-Parameter durch einen übergeordneten 

PSO-Algorithmus optimiert, stellt sich die Frage, warum nicht auch jeweils die 

Parameter des übergeordneten PSO-Algorithmus in rekursiver Weise optimiert werden. 55 

52 Vgl. MEISNER, SCHMUKER, SCHNEIDER (2006), S. 3 f. 



55 Da hier ein exponentielles Wachstum von Schleifendurchläufen zu erwarten ist, muss bei solchen Überlegungen 

die Rechenkapazität berücksichtigt werden.

4 ACO - Ant Conlony Optimization 


- 19 - 

ACO basiert auf dem kollektiven Verhalten realer Ameisen. Verteiltes Problemlösen geschieht, 

wie bei allen SI-Algorithmen, durch die Fähigkeit der Individuen, Informationen 

auszutauschen. Das kombinatorische Problem des Findens kürzester Wege stellt das 

Schlüsselproblem der Ameisenalgorithmen dar. Bei dem Problem kürzester Wege geht es 

darum, einen möglichst kurzen Weg zwischen Nest und Nahrungsquelle herzustellen, um 

effizient zur Quelle zu gelangen und die Nahrung ins Nest zu transportieren. 56 

Die Kommunikation zwischen den Mitgliedern der Ameisenpopulation findet bei ACO 

indirekt statt. Diese indirekte Kommunikation wird auch als Stigmergie bezeichnet. Ein 

Individuum in einem stigmergischen System nimmt über die Veränderung der Umwelt 

Einfluss auf andere Individuen. 57 Ameisen sondern entlang eines Weges Pheromon ab, 

welches sich auf diesem Weg ablagert und mit der Zeit verdunstet. Wege, auf denen sich 

aktuell höhere Pheromonkonzentrationen befinden, werden von Ameisen bevorzugt. 58 

Liegt zwischen Nest und Futterquelle ein kürzerer Weg, wird die Quelle in kürzerer Zeit 

erreicht. Die Ameisen befinden sich zeitlich früher auf dem Rückweg als Ameisen, welche 

andere Nahrungsquellen auf einem längeren Weg erreichen. Die höhere Traversierungsfrequenz 

bedingt eine stärkere Pheromonkonzentration und damit Attraktivität, während auf 

längeren Wegen durch die Verdunstung der Duftstoffe eine geringere Konzentration besteht. 

Hinzukommt, dass aufgrund der höheren Attraktivität mehr und mehr Ameisen den 

kürzeren Weg wählen, welche wiederum Pheromon absondern. Die zeitlichen Abstände 

zwischen den Absonderungen sinken weiter und der autokatalytische Prozess führt auf 

dem kürzesten Pfad zu der stärksten Pheromonkonzentration. Das Phänomen der Ameisenstraßen 

zwischen Nest und Nahrungsquelle als Lösung des Optimierungsproblems ent- 

steht. 59 

Die ACO-Metaheuristik wurde von DORIGO und DI CARO ausgehend vom dargestellten 

Verhalten der Ameisen zur Lösungskonstruktion entwickelt. 60 Sie gibt den Rahmen für 

sämtliche problemspezifischen Umsetzungen von Ameisenalgorithmen vor. Prinzipiell ist 

56 Vgl. DORIGO, STÜTZLE (2004), S. 1. 

57 Vgl. FISCHER (2008), S. 155. 

58 Vgl. MERLOTI (2004), S. 4 f. 

59 Vgl. DORIGO, BONABEAU, THERAULAZ (2000), S. 852-854. 

60 Vgl. DORIGO, DI CARO (1999), S. 1470-1477.

- 20 - 

ACO auf beliebige diskrete Optimierungsprobleme anwendbar, sofern sie bestimmten Eigenschaften 

genügen. 61 Allgemein können diese über folgende Problemdefinition beschrieben 

werden. Das Tripel ( ∏, F, 

Ω ) sei ein Minimierungsproblem und ∏ die Menge aller 

möglichen Lösungen. F( π , t) 

repräsentiere eine zu minimierende Zielfunktion für die Lösungen 

π ∈∏ und Ω ( t) 

die Menge an Nebenbedingungen. Der optionale Parameter t 

erlaubt die zeitabhängige Definition der Nebenbedingungen und der Zielfunktion. 62 Das 

Problem wird über die Definition eines Graphen G abgebildet. G besteht aus einer endlichen 

Anzahl von Komponenten { 1 } ,..., V = v vn, 

der so genannten Knotenmenge. Die Komponenten 

sind miteinander durch Kanten ei→ j der Kantenmenge E verbunden. Über G 

können Zustände x definiert werden, die Sequenzen in der Form x= vi, vj,..., vh,... 

aus 

den Komponenten von G darstellen, wobei die maximale Länge einer Sequenz durch eine 

Konstante n

ACO-Metaheuristik 

1: Initialisierung 

2: repeat 

3: Lösungskonstruktion 

4: Pheromonaktualisierung 

5: Daemon-Aktivitäten (optional) 

6: until Abbruchkriterium 

Tab. 4.1: ACO-Metaheuristik 

- 21 - 

Quelle: Vgl. FISCHER, S. 159. 

G bildet die Grundlage für die Konstruktion von Lösungen π durch die Ameisen. Die 

indirekte Kommunikation wird über die numerische Pheromonspur τ realisiert. Die Nach- 

k 

barschaft N einer Ameise k ist dabei von den bereits durch die Ameise getroffenen Ent- 

k 

scheidungen abhängig. Jede Ameise k besitzt zudem ein Gedächtnis M , in welchem alle 

Informationen über den von ihr bisher gewählten Pfad durch den Graphen abgelegt wer- 

den. 65 

k 

Die Lösungskonstruktion durch eine Ameise beginnt mit einem Startzustand x start . Danach 

bewegt sich die Ameise so lange zu einem Knoten j der jeweiligen Nachbarschaft, bis 

eine Abbruchbedingung erfüllt ist. Die stochastische Wahl des Knotens aus der Nachbarschaft 

wird mittels einer Übergangswahrscheinlichkeit bestimmt. 66 Im einfachen Fall entspricht 

die Entscheidungsregel Gleichung (4.1), bei welcher lediglich die Pheromonkonzentration 

Einfluss auf die Auswahl der Kanten aus der Nachbarschaft hat. 67 

p 

k 

ij 

⎧ τ ij k 

wenn j ∈ Ni 

⎪ 

= 

τ il ⎨ ∑ (4.1) 

k 

l∈Ni ⎪⎪⎩ 0 sonst 

Die Pheromonaktualisierung ist die zweite Phase der ACO-Metaheuristik und setzt sich 

aus zwei Operationen zusammen. Zunächst verstärken Ameisen auf ihrem Weg die Pheromonkonzentration. 

Bewegt sich eine Ameise von einem Knoten zu einem anderen, fügt 

k 

sie diesen ihrem Pfadgedächtnis M hinzu und schüttet eine bestimmte Menge an Pheromon 

auf diesem Weg aus. Häufig wird erst nach Abschluss der vollständigen Lösungskonstruktion 

die Pheromonausschüttung durchgeführt. Wird die Pheromonmenge, die von 

65 Vgl. FISCHER (2008), S. 158 f. 


67 Vgl. DORIGO, STÜTZLE (2004), S. 13.

einer Ameise auf einer Kante ei→ j abgelegt wird, durch 

die Aktualisierung des Pheromons aus 68 

- 22 - 

k 

Δ τ repräsentiert, so ergibt sich 

k 

τ : = τ +Δτ ∀e → ∈ Eπ. (4.2) 

ij ij i j 

Die zweite Operation der Phase Pheromonaktualisierung betrifft die Verdunstung des Phe- 

romons. Sie hängt von der Verdunstungsrate ρ ∈ [ 0,1] 

ab. Die Pheromonkonzentration 

nach der Verdunstung ergibt sich aus 69 

τ ij : = (1 −ρ) ⋅τij ∀ei→j∈ E . (4.3) 

Die optionalen Daemon-Aktivitäten erfolgen nach Abschluss der Pheromonaktualisierung. 

Beispiele für derartige Aktivitäten sind elitäre Strategien, welche eine zusätzliche Pheromonausschüttung 

für die aktuell beste Lösung veranlassen. 70 

4.2 ACO und Feed-Forward-Netze 

BLUM, SOCHA (2005): Training Feed-Forward Neural Networks With Ant Colony Optimization: 

An Application to Pattern Classification 

Grundlagen 

BLUM und SOCHA stellen in “Training Feed-Forward Neural Networks With Ant Colony 

Optimization: An Application to Pattern Classification” eine Methode vor, welche es erlaubt 

eine stetige Gewichtsoptimierung von Feed-Forward-Netzen zur Mustererkennung 

vorzunehmen. 71 

Feed-Forward-Netze zur Mustererkennung besitzen so viele Eingabeneuronen, wie es verschiedene 

Merkmale in einem Datensatz gibt. Die Anzahl der Ausgabeneuronen entspricht 

der Anzahl der Klassen, denen Eingabemuster zugeordnet werden können. Hierbei sind die 

Neuronen schichtenweise vollständig vernetzt. Ein Datensatz für die Klassifikation von 

Mustern besteht aus mehreren Mustern zusammen mit deren korrekter Klassifikation. Jedes 

Muster besitzt eine bestimmte Anzahl von Merkmalen und deren numerische Ausprägung. 

Ziel ist, das Netz so zu optimieren, dass bei Eingabe eines Musters dessen korrekte 



70 Vgl. FISCHER (2008), S. 160. 

71 Vgl. BLUM, SOCHA (2005), S. 1-6.

- 23 - 

Klassifikation ausgegeben wird. Diese wird durch das Ausgabeneuron bestimmt, welches 

das größte Ausgabesignal produziert. 72 

Die Anpassung der Gewichte, sodass das Netz eine hohe Performanz bietet, ist ein stetiges 

Optimierungsproblem, da die Gewichte reelle Zahlen darstellen. Folglich sind n Entscheidungsvariablen 

{ X1,..., X n} 

mit stetigen Definitionsbereichen gegeben. Die Variablen sind 

unabhängig. Gesucht ist eine Lösung zur Minimierung der Zielfunktion „Quadrierter Feh- 

leranteil“ ( SEP ) 73 : 

∑∑ 

p n no 

o − o 

SEP = t −o 

max min 

p p 2 

100 ( i i ) 

no 

p= 1 i= 

1 

, (4.4) 

wobei o max und o min der Maximal- und Minimalwert der Ausgabesignale sind. n p repräsentiert 

die Anzahl an Mustern. n ist die Anzahl der Ausgabeneuronen. 

o 

p 

p 

t i und o i sind 

die erwarteten und tatsächlichen Werte von Ausgabeneuron i und Muster p . 74 

Arbeitsweise 

Im Gegensatz zu diskreten Optimierungsproblemen nutzt der Algorithmus für stetige Optimierung 

eine stetige Wahrscheinlichkeitsdichtefunktion (PDF) 75 . Diese Dichtefunktion 

wird durch eine Population P von Lösungen gebildet. P besitzt die Größe k und wird vor 

dem Start des Algorithmus mit Zufallslösungen im Intervall [ − 1,1] initialisiert. Bei jeder 

Iteration werden m Lösungen generiert und zu P hinzugefügt. Gleichzeitig werden die m 

schlechtesten Lösungen aus P entfernt. Durch diesen Suchprozess werden die besten gefundenen 

Lösungen separiert. 76 

Für die Erstellung einer Lösung wird die Menge der Entscheidungsvariablen 

X = { X1,..., Xn} in temporäre Variablen Z = { Z1,..., Z n} 

überführt um eine Korrelation zu 

limitieren. Nach dem Algorithmus werden sie zurücktransformiert. In jedem Konstruktionsschritt 

i= 1,..., n wählt die Ameise einen Wert für die Variable Z i . Hierzu wird die in 

Abb. 4.1 dargestellte Gaußsche Kern PDF genutzt, welche eine gewichtete Überlagerung 

von mehreren Gaußfunktionen darstellt. 77 

72 Vgl. BLUM, SOCHA (2005), S. 2. 

73 Engl.: Square Error Percentage (SEP). 


75 Engl.: Probability Density Function (PDF). 

76 Vgl. BLUM, SOCHA (2005), S. 2 f. 

77 Vgl. SOCHA (2004), S. 4.

Abb. 4.1: Gaußsche Kern PDF aus fünf Gauß Funktionen 

- 24 - 

Quelle: Vgl. SOCHA (2004) S. 4. 

Für eine Entscheidungsvariable i Z ist der Gaußsche Kern G i gegeben durch78 

k 

i j 

j= 

1 

2 

j 

2 

j 

( z−μ 

) 

− 

2σ 

1 

G ( z) = ∑ w e , ∀ z∈R 

(4.5) 

σ 2π 

wobei die j -te Gaußsche Funktion vom j -ten Individuum der Population P stammt. j w 

ist die Gewichtung, μ j der Erwartungswert und σ j die Standardabweichung für das j -te 

Individuum. 

Für eine einfache Bestimmung der Gaußschen Kern PDF stellen BLUM und SOCHA eine zu 

(4.5) äquivalente Methode vor. Aus den j Gaußfunktionen wird eine Funktion j * mit der 

Wahrscheinlichkeit 

p j = 

wj 

k 

w 

∀ j = 1,..., k 

∑ 

l= 

1 

l 

(4.6) 

ausgewählt. 79 w j ist das Gewicht, der Gaußfunktion j und wird wie folgt bestimmt. Alle 

Lösungen in P sind absteigend nach Qualität ( SEP -Wert) geordnet. Der Rang der j -ten 

Lösung in P sei r . Dann ist w j durch folgende Gleichung bestimmt: 



2 

2 2 

( r−1) 

− 

2qk 

1 

wj= e . (4.7) 

qk 2π

- 25 - 

Das Gewicht ist also ein Wert der Gaußfunktion mit Rang r , einem Erwartungswert von 1 

und einer Standardabweichung qk . Ist der Parameter q klein, werden die am höchsten 

angeordneten Lösungen stark bevorzugt. Ist er größer, wird die Wahrscheinlichkeit stärker 

verteilt. Da die Ränge anstatt der tatsächlichen Fitnessfunktionen genutzt werden, ist der 

Algorithmus unabhängig von der Skalierung der Fitnessfunktion. Das Sampling der ausgewählten 

Funktion j * kann mit Hilfe eines Zufallsnummerngenerators geschehen, welcher 

Zufallszahlen gemäß einer parametrisierten Normalverteilung generiert. Hierzu müssen 

der Erwartungswert und die Standardabweichung der j * -ten Gaußfunktion bestimmt 

werden. Als Erwartungswert μ j* 

wird der Wert der i -ten Entscheidungsvariablen in Lösung 

j * gewählt. Die Standardabweichung σ j* 

wird durch 

k 

( ) 2 

l j* 

z z 

σJ* = ρ ∑ i − i 

(4.8) 

l= 

1 

bestimmt. 80 Es wird die durchschnittliche Distanz der anderen Populationsteilnehmer von 

der j * -ten Lösung berechnet und mit ρ multipliziert, was die Konvergenz reguliert. Je 

höher der Wert von ρ ∈ [ 0,1] 

, desto geringer die Konvergenzgeschwindigkeit und folglich 

die Lernrate. Der gesamte Prozess wird für jede Dimension (Entscheidungsvariable) 

durchgeführt. Probleme, die in verschiedenen Richtungen verschieden skaliert sind, werden 

so berechenbar. 81 

Auswertung 

BLUM und SOCHA beschreiben in “Training Feed-Forward Neural Networks With Ant Colony 

Optimization: An Application to Pattern Classification” eine Methode, um mit der 

ACO-Heuristik ein stetiges Optimierungsproblem zu lösen. 

Wie genau das vorgestellte stetige Optimierungsverfahren allerdings verwendet werden 

kann, um es auf neuronale Netze anzuwenden wird von BLUM und SOCHA nicht beantwortet. 

Es wird nicht auf den Trainingsalgorithmus des Netzes in Zusammenhang mit dem 

vorgestellten ACO-Algorithmus eingegangen und es gibt wenig Hinweise auf den genauen 

Zusammenhang zwischen zu optimierenden Parametern des Netzes und deren Behandlung 

während des Algorithmus. 

Experimente werden auf drei verschiedenen Testdatensätzen zur Krebs-, Diabetes- und 

Herzkrankheiterkennung, durchgeführt. Im ersten und zweiten Fall war ACO dem zum 


81 Vgl. BLUM, SOCHA (2005), S. 3.

- 26 - 

Vergleich herangezogenen BP-Verfahren in Bezug auf den erzeugten Fehler unterlegen. 

Im dritten Fall wurden ähnliche Ergebnisse erzielt. 82 ACO als generelle Optimierungsmethode 

scheint beim Training neuronaler Netze schlechtere Resultate zu erreichen, da zusätzliche 

vorhandene Informationen wie der Gradient nicht genutzt werden. Vorteilhaft bei 

ACO gegenüber BP ist hingegen, dass die Übertragungsfunktion nicht bekannt und differenzierbar 

sein muss. Gegenüber anderen Allzweck-Optimierungsverfahren wie Genetische 

Algorithmen erzielt ACO in den Tests bessere Ergebnisse. 

4.3 ACO-Backpropagation und Feed-Forward-Netze 

YAN-PENG, MING-GUANG, JI-XIN (2006): Evolving Neural Networks Using the Hybrid of 

Ant Colony Optimization and BP Algorithms 

GRUNDLAGEN 

YAN-PENG, MING-GUANG und JI-XIN stellen in “Evolving Neural Networks Using the Hybrid 

of Ant Colony Optimization and BP Algorithms” eine hybride Methode aus ACO und 

Backpropagation vor, um Feed-Forward-Netzwerke zu optimieren. Dieser ACO-BP Algorithmus 

nutzt ACO um eine Lösung zu finden, die nahe am Optimum liegt und wechselt 

daraufhin zu BP, um das genaue Optimum zu bestimmen. 

BP ist die derzeit am öftesten genutzte Suchtechnik um neuronale Netze zu optimieren. 83 

Es handelt sich um ein Gradientenabstiegsverfahren, welches schnell in lokale Optima 

konvergiert. Der BP Algorithmus wurde 1986 von Rumelhart und Mc Chelland entwickelt84 

. Ziel ist die Quadratsumme des Fehlers 

∑∑ 

p n no 

1 

( ) ( ) 

p p 2 

JW = ti −o 

i 

(4.9) 

2 p= 1 i= 

1 

zu minimieren. W ist ein Vektor aus allen Gewichten und Biases. p 

t i und 

p 

o i sind Zielwert 

und tatsächliche Ausgabe des i -ten Ausgabeneurons. n o und n p stellen die Anzahl der 

Ausgabeneuronen und Trainingsmuster dar. Ein initialer Gewichtsvektor W 0 wird iterativ 

angepasst, um einen für das Netz optimalen Vektor zu finden85 : 

82 Vgl. BLUM, SOCHA (2005), S. 4 ff. 

83 RANDALL, SEXTON, DORSEY (2000), S. 11-22. 

84 RUMMELHART, HINTON, WILLIAMS (1986), S. 533-536. 

85 YAN-PENG, MING-GUANG, JI-XIN (2006), S. 715.

- 27 - 

∂JW 

( ) 

Wk+ 1 = Wk 

−η 

. (4.10) 

∂W 

Zunächst werden die tatsächlichen Ausgaben des Netzwerks von der Eingabe bis zur Ausgabeschicht 

berechnet. Dann wird der Gradientenabstieg wie in (4.10) gezeigt, bestimmt 

und die Gewichte angepasst. Dies wird für alle Trainingsmuster wiederholt, bis alle Fehler 

ausreichend klein sind. 86 

Die Entwicklung des neuronalen Netzes kann als Prozess angesehen werden, die optimale 

Kombination der Parameter in W zu finden. Da die kombinatorische Optimierungsfunktion 

meist mehrgipflig verläuft, wird nun zunächst ACO verwendet. Im Gegensatz zu BP ist 

ACO sehr resistent gegen verfrühte Konvergenz in lokale Optima. 87 

Um ACO anzuwenden, wird der Definitionsbereich jedes Parameters in eine Menge an 

Abschnitten (genannt Punkte) aufgeteilt und somit diskret. Jeder Punkt ist ein Kandidat für 

den Wert des Parameters. Eine Ameise kann für einen Parameter nur einen Wert aus den 

Kandidaten auswählen. In einer Pheromontabelle (s. Tab. 4.2) werden alle Informationen 

für jeden Parameter festgehalten. 

Nummer 1 2 ... m + 1 

Punkte 1 a 2 a ... a m+ 

1 

Pheromonintensität τ (1) 

τ (2) 

... τ ( m + 1) 

Tab. 4.2: Pheromontabelle für Parameter 

W i 

Quelle: YAN-PENG, MING-GUANG, JI-XIN, S. 716. 

w i ist der i -te zu optimierende Parameter. a i ist der i -te Punkt, in welchen der Parameterbereich 

aufgeteilt wurde. τ ( i ) repräsentiert die Pheromonintensität von a i und m ist die 

Anzahl an Aufteilungen des Definitionsbereichs, sodass es m + 1 Punkte für jeden Parameter 

gibt. 

Erreicht eine Ameise den Parameter w i , so wählt sie den Punkt i mit der Wahrscheinlichkeit 

Pi ( ) nach der Gleichung88 Pi () = 

τ () i 

τ ( j) 

. (4.11) 

+ 1 

∑ 

= 1 

m 

j 



88 Vgl. YAN-PENG, MING-GUANG, JI-XIN (2006), S. 716.

- 28 - 

Eine Ameise beendet eine Tour, wenn sie für alle Parameter Werte gesammelt hat. Sie geht 

zurück zum Nest und aktualisiert die Pheromontabelle entsprechend der Gleichung89 wobei [ 0,1] 

τ ( i+ 1) = ρτ ( i) +Δτ( 

i ) , (4.12) 

ρ ∈ die Fortbestandsdauer des Pheromons beeinflusst. Δ τ () i = Q/ Err bestimmt 

den Anstieg der Pheromonintensität. Q ist eine Konstante während Err der Fehler 

zwischen Zielausgabe und tatsächlicher Ausgabe des Netzes ist. 

Arbeitsweise 

Da der Definitionsbereich der Parameter bei ACO in einen diskreten transformiert wurde, 

ist die Ausgabepräzision mit den Punkten als Parameterwerte nicht sehr hoch. BP als alleiniger 

Suchalgorithmus gefährdet das Auffinden eines globalen Optimums. Als zusätzlicher 

Suchalgorithmus kann BP allerdings die Ausgabepräzision von ACO verbessern. ACO-BP 

sucht mit ACO zunächst eine Parameterkombination nahe am globalen Optimum und nutzt 

dann BP um den genauen Wert für jeden Parameter zu bestimmen. 90 Der genaue Ablauf ist 

in Abb. 4.2 dargestellt. 


90 Vgl. YAN-PENG, MING-GUANG, JI-XIN (2006), S. 717.

Pheromon 

aktualisieren 

Beste 

Kombination 

suchen 

Abb. 4.2: ACO-BP Algorithmus 

1. Initialisierung 

Start 

Initialisierung 


falsch 

Ameisen 

entsenden 

Ende 

wahr 

Gewichte und 

Biases für BP 


BP 

durchführen 

- 29 - 

Quelle: YAN-PENG, MING-GUANG, JI-XIN, S. 717. 

Der Definitionsbereich jedes Parameters wird gleichmäßig in m + 1 Teile aufgespalten und 

eine Pheromontabelle erstellt. Jeder Punkt besitzt die gleiche Menge an Pheromon. N 

Ameisen verlassen das Nest. 

2. Touring 

Jede Ameise bewegt sich von einem Parameter zum nächsten. Abhängig von (4.11) wird 

für jeden dieser Parameter ein Wert gewählt. Hat die Ameise für alle Parameter Werte bestimmt, 

ist sie am Ziel angekommen und hat ein neuronales Netz festgelegt. Trainingsmuster 

werden in das Netzwerk gegeben und der Fehler bestimmt. 

3. Aktualisierung der Pheromontabelle 

Die Ameise geht den Weg zum Nest zurück, den sie gekommen ist und die Pheromonintensität 

der Punkte auf dem Weg wird nach (4.12) aktualisiert.

4. Stoppkriterium 

- 30 - 

Eine Iteration ist beendet, wenn alle Ameisen zum Nest zurückgekehrt sind. 2.-3. wird so 

lange wiederholt, bis alle Ameisen auf einen Pfad konvergiert sind oder ein anderes Stopp 

Kriterium erfüllt ist. 

5. Backpropagation 

Die besten Parameter, die von ACO gefunden wurden, werden als Initialgewichte und Biases 

des BP Algorithmus genutzt. Der Fehler zwischen Zielausgabe und tatsächlicher Ausgabe 

wird berechnet und von der Ausgabeschicht zu vorderen Schichten propagiert. Der 

Gewichtsvektor wird nach (4.10) modifiziert. Dieser Trainingsprozess wird so lange wiederholt, 

bis die gewünschte Fehlergenauigkeit oder maximale Iterationszahl erreicht ist. 

6. Netzwerktest 

Die Generalisierungsfähigkeit des Netzes wird mit Testmustern geprüft. Ist die gewünschte 

Fehlergenauigkeit erreicht, wird das Verfahren beendet. Falls nicht, wird mit Schritt 1 fort- 

gefahren. 91 

Auswertung 

BP, was gewöhnlich zum Training neuronaler Netze verwendet wird, ist wenig robust gegenüber 

lokalen Optima, besitzt aber eine hohe Konvergenzgeschwindigkeit. ACO ist gut 

geeignet das globale Optimum zu finden. ACO wird für eine Annäherung an die Netzwerkparameter 

genutzt und BP konvergiert schnell in die genauen Parameterwerte. 92 YAN- 

PENG, MING-GUANG und JI-XIN führen mit ACO-BP Tests zur nichtlinearen Systemidentifikation 

und im Bereich chemischer Anwendungen durch. In beiden Untersuchungen war 

ACO-BP dem zum Vergleich herangezogenen Standard-BP beim gemittelten Testfehler, 

als auch in der Rechenzeit überlegen. 93 

91 

Vgl. YAN-PENG, MING-GUANG, JI-XIN (2006), S. 718. 

92 

Vgl. YAN-PENG, MING-GUANG, JI-XIN (2006), S. 721. 

93 

Die genauen Untersuchungsaufbauten und Ergebnisse finden sich in YAN-PENG, MING-GUANG, JI-XIN 

(2006), S. 719 ff.

5 ABC - Artificial Bee Colony Optimization 


- 31 - 

Artificial Bee Colony Optimization ist ein vergleichsweise neuer SI-Algorithmus, der das 

Verhalten von Honigbienen während der Nahrungssuche simuliert. Er wurde 2005 von 

KARABOGA eingeführt um multi-dimensionale und multi-modale Optimierungsprobleme 

zu lösen94 . Eine Kolonie besteht aus drei Gruppen von Bienen. Beschäftigte Bienen, Zuschauer 

und Späher. Beschäftigte Bienen werden mit einer bestimmten Nahrungsquelle 

assoziiert, welche von ihnen verwertet wird. 95 Sie besitzen Informationen über diese Quelle 

und teilen sie mit der Kolonie, indem ein Schwänzeltanz durchgeführt wird. Mit dem Tanz 

im Nest kommunizieren Bienen Informationen über Richtung, Distanz und Menge von 

Nektarvorkommen zu ihren Artgenossen im Bienenstock. 96 Durch diesen Mechanismus 

werden weitere Bienen rekrutiert um gute Nahrungsquellen auszuschöpfen. Während des 

Schwänzeltanzes indiziert die Position der Biene die Richtung zum Nektar. Die Intensität 

des Tanzes vermittelt die Entfernung und die Dauer gibt Auskunft über die Menge des 

Nektars in der Quelle97 . Nicht beschäftigte Bienen sind auf der Suche nach einer Nahrungsquelle. 

Von ihnen gibt es zwei Typen. Späher und Zuschauer. Späher durchsuchen 

ohne Anweisung die Umgebung nach neuen Nahrungsquellen. Zuschauer betrachten den 

Schwänzeltanz und wählen nach einem wahrscheinlichkeitsbasierten Auswahlprozess ein 

Nektarvorkommen als neue Nahrungsquelle. Ziel ist, die Nahrungsquelle mit dem größten 

Nektarvorkommen zu finden. 98 

94 Vgl. KARABOGA (2005), S. 1-10. 

95 Vgl. TERESHKO, LOENGAROV (2005), S. 2. 

96 Vgl. KARABOGA (2008). 

97 Vgl. SEELEY (1997), S. 1 ff. 

98 Vgl. BAYKASOGLU, ÖZBAKIR, TAPKAN (2007), S. 113 – 121.

5.2 ABC und Feed-Forward-Netze 

- 32 - 

KARABOGA, AKAY, OZTURK (2007): Artificial Bee Colony (ABC) Optimization Algorithm 

for Training Feed-Forward Neural Networks 

GRUNDLAGEN 

KARABOGA, AKAY und OZTURK führen in „Artificial Bee Colony (ABC) Optimization 

Algorithm for Training Feed-Forward Neural Networks” eine Methode ein, um mit dem 

ABC-Algorithmus Feed-Forward-Netzwerke zu optimieren. Ziel der Überlegungen ist, 

eine gegenüber traditionellen Trainingsalgorithmen wie Backpropagatoin überlegene Methode 

zu entwickeln. Während klassische Verfahren oft Probleme mit lokalen Minima oder 

Rechenkomplexität aufweisen, soll ABC diese Probleme überkommen und eine optimale 

Zusammensetzung der Gewichte von neuronalen Netzen bestimmen. 99 

Im ABC-Algorithmus definiert die Position einer Nahrungsquelle eine mögliche Lösung 

des Optimierungsproblems. Sie repräsentiert den Gewichtsvektor im Netzwerk. Die Nektarmenge 

der Nahrungsquelle korrespondiert zur Qualität (Fitness) der Lösung. 

Arbeitsweise 

Die Arbeitsweise des ABC-Algorithmus wird in Tab. 5.1 illustriert. Im ersten Schritt generiert 

ABC eine zufällig verteilte, initiale Population von SN Lösungen (Nahrungsquellen). 

Jede Lösung xi ( i = 1,2,..., SN) 

ist ein D -dimensionaler Vektor. D entspricht der Anzahl 

an Optimierungsparametern. Nach der Initialisierung unterzieht sich die Population 

MCN 100 Wiederholungen ( cycles ) von Suchprozessen. 

Beschäftigte Bienen verbleiben während der Nahrungssammlung nicht an einer einzigen 

Quelle. Sie testen mehrere Nektarvorkommen in ihrer Umgebung. Eine neue Kandidatenposition 

wird durch 

v = x + φ ( x −x 

) 

(5.1) 

ij ij ij ij kj 

aus der bisherigen generiert. k∈ { 1, 2,..., SN} 

und j { 1, 2,..., D} 

wobei k i φ ist eine Zufallszahl in [ − 1,1] 

. 

≠ . i, j 


100 Engl.: Maximum Cycle Number (MCN) 

∈ sind zufällige Indizes,

- 33 - 

Ist die Nektarmenge höher, als die der Vorgängerquelle, wird die neue Position gespeichert 

und die alte vergessen. Anderenfalls bleibt die alte gespeichert. Es handelt sich also um 

einen gierigen Auswahlprozess, da ein opportunistisches Verhalten hin zur kurzfristig besseren 

Lösung vorliegt. Nachdem alle beschäftigten Bienen diesen Prozess durchlaufen haben, 

werden Informationen über Nektarmenge und -position mit den Zuschauern in der 

Tanzumgebung geteilt. Die Zuschauer bewerten die durch den Schwänzeltanz vermittelten 

Nektarinformationen der beschäftigten Bienen und wählen eine Nahrungsquelle mit einer 

Wahrscheinlichkeit abhängig von der Nektarmenge101 . Die Wahrscheinlichkeit berechnet 

sich durch 

p 

= 

i SN 

∑ 

n= 

1 

fit 

i 

fit 

n 

, (5.2) 

wobei fit i der Fitnesswert der Lösung i ist und proportional zur Nektarmenge der Nahrungsquelle 

verläuft. SN ist die Anzahl von Nahrungsquellen, welche mit der Anzahl an 

beschäftigten Bienen übereinstimmt. Wie bei den beschäftigten Bienen modifizieren die 

Zuschauer die Positionsangabe nach (5.1) und testen die Nektarmenge der neuen Kandidatenquelle. 

Ist die Nektarmenge größer, so wird auch diese Position gierig gespeichert. 102 

Während Zuschauer und beschäftigte Bienen den Erschließungsprozess durchführen, erkunden 

Späher in ABC komplett neue Lösungen. 103 Kann eine Lösungsposition nach einer 

vorherbestimmten Anzahl an Wiederholungen (limit) nicht verbessert werden, so wird sie 

als verlassen deklariert. Verlassene Nahrungsquellen werden durch die Späher mit neuen 

ausgetauscht104 . Dies wird durch eine zufällig generierte Position simuliert, welche die neue 

Nahrungsquelle darstellt. Die verlassene Quelle sei x i und j ∈ { 1, 2,..., D} 

. Dann wird 

durch 

x = x + rand(0,1) ⋅( x − x ) 

(5.3) 

j j j j 

i min max min 

eine neue Nahrungsquelle vom Späher gefunden und mit x i ausgetauscht. 

101 Vgl. SEELEY, CAMAZINE, SNEYD (1991), S. 279. 


103 Vgl. KARABOGA, AKAY, OZTURK (2007), S. 321-322. 

104 Vgl. SEELEY, VISSCHER (1987), S. 229.

ABC-Algorithmus 

1: Initialisiere eine Population von Lösungen xi , i = 1... SN 

2: Evaluiere die Population 

3: Setze cycle = 1 

4: repeat 

5: Produziere neue Lösungen v i für die beschäftigten Bienen nach (5.1) und 

evaluiere sie 

6: Wende den gierigen Auswahlprozess an 

7: Berechne die Wahrscheinlichkeiten i p für die Lösungen x i nach (5.2) 

8: Produziere neue Lösungen i v für die Zuschauer aus den abhängig von i p 

gewählten Lösungen i x 

9: Wende den gierigen Auswahlprozess an 

10: Bestimme die verlassene Lösung für den Späher, falls vorhanden, und ersetze sie 

mit einer neuen zufälligen Lösung x i nach (5.3) 

11: Speichere die bisherige beste Lösung 

12: Setze cycle = cycle + 1 

13: until cycle = MCN 

Tab. 5.1: ABC-Algorithmus 

Auswertung 

- 34 - 

KARABOGA, AKAY und OZTURK wenden mit ABC einen jungen SI-Algorithmus aus dem 

Jahr 2005 zur Optimierung von neuronalen Netzen an. 

In Untersuchungen vergleichen die Autoren die Leistung von ABC mit Backpropagation 

und Evolutionären Algorithmen auf drei Problemen (XOR, 3-Bit Parity, 4-Bit Encoder- 

Decoder). Sowohl bei den Fehlerraten der trainierten Netzwerke, als auch bei den Erfolgsraten 

zum Auffinden des globalen Optimums weist ABC die besten Ergebnisse auf. 105 

Der Vorteil dieses Algorithmus ist seine Einfachheit. Er ist intuitiv verständlich, leicht implementierbar 

und es gibt lediglich drei Kontrollparameter, dessen Werte das Ergebnis 

beeinflussen. Die Anzahl Nahrungsquellen SN , der Wert von limit und die maximale 

Schleifenzahl MCN . 

Zusammengefasst ist ABC ein neuer, robuster und einfacher Optimierungsalgorithmus 

zum trainieren neuronaler Feed-Forward-Netzwerke. 

105 

Die genauen Untersuchungsaufbauten und Ergebnisse finden sich in KARABOGA, AKAY, OZTURK 

(2007), S. 322 ff.

6 Fazit 

- 35 - 

Es wurden drei verschiedene Metaheuristiken vorgestellt, die prinzipiell dazu geeignet 

sind, künstliche neuronale Netze zu optimieren. 

PSO ist der etablierteste Algorithmus. Er wurde sowohl für Feed-Forward-, als auch für 

rekurrente Netze implementiert. Optimierungen fanden auf den Gewichten, aber auch auf 

der Topologie der Netze statt. Die weite Verbreitung ist auf die Einfachheit von PSO zurückzuführen. 

Er ist leicht nachzuvollziehen und schnell zu implementieren. 106 

ACO wurde nur für Feed-Forward-Netze implementiert. Eine Instanz hat die Gewichte des 

neuronalen Netzes mit Hilfe von Wahrscheinlichkeitsdichtefunktionen optimiert, obwohl 

ACO ursprünglich nur für diskrete Problemstellungen gedacht war. Die zweite Instanz hat 

eine diskrete Optimierung vorgenommen und dann auf Backpropagation für eine schnelle 

Konvergenz zum Optimum zurückgegriffen. ACO gilt im Vergleich zu den anderen SI 

Verfahren als nicht sehr effizient. 107 Allerdings ist der Algorithmus aufgrund seiner Flexibilität 

enorm vielseitig und für alle kombinatorischen Probleme anwendbar. 108 

ABC ist ein noch sehr junger Algorithmus, zu welchem es nur wenige Quellen gibt. Er 

wurde ebenfalls nur für die Optimierung von Feed-Forward-Netzen implementiert, zeigt 

hier aber eine starke Performanz. Ähnlich wie PSO ist ABC ein recht simpler Algorithmus 

und darum vergleichsweise einfach zu implementieren. 109 Die Testresultate zeugen von 

großem Potential, sodass es in Zukunft vermutlich noch viele weitere Untersuchungen auf 

ABC geben wird. 

Insgesamt ist SI zur Optimierung von künstlichen neuronalen Netzen erst in den letzten 

Jahren stärker zum Einsatz gekommen. Die in der Literatur beschriebenen Experimente 

zeigen gute Ergebnisse im Vergleich zu etablierten, klassischen Verfahren wie Backpropagation 

und bieten Vorteile bei kritischen Problemen, wie dem der lokalen Optima. Während 

mit ACO-BP ein hybrider Ansatz zwischen SI- und klassischen Optimierungsverfahren 

demonstriert wurde, sind in Zukunft auch Kombinationen von SI-Techniken denkbar, 

bei welchen die Vorteile einzelner Methoden verknüpft werden. 

SI basiert auf simplen, einfach zu rekonstruierenden Verhaltensweisen, führt aber in der 

Summe der Individuen zu hochkomplexen Strukturen, die schwierigste Aufgaben bewälti- 




109 Vgl. KARABOGA, AKAY, OZTURK (2007), S. 320.

- 36 - 

gen. 110 Über Millionen von Jahren hat die Evolution diese emergenten Mechanismen perfektioniert. 

Hieran angelehnte Verfahren zur Optimierung neuronaler Netze sind ein weiterer 

Schritt hin zum gemeinsamen Ziel der künstlichen Intelligenz: die Natur von Intelligenz 

zu verstehen. 

110 Vgl. HEEREN (2006), S. 33.

Literaturverzeichnis 

- 37 - 

Beni, G.; Wang, J.: Swarm Intelligence. In: Proceedings of the Seventh Annual Meeting of 

the Robotics Society of Japan. (1989), S. 425-428. 

Blum, C.; Socha, K.: Training feed-forward neural networks with ant colony optimization: 

An application to pattern classification. In: Proceedings of the Fifth International 

Conference on Hybrid Intelligent Systems. (2005), S. 233-238. 

Bonabeau, E. et al.: Self-Organization in Social Insects. In: working paper, Nr. 12. 1997. 

Bonabeau, E.; Dorigo, M.; Theraulaz, G.: Swarm Intelligence: From Natural to Artificial 

Systems. New York 1999. 

Bonabeau, E.; Meyer, C.: Swarm Intelligence: A Whole New Way to Think About Business. 

In: Harvard Business Review. (2001), S. 106-114. 

Baykasoglu, A.; Özbakir, L.; Tapkan, P.: Artificial Bee Colony Algorithm and Its Application 

to Generalized Assignment Problem. In: Swarm Intelligence: Focus on Ant 

and Particle Swarm Optimization. Hrsg.: F. Chan, M. Tiwari. Wien 2007, S. 113- 

144. 

Clerc, M.; Kennedy, J.: The Particle Swarm – Explosion, Stability, and Convergence in a 

Multidimensional Complex Space. In: IEEE Transactions on Evolutionary Computation. 

(2002), S. 58-73. 

Dorigo, M.; Di Caro, G.: The Ant Colony Optimization Meta-Heuristic. In: New Ideas in 

Optimization. Hrsg.: D. Corne, M. Dorigo, F. Glover. London 1999, S. 11-32. 

Dorigo, M.; Bonabeau, E.; Theraulaz, G.: Ant algorithms and stigmergy. In: Future Generation 

Computer Systems. 16 (2000), S. 851-871. 

Dorigo, M.; Stützle T.: Ant Colony Optimization. Cambridge 2004. 

Eberhart, R.; Shi, Y.: Particle swarm optimization development, applications and resource. 

In: Congress on Evolutionary Computaion. (2001), S. 81-86. 

Engelbrecht, A.: Computational Intelligence. An Introduction. Chichester et al. 2005. 

Engelbrecht, A.: Computational Intelligence. An Introduction. 2. Aufl., Chichester et al. 

2007.

- 38 - 

Fischer, M.: Partnerauswahl in Netzwerken. Ein mehrkriterieller Optimierungsansatz zur 

Bestimmung effizienter Netzkonfigurationen basierend auf Ant Colony Optimization. 

Hamburg 2008. 

Heeren, M.: Swarm Intelligence als Strategie zur Lösung reaktiver Planungsprobleme in 

Wertschöpfungsketten. Dissertation, Universität Oldenburg, Berlin 2006. 

Karaboga, D.: An Idea Based on Honey Bee Swarm for Numerical Optimization. In: technical 

report, Nr. 6. 2005. 

Karaboga, D.; Akay, B.; Ozturk, C.: Artifial Bee Colony Optimization Algorithm for 

Training Feed-Forward Neural Networks. In: Modeling Decisions for Artificial Intelligence. 

Hrsg.: V. Torra, Y. Narukawa, Y. Yoshida. Berlin, Heidelberg 2007, S. 

318-329. 

Karaboga, D.: Artificial Bee Colony (ABC) Algorithm. 2005. http://mf.erciyes.edu.tr/abc/. 

2008-8-29. 

Kennedy, J.; Eberhard, R.: Particle Swarm Optimization. In: working paper. 1995. 

Kennedy, J.; Eberhard, R.; Shi, Y.: Swarm Intelligence. San Francisco 2001. 

Ling, H. et al.: Short-Term Daily Forecasting in an Intelligent Home with GA-Based Neural 

Network. In: Proceedings of the 2002 International Joint Conference on Neural 

Networks. (2002) 1, S. 997-1002. 

Meissner, M., Schmuker, M. Schneider, G.: Optimized Particle Swarm Optimization 

(OPSO) and ist application to artificial neural network training. In: BMC Bioinformatics, 

(2006) 7, S. 1-11. 

Merloti, P.: Optimization Algorithms Inspired by Biological Ants and Swarm Behavior. 

2004. 

http://wwww.merlotti.com/EngHome/Computing/AntsSim/AntOptimizationAlg.p 

df. Abrufdatum 2008-09-02. 

Palangpour, P.; Venayagamoorthy, G.; Duffy, K.: Recurrent Neural Network Based Predictions 

of Elephant Migration in a South African Game Reserve. In: International 

Joint Conference on Neural Networks. (2006), S. 4084-4088. 

Pham, D.; Sholedolu, M..: Using a Hybrid PSO-Bees Algorithm to train Neural Networks 

for Wood Classification. In: working paper, 2008.

- 39 - 

Randall, S.; Sexton, R.; Dorsey, E.: Reliable Classification Using Neural Networks: A Genetic 

Algorithm and Backpropagation Comparison. In: Decision Support Systems. 

30 (2000) 1, S. 11-22. 

Rasmussen, T.; Krink, T.: Improved Hidden Markov Model training for multiple sequence 

alignment by a particle swarm optimization-evolutionary algorithm hybrid. In: 

Biosystems. (2003) 72, S. 5-17. 

Rumelhart, D.; Hinton, G.; Williams, R.: Learning Representations by Backpropagating 

Errors. In: Nature. 323 (1986), S. 533-536. 

Russell, S.; Norvig, P.: Künstliche Intelligenz. Ein moderner Ansatz. 2. Aufl., München 

u. a. 2004. 

Seeley, T.; Visscher, P.: Assessing the benefits of cooperation in honeybee foraging: 

search costs, forage quality, and competitive ability. In: Behavioral Ecology and 

Socio-biology. (1987) 22, S. 229-237. 

Seeley, T.; Camazine, S.; Sneyd, J.: Collective decision-making in honey bees: how colonies 

choose among nectar sources. In: Behavioral Ecology and Socio-biology. 

(1991) 28, S. 277-290. 

Seeley, T.: Honigbienen. Basel u. a. 1997. 

Shao-zhong, S.; Li-biao, Z.; Shu-hua: The application of particle swarm optimization algorithm 

in training Forward Neural Network. In: Proceedings of the Eighth ACIS International 

Conference on Software Engineering, Artificial Intelligence, Networking, 

and Parallel/Distributed Computing. (2007) 2, S. 455-457. 

Shen, Q. et al.: Hybridized particle swarm algorithm for adaptive structure training of multilayer 

feed-forward neural networks: QSAR studiese of bioactivity of organic 

compounds. In Comput. Chem. (2004) 25, S. 1726-1735. 

Shi, Y.; Eberhart, R.: A modified particle swarm optimizer. In: Evolutionary Computation. 

(1998), S. 69-73. 

Socha, K.: ACO for Continuous and Mixed-Variable Optimization. In: ANTS 2004. Hrsg.: 

M. Dorigo et al.. Berlin, Heidelberg 2004, S. 25-36. 

Tereshko, V.; Loengarov, A.: Collective Decision-Making in Honey Bee Foraging Dynamics. 

In: Comput. Inf. Sys. J. (2005) 9, S. 1-7.

- 40 - 

Veeramachaneni, K. et al.: Optimization Using Particle Swarms with Near Neighbor Interactions. 

In: Proceedings of the Genetic and Evolutionary Computation Conference. 

(2003), S. 110-121. 

Yan-Peng, L.; Ming-Guang, W.; Ji-Xin, Q.: Evolving Neural Networks Using the Hybrid 

of Ant Colony Optimization and BP Algorithms. In: Lecture notes in computer 

science. Hrsg.: J. Wang et al.Berlin Heidelberg 2006, S. 714-722.

Anhang 

A Recherchierte Artikel 

Particle Swarm Optimization 

Titel Referenz 

A Comparison of PSO and Backpropagation for Training RBF Mohagheghi et al. (2005) 

Neural Networks for Identification of a Power System with 

STATCOM 

An Analysis Of PSO Hybrid Algorithms For Feed-Forward Neural Marcio Carvalho, Teresa B. Ludermir 

Networks Training 

(2006) 

An Evolutionary Race: A Comparison of Genetic Algorithms and Brian Clow, Tony White (2004) 

Particle Swarm Optimization Used for Training Neural Networks 

Augmentation of Elman Recurrent Network Learning with Particle Aziz, Hamed, Shamsuddin (2008) 

Swarm Optimization 

Combined Training of Recurrent Neural Networks with Particle Xiao, Venayagamoorthy, Corzine 

Swarm Optimization and Backpropagation Algorithms for Imped- (2007) 

ance Identification 

Comparison of Genetic Algorithm and Particle Swarm Optimizer Settles, Rodebaugh, Soule (2003) 

When Evolving a Recurrent Nerual Network 

Comparison of Quantum-Inspired Evolutionary Algorithm and Singhal, Venayagamoorthy (2004) 

Particle Swarm Optimization for Neural Network Training 

Comparison of Quantum-Inspired Evolutionary Algorithms and Venayagamoorthy, Singhal (2005) 

Binary Particle Swarm Optimization for Training MLP and SRN 

Neural Networks 

Extracting rules from fuzzy neural networks by particle swarm Zhenya et al. (1998) 

optimisation 

Modeling of Gene Regulatory Networks with Hybrid Differential Xu, Venayagamoorthy, Wunsch 

Evolution and Particle Swarm Optimization 

(2007) 

Optimized Particle Swarm Optimization (OPSO) and its 

Meisner, Schmuker, Schneider (2006) 

application to artificial neural network training 

Particle Swarm Optimization and Neural Network Application for Wang et al. (2004) 

QSAR 

Particle Swarm Optimization of Feed-Forward Neural Networks Marcio Carvalho, Teresa B. Ludermir 

with Weight Decay 

(2006) 

Particle swarms for feedforward neural network training Mendes et al. (2002) 

Recurrent Neural Network Based Predictions of Elephant Migra- Palangpour, Venayagamoorthy, Duffy 

tion in a South African Game Rerserve 

(2006) 

The application of particle swarm optimization algorithm in train- Shao-zhong, Li-biao, Shu-hua (2007) 

ing Forward Neural Network 

The Development of Neural Network Models by Revised Particle Wu1, Shieh, Kao (2006) 

Swarm Optimization 

Time Series Prediction with Recurrent Neural Networks Trained Cai et al. (2007) 

by a Hybrid PSO-EA Algorithm 

Time Series Prediction with Recurrent Neural Networks Using a Cai et al. (2004): 

Hybrid PSO-EA Algorithm 

Training feedforward neural networks using multi-phase particle Al-kazemi, Mohan (2002) 

swarm optimization 

Training MLP Neural Networks for Identification of a Small Del Valle et al. (2005) 

Power System 

Training product unit neural networks Engelbrecht, Ismail (1999) 

Using the particle swarm optimization technique to train a recur- Salerno (1997) 

rent neural model 

Tab. 6.1: PSO Artikel 

- 41 -

Ant Colony Optimization 


ACO for Continuous and Mixed-Variable Optimization Socha (2004) 

Evolving Neural Networks Using the Hybrid of Ant Colony Opti- Yan-Peng, Ming-Guang, Ji-Xin 

mization and BP Algorithms 

(2006) 

Neural Network Based on Ant Colony Clustering Algorithm Ap- Liu, Sun, Feng (2006) 

plied to Predict the Stability of the Roof in Coal Mining 

Training feed-forward neural networks with ant colony optimization: 

An application to pattern classification 

Tab. 6.2: ACO Artikel 

Blum, Socha (2005) 

Artificial Bee Colony Optimization 


An idea based on honey bee swarm for numerical optimization Karaboga (2005) 

Artificial Bee Colony (ABC) Optimization Algorithm for Training Karaboga, Akay, Ozturk (2007) 

Feed-Forward Neural Networks 

Using a Hybrid PSO-Bees Algorithm to train Neural Networks for 

Wood Defect Classification 

Tab. 6.3: ABC Artikel 

Pham, Sholedolu (2008) 

- 42 - 

Die recherchierten Artikel stellen jene speziellen Ausarbeitungen dar, welche ein SI- 

Verfahren zur Optimierung künstlicher neuronaler Netze beschreiben. Mit ihrer Hilfe wurden 

Kategorien identifiziert. Für jeden entstandenen Kategorietyp wird ein repräsentatives 

Beispiel (kursiv hervorgehoben) vorgestellt.

Abschließende Erklärung 

- 43 - 

Ich versichere hiermit, dass ich meine Bachelorarbeit Optimierung künstlicher neuronaler 

Netze mit Swarm Intelligence selbstständig und ohne fremde Hilfe angefertigt habe, und 

dass ich alle von anderen Autoren wörtlich übernommenen Stellen wie auch die sich an die 

Gedankengänge anderer Autoren eng anlehnenden Ausführungen meiner Arbeit besonders 

gekennzeichnet und die Quellen zitiert habe. 

Münster, den 02.10.2008

Diplomarbeit - Westfälische Wilhelms-Universität Münster

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?