Künstliche Neuronale Netze zur Prognose von Zeitreihen

Westfälische Wilhelms-Universität Münster 

Diplomarbeit 

Künstliche Neuronale Netze zur Prognose von 

Zeitreihen 

Dominik Eisenbach 

Themensteller: Prof. Dr. Wolfram-M. Lippe 

Institut für Informatik 

Abgabetermin: 2005-03-21 

Westfälische Wilhelms-Universität Münster

Inhaltsverzeichnis 

1 Einführung 1 

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 

1.2 Ziel und Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 

2 Statistische Zeitreihenanalyse 4 

2.1 Zeitreihen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 

2.2 Komponentenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 

2.2.1 Bestimmung der Trendkomponente . . . . . . . . . . . . . . . . 7 

2.2.2 Bestimmung der Saisonkomponente . . . . . . . . . . . . . . . . 9 

2.3 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.3.1 Stationäre Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . 11 

2.3.2 Die Differenzenmethode . . . . . . . . . . . . . . . . . . . . . . 12 

2.3.3 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 13 

2.4 Zeitreihenprognosen mit statistischen Modellen . . . . . . . . . . . . . . 16 

3 Künstliche Neuronale Netze 18 

3.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 

3.2 Aufbau und Bestandteile Künstlicher Neuronaler Netze . . . . . . . . . . 19 

3.3 Lernvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 

3.4 Prognose von Zeitreihen mittels Künstlicher Neuronaler Netze . . . . . . 27 

3.4.1 Multi-Layer Perceptrons . . . . . . . . . . . . . . . . . . . . . . 27 

3.4.2 Radiale-Basisfunktionen-Netze . . . . . . . . . . . . . . . . . . 27 

3.4.3 Rekurrente Netze . . . . . . . . . . . . . . . . . . . . . . . . . . 29 

3.4.4 Time-Delay-Netze . . . . . . . . . . . . . . . . . . . . . . . . . 30 

3.5 Vor- und Nachteile der Verwendung von KNN zur Zeitreihen-Prognose . 31 

4 Weitere Prognose-Methoden des Soft Computing 33 

4.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

4.2 Fuzzy-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 

4.3 Evolutionäre Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . 35 

5 Anwendungen von KNN zur Prognose von Zeitreihen 38 

5.1 Angewandte Methodik zur Literaturrecherche . . . . . . . . . . . . . . . 38 

5.2 Anwendungsfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 

5.3 Zur Prognose verwendete Datengrundlage . . . . . . . . . . . . . . . . . 40 

5.3.1 Art der Eingabedaten . . . . . . . . . . . . . . . . . . . . . . . . 40 

5.3.2 Vergangenheitstiefe der Eingabedaten und Prognose-Horizont . . 41 

II

5.3.3 Vorverarbeitung der Eingabedaten . . . . . . . . . . . . . . . . . 42 

5.3.4 Zur Prognose verwendete Datensätze . . . . . . . . . . . . . . . 43 

5.4 Aufbau der verwendeten Netze . . . . . . . . . . . . . . . . . . . . . . . 45 

5.4.1 Verwendete Netz-Typen . . . . . . . . . . . . . . . . . . . . . . 45 

5.4.2 Topologie der Netze . . . . . . . . . . . . . . . . . . . . . . . . 47 

5.4.3 Struktur der Verbindungen zwischen den Neuronen . . . . . . . . 50 

5.4.4 Verwendete Aktivierungsfunktionen . . . . . . . . . . . . . . . . 50 

5.5 Lernvorgang der Künstlichen Neuronalen Netze . . . . . . . . . . . . . . 52 

5.5.1 Verwendete Lernverfahren . . . . . . . . . . . . . . . . . . . . . 52 

5.5.2 Verwendete Lern-Typen . . . . . . . . . . . . . . . . . . . . . . 52 

5.5.3 Eingesetzte Zielfunktionen . . . . . . . . . . . . . . . . . . . . . 54 

5.6 Erfolgsmessung der Prognosen . . . . . . . . . . . . . . . . . . . . . . . 55 

5.6.1 Verwendete Gütefunktionen . . . . . . . . . . . . . . . . . . . . 56 

5.6.2 Vergleiche mit anderen Modellen . . . . . . . . . . . . . . . . . 58 

6 Zusammenhänge zwischen den einzelnen Kriterien 60 

6.1 Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 

6.2 Untersuchung der erwarteten Abhängigkeiten . . . . . . . . . . . . . . . 63 

6.2.1 Abhängigkeiten von den Anwendungsfeldern . . . . . . . . . . . 63 

6.2.2 Abhängigkeiten von der verwendeten Datengrundlage . . . . . . 65 

6.2.3 Abhängigkeiten vom Aufbau der Netze . . . . . . . . . . . . . . 70 

6.3 Untersuchung der nicht erwarteten Abhängigkeiten . . . . . . . . . . . . 73 



6.3.3 Abhängigkeiten vom Lernvorgang . . . . . . . . . . . . . . . . . 78 

6.4 Untersuchung der wünschenswerten Abhängigkeiten . . . . . . . . . . . 79 

6.4.1 Abhängigkeiten von den Anwendungsfeldern . . . . . . . . . . . 80 



6.4.4 Abhängigkeiten vom Lernvorgang . . . . . . . . . . . . . . . . . 87 

6.5 Klassifizierung der Erkenntnisse . . . . . . . . . . . . . . . . . . . . . . 87 

7 Zusammenfassung und Ausblick 90 

Literaturverzeichnis 92 

Zur Analyse verwendete Artikel 94 

Anhang A: Bei der Literaturanalyse erhobene Daten 99 

Anhang B: Durch Data-Mining ermittelte Regeln 112 

III

1 EINFÜHRUNG 

1 Einführung 

1.1 Motivation 

Zeitabhängige Größen sind überall anzutreffen. Sowohl die Frequenz unseres Herzschlags 

als auch auch Aktienkurse sind Beispiele für Größen, die sich mit dem Zeitablauf än- 

dern. Durch die Beobachtung derartiger Variablen werden Zeitreihen gebildet, die den 

vielfältigsten Bereichen entstammen können. Bei einigen dieser Beobachtungen ist die 

zukünftige Entwicklung der jeweiligen Zeitreihen von besonderem Interesse. Wäre diese 

bekannt, könnten daraus in vielen Fällen Vorteile für den Einzelnen, wie beispielswei- 

se monetäre Gewinne an der Börse, oder sogar für eine große Gruppe von Menschen, 

wie etwa bei Sturmwarnungen, abgeleitet werden. Auch bei Unternehmen liegt es auf der 

Hand, dass diese beispielsweise von Informationen über die zukünftige Entwicklung des 

Produkt-Absatzes direkt profitieren. Aus diesem Grund ist es nicht verwunderlich, dass 

die Menschen schon seit Urzeiten versuchen, auf die verschiedensten Arten den weiteren 

Verlauf solcher Größen vorherzusehen. 

Eine sichere Prognose über die Zukunft ist zwar in der Regel nicht möglich, jedoch kön- 

nen durch die Anwendung unterschiedlichster Methoden die Entwicklungen zumindest 

einigermaßen genau vorausgesagt werden. Bei mathematischen Prognosen werden hier- 

für die bekannten Werte einer Zeitreihe genutzt, um aus den darin liegenden Informa- 

tionen Rückschlüsse auf die zukünftige Entwicklung der Reihe zu ziehen. Dieser Ansatz 

liegt auch den Künstlichen Neuronalen Netzen (KNN) zugrunde, die seit 1964 1 

ebenfalls für die Prognose von Zeitreihen eingesetzt werden. Insbesondere seit 1986 das 

Backpropagation-Verfahren als allgemeiner Lernalgorithmus für Neuronale Netze eine 

größere Verbreitung erlangte, 2 wurden diese auch als ernst zu nehmende Konkurrenten 

der traditionellen statistischen Verfahren wahrgenommen. 3 

Im Laufe der Zeit wurden immer mehr auf KNN basierende Prognoseverfahren entwi- 

ckelt und stetig weiter verfeinert. Es existiert jedoch bis heute keine Methode, die den 

anderen Methoden in jeder Situation überlegen wäre. 4 Auch ein allgemein gültiges Vor- 

gehen, nach dem aus speziellen Situationen Handlungsanweisungen für die Modellierung 

eines optimalen Prognose-Modells abgeleitet werden könnten, konnte sich bis heute nicht 

durchsetzen. Stattdessen werden die einzelnen Methoden oft nahezu willkürlich ausge- 

wählt und die Parameter der jeweiligen Methoden in der Regel jedes Mal neu durch einen 

mehr oder weniger aufwändigen „Trial and Error“-Prozess bestimmt. 

1 1964 wurde von M. J. C. HU erstmals eine Anwendung von WIDROWS Adeline-Netz zur Wettervorhersage 

veröffentlicht (Vgl. [ZhPH98, S. 36]). 

2 Das Backpropagation-Verfahren wurde zwar erstmalig bereits 1969 von A. E. BRYSON und Y. C. HO 

(1969) beschrieben, seine große Bedeutung erlangte es allerdings erst 1986 durch die Arbeiten von D. 

RUMMELHART und J. MCCLELLAND (Vgl. [Zabe01, S. 5 f.], [Zell00, S. 30 ff.]). 

3 Vgl. [ZhPH98, S. 36]. 

4 Vgl. [Zhan03, S. 160]. 

1

1 EINFÜHRUNG 

1.2 Ziel und Aufbau 

Wie in Kapitel 1.1 beschrieben, existiert beim Einsatz von KNN zur Prognose von Zeitrei- 

hen keine einheitliche Vorgehensweise. Im Rahmen dieser Arbeit wird deshalb unter- 

sucht, ob zwischen unterschiedlichen Anwendungen und Methoden, sowie den einzel- 

nen Merkmalen der jeweiligen Methoden, Zusammenhänge zu erkennen sind. Aus diesen 

könnten im günstigsten Fall Handlungsempfehlungen für die Modellierung von Prognose- 

Modellen abgeleitet und somit zukünftige Prognosen erleichtert werden. Falls dies nicht 

möglich ist, sollte zumindest deutlich werden, wonach in weiteren Untersuchungen ge- 

zielt gesucht werden müsste. Hierfür wurden die letzten fünf Jahrgänge (2000–2004) der 

internationalen wissenschaftlichen Zeitschriften Neurocomputing, Neural Networks und 

Journal of Forecasting auf Anwendungen Künstlicher Neuronaler Netze zur Prognose 

von Zeitreihen untersucht und auf diese Fragestellung hin ausgewertet. 

Kapitel 2: 

Statistische 

Methoden 

Kapitel 1: Problembeschreibung und Zielsetzung 

Kapitel 3: 

Künstliche 

Neuronale Netze 

Kapitel 5: 

Erhebung und Klassifikation von Anwendungen 

Kapitel 4: 

Weitere Methoden 

des Soft Computing 

Kapitel 6: 

Verknüpfung einzelner Kriterien zur Ableitung von Empfehlungen 

Kapitel 7: 

Zusammenfassung und Ausblick 

Abbildung 1: Aufbau der Arbeit 

Grundlagen 

Auswertung der 

Datenerhebung 

Analyse der 

Zusammenhänge 

In den Kapiteln 2 bis 4 dieser Arbeit werden zunächst die für die Prognose von Zeitreihen 

notwendigen Grundlagen beschrieben. Hierfür werden in Kapitel 2 die für die statistische 

Zeitreihenanalyse üblichen Methoden vorgestellt. Diese dienen bei einigen Anwendungen 

von KNN als Vergleichsmethoden, die zur Evaluation der jeweiligen Prognose-Modelle 

hinzugezogen werden. Zusätzlich werden die statistischen Methoden oftmals für die Auf- 

bereitung von Daten angewendet, bevor diese einem KNN vorgelegt werden. 

In Kapitel 3 werden Künstliche Neuronale Netze als universelle Funktionsapproximatoren 

vorgestellt. Dabei wird zunächst der generelle Aufbau von KNN und aller wesentlichen 

Bestandteile allgemein beschrieben. Anhand der zur Prognose von Zeitreihen am häu- 

figsten eingesetzten Netz-Typen wird sodann das jeweilige Vorgehen bei den Prognosen 

dargestellt. Weiter werden generelle Vor- und Nachteile bei der Verwendung von KNN 

2

1 EINFÜHRUNG 

zur Zeitreihen-Prognose diskutiert. Eine grundsätzliche Einordnung von KNN in das Ge- 

biet des Soft Computing findet in Kapitel 4 statt. Neben einer kurzen Einführung in dieses 

Gebiet werden hier auch zu KNN alternative Soft Computing-Verfahren zur Prognose von 

Zeitreihen vorgestellt. 

Der Hauptteil dieser Arbeit beschäftigt sich in den Kapiteln 5 und 6 mit den für diese 

Arbeit erfassten Prognose-Anwendungen von KNN. In Kapitel 5 wird zunächst die bei 

der Literaturrecherche angewandte Methodik dargelegt. Im Anschluss daran werden die 

durch die Recherche erfassten Anwendungen beschrieben und in Anwendungsbereiche 

aufgeteilt. Weiterhin werden die Eigenschaften der jeweils angewendeten Methoden ka- 

tegorisiert und die Anwendungen den jeweiligen Kategorien zugeordnet. 

Während die angewandten Methoden hier jedoch noch ausschließlich auf singuläre Mus- 

ter untersucht werden, wird dieses Vorgehen in Kapitel 6 auf die verknüpfte Betrach- 

tung einzelner Eigenschaften ausgeweitet. Dabei werden die Ergebnisse dieser Analysen 

auf potentiell ableitbare Handlungsempfehlungen für die Modellierung von Prognose- 

Modellen hin untersucht. Abschließend werden die Erkenntnisse in Kapitel 7 noch einmal 

zusammengefasst, und es werden Möglichkeiten für ein weiteres Vorgehen vorgeschla- 

gen. 

Zur besseren Übersicht ist in Abbildung 1 der Aufbau dieser Arbeit noch einmal grafisch 

dargestellt. 

3

2 STATISTISCHE ZEITREIHENANALYSE 

2 Statistische Zeitreihenanalyse 

2.1 Zeitreihen 

Eine Zeitreihe besteht aus einer geordneten Folge von Beobachtungen yt eines Merk- 

mals Y , die über einen Zeitraum hinweg erfolgen. Die Zeitpunkte 5 t = 1,...,n können 

äquidistant sein, wie beispielsweise bei der stündlichen Stromnachfrage einer Stadt. Oft- 

mals haben sie allerdings unregelmäßige Abstände. So werden beispielsweise bei der Un- 

tersuchung von „täglichen“ Schlusskursen einer Aktie weder Wochenenden noch Feier- 

tage, sondern lediglich die Börsentage betrachtet. Bei anderen Zeitreihen sind auch voll- 

kommen unregelmäßige Abstände möglich. 

Handelt es sich um einen kontinuierlichen Datenstrom, können aus diesem durch Abtas- 

ten Zeitreihen gebildet werden. Hier legt dann in der Regel die sogenannte Samplingrate 

ein konstantes Intervall zwischen zwei Datenpunkten fest. Neben den univariaten gibt es 

auch multivariate Zeitreihen. Dies bedeutet, dass die einzelnen Datenpunkte aus mehrdi- 

mensionalen (allerdings immer gleichartigen) Datentupeln bestehen können. 

115,0 

110,0 

105,0 

100,0 

95,0 

90,0 

100,0 

95,0 

90,0 

1991 1992 1993 1994 1995 

Abbildung 2: Monatlicher Preisindex für „Pflanzen, Güter für die Gartenpflege“ 

Zur Veranschaulichung 115,0 können die einzelnen Beobachtungen in ein Diagramm eingetra- 

110,0 

gen werden, wie es in Abbildung 2 zu sehen ist. Die hier zu Grunde liegende Zeitreihe 

105,0 

besteht aus den monatlichen Werten eines Preisindex für die Warengruppe „Pflanzen, Gü- 

ter für die Gartenpflege“ über den Zeitraum von 1991 bis 1995. Die zugehörigen Daten 

sind in Tabelle 1 angegeben. 6 Auch wenn die ursprüngliche Zeitreihe aus diskreten Be- 

obachtungen besteht, wurden die Beobachtungspunkte in der Abbildung zur optischen 

10,0 

-10,0 

1991 1992 1993 1994 1995 

Aufwertung miteinander verbunden. 

Schon auf den ersten Blick ist ein positiver Trend in den Daten erkennbar. Hinzu kommt, 

dass in offenbar regelmäßigen Abständen wiederkehrende Höhen und Tiefen der Daten 

5 Es kann sich 5,0hierbei 

auch um Zeiträume handeln. Dies ist z. B. der Fall, wenn Mengen pro Zeiteinheit 

6 

gemessen werden. 

0,0 

Die Werte wurden entnommen aus [FKPT01, S. 526]. 

1991 1992 1993 

-5,0 

1994 1995 

4


auftreten. Diese beiden Eigenschaften der Zeitreihe werden als Trend- und Saisonkompo- 

nenten des Komponentenmodells in Kapitel 2.2 genauer untersucht. 

Jan. Febr. März April Mai Juni Juli Aug. Sept. Okt. Nov. Dez. 

1991 104,7 103,5 102,8 101,6 98,2 101,3 99,2 95,3 94,2 97,1 100,5 102,1 

1992 107,4 106,8 106,3 104,0 105,3 100,9 100,3 99,3 100,7 101,8 105,1 106,0 

1993 107,6 107,8 107,8 106,4 106,5 104,8 104,2 104,1 104,8 106,0 107,8 108,7 

1994 109,5 110,2 109,4 108,0 107,9 106,6 105,1 104,2 105,6 106,9 108,5 109,6 

1995 110,8 111,3 110,3 109,1 108,0 107,2 106,2 105,6 106,2 108,3 109,8 110,9 

Tabelle 1: Monatlicher Preisindex für „Pflanzen, Güter für die Gartenpflege“ 

Zeitreihenanalysen können zur Erreichung unterschiedlicher Ziele durchgeführt werden. 7 

Diese Ziele sind z. B. 

• die Bestimmung von Regelmäßigkeiten eines zeitlichen Vorgangs, um diesen be- 

schreiben zu können, 

• die Elimination von seriellen Abhängigkeiten oder Trends in Zeitreihen, um einfa- 

che Parameter schätzen zu können, 

• das Erkennen von Veränderungen in Zeitreihen, um ggf. Gegenmaßnahmen einlei- 

ten zu können, 

• das Erkennen von bekannten Mustern in Zeitreihen, um bestimmte Ereignisse iden- 

tifizieren zu können, 

• die Prognose der zukünftigen Entwicklung einer Zeitreihe (sowohl die qualitative 

Richtung als auch deren quantitatives Ausmaß können hierbei Inhalt der Prognose 

sein). 

Um diese Ziele zu erreichen, wird in der Statistik ein Modell konstruiert, mit dem die 

beobachtete Zeitreihe beschrieben werden kann. Hierfür gibt es zwei grundsätzlich ver- 

schiedene Modellformen: Zum einen das deterministische Modell, das in Form des Kom- 

ponentenmodells in Kapitel 2.2 beschrieben wird und zum anderen das in Kapitel 2.3 

erläuterte stochastische Modell. Die Eigenschaften des jeweiligen Modells sollten dabei 

mit denen der beobachteten Zeitreihe möglichst genau übereinstimmen, so dass die Werte 

der Reihe auch durch das gefundene Modell hervorgebracht worden sein könnten. 8 

Der Modellbildungsprozess lässt sich in vier Phasen einteilen: 9 

• In der Identifikationsphase wird die Zeitreihe beispielsweise durch grafische Aufbe- 

reitung (wie oben geschehen) oder statistische Tests auf ihre Eigenschaften hin un- 

tersucht. Aufgrund dieser Eigenschaften und der weitergehenden Zielsetzung wird 

das grundsätzliche Modell zur Beschreibung der Zeitreihe gewählt. 

7 Vgl. beispielsweise [HaEK89, S. 637]. 

8 Vgl. [Schi03, S. 568 f.]. 

9 Vgl. [Wiki04, Kap. 2]. 

5


• In der Schätzphase werden die Parameter des gewählten Modells beispielswei- 

se durch die weiter unten beschriebene Methode der Kleinsten Quadrate (Kapi- 

tel 2.2.1) oder die Box-Jenkins-Methode (Kapitel 2.3.3) geschätzt. 

• In der Diagnosephase werden die geschätzten Parameter des Modells über Visua- 

lisierung oder statistische Tests überprüft. Liegen verschiedene Modellalternativen 

vor, so wird hier diejenige ausgewählt, die die Zeitreihe am besten erklärt. 

• In der Einsatzphase wird das spezifizierte Modell verwendet, um das vorher festge- 

legte Ziel der Zeitreihenanalyse wie beispielsweise die Prognose zukünftiger Werte 

der Zeitreihe zu erreichen. 

2.2 Komponentenmodelle 

Liegen in den erhobenen Werten Regelmäßigkeiten vor, kann man die daraus resultieren- 

de Zeitreihe als Zusammensetzung einzelner Bestandteile beschreiben. Hierfür wird die 

Zeitreihe beispielsweise auf einen Trend oder auf periodisch wiederkehrende Schwankun- 

gen hin untersucht. Diese werden durch verschiedene Methoden quantifiziert, so dass sich 

die ursprüngliche Zeitreihe in ihre additiv bzw. multiplikativ verknüpften Komponenten 

zerlegen lässt. 10 Gängige Komponenten einer solchen Zerlegung sind: 

• ein Trend mt, der die langfristige Veränderung des Niveaus der Zeitreihe beschreibt, 

• ein Zyklus kt (oft auch Konjunkturkomponente), der mehrjährige, nicht notwendi- 

gerweise regelmäßige Schwankungen, wie beispielsweise die wirtschaftliche Kon- 

junktur, beschreibt, 

• die Saison st, die Schwankungen mit regelmäßiger Periode beschreibt und 

• der Rest ut, der als übrig bleibende und nicht weiter erklärbare Komponente unre- 

gelmäßige Einflüsse oder Störungen enthält. 

Mit ihren einzelnen Komponenten können Zeitreihen als additives oder multiplikatives 

Modell zusammengesetzt werden: 

yt = mt + kt + st + ut bzw. yt = mt · kt · st · ut 

Bei der Aufstellung eines Komponenten-Modells ist allerdings zu beachten, dass nicht in 

jeder Zeitreihe alle aufgeführten Komponenten zu finden sind und deshalb die Formeln 

leicht abweichen können. Beispielsweise werden insbesondere dann, wenn der Zeitraum 

der betrachteten Daten nicht über einen Zyklus hinausgeht, Trend und Zyklus in einer 

10 Vgl. [Schi03, S. 130 ff.]. 

6


glatten Komponente gt zusammengefasst. Da dies sehr häufig der Fall ist, wird im Wei- 

teren nicht gesondert auf die Zyklenkomponente eingegangen. Stattdessen werden die 

Begriffe „Trend“ und „glatte Komponente“ synonym verwendet. Ob überhaupt ein signi- 

fikanter Trend in der Zeitreihe vorliegt, kann über statistische Tests überprüft werden. 

Beispiele für solche Tests finden sich u. a. in [HaEK89, S. 247 ff.]. 

Der im Modell vorkommende Rest ut kann sehr unterschiedliche Bedeutungen haben. 

Während hier in manchen Fällen nur zufällige und unwesentliche Schwankungen zusam- 

mengefasst werden, liegt bei anderen Zeitreihen gerade in dieser Restkomponente die 

eigentlich gesuchte Information. Ein Beispiel hierfür ist die Analyse von Arbeitslosen- 

zahlen. Wird hierbei untersucht, wie sich arbeitsmarktpolitische Maßnahmen ausgewirkt 

haben, sind in erster Linie die von den regelmäßigen Schwankungen befreiten Änderun- 

gen von Interesse. 

Es existieren verschiedene Methoden um die Restkomponente einer Zeitreihe zu bestim- 

men. Im Folgenden werden einige einfache Möglichkeiten dargestellt, wie die Trend- und 

Saisonkomponenten bestimmt werden können. Nachdem diese aus der Zeitreihe elimi- 

niert wurden, bleibt als Residuum die gesuchte Restkomponente. 

2.2.1 Bestimmung der Trendkomponente 

Zur Isolierung der langfristigen Veränderung einer Zeitreihe wird durch eine Regressions- 

analyse eine Funktion der Zeit konstruiert. Deren Parameter werden derart geschätzt, dass 

die Funktion das durchschnittliche Niveau der Zeitreihe möglichst genau abbildet. Schon 

die Betrachtung des Datenplots einer Zeitreihe gibt schon erste Aufschlüsse darüber, ob 

es sich um einen positiven oder negativen Trend handelt. Um für die Regression einen 

geeigneten Funktionstyp zu wählen, ist es jedoch auch wichtig festzustellen, ob der Trend 

anwachsend, gleichbleibend oder abschwächend verläuft. Es gilt einen Funktionstyp zu 

finden, der diesem Verlauf möglichst genau entspricht. Beispiele solcher Funktionstypen 

sind in Tabelle 2 angegeben. Die Parameter dieser Funktionen sind linear und können 

11 Vgl. [BEPW03, S. 80]. 

Nr. Bezeichnung Definition 

1 Linear ax + b 

2 Logarithmus ln(x) 

3 Exponential exp(x) 

4 Arkussinus sin −1 (x) 

5 Arkustangens tan−1 (x) 

 

6 Logit ln 

7 Reziprok 1 

x 

8 Quadrat x2 √ 

9 Wurzel x 

x 

(1−x) 

Tabelle 2: Beispiele für Funktionstypen zur Trendbestimmung 11 

7


beispielsweise über die Methode der Kleinsten Quadrate (KQ) geschätzt werden. Hierbei 

werden die Parameter so bestimmt, dass die Summe der quadrierten Abweichungen je- 

des Zeitreihenwertes yt von dem zugehörigen Wert der glatten Komponente mt minimiert 

wird. Es gilt also: 

n 

∑ 

t=1 

(yt − mt) 2 −→ min 

Die einfachste, aber dennoch häufig angewandte Funktion ist die lineare Funktion. Von 

der Grundfunktion mt = a + b · t ausgehend, werden die Parameter a und b mit der KQ- 

Methode geschätzt. Durch einfache Differenzialrechnung ergibt sich: 12 

115,0 

110,0 

105,0 n 

∑ 

100,0t=1 

mit t · y = 1 n 

95,0 

t · yt, y = 1 n 

â = y − ˆb ·t 

n 

∑ 

t=1 

yt, t 2 = 1 n 

ˆb = 

t · y −t · y 

t 2 −t 2 

n 

∑ t 

t=1 

2 = (n+1)·(2n+1) 

6 , t = 1 n 

n 

∑ 

t=1 

t = n+1 

2 

Für die konkreten Parameter der Zeitreihe des Preisindex für „Pflanzen, Güter für die 

90,0 

Gartenpflege“ 1991 aus Kapitel 2.1 1992ergeben sich 1993 somit die 1994 Parameter 1995 a = 100,4093 und b = 

0,1593. Zur Verdeutlichung ist in Abbildung 3 zusätzlich zur ursprünglichen Zeitreihe yt 

die damit berechnete Trendfunktion mt eingezeichnet. 

115,0 

110,0 

105,0 

100,0 

95,0 

90,0 

10,0 

5,0 

0,0 

-10,0 

1991 1992 1993 1994 1995 

Abbildung 3: Monatlicher Preisindex für „Pflanzen, Güter für die Gartenpflege“ mit linearem 

Trend 

In Abbildung 4 ist die vom Trend bereinigte Zeitreihe zu sehen, die sich als Residualreihe 

durch die Subtraktion des Trends von der ursprünglichen Zeitreihe ergibt (yt − mt). Aus 

den so entstehenden Werten ist das absolute Niveau der ursprünglichen Zeitreihe natürlich 

nicht mehr ablesbar. 

1991 1992 1993 1994 1995 

-5,0 

Weitere Methoden, den Trend aus einer Zeitreihe zu eliminieren, fasst man unter Filte- 

rung zusammen. Hierzu gehören beispielsweise die Bildung von Differenzen, wie sie in 

Kapitel 2.3.2 5,0 beschrieben wird, oder die Bildung geeigneter Durchschnitte 

3,0 

1,0 

-1,0 

mt = ∑αiyt−i 1991 1992 1993 1994 1995 

-3,0 

i 

12 Vgl. [Kopf04, -5,0 Kap. 2.4.1]. 

5,0 

8

90,0 

1991 1992 1993 1994 1995 


10,0 

5,0 

0,0 

-5,0 

-10,0 

1991 1992 1993 1994 1995 

Abbildung 4: Trendbereinigter Preisindex für „Pflanzen, Güter für die Gartenpflege“ 

5,0 

3,0 

1,0 

über eine festgelegte -1,0 Anzahl von i benachbarten Beobachtungswerten 

-3,0 

-5,0 

1991 1992 1993 1994 1995 

13 , die mit den Faktoren 

αi gewichtet werden. 14 Beispiele für letztere Methode sind gleitende Durchschnitte 

und die exponentielle Glättung. Während bei der Bildung von Differenzen der Trend aus 

der Zeitreihe herausgefiltert wird, filtert die Durchschnittsbildung alle Bestandteile aus 

der Zeitreihe, die nicht Bestandteil des Trends oder der glatten Komponente sind. 

5,0 

2.2.2 Bestimmung der Saisonkomponente 

0,0 

1991 

-5,0 

1992 1993 1994 1995 

Auch zur Bestimmung der Saisonkomponente gibt es viele verschiedene Verfahren. Diese 

hängen unter -10,0anderem 

vom grundsätzlichen Verlauf der Komponente ab. Entscheidend für 

die Modellwahl ist, wie sich die positiven und negativen saisonalen Abweichungen in den 

Perioden des Beobachtungszeitraums verhalten. Mögliche Modelle sind 

10 

• eine konstante Saisonfigur, bei der die Abweichungen in allen Perioden gleich groß 

sind, 

• eine Saisonfigur mit variabler Amplitude, deren Ausmaß in allen Perioden propor- 

tional zu den Werten der glatten Komponente steht oder 

• eine variable Saisonfigur, falls sich die Struktur der Saisonfigur im Zeitablauf verändert. 

15 

Eine mögliche Methode für die erste Modellform stellt das Phasendurchschnittsverfah- 

ren 16 dar. Hier wird für jede Phase ph der k Phasen pro Periode die durchschnittliche Ab- 

weichung dph von der glatten Komponente ermittelt. Normiert man diese Durchschnitte 

derart, dass deren Summe 0 ergibt, so erhält man für die einzelnen Phasen jeweils eine 

Saisonveränderungszahl sph: 

sph := dph − 1 

k ∑dph ph 

13 Gibt es in den zugrunde liegenden Daten eine saisonale Komponente, so bietet es sich an für i genau 

deren Periode zu nehmen. 

14 Vgl. [Schi03, S. 133]. 

15 Vgl. [HaEK89, S. 641]. 

16 Vgl. [Kopf04, Kap. 2.6.5]. 

9


Das Beispiel 115,0aus 

Kapitel 2.1 hat als Phasen die zwölf Kalendermonate, deren Saisonver- 

änderungszahlen 110,0 in Tabelle 3 angegeben sind. 

105,0 

Jan. Febr. März April Mai Juni Juli Aug. Sept. Okt. Nov. Dez. 

1991 100,0 4,1 2,8 1,9 0,6 -3,0 -0,1 -2,3 -6,4 -7,6 -4,9 -1,7 -0,2 

1992 

1993 95,0 

4,9 

3,2 

4,2 

3,2 

3,5 

3,1 

1,0 

1,5 

2,2 

1,5 

-2,4 

-0,4 

-3,1 

-1,1 

-4,3 

-1,4 

-3,1 

-0,9 

-2,1 

0,2 

1,0 

1,8 

1,8 

2,6 

1994 3,2 

90,0 

1995 2,6 

sph 

1991 3,6 

3,7 

2,9 

3,4 

2,8 

1,8 

2,6 1992 

1,2 

0,4 

0,9 

1,0 -0,5 

-0,9 -1,8 

0,21993-1,0 -2,2 

-3,0 

-2,3 

-3,2 

-3,7 

1994 -3,8 

-2,0 

-3,3 

-3,4 

-0,8 

-1,3 

1995 -1,8 

0,6 

0,0 

0,4 

1,5 

0,9 

1,3 

Tabelle 3: Monatliche Abweichung des Preisindex für „Pflanzen, Güter für die Gartenpflege“ vom 

linearen Trend 

Da zur Approximation 10,0 des Trends in Kapitel 2.2.1 eine lineare Funktion verwendet wur- 

5,0 

de, sind diese Zahlen bereits mit den durchschnittlichen Abweichungen vom berechneten 

Trend identisch. Wird von der trendbereinigten Zeitreihe auch noch diese Saisonkompo- 

nente abgezogen, so bleibt nur noch der in Abbildung 5 zu sehende unerklärte Rest ut 

übrig. 

0,0 

-5,0 

-10,0 

5,0 

3,0 

1,0 

-1,0 

-3,0 

-5,0 

5,0 

0,0 

1991 1992 1993 1994 1995 

1991 1992 1993 1994 1995 

1991 1992 1993 1994 1995 

Abbildung 5: Unerklärte Komponente ut des Preisindex für „Pflanzen, Güter für die Gartenpflege“ 

Alternative Ansätze zur Bestimmung der Saisonkomponente sind z. B. 

1991 

-5,0 

1992 1993 1994 1995 

• das -10,0 Regressionsverfahren, bei dem die Saisonveränderungszahlen durch die KQ- 

Methode bestimmt werden, 

10 

• die Differenzenmethode zur Elimination der Saisonkomponente, 17 

• das Berliner Verfahren, bei dem eine harmonische Schwingung mit geschätzten Pa- 

rametern die Saisonkomponente approximiert und 

• das Phasendurchschnittsverfahren für das multiplikative Komponentenmodell, bei 

dem die Saisonveränderungszahlen so normiert werden, dass ihr Durchschnitt genau 

1 ist. 18 

17 Vgl. Kap. 2.3.2. 

18 Vgl. beispielsweise [HaEK89, S. 668 f.], [Kopf04, Kap. 2.6] oder [Schi03, S. 155 ff.]. 

10


2.3 Stochastische Prozesse 

Eine zeitlich geordnete Folge von Zufallsvariablen 

{Y } = Y1,Y2,Y3,...,Yt,... 

wird als stochastischer Prozess bezeichnet. 19 Es handelt sich dabei also um einen dyna- 

mischen Vorgang mit Zufallscharakter. Bei der Zeitreihenanalyse wird unterstellt, dass 

es sich bei der beobachteten Zeitreihe y1,y2,...,yn um eine mögliche (zufällige) Realisie- 

rung eines solchen Prozesses handelt. Da dies bedeutet, dass jede einzelne Beobachtung yt 

durch eine eigene Zufallsvariable Yt generiert wurde, ist es sehr schwierig von den Beob- 

achtungen ausgehend Rückschlüsse auf den stochastischen Prozess zu ziehen. Trotzdem 

muss versucht werden, aus den Informationen, die aus der beobachteten Zeitreihe gewon- 

nen werden, das Modell eines stochastischen Prozesses derart zu schätzen, dass es sich 

bei der Zeitreihe um eine endliche Realisierung eben dieses Prozesses handeln könnte. 

Um die Bestimmung des stochastischen Prozesses zu vereinfachen, wird a priori eine 

Klasse von möglichen Prozessen 20 vorgegeben. Für die Beschreibung des konkreten Pro- 

zesses {Y } ist es in der Regel dann ausreichend, die ersten und zweiten Momente seiner 

Zufallsvariablen anzugeben: 21 

1. Mittelwertfunktion µ(t) :=E(Yt) 

2. Varianzfunktion σ 2 (t) :=Var(Yt) 

3. Autokovarianzfunktion γ j(t) :=Cov(Yt,Yt− j) 

4. Autokorrelationsfunktion ρ j(t) := 

γ j(t) 

σ(t)·σ(t− j) 

Bei j handelt es sich in den Autokovarianz- und Autokorrelationsfunktionen um den Ab- 

stand der jeweils betrachteten Zufallsvariablen Yt und Yt− j, der auch Zeitlag genannt wird. 

2.3.1 Stationäre Prozesse 

Oftmals wird eine gewisse zeitliche Stabilität des stochastischen Prozesses gefordert. 

Dies wird beispielsweise dadurch erreicht, dass jede endliche Folge von Zufallsvariablen 

Y1,...,Ym eine identische Wahrscheinlichkeitsverteilung besitzt, wie die um eine belie- 

bige Anzahl von k Zeitpunkten verschobene Folge Y1+k,...,Ym+k. Daraus folgt, dass die 

durch den Prozess gebildeten Zeitreihen einen beliebigen Startzeitpunkt haben können, 

da die Verteilungen vom Zeitindex unabhängig sind. In einem solchen Fall spricht man 

von einem streng stationären Prozess. 

19 Vgl. [Schi03, S. 567]. 

20 Dies sind beispielsweise die im folgenden Kapitel beschriebenen stationären Prozesse. 

21 Vgl. [Schi03, S.569]. 

11


In der Praxis besteht ein Problem darin, dass eine solche Stationarität nur schwer nach- 

weisbar ist. In der Regel ist allerdings auch schon eine schwache Stationarität ausrei- 

chend. Hierfür wird lediglich gefordert, dass die Zufallsvariablen des Prozesses in ihren 

ersten beiden Momenten übereinstimmen. Das heißt, es soll für alle t und j gelten: 22 

1. µ(t) = µ 

2. σ 2 (t) = σ 2 

3. γ j(t) = γ j 

Selbst bei einem streng stationären Prozess müssen die Zufallsvariablen nicht notwendi- 

gerweise unabhängig verteilt sein. Im Gegenteil sind es oftmals gerade die bestehenden 

Abhängigkeiten, die durch die Zeitreihenanalyse aufgedeckt werden sollen. Die Art der 

Abhängigkeit ist jedoch bei allen Zufallsvariablen eines stationären Prozesses dieselbe 

und lediglich durch den Grad der Nachbarschaft der betrachteten Variablen bestimmt. 

Um von einer gegebenen Zeitreihe ausgehend die Momente eines Prozesses schätzen zu 

können, ist es nicht ausreichend, dass dieser stationär ist. Zusätzlich dürfen die Autoko- 

varianzen γ j nicht zu groß sein und müssen mit steigendem Lag j schnell kleiner werden, 

damit gilt: 23 

∞ 

∑ |γ j| < ∞ 

j=0 

Ist auch diese Voraussetzung erfüllt, können die Momente eines stationären Prozesses aus 

den jeweiligen empirischen Momenten der betrachteten Zeitreihe geschätzt werden. 24 

Ein Spezialfall der stochastischen Prozesse ist der sogenannte White-Noise-Prozess bzw. 

das Weiße Rauschen. Dieser Prozess ist deshalb von Interesse, da er vielen anderen Pro- 

zessen wie beispielsweise den in Kapitel 2.3.3 beschriebenen Moving-Average-Prozessen 

als Grundbaustein dient. Es handelt sich dabei um einen stationären Prozess {ε}, dessen 

Varianzfunktion σ 2 (t) zu allen Zeitpunkten t einen konstanten Wert annimmt und des- 

sen Mittelwerte µ(t) und Autokovarianzen γ j(t) für alle t und j ( j = 0) konstant 0 sind. 

Bisweilen wird zusätzlich vorausgesetzt, dass die Zufallsvariablen des Weißen Rauschens 

unabhängig und identisch verteilt sind. 25 

2.3.2 Die Differenzenmethode 

Wie bereits in Kapitel 2.2 erwähnt, eignet sich zur Elimination einer Trend- oder Sai- 

sonkomponente jeweils auch die Differenzenmethode. Hierbei handelt es sich um einen 

linearen Filter, der eine Zeitreihe durch Bildung von Differenzen in eine andere Zeitrei- 

he transformiert. Die gängigste Variante, die auch für die Eliminierung eines linearen 

22 Vgl. [HaEK89, S. 678]. 

23 Mit dieser Voraussetzung wird sichergestellt, dass der Prozess mittelwertergodisch ist. 

24 Vgl. [Schi03, S. 574 f.]. 

25 Vgl. [Schi03, S. 577]. 

12


Trends ausreicht, ist der Differenzenfilter 1. Ordnung. Durch diesen werden die Werte y ∗ t 

der neuen Zeitreihe durch die einfache Differenz von jeweils benachbarten Werten der 

ursprünglichen Zeitreihe gebildet. 

y ∗ t = ∆yt = yt − yt−1 für t = 2,...,n 

Liegt bei den Daten ein polynomer Trend vor, ist es notwendig einen Differenzenfilter 

höherer Ordnung (entsprechend dem Grad des angenommenen Polynoms) anzuwenden. 

Allgemein gilt bei einem Differenzenfilter p-ter Ordnung die folgende rekursive Transformation: 

26 

y ∗ t = ∆ p yt = ∆ p−1 yt − ∆ p−1 yt−1 für t = p + 1,...,n 

Um eine Saisonkomponente mit fester Periodenlänge q aus einer Zeitreihe herauszufiltern, 

werden saisonale Differenzen nach dem folgenden Schema gebildet: 27 

y ∗ t = yt − yt−q für t = q + 1,...,n 

Um sowohl die Trend- als auch die Saisonkomponente einer Zeitreihe zu eliminieren, 

können der normale und der saisonale Differenzenfilter kombiniert werden. In jedem Fall 

muss jedoch bei der Weiterbearbeitung der neu gebildeten Zeitreihe beachtet werden, dass 

diese nun aus weniger Werten als die ursprüngliche Zeitreihe besteht. 

2.3.3 Lineare Modelle 

Das für die Zeitreihenanalyse gängigste lineare Modell ist das ARIMA-Modell, das von 

BOX und JENKINS 28 in den 70er Jahren zu einem brauchbaren Modell für Prognosen 

weiterentwickelt wurde. Dieses wird durch eine Kombination eines Moving-Average- 

Prozesses und eines Autoregressiven Prozesses einer durch Differenzenbildung statio- 

narisierten Zeitreihe gebildet. 

Moving-Average-Prozesse 

Ein stochastischer Prozess {Y } heißt Moving-Average-Prozess der Ordnung q bzw. 

MA(q)-Prozess, falls gilt: 29 

Yt = εt + 

q 

∑ α jεt− j 

j=1 

wobei es sich bei {ε} um Weißes Rauschen 30 handelt und die Koeffizienten α1,...,αq 

reelle Faktoren sind. Demnach ist ein MA(q)-Prozess ein Prozess, der aus dem gewogenen 

26 Vgl. [Kopf04, Kap. 2.5.4]. 

27 Vgl. [HaEK89, S. 668 f.]. 

28 GEORGE BOX, geb. 1919, engl. Chemiker und Mathematiker, GWILYM M. JENKINS, 1932-1982. 

29 Vgl. [ScSt99, S. 116]. 

30 Vgl. Kapitel 2.3.1. 

13


gleitenden Durchschnitt eines Weißen Rauschens mit der Fenstergröße q gebildet wird. 

Der so entstandene Prozess {Y } ist schwach stationär und besitzt die folgenden Momente: 

• µY = 0 

• σ 2 Y = σ 2 q 

ε ∑ α 

i=1 

2 i 

⎧ 

⎪⎨ σ 

• γ j = 

⎪⎩ 

2 q− j 

ε ∑ αiαi+ j 

i=1 

0 

⎧ 

für 

für 

0 ≤ j ≤ q 

j > q 

1 für j = 0 

⎪⎨ 

• ρ j = 

⎪⎩ 

q− j 

∑ αiαi+ j 

i=1 

q 

∑ α 

i=1 

2 i 

Autoregressive Prozesse 

für 1 ≤ j ≤ q 

0 für j > q 

Ein stochastischer Prozess {Y } heißt Autoregressiver Prozess der Ordnung p bzw. AR(p)- 

Prozess, falls gilt: 31 

Yt = εt + 

p 

∑ β jYt− j 

j=1 

wobei es sich bei {ε} wieder um Weißes Rauschen 32 handelt und die Koeffizienten 

β1,...,βq reelle Faktoren sind. Damit wird jedes Yt des Prozesses als gewichtetes Mit- 

tel seiner p Vorgänger mit einem zufälligen Rest εt gebildet. 

Damit ein Autoregressiver Prozess stationär ist, müssen dessen Koeffizienten gewissen 

Anforderungen 33 genügen. Werden diese Anforderungen erfüllt, ergeben sich für den 

AR(p)-Prozess {Y } die folgenden Momente: 

• µY = 0 

• σ 2 Y = σ 2 ε 

p 

∑ βiγi 

i=1 

• γ j = p 

∑ βiγ j−i 

i=1 

für j > 0 

⎧ 

⎪⎨ 1 für j = 0 

• ρ j = 

⎪⎩ 

p 

βiγ j−i 

∑ σ 

i=1 

2 Y 

für j > 0 

31 Vgl. [ScSt99, S. 121]. 


33 Für die schwache Stationarität des Prozesses müssen die (auch komplexen) Lösungen der Gleichung 

1 − β1z − β2z 2 − ··· − βpz p = 0 alle dem Betrag nach größer als 1 sein (vgl. [HaEK89, S. 679]). 

14


Als Spezialfall wird an dieser Stelle der AR(1)-Prozess herausgegriffen, der nach der oben 

angegebenen Formel wie folgt gebildet wird: 

Yt = βYt−1 + εt 

Damit dieser Prozess stationär ist, muss der Parameter β betragsmäßig kleiner als 1 sein. 

Ist dagegen β = 1, ergibt sich ein sogenannter Random-Walk, der nicht stationär ist. In 

vielen Anwendungsgebieten wie beispielsweise bei der Modellierung von Aktienkursen 

kann auf solche Random-Walks zurückgegriffen werden. In der Zeitreihenanalyse werden 

sie manchmal auch bei der Bewertung alternativer Modelle als einfache Vergleichsmodel- 

le hinzugezogen. 

Autoregressive Integrierte Moving-Average-Prozesse 

Als Grundlage von Autoregressiven Integrierten Moving-Average-Prozessen (ARIMA- 

Prozessen) dienen ARMA-Prozesse, die eine Kombination von Moving-Average und Au- 

toregressiven Prozessen darstellen. Ein ARMA(p,q)-Prozess wird demnach wie folgt ge- 

bildet: 34 

Yt = 

p 

q 

∑ β jYt− j + εt + ∑ α jεt− j 

j=1 

j=1 

wobei {ε} Weißes Rauschen 35 darstellt und die Koeffizienten β1,...,βp,α1,...,αq reelle 

Faktoren sind. 

Voraussetzung für die Anwendung eines ARMA-Prozesses ist jedoch, dass es sich bei der 

beobachteten Zeitreihe um einen schwach stationären Prozess handelt. Da reale Zeitrei- 

hen oftmals Instationaritäten wie einen Trend oder saisonale Abhängigkeiten aufweisen, 

müssen diese durch Differenzenfilter, wie sie in Kapitel 2.3.2 beschrieben wurden, in sta- 

tionäre Prozesse transformiert werden. Dabei muss die Ordnung des Differenzenfilters 

hinreichend groß 36 gewählt werden, damit die dadurch entstehende Zeitreihe stationär 

ist. Die Kombination einer Differenzenbildung mit einem ARMA(p,q)-Modell wird als 

ARIMA(p,d,q)-Modell bezeichnet, wobei mit dem Parameter d die Ordnung des Diffe- 

renzenfilters angegeben wird. 

Die Bestimmung der Parameter erfolgt durch die sogenannte Box-Jenkins-Methode 37 , bei 

der in einem iterativen Verfahren die folgenden drei Schritte so lange durchlaufen werden, 

bis ein zufriedenstellendes Ergebnis erreicht wird: 

• Bei der Modellidentifikation werden mit Hilfe der Autokorrelationen die Dimen- 

sionen p, d und q des stochastischen Prozesses bestimmt. Diese Parameter müssen 

34 Vgl. [ScSt99, S. 132]. 


36 Bei den meisten nichtstationären Zeitreihen wird spätestens mit den Differenzen dritter Ordnung eine 

ausreichende Stationarität erreicht (Vgl. [Schi03, S. 599]). 

37 Vgl. [BoJe76, S. 171–299]. 

15


derart gewählt werden, dass die empirischen Autokorrelationen für die verschiede- 

nen Zeitlags der beobachteten Zeitreihe möglichst genau der theoretischen Auto- 

korrelationsfunktion des modellierten Prozesses entsprechen. Gleiches gilt analog 

dazu auch für die partiellen Autokorrelationen rk−1(k). 38 

• Die übrigen Koeffizienten des Modells werden bei der Parameterschätzung be- 

stimmt. Hierbei handelt es sich um die von den im ersten Schritt bestimmten Di- 

mensionen abhängigen Faktoren β1,...,βp,α1,...,αq. Diese können beispielswei- 

se durch die in Kapitel 2.2.1 beschriebene Methode der Kleinsten Quadrate oder 

die Maximum-Likelihood-Methode 39 geschätzt werden. 

• Wurde das Modell adäquat geschätzt, sollte es sich bei den verbleibenden Residu- 

en lediglich um eine Realisation eines Weißen Rauschens handeln. Dies wird bei 

der Modellüberprüfung durch eine visuelle Residuenanalyse oder durch statistische 

Tests sichergestellt. 40 

Der an dieser Stelle nur kurz skizzierte Vorgang kann sich in der Praxis als sehr kom- 

plex erweisen. Insbesondere die Ordnungen des Prozesses lassen sich nicht eindeutig be- 

stimmen, da es sich bei der beobachteten Zeitreihe lediglich um eine einzige Realisation 

des modellierten Prozesses handelt. Da die auf Anhieb geschätzten Parameter deshalb oft 

noch nicht zu einer ausreichenden Güte des Modells führen, müssen die einzelnen Schritte 

ggf. mehrfach durchgeführt werden. Dies führt dazu, dass die Identifikation des geeigne- 

ten Modells sehr schwierig sein kann und auch nicht in jedem Fall zufrieden stellende 

Ergebnisse erreicht werden. 41 

2.4 Zeitreihenprognosen mit statistischen Modellen 

Unter einer Prognose versteht man 

die Vorhersage zukünftiger Ereignisse auf Grund von Vergangenheitsinformation 42 . 

Die Anzahl der Werte, die zwischen dem letzten beobachteten und dem zu prognostizie- 

renden Wert der jeweiligen Zeitreihe liegen, wird als Prognosehorizont bezeichnet. Liegt 

dieser bei eins, wird dies auch als Ein-Schritt-Prognose bezeichnet. Eine Erweiterung 

auf Mehr-Schritt-Prognosen lässt sich einerseits durch eine entsprechende Anpassung der 

Modelle oder andererseits durch die iterierte Durchführung von Ein-Schritt-Prognosen 

erreichen. 

38 Vgl. [HaEK89, S. 686]. 

39 Weitere Informationen hierzu finden sich beispielsweise bei [Mohr76, S. 157]. 

40 Vgl. [Schw94, S. 68 ff.]. 

41 Vgl. [Thie98, S. 77]. 

42 [ScSt99, S. 191]. 

16


Zur Durchführung einer Prognose eignen sich je nach Anwendung die Modelle, die in 

den vorausgehenden Abschnitten beschrieben wurden. Um die Unterschiede deutlich zu 

machen werden hier beispielhaft drei Prognose-Verfahren dargestellt. 

Komponentenmodell 

Zur Prognose von zukünftigen Werten einer Zeitreihe mit dem Komponenten-Modell 

müssen zunächst die einzelnen additiv oder multiplikativ verknüpften Komponenten be- 

stimmt werden. 43 Dies sollte derart geschehen, dass in der Größe ut lediglich unwichtige 

Störgrößen übrig bleiben. Anhand der gefundenen Funktionen für die glatte Komponente 

und Saisonschwankungen kann nun der Wert für den Zeitpunkt t + 1 berechnet werden, 

wobei ut+1 = 0 gesetzt wird. Diese Methode kann beispielsweise angewendet werden, 

wenn von einem grundsätzlich regelmäßigen Verlauf der Zeitreihe ausgegangen wird und 

die unerklärte Komponente lediglich durch Messschwierigkeiten entstanden ist. 

Random-Walk 

Der in Kapitel 2.3.3 beschriebene Random-Walk geht von einem Verlauf der Zeitreihe 

aus, der vom letzten Wert ausgehend in eine willkürliche Richtung verläuft. 44 Für eine 

Prognose muss die betrachtete Zeitreihe zunächst über die bereits beschriebenen Verfah- 

ren stationarisiert werden. In einem zweiten Schritt wird der Wert der so vorliegenden 

Zeitreihe für den Zeitpunkt t + 1 aus der Simulation eines Weißen Rauschens gewon- 

nen. 45 Um den prognostizierten Wert auch für die ursprüngliche Zeitreihe zu erhalten, 

müssen nun noch alle zur Stationarisierung angewandten Transformationen wieder rück- 

gängig gemacht werden. 

ARIMA-Prognosen 

Um zukünftige Werte einer Zeitreihe mit einem ARIMA-Modell zu prognostizieren, müs- 

sen dessen Parameter zunächst anhand der in Kapitel 2.3.3 beschriebenen Box-Jenkins- 

Methode bestimmt werden. Wurde ein adäquates Modell gefunden, kann unter der Hinzu- 

nahme eines Weißen Rauschens über die entsprechende Formel der Wert für yt+1 einfach 

berechnet werden. 46 Es muss allerdings berücksichtigt werden, dass die Prognose auf 

der durch Differenzenbildung stationarisierten Zeitreihe durchgeführt wird, so dass die 

Differenzenbildung zur Gewinnung des eigentlich gesuchten Prognosewertes rückgängig 

gemacht werden muss. 

43 Vgl. Kapitel 2.2. 

44 Ein solches Verhalten wird beispielsweise Aktienkursen bisweilen unterstellt. 

45 Ist das empirische Mittel der stationierten Zeitreihenwerte ungleich null, so muss dieses noch zu dem 

aus dem Weißen Rauschen gewonnenen Wert εt+1 hinzu addiert werden. 

46 Dabei steht yt+1 für eine konkrete Realisation der Zufallsvariable Yt+1. 

17

3 KÜNSTLICHE NEURONALE NETZE 

3 Künstliche Neuronale Netze 

3.1 Überblick 

In diesem Kapitel wird eine kurze Einführung in Künstliche Neuronale Netze (KNN) ge- 

geben. Es wird dabei angenommen, dass der Leser dieser Arbeit im Wesentlichen mit 

dem Aufbau und der Funktionsweise von KNN vertraut ist. Deshalb werden neben ei- 

nigen grundlegenden Informationen in erster Linie die für die Prognose von Zeitreihen 

wichtigsten Typen von Netzen vorgestellt. Ausführlichere Darstellungen des gesamten 

Themenkomplexes finden sich beispielsweise bei [Zell00] und [Roja96], auf denen auch 

diese Einführung basiert. 

Bei Künstlichen Neuronalen Netzen handelt es sich um informationsverarbeitende Sys- 

teme, die sich an biologischen Nervensystemen von Säugetieren orientieren. Dabei geht 

es nicht darum, den Aufbau und die Funktionsweise eines Gehirns möglichst naturgetreu 

nachzubilden. Stattdessen wird das Wissen über biologische Neuronale Netze genutzt, um 

dort erfolgreiche Funktionalitäten künstlich nachzubilden. 

Analog zum biologischen Vorbild bestehen KNN aus sehr vielen einzelnen Einheiten, den 

sogenannten Neuronen, die im Vergleich zum Gesamtsystem jeweils sehr einfach aufge- 

baut sind. Diese Neuronen sind untereinander hochgradig verbunden. Durch gerichtete 

Verbindungen können sie sich deshalb nach vorgegebenen Regeln untereinander akti- 

vieren, wodurch die Informationsverarbeitung stattfindet. Auf diese Weise ist es mög- 

lich, durch KNN mittels einfacher arithmetischer Funktionen sehr komplexe Eingabe- 

Ausgabe-Zusammenhänge abzubilden. 

Ein fundamentaler Unterschied zwischen KNN und konventionellen Algorithmen ist die 

Eigenschaft von KNN, zur Bearbeitung eines Problems lediglich eine Struktur und ein 

Lernverfahren zu benötigen. Das bedeutet, dass nicht jeweils ein problemspezifisches 

Programm geschrieben wird, sondern dass sich das Netz für die Bearbeitung eines vor- 

liegenden Problems in einem Lernprozess anhand von Trainingsbeispielen selbständig 

konfigurieren muss. Durch die Lernfähigkeit (die Fähigkeit, sich in einem adaptiven Pro- 

zess auf die jeweiligen Erfordernisse einzustellen, ohne dass die jeweilige Konfiguration 

x1 

x2 

xn 

... 

Künstliches 

Neuronales Netz 

... 

Eingabe Informationsverarbeitung Ausgabe 

y1 

ym 

Quelle: In Anlehnung an [Roja96, S. 29]. 

Abbildung 6: Ein Künstliches Neuronales Netz als Black Box 

18


explizit vorgegeben werden muss) werden reale Vorgänge eines Nervensystems imitiert 

und für praktische Zwecke eingesetzt. 

Dies bedeutet jedoch gleichzeitig, dass die funktionalen Zusammenhänge zwischen der 

Eingabe und der Ausgabe eines Netzes diesem auch nicht explizit vorgegeben werden 

können. Stattdessen fungiert ein KNN, wie es auch in Abbildung 6 dargestellt wird, als 

eine Art Black Box, die für eine bestimmte Eingabe x eine bestimmte Ausgabe y erzeugen 

soll. Die Realisierung dieser Abbildung wird jedoch nur implizit festgelegt und ist nach 

außen hin nicht sichtbar. Insbesondere können ggf. bestehende kausale Zusammenhänge 

mittels der aus dem Lernvorgang resultierenden Konfiguration nicht abgeleitet werden. 

Durch ihre besonderen Eigenschaften wie Lernfähigkeit, parallele Informationsverarbei- 

tung, Fehlertoleranz, Robustheit gegen verrauschte Daten und die Fähigkeit, Muster zu 

erkennen, stellen KNN bereits in vielen Bereichen eine ernst zu nehmende Alternative zu 

herkömmlichen Algorithmen dar. Neben der in dieser Arbeit untersuchten Prognose von 

Zeitreihen sind dabei in erster Linie die Clusteranalyse und Klassifikation von Daten die 

bedeutendsten weiteren Einsatzgebiete von KNN. 

3.2 Aufbau und Bestandteile Künstlicher Neuronaler Netze 

Wie bereits beschrieben, bestehen KNN aus einer Vielzahl von Neuronen. Diese werden 

in der Regel in sogenannten Schichten angeordnet und anhand einer vorgegebenen Struk- 

tur untereinander verbunden. Bei den Schichten eines KNN unterscheidet man zwischen 

Eingabeschicht, verborgener Schicht und Ausgabeschicht. 

Die Neuronen der Eingabeschicht dienen als Schnittstelle für die für das KNN bestimm- 

ten Eingabedaten. Da es für jede Eingabegröße ein eigenes Eingabe-Neuron geben muss, 

ist durch die Dimension des Eingabevektors auch die Anzahl der in der Eingabeschicht 

befindlichen Neuronen festgelegt. Die Aufgabe der Eingabe-Neuronen ist es, die anlie- 

genden Signale der Eingabedaten an alle direkt verbundenen Neuronen weiterzugeben. 

Dementsprechend ist es die Aufgabe der Neuronen der Ausgabeschicht, die Ausgabe des 

KNN zu erzeugen. Jedes Ausgabe-Neuron erzeugt dabei einen eigenen Ausgabewert. Die 

Anzahl der Ausgabe-Neuronen wird demnach durch die erforderliche Anzahl an Aus- 

gangssignalen determiniert. 

Die eigentliche Informationsverarbeitung findet in der Regel in den sogenannten verbor- 

genen Schichten statt. Hierbei handelt es sich um eine beliebige Anzahl von Schichten, 

die zwischen der Eingabe- und der Ausgabeschicht angeordnet werden. Die Anzahl der 

verborgenen Schichten sowie die Anzahl der Neuronen jeder dieser Schichten sind dabei 

freie Parameter eines jeden Netzes. 

In Abbildung 7 wird ein sogenanntes Feedforward-Netz dargestellt, das aus einer Ein- 

gabeschicht mit zwei Eingabe-Neuronen, einer verborgenen Schicht mit drei Neuronen 

und einer Ausgabeschicht mit zwei Neuronen besteht. Die Verbindungen sind gerich- 

tet und verbinden jeweils alle Neuronen einer Schicht mit allen Neuronen der folgenden 

19


Schicht. Die Richtung der Informationsverarbeitung verläuft bei Feedforward-Netzen al- 

so strikt von der Eingabe- zur Ausgabeschicht. Neben derartigen ebenenweise verbun- 

denen Feedforward-Netzen gibt es auch solche, bei denen mit sogenannten Shortcut- 

Verbindungen auch Neuronen aus nicht benachbarten Schichten miteinander verbunden 

werden. 

Eingabe 

x1 

x2 

Eingabeschicht Verborgene Schicht Ausgabeschicht 

Abbildung 7: Ein dreischichtiges Feedforward-Netz 

Ausgabe 

Alternativ sind in Netzen mit Rückkopplungen, den sogenannten Feedback- oder rekur- 

renten Netzen, auch noch weitere Verbindungsstrukturen möglich. Unterschieden werden 

dabei 

• Netze, in denen Neuronen innerhalb derselben Schicht durch sogenannte laterale 

Verbindungen verbunden sind, 

• Netze, in denen Neuronen mit sich selber verbunden sind, und 

• Netze, in denen Verbindungen zu Neuronen vorgelagerter Schichten führen. 

Da alle diese Verbindungsstrukturen miteinander kombiniert werden können, ist somit 

eine Vielzahl unterschiedlicher Strukturen denkbar. 

Der wichtigste Bestandteil jeder Verbindung eines KNN ist das für sie jeweils individuell 

festgelegte Gewicht. Durch das Gewicht wi, j wird die Stärke des übertragenen Signals 

für die Verbindung von Neuron i zu Neuron j individuell erfasst, da es sich in der Re- 

gel von den Gewichten der anderen Verbindungen unterscheidet. Durch die Gewichtung 

der Verbindungen werden die unterschiedlichen Stärken der Kopplungen von Synapsen 

biologischer Neuronen nachgebildet, und genauso wie ihre biologischen Vorbilder sind 

die einzelnen Gewichte jeweils modifizierbar. Die Veränderung der Stärke von Synapsen 

stellt bei Lebewesen mit einem Nervensystem den vermutlich wichtigsten Vorgang des 

y1 

y2 

20


„Lernens“ dar. Dementsprechend sind es auch bei den KNN vorrangig die Gewichte der 

Verbindungen, die durch Lernverfahren meistens modifiziert werden. 

Wie bereits erwähnt, findet die eigentliche Informationsverarbeitung von KNN innerhalb 

der Neuronen statt. In Abbildung 8 wird ein einzelnes Neuron schematisch dargestellt. 

Seine unterschiedlichen Bestandteile werden im Folgenden näher erläutert: 

o1 

o2 

o3 

w1,j 

w2,j 

w3,j 

Verbindungen von vorgelagerten 

Neuronen 

Neuron j 

fact(aj,netj,θj) 

oj 

oj 

oj 

Verbindungen zu nachgelagerten 

Neuronen 

Abbildung 8: Ein schematisiertes Neuron 

• Mit dem Aktivierungszustand a j wird der Grad der Aktivierung des Neurons ange- 

geben. 

• Mit der Propagierungsfunktion wird aus den eingehenden Verbindungen die 

Netzeingabe net j berechnet. In der Regel handelt es sich dabei um die Summe 

der mit den Verbindungsgewichten wi, j gewichteten Ausgaben oi der vorgelager- 

ten Neuronen net j = ∑oi · wi, j. 

i 

• Der Schwellenwert θ j ist der Grenzwert, ab dem eine Aktivierung zu einer Ausgabe 

des Neurons führt. In manchen Fällen wird der Schwellenwert allerdings aus prag- 

matischen Gründen über ein zusätzliches sogenanntes On-Neuron realisiert. Dieses 

gibt einen konstanten Wert ab, der dann entsprechend gewichtet in die Netzeingabe 

einfließt. 

• Mit der Aktivierungsfunktion fact(a j,net j,θj) wird aus dem Aktivierungszustand, 

der Netzeingabe und dem Schwellenwert eines Neurons dessen aktuelle Aktivie- 

rung berechnet. 

• Aus dieser neu berechneten Aktivierung wird sodann durch die Ausgabefunktion 

fout(a j) die Ausgabe o j des Neurons berechnet. Da die Aktivierungs- und die Aus- 

gabefunktion in der Literatur oftmals zu einer Funktion zusammengefasst werden, 

wird dies auch hier so gehandhabt. Die resultierende Funktion wird im Folgenden 

21


nur noch Aktivierungsfunktion genannt. Mit dieser wird dann auch direkt die Ausgabe 

des Neurons berechnet. 47 

Eine wichtige Eigenschaft von KNN ist die Fähigkeit, auch nichtlineare Zusammenhänge 

abbilden zu können. Um dies zu erreichen müssen die Aktivierungsfunktionen der Neu- 

ronen in mindestens einer Schicht nichtlinear sein. Als Aktivierungsfunktionen kommen 

dabei prinzipiell alle Funktionen in Frage, die auf einem Intervall monoton ansteigend 

sind. 

Oftmals wird jedoch abhängig vom verwendeten Lernverfahren zusätzlich die Differen- 

zierbarkeit der Funktion gefordert, weshalb sich die sogenannten sigmoiden Funktionen 

als bevorzugte Funktionen durchgesetzt haben. Sigmoide Funktionen haben die Eigen- 

schaft, dass sie monoton steigend, differenzierbar und S-förmig sind. Beispiele für sig- 

moide Funktionen sind die in Abbildung 9 dargestellten Funktionen Tangens hyperboli- 

cus und die Logistische Funktion. 48 Ein weiterer Vorteil sigmoider Funktionen ist, dass 

sie durch ihre Form darauf ausgerichtet sind auf Schwankungen um ihren „Mittelpunkt“ 

besonders sensibel zu reagieren. Diese Eigenschaft ermöglicht es einem KNN, sowohl 

auf Signale mit kleiner als auch auf solche mit sehr großer Amplitude zu reagieren. 

1 

0,5 

4 2 2 4 

0,5 

1 

1 

0,5 

4 2 2 4 

Abbildung 9: Tangens hyperbolicus tanh(x) (links) und logistische Funktion 1 

1+e −x (rechts) 

3.3 Lernvorgang 

Eine charakteristische Eigenschaft von KNN ist die Fähigkeit, aufgrund von vorgegebe- 

nen Daten Zusammenhänge „lernen“ zu können. Dieser Lernvorgang basiert ausschließ- 

lich auf den Trainingsdaten, die dem Netz vorgelegt werden. Auch eigentlich bekannte 

kausale Zusammenhänge müssen von dem Netz aus den Daten „gelernt“ werden und 

können bei der Initialisierung nicht bereits implementiert werden. 

47 Dies kommt daher, dass in den meisten Fällen die entscheidenden Berechnungen bereits durch die Aktivierungsfunktionen 

vollzogen werden, während als Ausgabefunktionen lediglich Identitätsfunktionen 

verwendet werden. 

48 Während beim Tangens hyperbolicus der Wertebereich das Intervall [−1;1] ist, ist der Wertebereich der 

logistischen Funktion auf das Intervall [0;1] beschränkt. Dies sind gleichzeitig die beiden Wertebereiche, 

auf die die jeweiligen Aktivierungsfunktionen in der Regel normiert sind. 

22


Um ein KNN für eine Anwendungssituation zu konfigurieren werden dem Netz Daten- 

sätze vorgelegt, die durch dieses verarbeitet werden. Nach einem festgelegten Schema, 

dem Lernverfahren, reagiert das Netz durch die Anpassung von Parametern auf die in die- 

sen Daten befindlichen Muster und lernt so den funktionalen Zusammenhang zwischen 

den Eingabe- und den Ausgabedaten. Man unterscheidet dabei drei grundsätzliche Arten 

unterschiedlicher Lernparadigmen. 

• Beim überwachten Lernen werden dem Netz neben den Eingabedaten auch die er- 

warteten „richtigen“ Ausgabedaten vorgelegt. Anhand des Unterschieds zwischen 

den selbst erzeugten und den erwarteten Ausgabedaten werden dann nach festge- 

legten Regeln die Parameter des Netzes derart modifiziert, dass dieser Unterschied 

möglichst minimal wird. 

• Auch beim verstärkenden Lernen wird die Ausgabe des Netzes mit der erwarteten 

Ausgabe verglichen. In diesem Fall geht es allerdings nicht um den genauen Unter- 

schied der Daten, sondern dem Netz wird lediglich mitgeteilt, ob seine generierten 

Ausgaben richtig oder falsch waren. 

• Beim unüberwachten Lernen werden dem Netz ausschließlich die Eingabedaten 

vorgelegt. Das Netz ist somit darauf angewiesen, selbständig die in diesen Daten 

befindlichen Zusammenhänge zu erkennen und seine Parameter entsprechend zu 

modifizieren. Diese Art des Lernens kann beispielsweise zur Klassifikation von 

Daten eingesetzt werden, bei der jeweils die statistischen Eigenschaften der Ein- 

gabemuster extrahiert und ausgewertet werden. Auch wenn diese Art des Lernens 

nach dem biologischen Vorbild am plausibelsten ist, ist sie nicht für alle Anwen- 

dungsgebiete von KNN geeignet. 

Da das überwachte Lernen das Lernparadigma ist, das für die Prognose von Zeitreihen mit 

Abstand bevorzugt eingesetzt wird, wird im Folgenden ein konkretes Lernverfahren die- 

ser Art näher beschrieben. Das wohl populärste Lernverfahren für überwachtes Lernen ist 

das durch D. E. RUMELHART 1986 bekannt gemachte Backpropagation-Verfahren. Nach 

einer zufälligen Initialisierung aller Verbindungsgewichte durchläuft jeder der jeweils aus 

einem Eingabevektor und dem dazugehörigen gewünschten Ausgabevektor zusammen- 

gesetzten Trainingsdatensätze die folgenden fünf Schritte (Vgl. Abbildung 10): 

1. Der Eingabevektor wird an den Eingabe-Neuronen des KNN angelegt. 

2. Durch die Vorwärtspropagierung der jeweils berechneten Neuronenausgaben wird 

für diesen Eingabevektor der zugehörige Ausgabevektor des KNN erzeugt. 

3. Die erzeugte Ausgabe wird mit dem erwünschten Ausgabevektor verglichen und 

die Differenz in Form eines Fehlervektors quantifiziert. 

23


4. Der ermittelte Fehler wird von den Ausgabe- bis zu den Eingabe-Neuronen rück- 

wärtspropagiert. Entlang dieses Pfads werden die zur Minimierung der Fehler not- 

wendigen Modifikationen der Verbindungsgewichte bestimmt. 

5. Die Gewichte aller Verbindungen werden diesen Berechnungen entsprechend ge- 

ändert. 

Durch eine iterative Durchführung dieser Schritte verbessert das Netz seine Gewichte so 

lange, bis das gegebene Problem möglichst optimal gelöst wird. 

Testdatensätze 

Erwünschter 

Ausgabevektor 

3. 

3. 

Eingabevektor 

1. 

Netz 

2. 

Ausgabevektor 

5. 

Modifikation der 

Gewichte 

Abbildung 10: Lernprozess des Backpropagation 

Berechnung des 

Fehlervektors 

Zur Minimierung des Fehlers wird das aus der nichtlinearen Optimierung bekannte Gra- 

dientenverfahren verwendet. Um dies zu veranschaulichen, ist in Abbildung 11 die von 

zwei Gewichten abhängige Fehlerfläche eines KNN dargestellt. 49 

Um das Netz zu trainieren ist es notwendig, diejenige Kombination der beiden Gewich- 

te zu finden, bei der der Netzfehler minimal ist. Anschaulich bedeutet dies, dass in der 

abgebildeten Fehlerfläche das tiefste Tal gefunden werden muss. Durch das Gradienten- 

verfahren werden deshalb bei jedem Datensatz die Gewichte vom Fehler der aktuellen 

Gewichtskonfiguration ausgehend einen „Schritt“ in Richtung des steilsten Abstiegs der 

Fehlerfläche verändert. Damit wird allerdings auch der wohl wesentlichste Nachteil des 

Verfahrens offensichtlich, der darin liegt, dass der Algorithmus nur auf lokale Minima 

ausgerichtet ist. Dies hat zur Folge, dass oftmals nur ein suboptimales Minimum gefun- 

den wird. 

Weitere Probleme treten bei der Wahl der Schrittweite auf. Durch diese wird festgelegt, 

wie stark jede Änderung ausfallen soll. Wird sie zu groß gewählt, besteht die Gefahr, 

dass ein Optimum übersprungen wird. Wird sie zu klein gewählt, kann sich das negativ 

auf die Effizienz des Algorithmus auswirken. Aus diesen Gründen wurden im Laufe der 

49 Bei einem realen KNN handelt es sich natürlich um eine Vielzahl von Gewichten. Da damit aber auch 

die Fehlerfläche multidimensional wäre, wurde aus Gründen der Darstellbarkeit auf die Integration von 

mehr als zwei Gewichten verzichtet. Das Minimierungsverfahren verläuft jedoch auch bei einer größeren 

Zahl an Gewichten entsprechend der gegebenen Beschreibung. 

4. 

24


w2 

w1 

Quelle: [Zell00, S. 105]. 

Abbildung 11: Fehlerfläche eines Neuronalen Netzes als Funktion der Gewichte w1 und w2 

Jahre viele verschiedene Varianten des Backpropagation entwickelt, die diesen Problemen 

entgegenwirken. 

Theoretisch können außer der Modifikation von Gewichten auch andere Lernmechanis- 

men zum Einsatz kommen, um die Güte eines KNN zu verbessern. So ist es beispielsweise 

möglich, im Rahmen des Lernvorgangs einzelne Neuronen oder Verbindungen komplett 

zu entfernen oder neu hinzuzufügen. Auch könnten die Schwellenwerte einzelner Neuro- 

nen oder sogar deren Aktivierungsfunktionen modifiziert werden. Auch wenn beliebige 

Kombinationen dieser Lernmechanismen möglich wären, beschränken sich die meisten 

Lernverfahren auf die reine Modifikation von Gewichten. 

Bevor ein KNN durch einen Lernvorgang trainiert werden kann, müssen zunächst die zur 

Verfügung stehenden Daten sinnvoll partitioniert werden. Es werden bis zu drei disjunkte 

Datenmengen unterschieden, die im Lernvorgang verwendet werden, bevor das KNN zum 

eigentlichen Einsatz kommt. Allen Datensätzen ist dabei gemeinsam, dass sie sowohl aus 

einem Eingabevektor als auch einem erwünschten Ausgabevektor bestehen. 

Zunächst wird aus der zur Verfügung stehenden Datenmenge eine Trainings- und eine 

Testdatenmenge bestimmt. Während ein KNN anhand der Trainingsdaten während des 

Lernvorgangs konfiguriert wird, kommen die Testdaten erst nach Abschluss des Lern- 

vorgangs zum Einsatz. Durch die Bestimmung des Netzfehlers auf der Basis der dem 

Netz bislang noch unbekannten Testdaten kann die Güte des fertig konfigurierten Netzes 

quantifiziert und mit der Güte anderer Methoden bei der Bearbeitung derselben Aufgabe 

verglichen werden. 

Eine wichtige Eigenschaft von KNN ist ihre Generalisierungsfähigkeit. Dabei handelt es 

sich um die Fähigkeit, von bekannten Datenmustern auf unbekannte Muster zu abstrahie- 

ren. Nur so ist es möglich, Aufgaben auch auf Daten auszuführen, die dem Netz während 

des Trainings noch nicht vorgelegt wurden. Wird jedoch ein KNN zu lange mit den glei- 

25


chen Trainingsdaten trainiert, stellt es sich auf die einzelnen Datensätze ein (man spricht 

in diesem Fall auch vom Overfitting) und verliert dadurch seine Generalisierungsfähig- 

keit. 

In Abbildung 12 wird der Verlauf des Netzfehlers während eines Trainingsvorgangs dar- 

gestellt. Neben dem auf der Trainingsdatenmenge beruhenden Fehler, der über den gan- 

zen Zeitraum monoton abnimmt, ist auch der Fehler einer Validierungsdatenmenge einge- 

zeichnet, der nach einem gewissen Zeitraum wieder ansteigt. Bei den Validierungsdaten 

handelt es sich um eine Teilmenge der Trainingsdaten, deren Aufgabe darin besteht, die 

für das Netz optimale Konfiguration zu bestimmen. Ebenso wie bei den Testdaten wer- 

den die einzelnen Parameter eines Netzes durch die Validierungsdaten nicht verändert. 

Diese entscheiden lediglich darüber, welche Parameter-Konfiguration optimal ist. Da sich 

ein Overfitting während des Trainings negativ auf den Netzfehler der Validierungsdaten 

auswirkt, wird, wie in Abbildung dargestellt, oftmals der minimale Validierungsfehler als 

Indikator für das Trainingsende verwendet, um die Generalisierungsfähigkeit des Netzes 

zu erhalten. 

Netzfehler 

Trainingsdaten 

Validierungsdaten 

Abbruch des 

Trainings 

Anzahl der 

Trainingsvorgänge 

Quelle: In Anlehnung an [Thie98, S. 28]. 

Abbildung 12: Verwendung von Validierungsdaten zur Bestimmung der Trainingsdauer 

Zur Bestimmung des Netzfehlers eines KNN werden u. a. die beiden folgenden Maße 

verwendet: 

• Der Mean Squared Error wird als mittlere Summe der quadrierten Differenzen aus 

generierten und erwünschten Ausgaben des Netzes über alle n betrachteten Daten- 

sätze berechnet. 

MSE = 1 

n 

n 

∑ 

i=1 

(yi − ˆyi) 2 

• In ähnlicher Weise wird der Root Mean Squared Error als Wurzel aus dem Mean 

Squared Error bestimmt. 

RMSE = √ MSE 

26


3.4 Prognose von Zeitreihen mittels Künstlicher Neuronaler Netze 

Schon lange werden Künstliche Neuronale Netze auch zur Prognose von Zeitreihen ein- 

gesetzt. Insbesondere durch die einfache Möglichkeit nichtlineare Zusammenhänge abzu- 

bilden sind sie in vielen Fällen den statistischen Methoden überlegen. Für die Erstellung 

eines Prognose-Modells kommen dabei verschiedene Architekturen in Frage. In diesem 

Kapitel werden deshalb die gängigsten Netz-Typen mit ihren jeweiligen Besonderheiten 

für die Prognose von Zeitreihen vorgestellt. Für eine vertiefende Darstellung wird erneut 

auf [Zell00] verwiesen. 

3.4.1 Multi-Layer Perceptrons 

Bei Multi-Layer Perceptrons (MLP) handelt es sich um Feedforward-Netze mit mindes- 

tens einer verborgenen Schicht. Dieser Netz-Typ wird oftmals als das Standardnetz an- 

gesehen und erfreut sich auch bei der Prognose von Zeitreihen einer großen Beliebtheit. 

Durch die ausschließlich nach vorne gerichtete Verbindungsstruktur kann das Netz bei 

seinem Einsatz lediglich auf aktuell anliegende Daten zurückgreifen, da es keine Mög- 

lichkeit gibt, vorhergehende Datensätze im Netz zu speichern. Da es aber für die Prognose 

von Zeitreihen oftmals notwendig ist Informationen aus zeitlich vorgelagerten Datensät- 

zen zu integrieren, müssen diese mit jedem Satz erneut in den Eingabevektor aufgenom- 

men werden. 

Bei der praktischen Umsetzung hat dies zur Folge, dass jeder einzelne Datensatz wie 

bei einem sogenannten sliding window neben den aktuellen Werten auch noch alle not- 

wendigen Werte der vorhergehenden Datensätze beinhalten muss. In Abbildung 13 ist 

beispielhaft dargestellt, wie der Eingabevektor zusammengestellt werden muss, um den 

Wert xt einer Zeitreihe aus den n vorangegangenen Werten dieser Reihe mit einem MLP 

zu prognostizieren. Dementsprechend besteht der Eingabevektor zur Prognose von xt+1 

aus den Werten xt,xt−1,...,xt−n+1. 

xt-1 

xt-2 

xt-n 

... 

Künstliches 

Neuronales Netz 

Eingabe Ausgabe 

Abbildung 13: Angepasster Eingabevektor für die Prognose von Zeitreihen 

3.4.2 Radiale-Basisfunktionen-Netze 

Auch Radiale-Basisfunktionen-Netze (RBF-Netze) sind Feedforward-Netze, die im Un- 

terschied zu den MLP jedoch in jedem Fall genau eine verborgene Schicht besitzen. Die 

xt 

27


Besonderheit dieser Netze sind die speziellen, radialsymmetrischen Aktivierungsfunktio- 

nen. Die dabei am häufigsten verwendete Funktion ist die sogenannte Gaußfunktion, die 

ihrem Namen entsprechend einer Normalverteilung nachempfunden ist: 50 

fi(x) = e 

1 − 

2σ2 ||ci−x|| 2 

Konzeptionell stellen die Neuronen der verborgenen Schicht jeweils Stützstellen der 

durch das KNN zu approximierenden Funktion dar. Im einfachsten Fall wird durch jeden 

Trainingsdatensatz eine dieser Stützstellen definiert. Da dies aber zur Folge hätte, dass die 

Netze bei einer großen Zahl an Trainingsdaten ebenfalls sehr groß und damit ineffizient 

würden, kann alternativ für die Stützstellen auch eine festgelegte Anzahl von sogenann- 

ten Zentren ermittelt werden, die den Eingaberaum möglichst vollständig abdecken. Diese 

Zentren entsprechen den Neuronen der verborgenen Schicht. Die Approximationsfähig- 

keit des RBF-Netzes hängt dann sehr stark von der Wahl der richtigen Zentren ab. Diese 

können beispielsweise durch eine möglichst repräsentative Teilmenge der Trainingsdaten 

oder durch eine zusätzlich mit einem unüberwachten Lernverfahren durchgeführte Clusteranalyse 

bestimmt werden. 51 

Bei der Verarbeitung eines Eingabemusters durch das RBF-Netz wird für jedes Zentrum 

die Differenz zu dem Muster bestimmt und mit der Summe aus den gewichteten Diffe- 

renzen die Netzausgabe berechnet. In Abbildung 14 ist ein RBF-Netz mit vier Zentren 

dargestellt. Die Eingabevektoren für die Prognose von Zeitreihen werden dabei genau 

wie bei den MLP jeweils aus den Werten aller für die Prognose relevanten Zeitpunkte 

gebildet. 

xt-1 

xt-2 

xt-3 

||c1-x|| 

||c2-x|| 

||c3-x|| 

||c4-x|| 

Abbildung 14: Ein RBF-Netz mit den vier Zentren c1 bis c4 

Der Vorteil von RBF-Netzen liegt gegenüber den MLP in ihrer meist einfacheren Struk- 

50 Vgl. [FeFR02, S. 54]. 

51 Vgl. [Cioc02, S. 610]. 

∑ 

xt 

28


tur, die den Modellierungs- und Trainingsprozess erleichtert. 52 So ist es zum Beispiel 

möglich, die Gewichte der Verbindungen bereits bei der Initialisierung zu ermitteln, so 

dass sie während des Prognose-Einsatzes durch ein Lernverfahren nur noch nachtrainiert 

werden müssen. 

3.4.3 Rekurrente Netze 

Im Unterschied zu den Feedforward-Netzen zeichnen sich Rekurrente Netze (RNN) da- 

durch aus, dass dort auch von der allgemeinen Verarbeitungsrichtung des KNN abwei- 

chende Verbindungen existieren. Da durch derartige Verbindungen Zyklen gebildet wer- 

den, spricht man auch von Netzen mit Rückkopplungen. Wie bereits beschrieben, sind 

dabei verschiedene Arten von Rückkopplungen möglich. In Abbildung 15 ist beispiel- 

haft ein RNN dargestellt, das sowohl direkte, indirekte als auch laterale Rückkopplungen 

aufweist. 

Eingabe Ausgabe 

xt-1 

yt-1 

Abbildung 15: Ein rekurrentes Netz mit direkten, indirekten und lateralen Rückkopplungen 

Durch die bestehenden Rückkopplungen ist das Netz in der Lage, Informationen auch 

über die Verarbeitung eines Datensatzes hinaus zu speichern. Auf diese Weise kann bei 

der Prognose von Zeitreihen aus den noch im Netz verbleibenden Signalen von vorherge- 

henden Datensätzen auf Informationen vorhergehender Zeitreihenwerte zurückgegriffen 

werden, ohne dass diese nochmals explizit in das Netz eingegeben werden müssen. Wie 

weit die gespeicherten Informationen bereits durch das Netz bearbeitet wurden, hängt 

dabei jeweils von der Art der Rekurrenz ab. 

Die Daten vorhergehender Zeitpunkte müssen bei den RNN wegen der internen Spei- 

cherung nicht wie bei den MLP oder RBF-Netzen in den Eingabevektor aufgenommen 

werden. Allerdings spielt die Reihenfolge, mit der die einzelnen Datensätze dem Netz 

vorgelegt werden, eine große Rolle. Da es keinen Sinn macht, willkürliche Werte einer 

52 Vgl. [FeFR02, S. 53]. 

xt 

xt+1 

29


Zeitreihe miteinander in Verbindung zu bringen, müssen die Eingaben in das Netz immer 

in chronologischer Reihenfolge vorgenommen werden. Ebenso können ausschließlich zu- 

sammenhängende Blöcke an Datensätzen zu sinnvollen Ergebnissen führen. 

Durch die interne Speicherung von bereits verarbeiteten Werten sind RNN bei der Verar- 

beitung von Daten prinzipiell mächtiger als normale Feedforward-Netze. 53 Da dies jedoch 

mit größeren Schwierigkeiten beim Training der Netze einhergeht, sind weder die RNN 

noch die Feedforward-Netze den Netz-Typen der jeweils anderen Gruppe grundsätzlich 

überlegen. 

3.4.4 Time-Delay-Netze 

Die Motivation für die Time-Delay-Netze (TDNN) liegt darin, dass diese trotz der Struk- 

tur eines Feedforward-Netzes Informationen über den Zeitablauf speichern, um Zusam- 

menhänge aufeinander folgender Datensätze erkennen zu können. Erreicht wird dies 

durch Hinzunahme weiterer Verbindungen, die zwar die jeweils gleichen Neuronen er- 

neut verbinden, jedoch mit einer Verzögerung d versehen werden. Das bedeutet, dass der 

Informationsfluss durch diese Verbindungen erst nach d Schritten erfolgt. Die somit ver- 

zögert ankommenden Informationen entstammen demnach den bereits in vorhergehenden 

Schritten verarbeiteten Datensätzen. 

In Abbildung 16 sind zwei Neuronen dargestellt, die durch Time-Delay-Verbindungen mit 

unterschiedlichen Verzögerungen versehen sind. Während es sich bei der Verbindung mit 

der Verzögerung d = 0 um eine ganz gewöhnliche Verbindung handelt, werden die glei- 

chen Signale über die anderen Verbindungen erst mit der jeweiligen Verzögerung übertra- 

gen. Wie bei den RNN ist es es deshalb bei den TDNN für die Prognose von Zeitreihen 

auch nicht nötig, die Werte von Datensätzen vergangener Zeitpunkte jedes Mal neu in 

das Netz einzugeben, da die relevanten Informationen innerhalb des Netzes in den Time- 

Delay-Verbindungen gespeichert werden. 

d=0 

d=1 

d=2 

d=3 

d=4 

Abbildung 16: Zwei Neuronen, die durch fünf Time-Delay-Verbindungen verbunden sind 

Würde man alle Verbindungen eines Feedforward-Netzes durch einige Time-Delay- 

Verbindungen ergänzen, würde das Netz sehr komplex und damit ineffizient werden. Um 

dies zu vermeiden wird oftmals nur eine begrenzte Anzahl an Time-Delay-Verbindungen 

53 Vgl. [BoCB02, S. 252]. 

30


eingesetzt. Durch einen Lernalgorithmus können dann neben den herkömmlichen Ge- 

wichten auch die Verzögerungen der vorhandenen Verbindungen angepasst oder auch 

neue Verzögerungen hinzugefügt werden. Wie bei einem RNN müssen die zur Verar- 

beitung bestimmten Datensätze auch bei einem TDNN chronologisch geordnet und in 

zusammenhängenden Blöcken eingegeben werden. Dies gilt sowohl für das Training als 

auch für den Einsatz des Netzes. 

3.5 Vor- und Nachteile der Verwendung von KNN zur Zeitreihen- 

Prognose 

Es gibt eine Reihe von Gründen, die für die Verwendung von KNN zur Prognose von 

Zeitreihen sprechen. In erster Linie handelt es sich dabei um die Eigenschaften, die KNN 

generell zu eigen sind und sich auch auf die Prognosen positiv auswirken. Auf der ande- 

ren Seite gibt es aber auch Gründe, die gegen den Einsatz von KNN sprechen oder diesen 

zumindest nur eingeschränkt befürworten. Im Folgenden werden deshalb die wichtigsten 

Vor- und Nachteile eines Einsatzes von KNN zur Prognose von Zeitreihen gegenübergestellt. 

54 

Die Vorteile von KNN bei der Prognose von Zeitreihen sind: 

• KNN sind universelle Funktions-Approximatoren, die jede stetige Funktion zu je- 

dem gewünschten Grad an Genauigkeit nachbilden können. 

• Durch nichtlineare Aktivierungsfunktionen können KNN auch nichtlineare Zusam- 

menhänge abbilden, die die zu prognostizierenden Zeitreihen oftmals bestimmen. 

• KNN können sehr flexibel eingesetzt werden, da sie keine speziellen Informationen 

über Wahrscheinlichkeitsverteilungen und auch sonst keine formalen Modellspezi- 

fikationen benötigen. 

• Vor der Erstellung des Prognose-Modells müssen keine Annahmen gemacht wer- 

den. Auch sind viele Parameter durch die Anwendungssituation und die zur Verfü- 

gung stehenden Daten bereits festgelegt. 

• KNN sind relativ robust und reagieren deshalb nur wenig empfindlich auf ver- 

rauschte Eingabedaten. 

• Es ist möglich, das Training eines KNN während des Prognose-Einsatzes fortzu- 

führen. Auf diese Weise kann es an die sich über den Zeitablauf ändernden Zusam- 

menhänge angepasst werden. 

• KNN können verhältnismäßig gut mit chaotischen Anteilen in den Daten umgehen, 

was bei einigen Zeitreihen notwendig ist. 

54 Vgl. beispielsweise [Zell00, S. 26 ff.], [HaNe02, S. 175] oder [Zhan03, S. 160 ff.]. 

31


Diesen Vorteilen stehen allerdings auch einige Einschränkungen und Nachteile gegen- 

über: 

• Der Lernvorgang eines KNN gilt generell als ein sehr zeitaufwändiges Verfahren. 

• Der Wissenserwerb von KNN ist nur durch Lernen möglich. Bekannte Zusammen- 

hänge können nicht bereits im Vorhinein implementiert werden. 

• Es ist nicht möglich aus einem trainierten Netz die zu Grunde liegenden kausalen 

Zusammenhänge der resultierenden Abbildung abzuleiten. Dies hat z. B. zur Fol- 

ge, dass Entscheidungen, die auf den Ergebnissen einer mit einem KNN erstellten 

Prognose basieren, schwerer durchsetzbar sein können. 

• Auch wenn viele Parameter eines KNN bereits durch die jeweilige Anwendungs- 

situation festgelegt sind, gibt es immer eine Vielzahl von weiteren Parametern, die 

noch spezifiziert werden müssen. Insbesondere gibt es für die Bestimmung dieser 

Parameter in vielen Fällen keine zufriedenstellenden Heuristiken, so dass sie einen 

zeitaufwändigen Prozess darstellen kann. 

• KNN können nur schlecht gleichzeitig lineare und nichtlineare Zusammenhänge 

berücksichtigen. 

Sowohl aus dieser Gegenüberstellung als auch aus den Ergebnissen vieler praktischer 

Vergleiche in den für diese Arbeit analysierten Anwendungen von KNN geht hervor, dass 

der Einsatz von KNN grundsätzlich weder zu bevorzugen noch abzulehnen ist. 55 Eine ab- 

schließende Entscheidung ist demnach von der jeweiligen Anwendungssituation abhän- 

gig. Da jedoch immer eine gute Chance besteht, dass mit einem optimal konfigurierten 

Netz Prognosen von einer beachtenswerten Güte erstellt werden, sollte bei der Auswahl 

einer Methode zur Prognose von Zeitreihen der Einsatz von KNN grundsätzlich in Erwä- 

gung gezogen werden. 

55 In Tabelle 28 auf Seite 59 werden die Ergebnisse der praktischen Vergleiche von KNN und statistischen 

Methoden bei der Prognose von Zeitreihen aufgeführt. 

32

4 WEITERE PROGNOSE-METHODEN DES SOFT COMPUTING 

4 Weitere Prognose-Methoden des Soft Computing 

4.1 Überblick 

Während Computer mit exakten Daten, Begriffen und Anweisungen arbeiten, ist dies bei 

Menschen oftmals anders. Sie benutzen nicht eindeutig definierte Begriffen, erlauben Un- 

genauigkeiten und verwenden vage Informationen und Formulierungen. Für viele All- 

tagssituationen und Probleme aus der Praxis sind solche weniger exakten Lösungsansätze 

auch vollkommen ausreichend. Trotzdem werden für die computerunterstützte Bearbei- 

tung derartiger Probleme oftmals traditionelle exakte Methoden eingesetzt, wodurch oft 

unnötig komplexe, wenig fehlertolerante und teure Problemlösungen entstehen. 56 

Um Alternativen für solche „harten“ Methoden zu fördern, wurde von LOTFI A. ZADEH 

der Begriff Soft Computing als Oberbegriff für alle Methoden eingeführt, die im Unter- 

schied zu den traditionellen Verfahren tolerant gegenüber Unsicherheit, Unschärfe, un- 

vollständiger Information und extremer Komplexität sind. Bei den für die praktischen 

Anwendungen wichtigsten Methoden des Soft Computing handelt es sich um 

• Künstliche Neuronale Netze, 

• Fuzzy-Systeme und 

• Evolutionäre Algorithmen. 

Die Methoden des Soft Computing spielen insbesondere bei Systemen, die in häufigem 

Dialog mit Menschen stehen, eine immer größere Rolle. 57 Deshalb werden in den fol- 

genden Abschnitten die beiden Gebiete Fuzzy-Systeme und Evolutionäre Algorithmen 

kurz vorgestellt und auf ihre Bedeutung für die Prognose von Zeitreihen hin untersucht. 

Für jeweils detailierte Darstellungen der jeweiligen Methoden wird beispielsweise auf 

[NaKK96] und [Weic02] verwiesen. 

4.2 Fuzzy-Systeme 

Die Grundidee von Fuzzy-Systemen liegt darin, das klassische Konzept der zweiwertigen 

Logik auf das Konzept einer mehrwertigen Logik zu erweitern, um damit beispielsweise 

die Handhabung von unscharfen 58 Begriffen der natürlichen Sprache zu unterstützen. Die- 

sem Ansatz liegen auch die von ZADEH 1965 vorgeschlagenen Fuzzy-Mengen zugrunde. 

Im Unterschied zu herkömmlichen scharfen Mengen, in denen ein Element einer Menge 

entweder ganz oder gar nicht angehört, ist es bei (unscharfen) Fuzzy-Mengen möglich, 

für jedes Element einen Zugehörigkeitsgrad zwischen 0 und 1 anzugeben. 

56 Vgl. [BHKL + 98, S. V]. 

57 Vgl. [Lexi01, Stichwort Softcomputing]. 

58 Unschärfe bedeutet in diesem Zusammenhang, dass statt eines exakten Wertes eine linguistische Beschreibung 

gegeben wird (Vgl. [NaKr98, S. 38]). 

33


Um dies zu veranschaulichen wird hier als Beispiel das Attribut Größe gewählt. Wäh- 

rend es bei einer zweiwertigen Betrachtung nur möglich ist, einen Menschen als groß 

oder nicht groß zu bezeichnen, kann dies bei einer Betrachtung nach der Fuzzy-Theorie 

differenzierter quantifiziert werden. Hier ist es möglich anzugeben, zu welchem Grad die 

jeweilige Person groß ist. Um den Unterschied zu verdeutlichen werden die jeweiligen 

Zugehörigkeits-Funktionen in Abbildung 17 beispielhaft dargestellt. Nach der Funkti- 

on der linken Abbildung wären alle Menschen groß, die eine Körpergröße von mindes- 

tens 1,80 m haben, während alle kleineren Menschen dementsprechend nicht groß wären. 

Nach der Funktion der rechten Abbildung wäre ein Mensch mit einer Größe von 1,60 m 

hingegen noch zu einem Grad von 0,7 groß. 

1 

0 

1,60 1,80 2,00 

1 

0,7 

0 

1,60 1,80 2,00 

Quelle: [NaKr98, S. 39]. 

Abbildung 17: Zugehörigkeitsgrade des Attributs groß bei zweiwertiger Betrachtungsweise (links) 

und gradueller Betrachtungsweise (rechts) 

Durch die Zuordnung von sogenannten linguistischen Termen, wie nah, hoch oder stark, 

zu den Zugehörigkeitsfunktionen der jeweiligen Attribute wird es ermöglicht, auch lin- 

guistische Regeln der folgenden Form zu verarbeiten: 

Wenn der Zug dem Ziel nah ist und die Geschwindigkeit hoch ist, 

dann ist stark zu bremsen. 59 

Da solche unscharfen Angaben einer Interpretation bedürfen und sich oftmals auch Unsi- 

cherheit auszeichnen, wurde deren Verwendung früher weitgehend vermieden. Bei Fuzzy- 

Systemen werden jedoch bewusst derartige Informationen eingesetzt, da dies generell 

zu einer einfacheren, leichter handhabbaren und dem menschlichen Denken vertrauteren 

Modellierung führt. 60 

Bei den meisten Ansätzen, bei denen für die Prognose von Zeitreihen auf Fuzzy-Systeme 

zurückgegriffen wird, werden diese mit anderen Methoden wie Künstlichen Neuronalen 

Netzen kombiniert. Dabei werden zwei Ansätze unterschieden: 61 

Beim einem kooperativen Neuro-Fuzzy-System arbeiten das KNN und das Fuzzy-System 

grundsätzlich unabhängig voneinander. Während durch das Fuzzy-System die eigentli- 

che Problemstellung bearbeitet wird, ist es die Aufgabe des KNN die Parameter dieses 

59 [NaKK96, S. 258]. 

60 Vgl. [NaKK96, S. 4]. 

61 Vgl. [NaKK96, S. 281]. 

34


Systems zu bestimmen oder während des Einsatzes zu optimieren. Ein Vertreter der ko- 

operativen Fuzzy-Systeme ist das Fuzzy Associative Memory Neural Network (FAM), das 

beispielsweise bei [ChSM02, S. 249 ff.] zur Prognose des Arbeitseinsatzes in der Stahl- 

industrie verwendet wird. 

Dagegen werden unter den hybriden Neuro-Fuzzy-Systemen alle Kombinationen zusam- 

mengefasst, die sich durch eine einheitliche Architektur auszeichnen. In der Regel ist 

die Architektur an die Struktur eines KNN angelehnt, wobei das Fuzzy-System entwe- 

der als ein spezielles KNN interpretiert oder mit Hilfe eines KNN implementiert werden 

kann. Eine Trennung der beiden Teilsysteme ist jedoch in beiden Fällen nicht möglich. 

Ein Vertreter der hybriden Fuzzy-Systeme ist das Adaptive-Network-based Fuzzy Infe- 

rence System (ANFIS), das beispielsweise bei [SYAJ04, S. 140 ff.] für die Prognose der 

Kohlendioxid-Konzentration eines Gasofens zum Einsatz kommt. 

4.3 Evolutionäre Algorithmen 

Bei Evolutionären Algorithmen handelt es sich um Optimierungs- und Verbesserungs- 

verfahren, die der von CHARLES R. DARWIN begründeten Evolutionstheorie nachemp- 

funden sind. 62 Durch diese wird die Vielfalt des Lebens damit erklärt, dass im Zuge der 

Fortpflanzung variierte Erbinformationen weitergegeben werden, wodurch unterschied- 

lich konkurrenzfähige Nachkommen entstehen. Über viele Generationen hinweg konkur- 

rieren diese entsprechend den Prinzipien der natürlichen Selektion und des survival of the 

fittest um Überleben und Fortpflanzung. 63 Dabei setzen sich aufgrund einer natürlichen 

Auslese langfristig nur diejenigen Variationen durch, die an die gegebenen Umweltbedingungen 

am besten angepasst sind. 64 

Durch die Evolutionären Algorithmen werden auf einer sehr abstrakten Ebene einige die- 

ser in der Natur vorkommenden Mechanismen simuliert. Sie werden dabei in die Be- 

reiche Genetische Algorithmen, Evolutionsstrategien, Evolutionäre Programmierung und 

Genetische Programmierung untergliedert. Alle Verfahren unterliegen jedoch einem ge- 

meinsamen Konzept, das darauf beruht, den folgenden „Evolutions-Zyklus“ so lange zu 

durchlaufen, bis eine optimale Lösung gefunden wurde. 65 Das konzeptionelle Vorgehen 

wird in Abbildung 18 grafisch dargestellt. 

1. Den Ausgangspunkt bildet eine Menge von Individuen (gemeint sind Lösungskan- 

didaten), die zusammen eine Population bilden. Die Individuen können zufällig 

generiert oder durch andere Heuristiken bereits im Vorhinein ausgewählt werden. 

2. Mit Hilfe einer sogenannten Fitnessfunktion wird die Güte der einzelnen Individuen 

jeweils quantitativ bewertet. Anhand dieser Bewertung ist es möglich, die Indivi- 

62 Vgl. [BBJP + 01, S. 3]. 

63 Vgl. [Day99, S. 1]. 

64 Vgl. [Niss98, S. 55 f.]. 

65 Vgl. [Weic02, S. 43 f.]. 

35


Terminierungsbedingung 

Umweltselektion 

ja 

Bewertung 

Initialisierung 

Bewertung 

nein 

Paarungsselektion 

Mutation 

Rekombination 

Abbildung 18: Schematischer Zyklus der Evolutionären Algorithmen 

Quelle: [Weic02, S. 43] 

duen untereinander zu vergleichen und die Verbesserung ihrer Fitness im Laufe des 

Prozesses zu beobachten. 

3. Durch die Paarungsselektion werden die Individuen ausgewählt, die durch den Evo- 

lutionsprozess weiter verarbeitet werden. In der Analogie zur humanen Entwick- 

lung werden diese auch Eltern genannt. 

4. Im eigentlichen Evolutionsschritt werden die ausgewählten Individuen einer Re- 

kombinationen unterzogen. Das bedeutet, dass durch die Kombination der Eigen- 

schaften ausgewählter Eltern neue Individuen, sogenannte Kinder, generiert wer- 

den. Dieses Vorgehen ist der biologischen Vererbung nachempfunden. 

5. Um auch von den Eltern unabhängige, neue Eigenschaften zuzulassen, werden die 

Kindindividuen Mutationen unterworfen, bei denen einzelne Parameter der Indivi- 

duen zufällig variiert werden. Auch dieses Vorgehen entspricht dem biologischen 

Vorbild. 

6. Anschließend werden die neu generierten Kindindividuen mit Hilfe der Fitness- 

funktion bewertet. 

7. In der Regel soll eine Population über den Zeitablauf immer gleich groß bleiben. Da 

in einigen Algorithmen sowohl Eltern- als auch Kindindividuen in die Population 

der nächsten Generation übernommen werden, kann die Größe dieser Population 

durch eine begrenzte Selektion an Individuen konstant gehalten werden. 

8. Zum Abschluss wird mit Hilfe einer Terminierungsbedingung entschieden, ob die 

gesuchte Lösung gefunden wurde. Dies könnte beispielsweise dadurch begründet 

sein, dass die Fitness des besten Individuums der aktuell betrachteten Generation 

36


hinreichend optimal ist oder bereits eine maximal festgelegte Anzahl an Durchgän- 

gen durchlaufen wurde. Der Zyklus wird so lange fortgesetzt, bis diese Bedingung 

erfüllt wird. 

Zu beachten ist, dass je nach Verfahren nicht jeder dieser Schritte durchlaufen wird und 

die einzelnen Schritte leichten Abweichungen unterliegen. 

Die Bedeutung Evolutionärer Algorithmen für die Prognose von Zeitreihen liegt darin, 

dass mit diesen andere Prognose-Verfahren modelliert und optimiert werden können. Auf 

diese Weise wurden bereits 1965 mit Hilfe von Evolutionärer Programmierung endliche 

Automaten für die Prognose von Zeitreihen modelliert. 66 

Auch aus einer Integration Evolutionärer Algorithmen mit anderen Methoden des 

Soft Computing erhofft man sich große Vorteile. Dabei werden durch eine Kombina- 

tion der verschiedenen Ansätze in einem hybriden Gesamtsystem deren jeweilige Vor- 

teile möglichst optimal ausgenutzt. 67 Mögliche Ansätze zur Integration mit KNN und 

Fuzzy-Systemen werden in Abbildung 19 dargestellt. Konkrete Anwendungen, in denen 

die Architekturen und Parameter bzw. die Gewichte von Künstlichen Neuronalen Netzen 

durch Evolutionäre Algorithmen optimiert wurden, werden beispielsweise bei [NaMi02, 

S. 504 ff.] bzw. [LuFL03, S. 391 f.] beschrieben. 

Künstliche 

Neuronale Netze 

Topologie- und 

Gewichtsoptimierung 

Auswahl/Erzeugung 

von Trainingsdaten 

Soft Computing 

Evolutionäre 

Algorithmen 

Kontrolle durch 

Fuzzy-Logik 

Erzeugung von 

Fuzzy-Regeln 

Fuzzy-Systeme 

Quelle: [Weic99, S. 31] 

Abbildung 19: Mögliche Integrationsmöglichkeiten Evolutionärer Algorithmen mit anderen Methoden 

des Soft Computing 

66 Vgl. [Weic02, S. 165]. 

67 Vgl. [Niss98, S. 76]. 

37

5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN 

5 Anwendungen von KNN zur Prognose von Zeitreihen 

5.1 Angewandte Methodik zur Literaturrecherche 

Um einen möglichst aktuellen Überblick über das betrachtete Gebiet zu bekommen, wur- 

den im Rahmen dieser Arbeit die letzten fünf Jahrgänge (2000-2004) der wissenschaft- 

lichen Zeitschriften Journal of Forecasting, Neural Networks und Neurocomputing auf 

Anwendungen Künstlicher Neuronaler Netze (KNN) zur Prognose von Zeitreihen un- 

tersucht. Um ein möglichst repräsentatives Spektrum verschiedener Anwendungen und 

Methoden zu erhalten, wurde bei der Auswahl der Zeitschriften großer Wert auf Inter- 

nationalität gelegt, mit der Folge, dass alle untersuchten Beiträge in englischer Sprache 

verfasst sind. Zur Eingrenzung der in Frage kommenden Artikel wurden sämtliche Titel, 

Abstracts und Artikel nach an die jeweilige Zeitschrift angepassten Suchbegriffen durch- 

sucht. Diese Suchbegriffe und eine quantitative Übersicht über die erhaltenen Ergebnisse 

sind in Tabelle 4 aufgeführt. 

Zeitschrift: Journal of Forecasting Neural Networks Neurocomputing 

Untersuchter Zeitraum: 2000–2004 2000–2004 2000–2004 

Suchbegriffe: neural network forecasting, 

prediction, 

time series 

forecasting, 

prediction, 

time series 

Gefundene Artikel: 29 54 123 

Verwertete Artikel: 11 8 37 

Tabelle 4: Quantitative Ergebnisse der Zeitschriftenrecherche 

Die durch die jeweiligen Suchbegriffe gefundenen Artikel wurden anschließend näher auf 

ihre Verwertbarkeit für die Fragestellung dieser Arbeit hin untersucht. Die große Diskre- 

panz zwischen der Anzahl an gefundenen und verwerteten Artikeln ergibt sich dadurch, 

dass ausschließlich Anwendungen ausgewertet wurden, die sich auf die Prognose von 

Zeitreihen beziehen. Zusätzlich mussten weitere Artikel aussortiert werden, in denen ent- 

weder keine konkreten Anwendungen oder lediglich von KNN abweichende Methoden 

beschrieben wurden. Auf diese Weise blieben von den 217 ursprünglich gefundenen Ar- 

tikeln noch 56 übrig, deren Beschreibungen von Anwendungen Künstlicher Neuronaler 

Netze erfasst wurden. 

Da in manchen Artikeln mehr als nur eine Anwendung oder unterschiedliche Methoden 

für die gleichen Anwendungen beschrieben werden, ergaben sich insgesamt 105 verschie- 

dene Datensätze. Jeder dieser Datensätze beinhaltet die durch die Beschreibung geliefer- 

ten Details über die jeweilige Anwendung und verwendete Methode. Wurden bei einer 

Anwendung für einzelne Eigenschaften keine Informationen angegeben, wurde diese An- 

wendung auch bei der Analyse der entsprechenden Eigenschaft ignoriert. Dadurch fällt 

die Datenbasis für die Untersuchung je nach betrachteter Eigenschaft unterschiedlich groß 

38


aus, was im Folgenden jeweils explizit angegeben wird. Eine detaillierte Auflistung aller 

erhobenen Daten befindet sich in Anhang A dieser Arbeit. 

5.2 Anwendungsfelder 

Wie bereits in Kapitel 2 erwähnt, können Zeitreihen in sehr vielen unterschiedlichen Be- 

reichen anfallen. Bei der durchgeführten Untersuchung wurde deshalb versucht festzu- 

stellen, in welchen Bereichen es Bestrebungen gibt, diese Zeitreihen mit Hilfe von KNN 

zu prognostizieren. Hierfür wurden alle erfassten Zeitreihen-Prognosen einzelnen Bereichen 

zugeordnet, deren Häufigkeiten aus Tabelle 5 hervorgehen. 68 

Vorkommende Bereiche Anzahl der Anwendungen Anteil 

Zeitreihen in der Finanzwirtschaft 15 21 % 

Technische Zeitreihen 14 20 % 

Künstlich generierte Zeitreihen 12 17 % 

Zeitreihen aus der Umwelt 12 17 % 

Anzahl Sonnenflecken 7 10 % 

Stromverbrauch einer Region 4 6 % 

Makroökonomische Zeitreihen 3 4 % 

Zeitreihen des Marketings 3 4 % 

Zeitreihen in der Medizin 1 1 % 

Anzahl betrachteter Anwendungen 71 100 % 

Tabelle 5: Übersicht über die Bereiche der untersuchten Zeitreihen 

Die meisten der prognostizierten Zeitreihen entstammen dem Bereich der Finanz- 

wirtschaft. Hierbei handelt es sich in erster Linie um die Prognose von Aktienkursen, 

Indizes und Wechselkursen. Es ist nicht weiter überraschend, dass derartige Zeitreihen 

von besonderem Interesse sind, kann doch jede zusätzliche Information über deren zu- 

künftige Entwicklung unmittelbar in bares Geld umgesetzt werden. 

Mit nur wenig geringerer Häufigkeit wurden technische Zeitreihen untersucht. Dies sind 

beispielsweise Kohlendioxid-Konzentrationen eines Gasofens, Lichtintensitäten eines La- 

sers oder die Zimmertemperatur in einem Solar-Gebäude. Auch wenn es sich dabei teil- 

weise um bei Wettbewerben vorgegebene Zeitreihen handelt, so ist doch der Nutzen von 

Informationen über die zukünftige Entwicklung für die Kontrolle von technischen Syste- 

men evident. 

Im Bereich der künstlich generierten Zeitreihen werden alle Reihen zusammengefasst, die 

durch mathematische Gleichungen generiert wurden. In den meisten Fällen handelt es sich 

hierbei um die chaotische Mackey-Glass-Zeitreihe. Auch wenn erwähnt wird, dass durch 

diese Reihe die Produktion weißer Blutkörperchen von Leukämie-Patienten modelliert 

werden kann, 69 so liegt der praktische Nutzen derartiger Prognosen in erster Linie darin, 

68 Damit die Erfassung von unterschiedlichen Methoden in einem Artikel nicht zu verzerrten Ergebnissen 

für diese Fragestellung führt, wurde die Datengrundlage in diesem Abschnitt von mehrfach vorkommenden 

Datensätzen bereinigt. 

69 Vgl. [LiLi00, S. 283]. 

39


unterschiedliche Methoden auf gleichen Daten vergleichen zu können. Zudem können mit 

Hilfe solcher Benchmark-Zeitreihen Methoden entwickelt werden, die dann auch generell 

auf weitere chaotische Zeitreihen angewandt werden können. 

Neben der Mackey-Glass-Zeitreihe wurde als Benchmark-Zeitreihe ebenfalls die An- 

zahl monatlicher bzw. jährlicher Sonnenflecken häufig prognostiziert. Zwar könnte diese 

Zeitreihe auch dem Bereich Umwelt zugeordnet werden, da aber der einzige Nutzen wie- 

der der Vergleich unterschiedlicher Methoden bzw. die Entwicklung neuer Methoden ist, 

wird sie an dieser Stelle als eigener Anwendungsbereich behandelt. 

Wesentlich praxisrelevanter sind die Prognosen der Zeitreihen aus den Bereichen des 

Stromverbrauchs, der Makroökonomik, des Marketings (Absatzprognosen) und der Me- 

dizin (Hirnströme), die jedoch nur vereinzelt in den untersuchten Artikeln beschrieben 

wurden. 

Unmittelbarer Nutzen Anzahl der Anwendungen Anteil 

Ja 44 62 % 

Vielleicht 8 11 % 

Nein 19 27 % 


Tabelle 6: Unmittelbarer Nutzen der Zeitreihenprognosen für die jeweilige Anwendung 

Werden die einzelnen Zeitreihen aus der Perspektive betrachtet, welche Prognosen einen 

unmittelbaren Nutzen für die jeweilige Anwendung haben, so ist dies, wie aus Tabelle 6 

ersichtlich ist, in 62 % der Anwendungen der Fall. Bei den Zeitreihen, die mit Vielleicht 

eingestuft wurden, handelt es sich um bei Wettbewerben vorgegebene Reihen, deren Pro- 

gnosen zwar keinen unmittelbaren Nutzen bringen, die jedoch ursprünglich einen praxis- 

relevanten Hintergrund hatten mit der Folge, dass die angewandten Methoden für zukünf- 

tige Prognosen eben solcher Zeitreihen wiederverwendet werden könnten. Der große An- 

teil von Prognosen ohne praktischen Nutzen ist auf die Art der Recherche zurückzuführen, 

bei der wie beschrieben ausschließlich wissenschaftliche Artikel betrachtet wurden. 

5.3 Zur Prognose verwendete Datengrundlage 

Eine wesentliche Differenzierungsmöglichkeit der Prognosen von Zeitreihen unterschei- 

det nach den verwendeten Daten. Diese können nach ihrer Art, nach der zeitlichen Be- 

trachtung der Werte sowohl in die Vergangenheit als auch in die Zukunft, nach der Art 

der Vorverarbeitung, nach der Anzahl der zur Verfügung stehenden und der verwendeten 

Werte klassifiziert werden. 

5.3.1 Art der Eingabedaten 

Die unterschiedlichen Arten von Eingabedaten für die Prognosen können zum einen als 

endogene Werte ausschließlich aus bereits bekannten Werten in der Vergangenheit lie- 

gender Zeitpunkte der zu prognostizierenden Zeitreihe bestehen. Des weiteren wird bei 

40


anderen Prognosen ausschließlich auf exogene Faktoren zurückgegriffen. Das bedeutet, 

dass es sich um Werte von eventuell verwandten Zeitreihen handelt, auf die eigene Histo- 

rie jedoch nicht zurückgegriffen wird. Ein Beispiel hierfür wäre, wenn vom Goldpreis auf 

einen Aktienindex geschlossen würde, ohne dass hierfür auch die vorhergehenden Werte 

des Index betrachtet würden. 

Liegen in der zu prognostizierenden Zeitreihe zeitliche Abhängigkeiten vor, so wird bei 

einigen Prognosen als zusätzliche Eingabewerte auf Parameter zurückgegriffen, mit deren 

Hilfe unterschiedliche Zeiträume indiziert werden. So können beispielsweise bei der Pro- 

gnose des Stromverbrauchs saisonale Schwankungen, die tages- oder jahreszeitlich be- 

dingt sind, einfacher abgebildet werden. Diese unterschiedlichen Arten von Eingabedaten 

können zusätzlich miteinander kombiniert werden. Die Häufigkeiten der in den untersuch- 

ten Anwendungen verwendeten Arten von Eingabedaten sind in Tabelle 7 angegeben. 

Art der Eingabedaten Anzahl der Anwendungen Anteil 

Endogene Datenreihen 57 54 % 

Endogene Datenreihen, Saisonparameter 5 5 % 

Exogene Datenreihen 13 12 % 

Endogene und exogene Datenreihen 24 23 % 

Endogene und exogene Datenreihen, Saisonparam. 6 6 % 


Tabelle 7: Art der zur Prognose verwendeten Eingabedaten 

5.3.2 Vergangenheitstiefe der Eingabedaten und Prognose-Horizont 

Zwei weitere Merkmale, nach denen Prognosen klassifiziert werden können, sind die Ver- 

gangenheitstiefe der Eingabedaten und der Horizont der Prognosen. Durch die Vergangen- 

heitstiefe wird beschrieben, wie weit die zur Prognose des nächsten Wertes verwendeten 

Eingabedaten des KNN maximal vor dem aktuellen Zeitpunkt angefallen sind. Die Wahl 

dieses Zeitfensters ist von der jeweiligen Zeitreihe abhängig. Wird es zu klein gewählt, 

werden relevante Informationen über weiter zurückliegende Werte nicht beachtet. Ist das 

Fenster zu groß, wird die Eingabe des Netzes durch nutzlose Informationen verrauscht. 70 

Aus den in Tabelle 8 angegebenen Zahlen ist ersichtlich, dass bei mehr als zwei Drit- 

tel der untersuchten Anwendungen lediglich Werte berücksichtigt wurden, die weniger 

als zehn Schritte zurückliegen. Werden für die Prognose Werte verwendet, die mehr als 

zehn Schritte zurückliegen, wird oftmals nur auf eine Auswahl dieser Werte oder bereits 

aggregierte Werte wie einen gleitenden Durchschnitt zurückgegriffen. 

Maximale Vergangenheitstiefe Anzahl der Anwendungen Anteil 

1 Schritt 12 14 % 

2 bis 9 Schritte 46 54 % 

Mehr als 9 Schritte 27 32 % 


Tabelle 8: Maximale Vergangenheitstiefen der zur Prognose verwendeten Eingabedaten 

70 Vgl. [BoCB02, S. 252]. 

41


Mit dem Prognose-Horizont wird die Anzahl der Schritte angegeben, die der prognosti- 

zierte Wert in der Zukunft liegt. Wie in Tabelle 9 zu sehen ist, handelt es sich in den meis- 

ten Fällen um sogenannte Ein-Schritt-Prognosen. Das heißt, dass lediglich der jeweils 

unmittelbar nächste Wert prognostiziert wird. Auch wenn Informationen über weiter in 

der Zukunft liegende Werte von großem Vorteil wären, besteht hier das Problem, dass 

Prognosen mit größerem Horizont auch zu größeren Fehlern führen. 

Prognose-Horizont Anzahl der Anwendungen Anteil 

1 Schritt 80 78 % 

2 bis 9 Schritte 9 9 % 

Mehr als 9 Schritte 13 13 % 


Tabelle 9: Reichweiten der Prognosen 

Ein größerer Horizont lässt sich auf zwei Wegen erreichen. Zum einen können Ein- 

Schritt-Prognosen iterativ durchgeführt werden, wobei jeweils die bereits prognostizier- 

ten Zwischenergebnisse als Eingabedaten für weitere Durchgänge dienen. Dieser Vorgang 

wird auch Mehr-Schritt-Prognose genannt. Die zweite Methode besteht darin, das KNN 

direkt auf den weiter in der Zukunft liegenden Wert zu trainieren. In weniger als einem 

Viertel der untersuchten Anwendungen wurde ein Prognose-Horizont von mehr als ei- 

nem Schritt gewählt. Dies liegt vermutlich daran, dass die Prognosegüte mit wachsendem 

Prognose-Horizont in der Regel schnell abnimmt. 

5.3.3 Vorverarbeitung der Eingabedaten 

Viele der zur Prognose verwendeten Eingabedaten werden im Rahmen einer Vorverarbei- 

tung (auch Preprocessing) auf die Weiterverarbeitung mit einem KNN vorbereitet. Die 

am häufigsten angewandte Transformation ist dabei eine lineare Skalierung der Daten, so 

dass diese optimal auf den relevanten Wirkungsbereich der im KNN vorkommenden Ak- 

tivierungsfunktionen abgestimmt sind. 71 Zudem kann durch eine Reskalierung erreicht 

werden, dass alle Eingabedaten von gleicher Größenordnung sind, was die Komplexität 

des KNN verringern kann. 72 Alternativ zur linearen Skalierung kann abhängig von den 

Eingabewerten auch eine Logarithmusfunktion eingesetzt werden. 

Ein weiteres Augenmerk liegt beim Preprocessing auf der Stationarität der Eingabeda- 

ten. Stationarität wird an dieser Stelle so verstanden, dass in den Daten weder ein syste- 

matischer Trend noch saisonale Effekte zum Ausdruck kommen. Es existieren konträre 

Meinungen darüber, ob eine Bereinigung von instationären Daten die Prognosegüte si- 

gnifikant verbessert. 73 Unbestritten ist jedoch, dass eine vorgeschaltete Stationierung die 

Lerngeschwindigkeit erhöht, da die Informationen über Trend- und Saisonkomponenten 

nicht mehr durch das KNN gelernt werden müssen. 

71 Vgl. [FRCK03, S. 486]. 

72 Vgl. [Amil03, S. 321]. 

73 Vgl. bspw. [NHRO99, S. 364 f.] oder [ThEn04, S. 210] vs. [BCFP + 03, S. 428]. 

42


Im Sinne einer Komplexitätsreduktion können beim Preprocessing Eingangsvariablen 

wie im Abschnitt zur Vergangenheitstiefe beschrieben bereits im Vorhinein als gleitende 

Durchschnitte aggregiert werden. Der Vorteil liegt darin, dass eine große Informations- 

breite aufgenommen werden kann, ohne dass dies die Komplexität des KNN durch eine 

überdimensional große Eingabeschicht unnötig erhöhen würde. Zudem werden durch die 

Bildung von gleitenden Durchschnitten Ausreißer, die zu Verfremdungen führen könnten, 

geglättet. Dass lediglich 10 % der Anwendungen auf gleitende Durchschnitte zurückgrei- 

fen, ist damit zu erklären, dass solche Aggregate auch Informationen ausblenden können, 

die für die Prognosen wesentlich sein könnten. 

Die Zeitreihen der Anwendungen, deren Werte mathematisch berechnet wurden, unter- 

scheiden sich von gemessenen Daten realer Zeitreihen dadurch, dass sie keinen Mess- 

ungenauigkeiten unterliegen. Sollen damit jedoch Verfahren entwickelt oder Netze trai- 

niert werden, deren Aufgabe es ist, auch auf realen Zeitreihen zu arbeiten, können die 

Trainingsdaten beim Preprocessing mit einem Rauschen versehen werden. Dadurch wird 

sowohl die Vergleichbarkeit mit als auch die Anwendbarkeit auf reale Anwendungen ge- 

währleistet. Ein zusätzlicher Nutzen der Hinzufügung von Rauschen besteht in der erhöh- 

ten Generalisierungsfähigkeit des trainierten Netzes. 74 Trotzdem wurden unter den un- 

tersuchten Anwendungen die Trainingsdaten lediglich bei 7 % der Zeitreihen mit einem 

additiven Rauschen versehen. 

Eine Übersicht über die Verwendungshäufigkeiten der einzelnen Arten des Preproces- 

sings wird in Tabelle 10 gegeben. Besonders bei dieser Auflistung ist zu beachten, dass 

vermutlich viele Anwendungen, bei denen es keine Angaben über ein Preprocessing gab, 

auch tatsächliches keines anwenden. Schließlich können KNN abhängig von der jeweili- 

gen Zeitreihe auch bei vollständigem Verzicht auf ein Preprocessing sehr gute Ergebnisse 

bei der Prognose erzielen. 

Transformation Anzahl der Anwendungen Anteil 

Lineare Skalierung 36 62 % 

Logarithmus 16 28 % 

Differenzenbildung 16 28 % 

Trend- und Saisonbereinigung 5 9 % 

Bildung gleitender Durchschnitte 6 10 % 

Hinzufügen von Rauschen 4 7 % 

Wavelet Transformation 1 2 % 


Tabelle 10: Im Preprocessing angewandte Transformationen 75 

5.3.4 Zur Prognose verwendete Datensätze 

Wie bereits zu Beginn dieses Kapitels erwähnt, können die einzelnen Anwendungen auch 

nach der Anzahl der zur Verfügung stehenden Datensätze und der Anzahl der bei der 

74 Vgl. [Lotr04, S. 179]. 

75 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. 

43


Prognose verwendeten Trainings- und Testdatensätze differenziert werden. Diese sind ein 

wichtiges Kriterium, da beispielsweise eine kleine Datenmenge verschiedene Methoden 

von vornherein ausschließen könnte. 

Eine Übersicht darüber, wie viele Datensätze bei den untersuchten Anwendungen jeweils 

zur Verfügung standen, wird in Tabelle 11 gegeben. Hier fällt vor allem auf, dass nur 

5 % der Zeitreihen mit weniger als 150 Datensätzen prognostiziert wurden. Das bedeu- 

tet, dass eine Zeitreihe mit lediglich 60 Werten, wie sie in Kapitel 2 vorgestellt wurde, 

offensichtlich nur sehr selten prognostiziert wird. 

Zur Verfügung stehende Datensätze Anzahl der Anwendungen Anteil 

Bis 150 Datensätze 4 5 % 

151–250 Datensätze 13 15 % 

251–500 Datensätze 18 21 % 

501–1000 Datensätze 17 20 % 

1001–3000 Datensätze 17 20 % 

Mehr als 3000 Datensätze 17 20 % 


Tabelle 11: Anzahl der zur Verfügung stehenden Datensätze 

In den Tabellen 12 und 13 wird jeweils die Anzahl der Datensätze angegeben, die bei 

den Prognosen als Trainings- oder Testdaten dienten. Zu berücksichtigen ist, dass die 

Trainingsdaten (soweit angegeben) von den zur Validierung des trainierten Netzes ver- 

wendeten Daten bereinigt wurden. 

Für das Training verwendete Datensätze Anzahl der Anwendungen Anteil 


151–250 Datensätze 17 20 % 

251–500 Datensätze 23 28 % 

501–1000 Datensätze 6 7 % 

1001–3000 Datensätze 20 24 % 



Tabelle 12: Anzahl der für das Training verwendeten Datensätze 

Da es sich bei Trainings-, Validierungs- und Testdatensätzen um disjunkte Mengen han- 

deln sollte, müssen diese selbstverständlich jeweils kleiner als die Gesamtmenge sein. 

Dass die Anzahl der zum Training verwendeten Datensätze häufig jedoch nur wenig klei- 

ner als die Anzahl der überhaupt zur Verfügung stehenden Datenmengen ist, folgt dem- 

nach daraus, dass für die jeweiligen Prognosen der gesamte Daten-Vorrat soweit wie mög- 

lich ausgeschöpft wurde. Daraus kann gefolgert werden, dass in vielen Fällen eine größere 

Menge an Trainingsdaten auch zu besseren Prognoseergebnissen führt. Unterstützt wird 

diese Vermutung durch den Korrelationskoeffizienten aus den zur Verfügung stehenden 

Datensätzen und den Trainingsdaten, der mit 0,75 auf eine lineare Abhängigkeit der bei- 

den Größen hindeutet. 

44


Für das Testen verwendete Datensätze Anzahl der Anwendungen Anteil 


31–60 Datensätze 24 29 % 

61–200 Datensätze 16 19 % 

201–500 Datensätze 20 24 % 

501–1000 Datensätze 8 10 % 



Tabelle 13: Anzahl der für das Testen verwendeten Datensätze 

Dass auch bei der Anzahl der Testdaten ein sehr weites Spektrum ausgeschöpft wird, ist 

damit zu erklären, dass auch diese oftmals einen festen Anteil des Gesamtdatenbestandes 

ausmachen. Eine gängige Aufteilung in Trainings-, Validierungs- und Testdatensätze ist 

beispielsweise 60 %, 20 % und 20 %. Dieses Vorgehen ist jedoch kritisch zu hinterfragen. 

Es ist durchaus denkbar, dass es möglich ist, ab einer gewissen Menge zur Verfügung 

stehender Daten eine allgemein gültige Anzahl an Testdaten absolut festzulegen, mit der 

bereits ein hinreichend genauer Fehler ermittelt werden kann. Um welche Anzahl es sich 

dabei konkret handelt, könnte dann in weiteren Studien durch praktische Untersuchungen 

bestimmt werden. 

Wie in Kapitel 3 beschrieben, ist es oftmals sinnvoll, die vorhandene Datenmenge nicht 

nur in Trainings- und Testdaten zu unterteilen, sondern zusätzlich eine dritte Datenmen- 

ge zur Validierung des trainierten Netzes bzw. der jeweiligen Topologie zu verwenden. 

Damit kann auf der einen Seite die Güte unterschiedlicher Topologien evaluiert und auf 

der anderen Seite der Lernvorgang kontrolliert werden, so dass ein Overfitting verhindert 

wird. Bei gut einem Drittel der untersuchten Anwendungen ist angegeben, dass solche Va- 

lidierungsdaten verwendet wurden. Vermutlich liegt die wirkliche Zahl aber noch deutlich 

höher. 

5.4 Aufbau der verwendeten Netze 

Um die Anwendungen nach ihren jeweiligen Methoden zu klassifizieren, werden sie in 

diesem Abschnitt nach den dabei verwendeten KNN differenziert. Als Unterscheidungs- 

merkmale dienen dabei der Netz-Typ, die Struktur der Verbindungen, die Topologie der 

Netze mit ihrer Anzahl an Schichten und Neuronen sowie die verwendeten Aktivierungs- 

funktionen. 

5.4.1 Verwendete Netz-Typen 

Wie bereits in Kapitel 3 beschrieben, gibt es eine Reihe grundsätzlich unterschiedlicher 

Netz-Typen, mit denen Zeitreihen prognostiziert werden können. 76 In Tabelle 14 ist auf- 

geführt, mit welchen Häufigkeiten auf die einzelnen Netz-Typen zurückgegriffen wurde. 

Dabei werden soweit möglich ähnliche Netz-Typen zusammengefasst. 

76 Weitere Informationen zu den gängigsten Netz-Typen finden sich in den Kapiteln 3.4.1–3.4.4. 

45


Netz-Typ Anzahl der Anwendungen Anteil 

Multi-Layer-Perceptrons (MLP) 62 60 % 

Radiale-Basisfunktionen-Netze (RBF-Netze) 8 8 % 

Rekurrente Netze (RNN) 13 13 % 

Time Delay-Netze (TDNN) 2 2 % 

Netze mit Fuzzy-Logic 4 4 % 

Sonstige 14 14 % 


Tabelle 14: Bei der Prognose verwendete Netz-Typen 

Mit der mit Abstand größten Häufigkeit wurden Multi-Layer-Perceptrons (MLP), also 

einfache Feedforward-Netze, verwendet. Diese Art von Netzen sind neben der Prognose 

auch in vielen anderen Einsatzgebieten Künstlicher Neuronaler Netze die bekanntesten 

und am häufigsten eingesetzten. 77 Ein großer Vorteil des MLP liegt in seiner einfachen 

Handhabung. So wurden durch seine große Verbreitung viele einfache und dennoch ef- 

fiziente Algorithmen für das Training solcher Netze gefunden. Um eine Prognose auf- 

grund von mehreren Vergangenheitswerten durchführen zu können, müssen bei diesem 

Netz-Typ alle relevanten Werte nach dem Prinzip eines „Sliding Windows“ gleichzeitig 

eingegeben werden. 78 

Dies gilt auch für Radiale-Basisfunktionen-Netze (RBF-Netze), die als Feedforward- 

Netze einem MLP im Aufbau sehr ähnlich sind. Sie sind jedoch von einfacherer Struktur, 

so dass der Trainingsvorgang in deutlich kürzerer Zeit durchgeführt werden kann. 79 Die- 

ser Vorteil wird in 7 % der Anwendungen ausgenutzt, wobei die Ergebnisse trotz des 

einfacheren Netz-Typs nicht notwendigerweise schlechter ausfallen als bei den mit einem 

MLP prognostizierten Zeitreihen. 80 

Deutlich stärker auf Prognosen ausgelegt sind alle Formen rekurrenter Netze (RNN), de- 

ren Besonderheit es ist, dass die Verbindungen nicht nur von der Eingabeschicht in Rich- 

tung Ausgabeschicht verlaufen, sondern bei denen auch rückgerichtete Verbindungen zum 

Einsatz kommen. Dadurch können Informationen von vorhergehenden Zeitpunkten und 

Prognosen im Netz gespeichert werden und müssen nicht jedes Mal neu eingegeben wer- 

den. Obwohl sich rekurrente Netze durch dieses Gedächtnis offenbar optimal für Pro- 

gnosen von Zeitreihen zu eignen scheinen, werden sie nur in 13 % der Anwendungen 

eingesetzt. 

Die ebenfalls mit einem Gedächtnis ausgestatteten Time Delay-Netze(TDNN) werden 

noch seltener eingesetzt, obwohl auch sie durch ihre externe Rekurrenz, den verzögerten 

Verbindungen, für Prognosen von Zeitreihen ausgelegt sind. Es ist allerdings zu beachten, 

dass auch bei einigen der rekurrenten Netze Verbindungen mit Verzögerungen eingesetzt 

werden. 

77 Vgl. [ZhPH98, S. 37]. 


79 Vgl. [HaNe02, S. 179]. 

80 Vgl. bspw. [ChSM02, S. 277]. 

46


Auch die in Kapitel 4.2 vorgestellte Fuzzy-Logic hat ihren Einzug in die Welt der KNN 

gefunden. In der Regel handelt es sich bei den Fuzzy-Netzen in den untersuchten Anwen- 

dungen um Feedforward-Netze, bei denen in zusätzlichen Schichten die Eingabewerte 

fuzzifiziert und die Ausgabewerte wieder defuzzifiziert werden. 

Bei den unter „Sonstige“ zusammengefassten Netz-Typen handelt es sich um nur ver- 

einzelt vorkommende Typen wie beispielsweise eine Self Organizing Map (SOM) oder 

um Netz-Typen, die erst im Laufe des Verfahrens durch einen genetischen Algorithmus 

bestimmt werden. Bei solchen Netzen handelt es sich meist um rein wissenschaftliche 

Untersuchungen, deren Relevanz für die praktische Anwendung zumindest zum jetzigen 

Zeitpunkt als nicht sehr hoch einzuschätzen ist. Da ihre Bedeutung jedoch aufgrund er- 

folgreicher Entwicklungen anwachsen könnte, sollten sie bei weiterführenden Untersu- 

chungen, die zu einem späteren Zeitpunkt durchgeführt werden, ggf. mitberücksichtigt 

werden. 

5.4.2 Topologie der Netze 

Ein wesentlicher Faktor für den Erfolg einer Zeitreihen-Prognose ist der richtige struktu- 

relle Aufbau des KNN. Die wichtigsten Bausteine hierfür sind die Neuronen, die in der 

Regel in Schichten angeordnet werden. Dabei sind die Anzahl der Neuronen der Eingabe- 

und Ausgabeschicht durch die jeweilige Anwendung bereits festgelegt, da diese jeweils 

der gewünschten Anzahl an Eingabe- bzw. Ausgabewerten entsprechen müssen. Die Ein- 

gaben müssen deshalb im Vorhinein sorgfältig ausgewählt werden. Dabei sollte darauf 

geachtet werden, dass sie keine Kollinearitäten aufweisen, da ansonsten eine schlechtere 

Prognosegüte zu befürchten ist. 81 Das bedeutet, dass eine größere Anzahl von Eingabeva- 

riablen nicht automatisch zu einem besseren Modell führt, sondern auch ein gegenteiliger 

Effekt auftreten kann. Die bei den untersuchten Anwendungen verwendeten Eingabedi- 

mensionen sind in Tabelle 15 aufgeführt. Darin ist zu erkennen, dass in den meisten Fällen 

weniger als 20 Eingabe-Neuronen verwendet wurden und der Schwerpunkt bei fünf bis 

neun Eingabe-Neuronen lag. 

Anzahl der Eingabe-Neuronen Anzahl der Anwendungen Anteil 

1 Eingabe-Neuron 10 11 % 

2 bis 4 Neuronen 16 18 % 



Mehr als 20 Neuronen 8 9 % 


Tabelle 15: Anzahl der Neuronen der Eingabeschichten 

Wesentlich einfacher ist die Festlegung der Anzahl der Ausgabe-Neuronen. Wie in Tabel- 

le 16 zu sehen ist, wird fast immer nur ein einzelner Wert prognostiziert. Sollen mehrere 

81 Vgl. [SOPP01, S. 156]. 

47


in der Zukunft liegende Werte prognostiziert werden, empfiehlt es sich, für jeden die- 

ser Werte jeweils ein eigenes Netz zu verwenden. Auf diese Weise werden die einzelnen 

Netze entlastet und können zielgerichteter trainiert werden. 

Anzahl der Ausgabe-Neuronen Anzahl der Anwendungen Anteil 

1 Ausgabe-Neuron 86 91 % 

Mehr als 1 Neuron 9 9 % 


Tabelle 16: Anzahl der Neuronen der Ausgabeschichten 

Durch die Anzahl der verborgenen Schichten und der jeweils darin befindlichen Neuronen 

wird die Komplexität eines KNN und damit auch dessen Fähigkeit, komplexe Aufgaben 

zu lösen, festgelegt. 82 Um zu möglichst guten Ergebnissen zu kommen, muss die Anzahl 

der verborgen Schichten und Neuronen für jede Zeitreihe individuell bestimmt werden. 

Mit Ausnahme einiger weniger Fuzzy-Netze und SOM bestehen alle untersuchten Netze 

entweder aus drei oder vier Schichten. Wie aus Tabelle 17 hervorgeht, werden Netze mit 

drei Schichten fast drei mal so häufig verwendet wie Netze mit vier Schichten. 

Anzahl der Schichten Anzahl der Anwendungen Anteil 

1/2 Schichten 3 3 % 

3 Schichten 62 70 % 

4 Schichten 21 24 % 

5/6 Schichten 2 2 % 


Tabelle 17: Anzahl der Schichten der KNN 

Auch wenn mit zunehmender Anzahl von Schichten immer komplexere Funktionen ab- 

gebildet werden können, sind bei einem MLP nicht mehr als maximal zwei verborgene 

Schichten notwendig, da bereits mit einem solchen Netz mit einer hinreichend großen An- 

zahl verborgener Neuronen jede beliebige Funktion approximiert werden kann. Handelt 

es sich um eine stetige Funktion, ist sogar nur eine verborgene Schicht notwendig. 83 

Die Anzahl der Schichten sollte jedoch nicht isoliert festgelegt werden, da von ihr gleich- 

zeitig auch die Anzahl der Neuronen in den verborgenen Schichten abhängig ist. Beide 

Werte sollten zusammen so gewählt werden, dass das resultierende Netz aufgrund eine 

geringere Neuronenanzahl eine möglichst geringe Komplexität aufweist, da so der Trai- 

ningsvorgang beschleunigt werden kann. 84 Aus diesem Grund kann sogar die Effizienz 

des Netzes in manchen Fällen durch Hinzunahme einer weiteren verborgenen Schicht 

erhöht werden. 

Um eine optimale Generalisierungsfähigkeit des KNN zu erreichen, ist es notwendig, 

den Grad der Komplexität des Netzes an der Komplexität der Aufgabenstellung zu ori- 

82 Vgl. [LiDL04, S. 565]. 

83 Vgl. [Amil03, S. 320]. 

84 Vgl. [Amil03, S. 320]. 

48


entieren. Wird die Netz-Komplexität zu gering gewählt, können die Prognosen nicht ad- 

äquat durchgeführt werden. Wird sie beispielsweise durch den Einsatz vieler Neuronen 

zu hoch gewählt, verliert das Netz seine Generalisierungsfähigkeit und es kommt, wie 

in Abbildung 20 dargestellt, zu einem Overfitting. Diesem kann durch eine Reduzierung 

der Netz-Komplexität, also beispielsweise der Reduktion von Neuronen, oder durch eine 

Erhöhung der Problem-Komplexität, beispielsweise durch ein Hinzufügen von Rauschen 

zu den Trainingsdaten, begegnet werden. 85 Prinzipiell sollte versucht werden, die kleinst- 

mögliche Netz-Komplexität zu wählen, mit der die Zeitreihe gerade noch adäquat prognostiziert 

werden kann. 86 

Problem-Komplexität 

Underfitting 

Verringere Netz- 

Komplexität 

Netz-Komplexität 

Gute Generalisierung 

Erhöhe Problem- 

Komplexität 

Overfitting 

Quelle: In Anlehnung an [JeLe00, S. 74]. 

Abbildung 20: Generalisierungsfähigkeit in Abhängigkeit von Problem- und Netz-Komplexität 

Zwar gibt es für eine singuläre Betrachtung auch Faustregeln, nach denen die Neuronen- 

anzahl der verborgenen Schichten berechnet werden kann, diese führen jedoch zu unter- 

schiedlichen Ergebnissen und können somit höchstens als grober Richtwert dienen. 87 Für 

die Bestimmung der optimalen Neuronenanzahl sind sie daher nicht geeignet. 

In Tabelle 18 ist angegeben, wie viele Neuronen insgesamt in den KNN verwendet wur- 

den. Diese Zahl kann als Indikator für die Komplexität des jeweiligen Netzes angesehen 

werden. Es ist dabei erkennbar, dass die Mehrheit der Netze mit weniger als 20 Neuro- 

nen auskommt, was eine sehr überschaubare Komplexität der Problemstellung vermuten 

Anzahl aller Neuronen Anzahl der Anwendungen Anteil 




Mehr als 50 Neuronen 10 13 % 


85 Vgl. [JeLe00, S. 73 f.]. 

86 Vgl. [HaNe02, S. 176]. 

87 Vgl. bspw. [MoCa00, S. 207]. 

Tabelle 18: Anzahl aller Neuronen der KNN 

49


lässt. Dass jedoch auch einige Netze mit weit mehr als 50 Neuronen (sogar bis zu 128 

Neuronen) beschrieben werden, deutet darauf hin, dass bei der Prognose von Zeitreihen 

sehr unterschiedlich komplexe Anforderungen auftreten können. 

5.4.3 Struktur der Verbindungen zwischen den Neuronen 

Die Struktur der Verbindungen zwischen den einzelnen Neuronen wird dadurch festge- 

legt, welche Neuronen miteinander in welcher Richtung direkt Informationen übermit- 

teln können sollen. Im Extremfall ist jedes Neuron mit jedem anderen Neuron beidseitig 

verbunden. In den meisten Fällen sind es allerdings weniger Verbindungen, die in ei- 

nem KNN zur Verfügung stehen. Um eine möglichst präzise Aufstellung über die unter- 

schiedlichen Verbindungsstrukturen zu gewährleisten wurde das Schema von ALEXAN- 

DER GERBER übernommen, der insgesamt 32 verschiedene Klassen von Strukturen unter- 

scheidet. 88 In den untersuchten Anwendungen wurden jedoch lediglich die fünf Klassen 

verwendet, deren Häufigkeiten in Tabelle 19 angegeben sind. 

Verbindungsstruktur (Nummerierung aus der Aufstellung bei [Gerb04]) Anwendungen Anteil 

Feedforward ebenenweise verbunden (Nr. 1) 76 83 % 

Feedforward ebenenweise verbunden mit direkten Rückkopplungen (Nr. 5) 1 1 % 

Feedforward ebenenweise verbunden mit vollständigen lateralen Verbindungen 

innerhalb einer Ebene (Nr. 7) 

4 4 % 

Vollständig ebenenweise verbunden (Nr. 9) 5 5 % 

Feedforward ebenenweise verbunden mit shortcut-Verbindungen in 6 7 % 

Backward-Richtung (Nr. 17) 


Tabelle 19: Bei der Prognose verwendete Verbindungsstrukturen 

Dass die große Mehrheit der Netze lediglich durch einfache Verbindungen ebenenwei- 

se verbunden sind, überrascht nicht weiter, da dies die „normale“ Struktur von MLP, 

RBF-Netzen und einigen weiteren Netz-Typen ist. Auch hier liegt der Vorteil dieser 

Struktur darin, dass derartige Netze mit Standardverfahren wie dem Backpropagation- 

Lernverfahren und dessen üblichen Modifikationen trainiert werden können. Aus den we- 

nigen rekurrenten Netzen ist aus der vorliegenden Datengrundlage keine Präferenz für die 

Art der rekurrenten Verbindungen abzuleiten, was der Auffassung entgegenkommt, dass 

keine der Varianten den anderen grundsätzlich vorzuziehen ist. 89 

5.4.4 Verwendete Aktivierungsfunktionen 

Wie bereits in Kapitel 3 beschrieben, ist einer der Vorteile von KNN bei der Prognose von 

Zeitreihen, dass mit diesen auch nichtlineare Zusammenhänge abgebildet werden können. 

Der wesentliche Bestandteil der Netze für diese Nichtlinearität ist dabei die Transfer- oder 

Aktivierungsfunktion. Wie auch in Tabelle 20 zu sehen ist, sind die am häufigsten genutz- 

ten Aktivierungsfunktionen sigmoid (s-förmig). Darunter fallen alle Funktionstypen, die 

88 Die vollständige Aufstellung findet sich bei [Gerb04, Anhang A]. 

89 Vgl. [DuHu02, S. 327]. 

50


monoton wachsend aber nicht konstant, beschränkt und differenzierbar sind. Häufig ver- 

wendete sigmoide Aktivierungsfunktionen sind die logistische Funktion und der Tangens 

hyperbolicus. Ein Vorteil derartiger Funktionen liegt darin, dass sie auch auf kleine Am- 

plituden sehr sensibel reagieren. 90 Die Differenzierbarkeit ist zudem eine Voraussetzung 

um beispielsweise ein Backpropagation-Verfahren durchführen zu können. 

Da bei der Untersuchung auch die Zentrumsfunktionen der RBF-Netze als Aktivierungs- 

funktionen aufgefasst wurden, ist es nicht weiter überraschend, dass in Tabelle 20 auch 

einige Gaußfunktionen aufgeführt werden, die allgemein auch radiale Basisfunktionen 

genannt werden. Alternative Aktivierungsfunktionen wie beispielsweise polynome Funk- 

tionen waren bei der Analyse nur selten anzutreffen und sind vermutlich in erster Linie 

von akademischem Interesse. 

Art der Aktivierungsfunktionen Anzahl der Anwendungen Anteil 

Sigmoide Funktionen 55 85 % 

Gaußfunktionen 6 9 % 

Lineare Funktionen 4 6 % 

Sonstige Funktionen 4 6 % 


Tabelle 20: In den Neuronen der verborgenen Schichten verwendete Aktivierungsfunktionen 91 

Auch mit unterschiedlichen sigmoiden Funktionen lassen sich unterschiedlich gute Er- 

gebnisse erzielen. 92 Da allerdings die Namen der jeweiligen Funktionen nicht einheitlich 

verwendet werden, kann eine Analyse auf den vorliegenden Daten nicht durchgeführt 

werden. Es ist jedoch zu vermuten, dass festgestellte Dominanzen einzelner Aktivierungs- 

funktionen von den jeweiligen Daten und Netz-Architekturen abhängen, und deshalb kei- 

ne allgemein gültigen Präferenzen angegeben werden können. 

Neben den Aktivierungsfunktionen der Neuronen der verborgenen Schichten können auch 

die Neuronen der Ausgabeschicht von Interesse sein. Da es für die Nichtlinearität ausrei- 

chend ist, dass mindestens eine Schicht mit nichtlinearen Neuronen bestückt wird, wer- 

den in der Ausgabeschicht oftmals einfache, lineare Aktivierungsfunktionen verwendet. 

Da nur bei wenigen Anwendungen die Art dieser Funktionen explizit angegeben wurde, 

wird an dieser Stelle auf eine quantitative Analyse verzichtet. Bereits aus den wenigen 

vorhandenen Angaben ist jedoch ersichtlich, dass auch absolut deutlich mehr lineare Ak- 

tivierungsfunktionen verwendet werden, als dies bei den verborgenen Schichten der Fall 

ist. 

Theoretisch ist es auch möglich, dass nicht nur Neuronen unterschiedlicher Schichten un- 

terschiedliche Aktivierungsfunktionen haben, sondern auch zwischen Neuronen innerhalb 

90 Vgl. [Zell00, S. 90]. 

91 In einigen Anwendungen wurden unterschiedliche Aktivierungsfunktionen innerhalb der verborgenen 

Schichten kombiniert. 

92 Vgl. bspw. [LaLa00, S. 46]. 

51


derselben Schicht Unterschiede bestehen. Ein solcher Aufbau wurde aber unter den un- 

tersuchten Anwendungen ausschließlich bei [Abra04] beschrieben, was darauf schließen 

lässt, dass dies auch in der Praxis keine gängige Methode ist. 

5.5 Lernvorgang der Künstlichen Neuronalen Netze 

Die Wahl des richtigen Lernverfahrens hat einen großen Einfluss auf die Trainingsge- 

schwindigkeit und die aus dem Training resultierende Netzgüte. Die Parameter dieser 

Wahl sind das Lernverfahren, die veränderlichen Bestandteile des Netzes, die Art des 

Lernens und die Zielfunktion, durch die die Güte des Netzes während des Trainings ge- 

messen wird. Deshalb sind dies auch die Eigenschaften von Lernvorgängen, nach denen 

die erhobenen Anwendungen in den folgenden Abschnitten klassifiziert werden. 

5.5.1 Verwendete Lernverfahren 

Es existiert eine Vielzahl unterschiedlicher Lernverfahren, von denen sich bisher nur we- 

nige durchsetzen konnten. Das wahrscheinlich bekannteste ist das in Kapitel 3.3 beschrie- 

bene Backpropagation-Verfahren (BP), das in seiner Grundform oder in diversen Varian- 

ten in den untersuchten Anwendungen auch am häufigsten eingesetzt wurde. Das BP gilt 

jedoch als sehr langsames Lernverfahren, weshalb ihm aus Effizienzgründen in einigen 

Fällen das schneller trainierende Levenberg-Marquardt-Lernverfahren (LM) vorgezogen 

wurde. 93 Daher wurde das LM, wie in Tabelle 21 zu sehen ist, in immerhin 15 % der 

Anwendungen eingesetzt. 

Lernverfahren Anzahl der Anwendungen Anteil 

Backpropagation und Varianten 44 51 % 

Levenberg-Marquardt 13 15 % 

Spezielle Verfahren für RNN 8 9 % 

Spezielle Verfahren für TDNN 2 2 % 



Tabelle 21: Für das Training verwendete Lernverfahren 

Einige weitere Verfahren lassen sich nach den speziell für ihren Netz-Typ entwickelten 

Verfahren klassifizieren. Da die Heterogenität unter den verwendeten Lernverfahren je- 

doch sehr groß ist, werden sehr viele Verfahren unter „Sonstige“ zusammengefasst. Es ist 

daher sinnvoll in den folgenden Abschnitten auch solche Merkmale zu untersuchen, die 

durch das jeweilige Lernverfahren bereits festgelegt sind. 

5.5.2 Verwendete Lern-Typen 

Unter dem Begriff „Lern-Typ“ werden an dieser Stelle die Lernmechanismen sowie die 

Art des Lernparadigmas eines Lernverfahrens zusammengefasst. 94 Bei der Analyse der 

93 Vgl. [MoCa00, S. 208],[MoBr04, S. 499]. 

94 Vgl. [Lipp02, Kap. 3.3]. 

52


Lernmechanismen wird untersucht, welche Bestandteile der Netze überhaupt trainiert 

werden, welche Bestandteile also während des Trainings zur Verbesserung der Prognose- 

güte in welcher Art verändert werden können. 

In Tabelle 22 ist aufgeführt, welche Lernmechanismen bei den untersuchten Lernverfah- 

ren zur Anwendung kamen. Dabei zeigt sich, dass die Modifikation der Stärken von Ver- 

bindungen die anderen Mechanismen deutlich dominiert. Das bedeutet, dass nahezu alle 

verwendeten Lernverfahren die Anpassung von Gewichten als einen Lernmechanismus 

aufweisen. Dass die Entwicklung und das Löschen von Verbindungen nur selten genannt 

wurden, muss unter Berücksichtigung der Tatsache gesehen werden, dass derartige Me- 

chanismen rein praktisch auch durch die Modifikation von Gewichten erreicht werden 

kann. Dies wird durch das Heraufsetzen von auf null gesetzten Gewichten bzw. auf null 

Setzen von vorhandenen Gewichten realisiert. Ähnliches gilt für die Modifikation von 

Schwellenwerten. Diese können alternativ auch durch ein sogenanntes „On“-Neuron rea- 

lisiert und anschließend durch die Modifikation der verbundenen Gewichte trainiert wer- 

den. 

Lernmechanismus Anzahl der Anwendungen Anteil 

Entwicklung neuer Verbindungen 0 0 % 

Löschen existierender Verbindungen 1 1 % 

Modifikation der Stärken von Verbindungen 85 98% 

Modifikation des Schwellenwertes von Neuronen 4 5 % 

Modifikation der Aktivierungs-, bzw. Ausgabefunktion 5 6 % 

Entwickelung neuer Zellen 6 7 % 

Löschen von Zellen 5 6 % 

Lernen von Verzögerungen 7 8 % 


Tabelle 22: Beim Training verwendete Lernmechanismen 95 

Die Veränderung der Topologie wird insgesamt eher stiefmütterlich behandelt. Dies liegt 

vermutlich daran, dass sich auf diesem Gebiet bisher noch keine Lernverfahren durchge- 

setzt haben. Insbesondere hinsichtlich eines Prunings, also der nachträglichen Reduktion 

von Neuronen für den Komplexitäts-Abbau eines Netzes, ist aber zu erwarten, dass solche 

Mechanismen zukünftig auch stärker eingesetzt werden. 96 

Die letzte Klasse der Lernmechanismen fasst das Lernen von Verzögerungen der Syn- 

apsen oder Verbindungen zusammen. Diese Klasse ist insbesondere für solche Modelle 

von Interesse, in denen zeitliche Zusammenhänge abgebildet werden, wie es bei der Pro- 

gnose von Zeitreihen der Fall ist. Während des Lernens können die jeweiligen Signal- 

Verzögerungen sowohl angelegt, als auch in ihrer Dauer modifiziert werden. 

Das zweite Merkmal eines Lern-Typs ist die Art des Lernparadigmas. Dabei ist entschei- 

dend, welche Information einem KNN während der Trainings-Phase über die Richtigkeit 

95 Die Klassifikation erfolgt in Anlehnung an [Zell00, S. 84]. Bei einigen Anwendungen werden unterschiedliche 

Lernmechanismen kombiniert eingesetzt. 

96 Vgl. [Zell00, S. 84]. 

53


seiner Ausgabe vorgelegt werden. Unterschieden werden dabei prinzipiell Verfahren mit 

überwachtem, bestärkendem und unüberwachtem Lernen. Wie aus Tabelle 23 ersicht- 

lich ist, wird bei den untersuchten Anwendungen in nahezu allen Fällen ein überwachtes 

Lernen durchgeführt. Das bedeutet, dass während des Trainings der durch das Netz pro- 

gnostizierte Wert mit dem tatsächlichen Wert verglichen wird. Auf der Grundlage dieses 

Vergleichs werden dann die weiter oben beschriebenen Maßnahmen mit dem Ziel durch- 

geführt die Netzgüte zu verbessern. 

Art des Lernparadigmas Anzahl der Anwendungen Anteil 

Überwachtes Lernen 89 95 % 

Unüberwachtes Lernen 4 4 % 

Kombination aus überwachtem und unüberwachtem Lernen 1 1 % 


Tabelle 23: Beim Training verwendete Art des Lernparadigmas 

Beim unüberwachten Lernen werden dem Netz keine zu den Trainingsdaten gehören- 

den richtigen Ergebnisse vorgelegt. Der Lernvorgang wird stattdessen ausschließlich auf 

Grundlage der Eingabedaten durchgeführt. Da diese Form des Lernens allerdings vor al- 

lem in Anwendungen eingesetzt wird, bei denen Daten klassifiziert werden sollen, wird 

sie auch in den untersuchten Prognose-Anwendungen nur sehr selten verwendet. Bestär- 

kendes Lernen wurde sogar bei keiner der Anwendungen als Art des Lernens genannt. 

5.5.3 Eingesetzte Zielfunktionen 

Das Ziel eines jeden Lernverfahrens ist es, die Parameter eines KNN derart zu modi- 

fizieren, dass die gegebene Aufgabe damit möglichst gut gelöst werden kann. Hierfür 

ist es notwendig, dass diese Zielvorgabe formal operationalisiert wird, so dass das Trai- 

ning daran ausgerichtet werden kann. Um dies zu erreichen, wird in der Regel aus der 

Differenz der beim Training prognostizierten Werte und den tatsächlichen Werten der 

Zeitreihen ein Fehlermaß gebildet, mit dem die Güte des Ergebnisses und damit auch 

der Trainings-Fortschritt abgebildet werden kann. Aus den Ergebnissen der Zielfunktion 

für aufeinander folgende Trainings-Schritte ist dann beispielsweise ersichtlich, ob durch 

das Training überhaupt noch weitere Fortschritte erzielt werden oder ob die Netzgüte ein 

(lokales) Optimum erreicht hat. 

Zielfunktion Anzahl der Anwendungen Anteil 

Mean Squared Error (MSE) 17 22 % 

Normalized Mean Squared Error (NMSE) 14 18 % 

Sum of Squared Error (SSE) 10 13 % 

Root Mean Squared Error (RMSE) 18 23 % 

Normalized Root Mean Squared Error (NRMSE) 12 15 % 



Tabelle 24: Beim Lernen verwendete Zielfunktion 

54


Wie aus Tabelle 24 hervorgeht, ergibt sich bei den in den analysierten Anwendungen 

verwendeten Zielfunktionen ein relativ heterogenes Bild. Fast allen dieser Funktionen ist 

jedoch gemeinsam, dass sie sich auf die quadrierten Abweichungen des prognostizierten 

Wertes vom erwarteten Wert beziehen. Diese Quadrierung bewirkt zunächst, dass sich 

negative und positive Abweichungen nicht gegenseitig neutralisieren und dass größere 

Abweichungen im Verhältnis zu kleineren Abweichungen deutlich stärker gewichtet wer- 

den. Dass dadurch auch einzelne Ausreißer sehr stark ins Gewicht fallen, ist in der Regel 

nicht gewünscht, weshalb bei einigen Anwendungen im Anschluss wieder die Wurzel- 

funktion angewandt wird. Dieser Umweg hat den Vorteil, dass beispielsweise der Root 

Mean Squared Error (RMSE) im Gegensatz zum Mean Absolute Error (MAE), bei dem 

einfach die Beträge der Abweichungen aufsummiert werden, vollständig differenzierbar 

ist und trotzdem leicht interpretiert werden kann, da er die gleiche Dimension wie die 

singulären Abweichungen aufweist. 

Das Normalisieren eines Fehlers macht nur dann Sinn, wenn die Prognosen unterschied- 

licher Zeitreihen miteinander verglichen werden sollen. Da dies nicht die Aufgabe einer 

Zielfunktion ist, ist dieses Vorgehen demnach als überflüssig zu bezeichnen. Ähnliches 

gilt auch für die Bildung von Mittelwerten. Auch diese lineare Transformation hat kei- 

nen Einfluss auf das Training und dient lediglich einer einfacheren Interpretation, wie sie 

jedoch nur von einer Gütefunktion gefordert wird. 

Aus diesen Gründen lassen sich die ersten drei der in Tabelle 24 genannten Zielfunktionen 

zu einer Klasse von quadratischen Zielfunktionen zusammenfassen und die beiden darauf 

folgenden zu einer Klasse von linearen Zielfunktionen. Ob sich die Ergebnisse unter- 

scheiden, wenn Zielfunktionen aus unterschiedlichen Klassen verwendet werden, hängt 

vermutlich von den Parametern des Lernvorgangs und den jeweiligen Daten ab. 97 Ein sol- 

cher Zusammenhang sollte in weiteren Studien untersucht werden, wie auch die Frage, 

ob eine der beiden Funktionsklassen grundsätzlich der anderen vorzuziehen ist. 

5.6 Erfolgsmessung der Prognosen 

Um die Güte von mit einer speziellen Methode erstellten Prognosen ermitteln oder ver- 

schiedene Methoden miteinander vergleichen zu können, ist es notwendig diese Güte 

anhand einer Funktion ähnlich der im letzten Abschnitt beschriebenen Zielfunktion zu 

definieren. Nur Methoden, die auf gleichen Daten arbeiten und mit der gleichen Güte- 

funktion gemessen werden, können direkt miteinander verglichen werden. Die Wahl einer 

Gütefunktion ist in der Regel von der jeweiligen Aufgabe des Modells abhängig, da un- 

terschiedliche Arten von Funktionen zu unterschiedlichen Konsequenzen führen können. 

97 Laut ANDREAS ZELL spielt diese Unterscheidung bei Backpropagation-Verfahren angeblich keine Rolle 

(Vgl. [Zell00, S. 106]). Unterschiedlich gewichtete Fehler in der Zielfunktion können aber insbesondere 

beim Abbruchkriterium oder einer vom Lernfortschritt abhängigen Schrittweite entsprechend 

unterschiedliche Reaktionen hervorrufen. 

55


Ebenso ist die Wahl von Vergleichsmethoden ausschlaggebend um den Erfolg oder Miss- 

erfolg der durchgeführten Methoden transparent zu machen. Aus diesem Grund werden 

die untersuchten Anwendungen in diesem Kapitel sowohl nach ihren Gütefunktionen als 

auch nach den jeweils zum Vergleich herangezogenen alternativen Modelltypen klassifi- 

ziert. 

5.6.1 Verwendete Gütefunktionen 

Der Unterschied zwischen der im letzten Abschnitt untersuchten Zielfunktion und der 

Gütefunktion besteht in ihrer Aufgabe und den zur Berechnung verwendeten Datensätzen. 

Während die Ergebnisse von Zielfunktionen aufgrund von Testdaten bestimmt werden 

und ausschließlich zur Beobachtung und Gestaltung des Lernvorgangs dienen, wird eine 

Gütefunktion aufgrund von Testdaten berechnet, um die Qualität eines Modells angeben 

und so unterschiedliche Modelle miteinander vergleichen zu können. Das bedeutet, dass 

mit der Zielfunktion das Netz nur in unterschiedlichen Trainingsphasen mit sich selbst 

verglichen wird. Es kann selbstverständlich trotzdem vorkommen, dass die Zielfunktion 

nach Abschluss des Trainings auch als Gütefunktion eingesetzt wird. 

Da demnach eine einfache Interpretierbarkeit und Vergleichbarkeit originäre Eigenschaf- 

ten von Gütefunktionen darstellen sollten, sind Durchschnittsbildungen und Normalisie- 

rungen an dieser Stelle als sehr sinnvoll anzusehen. Mit einer Durchschnittsbildung wird 

der ermittelte Fehler in die Größenordnung eines einzelnen Fehlers skaliert und dadurch 

von der Größe der Testdatenmenge gelöst. Rein theoretisch dürften somit sogar „Güte- 

Größen“ miteinander verglichen werden, die auf einer unterschiedlich großen Anzahl von 

Testdaten beruhen. Derartiges sollte allerdings nicht ohne Vorbehalt geschehen, da mit 

zunehmender zeitlicher Entfernung von den Trainingsdaten die Zeitinvarianzannahme, al- 

so die Annahme, dass sich die Bedingungen, unter denen ein Prognosemodell aufgebaut 

wurde, im Zeitraum der Prognose nicht ändern, zunehmend unwahrscheinlicher wird. 98 

Die Normierungen dienen dazu, auch absolut eine Aussage über die Güte der Prognosen 

machen zu können. Erst dadurch wird die Angabe der Prognosequalität auch losgelöst 

von der Größenordnung der Zeitreihenwerte zu einer interpretierbaren Größe. 

Da für jede Anwendung oftmals mehrere Gütefunktionen berechnet werden, ist die in 

Tabelle 25 dargestellte Funktionsvielfalt größer als die der in Tabelle 24 aufgeführten 

Zielfunktionen. Neben den bereits als Zielfunktionen eingesetzten Fehlermaßen kommt 

hier insbesondere der Anteil richtiger Vorzeichen-Klassifikationen sowie das Bestimmt- 

heitsmaß (R 2 ) hinzu. Bei diesen beiden handelt es sich im Gegensatz zu den anderen 

Maßzahlen nicht um Fehlermaße, bei denen eine gute Prognosequalität durch einen mög- 

lichst geringen Wert repräsentiert wird. Stattdessen liegen beide Maßzahlen zwischen null 

und eins, wobei der Wert jeweils umso höher ist, je besser die Prognosen des Modells aus- 

fallen. 

98 Vgl. [Webe98, S. 112]. 

56


Gütefunktion Anzahl der Anwendungen Anteil 

Root Mean Squared Error (RMSE) 29 34 % 

Normalized Mean Squared Error (NMSE) 18 21 % 

Anteil richtiger Vorzeichen-Klassifikationen 17 20 % 

Mean Absolute Error (MAE) 15 18 % 

Mean Squared Error (MSE) 13 15 % 

Normalized Root Mean Squared Error (NRMSE) 10 12 % 

Bestimmtheitsmaß (R 2 ) 10 12 % 

Mean Absolute Percentage Error (MAPE) 6 7 % 



Tabelle 25: Zur Erfolgsmessung verwendete Gütefunktionen 99 

Beim Bestimmtheitsmaß handelt es sich um eine statistische Größe, die den linearen Zu- 

sammenhang zwischen den vom Modell prognostizierten und den real erwarteten Werten 

misst. Der Vorteil dieser Funktion liegt darin, dass sie entsprechend dem Korrelations- 

koeffizienten der Korrelationsanalyse bestimmt wird und deshalb weit verbreitet ist. Der 

Verwendung ist dennoch kritisch zu hinterfragen, da dieses Maß leicht fehlinterpretiert 

werden kann. So ergibt sich auch ein optimaler linearer Zusammenhang (R 2 = 1), wenn 

der Prognosefehler zwar sehr groß ist, alle Abweichungen jedoch von gleicher Größe und 

Richtung sind. 

Das Maß der richtigen Vorzeichen-Klassifikationen wird unter den untersuchten Anwen- 

dungen ausschließlich bei Zeitreihen aus dem finanzwirtschaftlichen Bereich verwendet. 

Dies liegt darin begründet, dass es beim Wissen über die zukünftige Entwicklung einer 

Finanzzeitreihe oftmals von größerer Bedeutung ist, ob sich ein Kurs nach oben oder 

nach unten bewegt oder wann ein Wendepunkt zu erwarten ist, als die exakte Höhe jeder 

Kursänderung. Werden jeweils die Differenzen zweier aufeinander folgender Kurswer- 

te berechnet, wird durch das Vorzeichen der gebildeten Werte angezeigt, ob es sich um 

steigende oder fallende Kurse handelt. Aus diesem Grund ist es ausreichend, das Vorzei- 

chen zukünftiger Differenzen richtig zu prognostizieren um daraus eine gewinnbringende 

Strategie zu entwickeln. 

Wie bereits erwähnt, ist die Wahl der zu verwendenden Gütefunktion nicht beliebig. Zwar 

drücken diese Funktionen zu einem gewissen Grad aus, inwiefern die prognostizierten 

Werte mit den erwarteten übereinstimmen, die Abweichungen werden jedoch auch bei 

den Fehlermaßen unterschiedlich gewichtet. Dies kann dazu führen, dass eine Methode im 

Vergleich mit einer anderen Methode bei Verwendung einer Gütefunktion besser bewertet 

wird, während bei Verwendung einer anderen Gütefunktion die zweite Methode besser 

abschneidet. 100 Deshalb sollte für den Vergleich von Methoden im Vorhinein festgelegt 

werden, mit welcher Gütefunktion die jeweiligen Netze evaluiert werden. 

Die gleichzeitige Angabe verschiedener Gütefunktionen, wie sie bei den untersuchten 

99 Bei einigen Anwendungen werden mehrere Gütefunktionen angegeben. 

100 Vgl. beispielsweise in [BCFP + 03, S. 433] die Diskrepanz der Ergebnisse mit RMSE und MAE. 

57


Anwendungen häufig anzutreffen ist, erscheint auf den ersten Blick als sehr sinnvoll. Um 

eine möglichst gute Vergleichbarkeit mit anderen Methoden zu gewährleisten, sollte dies 

jedoch vor dem Hintergrund unterschiedlicher Bedeutungen wegen der fehlenden Aus- 

richtung auf die spezifische Ausgabe vermieden werden. In manchen Fällen ist es aller- 

dings auch denkbar, dass eine Aufgabe derart gestellt ist, dass eine Aussage über die 

Qualität der angewandten Methoden nur durch die Kombination unterschiedlicher Güte- 

funktionen möglich ist. 101 Auch in einem solchen Fall sollte die Auswahl der relevanten 

Gütefunktionen bereits im Voraus festgelegt werden um die Qualitätsmessung adäquat zu 

operationalisieren. 

5.6.2 Vergleiche mit anderen Modellen 

Der Erfolg einer Prognose-Methode ist nicht zuletzt auch immer von der jeweiligen Da- 

tengrundlage sowohl der Eingabedaten als auch der zu prognostizierenden Zeitreihe ab- 

hängig. Um den Erfolg einer Methode zu bewerten, werden die Prognosen, die mit dieser 

Methode erstellt wurden, in der Regel solchen Ergebnissen gegenübergestellt, die mit an- 

deren Methoden auf derselben Datengrundlage erzielt wurden. Auf diese Weise ist ein 

direkter Vergleich von Prognose-Methoden möglich. Zu beachten ist dabei jedoch, dass 

in diesem Fall auch die Ergebnisse des Vergleichs nur unter der Prämisse der jeweili- 

gen Datengrundlage verwendet werden können. Allgemein gültige Aussagen für andere 

Anwendungen können auf diese Weise also nicht erzielt werden. 

Wie in Tabelle 26 zu sehen ist, wurden dennoch in 81 der 105 untersuchten Anwendungen 

eine Vielzahl unterschiedlicher Modelle für den Vergleich der Prognose-Güten herange- 

zogen. Am häufigsten wurden die Ergebnisse mit denen einfacher Feedforward-Netze 

verglichen, da diese als Standardmodell Künstlicher Neuronaler Netze betrachtet werden. 

Unter den statistischen Methoden wurden in den meisten Fällen lineare, autoregressive 

Modelle verwendet, wie sie in Kapitel 2.3.3 beschrieben wurden. 

Vergleichs-Methode Anzahl der Anwendungen Anteil 

Autoregressive Modelle 10 12 % 

ARMA-Modelle 6 7 % 

ARIMA-Modelle 12 15 % 

GARCH-Modelle 8 10 % 

Random Walk 6 7 % 

Feedforward-Netze 29 36 % 

Feedback-Netze 5 6 % 

Radiale-Basisfunktionen-Netze 8 10 % 



Tabelle 26: Zum Vergleich herangezogene weitere Methoden 102 

Werden die Vergleichsmodelle in den Gruppen Statistische Methoden und Künstliche 

Neuronale Netze zusammenfasst, ergeben sich die in Tabelle 27 angegebenen Häufigkei- 

101 Vgl. [Webe95, S. 3]. 

102 In einigen Anwendungen werden auch unterschiedliche Methoden zum Vergleich herangezogen. 

58


ten. Demnach werden sowohl statistische Methoden als auch andere Formen Künstlicher 

Neuronaler Netze mit großer Häufigkeit als alternative Modelle für den Vergleich der 

Prognose-Güten gewählt. 

Art der Vergleichs-Methode Anzahl der Anwendungen Anteil 

Statistische Methoden 41 51 % 

Künstliche Neuronale Netze 51 63 % 


Tabelle 27: Art der zum Vergleich herangezogenen Methoden 103 

Zu beachten ist jedoch, dass damit nicht gewährleistet ist, dass jeweils die optimale Pa- 

rametrisierung des Vergleichmodells verwendet wurde. In manchen Fällen wurde nur ein 

relativ einfaches Modell für den Vergleich herangezogen, so dass eine angebliche Überle- 

genheit der jeweils vorgestellten Methode gegenüber anderen Methoden mit Vorsicht zu 

betrachten ist. Diese Überlegung dürfte auch die Zahlen aus Tabelle 28 relativieren, nach 

denen bei 84 % der untersuchten Anwendungen, bei denen Vergleiche mit anderen Mo- 

dellen gemacht wurden, Vergleichsmodelle mit schlechteren Ergebnissen angegeben wur- 

den. Die in dieser Tabelle in Klammern angegeben Prozentzahlen beziehen sich jeweils 

auf den Anteil innerhalb der untersuchten Klasse von Vergleichsmethoden. Dadurch ist 

erkennbar, dass die statistischen Vergleichsmethoden den originär verwendeten Metho- 

den offenbar verhältnismäßig öfter unterliegen, als dies bei den alternativen Künstlichen 

Neuronalen Netzen der Fall ist. 

Art der Vergleichsmethode Anzahl der Anwendungen, bei denen eine Vergleichsmethode 

schlechter war ähnlich war besser war 

Statistische Methoden 36 (88 %) 3 (7 %) 3 (7 %) 

Künstliche Neuronale Netze 39 (76 %) 5 (10 %) 11 (22 %) 

Alle Vergleiche 68 (84 %) 9 (11 %) 17 (21 %) 

Tabelle 28: Ergebnisse der Vergleiche mit anderen Methoden 

Als Ergebnis dieser Untersuchung ist festzuhalten, dass Prognosen mit unterschiedlichen 

Künstlichen Neuronalen Netzen offenbar auch zu unterschiedlichen Prognose-Güten füh- 

ren. Die Tatsache, dass in drei Viertel der Fälle, in denen KNN als Vergleichsmodelle 

hinzugezogen wurden, diese schlechtere Ergebnisse lieferten, deutet darauf hin, dass auch 

nur ein möglichst optimal parametrisiertes Netz zu optimalen Ergebnissen führt. Die aus 

Tabelle 28 ableitbare Vermutung, dass KNN allgemein den Statistischen Methoden bei 

der Prognose von Zeitreihen überlegen wären, kann jedoch aufgrund der nicht ausrei- 

chend systematischen Vergleiche in den untersuchten Artikeln nicht belegt werden. 

103 In einigen Anwendungen werden sowohl statistische Methoden als auch KNN zum Vergleich herange- 

zogen. 

59

6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN 

6 Zusammenhänge zwischen den einzelnen Kriterien 

6.1 Methodik 

Hinausgehend über die einfache Betrachtung von Anwendungen und Methoden, wie sie 

in Kapitel 5 gemacht wurde, wird in diesem Kapitel analysiert, welche Zusammenhän- 

ge es zwischen den einzelnen dort besprochenen Kriterien gibt. Dadurch sollen Indika- 

toren identifiziert werden, die in den untersuchten Anwendungen zur Auswahl der je- 

weiligen Methoden-Eigenschaften beigetragen haben. Durch die Analyse von bestehen- 

den Regelmäßigkeiten in Abhängigkeit unterschiedlicher Kriterien wird auf diese Weise 

überprüft, inwiefern aus bestimmten Gegebenheiten Handlungsempfehlungen abgeleitet 

werden können. 

Betrachtet werden in diesem Kapitel in erster Linie einwertige Abhängigkeiten der fol- 

genden Form: 

Ausprägung xi von Kriterium X ⇒ Ausprägung y j von Kriterium Y 

Als mögliche Kriterien werden hierfür die in Kapitel 5 vorgestellten und bereits singu- 

lär untersuchten Anwendungsfelder und Eigenschaften der jeweiligen Anwendungen und 

Methoden mit den dort jeweils dargestellten Ausprägungen verwendet. Auf diese Weise 

ergeben sich die in Tabelle 29 aufgeführten Kriterien, die in den folgenden Abschnitten 

auf untereinander bestehende Abhängigkeiten hin untersucht werden. 

Untersuchte Kriterien Anzahl möglicher Ausprägungen 

A Anwendungsbereich 9 

B Art der Eingabedaten 3 

C Vergangenheitstiefe 3 

D Prognose-Horizont 3 

E Vorverarbeitung der Eingabedaten 7 

F Anzahl Datensätze 5 

G Anzahl Trainingsdaten 5 

H Anzahl Testdaten 6 

I Netz-Typ 6 

J Anzahl Eingabe-Neuronen 5 

K Anzahl Ausgabe-Neuronen 2 

L Anzahl Schichten 4 

M Anzahl Neuronen 4 

N Verbindungsstruktur 5 

O Aktivierungsfunktionen verborgener Schichten 4 

P Lernverfahren 5 

Q Art des Lernparadigmas 3 

R Art der Zielfunktion 3 

Tabelle 29: Zur Identifikation von Abhängigkeiten verwendete Kriterien 

Um die Anzahl der zu betrachtenden Verknüpfungen auf ein sinnvolles Maß zu beschrän- 

ken, werden jedoch nicht alle möglichen Kombinationen untersucht, sondern nur ein Teil 

60


davon. Die Auswahl hierfür fand nach zwei unterschiedlichen Herangehensweisen statt. 

Zum einen wurden in einer datenorientierten Sicht statistisch relevante und zum anderen 

in einer methodenorientierten Sicht inhaltlich relevante Zusammenhänge für die weitere 

Analyse ausgewählt. 

Die Identifikation von statistisch relevanten Abhängigkeiten zwischen zwei unterschiedli- 

chen Kriterien erfolgte im Rahmen eines Data-Mining-Prozesses mit Hilfe einer Assozia- 

tionsanalyse. Dabei wurde der Apriori-Algorithmus angewandt, der mit einem Mindest- 

Support von 5 % und einer Mindest-Confidence von 70 % insgesamt 245 Assoziations- 

regeln generierte. Durch den Mindest-Support wird die Häufigkeit festgelegt, mit der die 

Ausprägung eines Kriteriums mindestens auftreten muss, damit daraus eine Regel gene- 

riert werden kann. Da diese Schranke mit 5 % sehr tief angelegt wurde, werden auch 

viele Regeln generiert, deren Relevanz als gering anzusehen ist, da sie nur auf wenigen 

Datensätzen beruhen. Gleichzeitig wurde es auf diese Weise jedoch möglich, dass auch 

Abhängigkeiten von Ausprägungen, die weniger häufig aufgetreten sind, entdeckt werden 

konnten. Auch die Mindest-Confidence ist eine zur Generierung einer Regel mindestens 

notwendige Häufigkeit einer Ausprägung. Hier handelt es sich jedoch um die bedingte 

Häufigkeit, also die Häufigkeit, mit der die Ausprägung eines Kriteriums unter der Bedin- 

gung auftritt, dass auch eine spezielle Ausprägung eines anderen Kriteriums aufgetreten 

ist. Durch die Mindest-Confidence von 70 % wurde demnach gewährleistet, dass nur Re- 

geln generiert wurden, bei denen auch die als bedingt betrachtete Ausprägung mit einer 

ausreichenden Häufigkeit vorkam. 

Da durch den Support und die Confidence einer Regel noch nicht sichergestellt werden 

kann, dass diese auch für die hier vorgenommene Untersuchung relevant ist, wurde als 

Maß für die Relevanz einer Regel der Lift hinzugenommen. Mit dem Lift wird die relative 

Abweichung der bedingten Häufigkeiten von den unbedingten Häufigkeiten als Abwei- 

chung von eins angegeben. Von den generierten Regeln wurden deshalb nur diejenigen 

mit einem Lift von mindestens 2,0 ausgewählt, um eine hinreichend große Abweichung 

von den unbedingten Verteilungen sicherzustellen. 104 Auf diese Weise wurden statistisch 

relevante Regeln identifiziert, deren Ursachen in den folgenden Abschnitten näher unter- 

sucht werden. 

Eine Übersicht der durch das Data-Mining identifizierten Abhängigkeiten findet sich in 

Abbildung 21. Hier sind alle durch den Apriori-Algorithmus erkannten Zusammenhänge 

mit einem Lift von mindestens 2,0 grau markiert. Die dieser Übersicht zugrunde liegenden 

Regeln sowie die zur Berechnung verwendeten Formeln sind in Anhang B aufgeführt. 

Die in der Übersicht markierten Felder lassen sich in zwei Gruppen einteilen. Zum einen 

handelt es sich um Beziehungen, die bereits bei einer oberflächlichen Betrachtung evident 

104 Zwar können Abweichungen des Lift nach unten ebenso auf relevante Regeln hinweisen, da jedoch bei 

keiner der generierten Regeln eine signifikante Abweichung des Lift nach unten auftrat, musste diese 

Richtung nicht weiter berücksichtigt werden. 

61


In Abhängigkeit von 

A 

B 

C 

D 

E 

F 

G 

H 

I 

J 

K 

L 

M 

N 

O 

P 

Q 

R 

Untersuchung von 

A B C D E F G H I J K L M N O P Q R 

Abbildung 21: Durch die Assoziationsanalyse identifizierte Abhängigkeiten zwischen unterschiedlichen 

Kriterien 105 

sind, da sie auch ohne die Informationen einer statistischen Auswertung zu erwarten ge- 

wesen wären. Zum anderen handelt es sich um Abhängigkeiten, die inhaltlich nur schwer 

oder gar nicht zu erklären sind und die nicht zuletzt auch wegen der nur relativ kleinen 

Datengrundlage lediglich durch zufällige Schwankungen fälschlicherweise als Abhängig- 

keiten identifiziert worden sein könnten. Alle markierten Abhängigkeiten werden deshalb 

den beiden Gruppen erwartete und nicht erwartete Abhängigkeiten zugeordnet und in den 

nächsten beiden Abschnitten genauer untersucht. 

Wegen der nur kleinen Datengrundlage ist jedoch immer zu bedenken, dass neben unge- 

wollten Identifikationen auch ungewollte Nicht-Identifikationen stattfinden können. Das 

bedeutet, dass die untersuchten Abhängigkeiten keinesfalls als vollständig betrachtet wer- 

den können. Aus diesem Grund werden in Kapitel 6.4 unabhängig von den Ergebnissen 

der Assoziationsanalyse zusätzlich alle inhaltlich relevanten Verknüpfungen untersucht, 

bei denen die Feststellung einer Abhängigkeit hilfreiche Erkenntnisse für die Modellie- 

rung eines KNN zur Prognose von Zeitreihen erbringen würde und die deshalb wün- 

schenswert wären. 

Insgesamt sei an dieser Stelle nochmals ausdrücklich darauf hingewiesen, dass die be- 

schränkte Anzahl zur Verfügung stehender Daten eine schwerwiegende Restriktion für 

eine derartige Analyse bedeutet, wie sie in diesem Kapitel vorgenommen wird. Diese Ein- 

schränkung ist jedoch, um den Rahmen dieser Arbeit nicht zu sprengen, nicht vermeidbar, 

so dass es empfehlenswert wäre, in weiteren Untersuchungen vergleichbare Analysen auf 

105 Die verwendete Nummerierung bezieht sich auf die in Tabelle 29 auf S. 60 angegebenen Buchstaben. In 

den einzelnen Feldern der Abbildung werden alle Ausprägungen der jeweiligen Kriterien zusammengefasst, 

so dass nur Abhängigkeiten der folgenden Form abgebildet werden: 

Kriterium X ⇒ Kriterium Y . 

62


größeren Datenbeständen durchzuführen. Neben der Verwertung der Erkenntnisse dieses 

Kapitels könnte dann als Erweiterung beispielsweise auch die Analyse von mehrwertigen 

Abhängigkeiten integriert werden, auf die in dieser Arbeit wegen der gegebenen Restrik- 

tionen verzichtet wurde. 

6.2 Untersuchung der erwarteten Abhängigkeiten 

Durch den im vorausgegangenen Abschnitt erwähnten Apriori-Algorithmus wurden so- 

wohl Abhängigkeiten zwischen unterschiedlichen Anwendungs-Merkmalen, die auch a 

priori bereits bekannt oder zumindest im Nachhinein sofort nachvollziehbar sind, ermit- 

telt, als auch solche, die nur schwer oder gar nicht als systematische Abhängigkeiten 

inhaltlich erklärt werden können. Die Abhängigkeiten der ersten Gruppe, die erwarteten 

Abhängigkeiten, werden in diesem Kapitel jeweils einzeln untersucht. Dabei werden die 

Abhängigkeiten dem Merkmal nach angeordnet und zusammengefasst, das die jeweili- 

ge Abhängigkeit bestimmt. Soweit es sich anbietet, werden zusätzlich an der jeweiligen 

Stelle auch die umgekehrten Bedingungen untersucht. Nähere Informationen zu den je- 

weiligen Merkmalen finden sich jeweils in den entsprechenden Abschnitten von Kapitel 5. 

In Abbildung 22 sind die in diesem Abschnitt analysierten Zusammenhänge jeweils durch 

ein X markiert. 




A X X X X 

B 

C X 

D 

E X X 

F X X 

G 

H X X 

I X X 

J X 

K 

L 

M X 

N X 

O X 

P 

Q 

R 

Abbildung 22: Untersuchte Abhängigkeiten zwischen unterschiedlichen Kriterien I 

6.2.1 Abhängigkeiten von den Anwendungsfeldern 

Art der Eingabedaten 

Da saisonale Veränderungen einer Zeitreihe neben der Möglichkeit, eine zusätzliche Ein- 

gabevariable in das Prognose-Modell zu integrieren, auch im Rahmen der Vorverarbeitung 

63


bereits modelliert werden können, wird von derartigen rein saisonalen Eingabevariablen 

bei der Analyse der Eingabedaten abstrahiert. Dementsprechend verbleiben als Ausprä- 

gungen möglicher Arten von Eingabedaten rein endogene, rein exogene oder beide Daten- 

Arten. 

Wird nun die Verteilung dieser Ausprägungen in Abhängigkeit von dem jeweiligen An- 

wendungsbereich betrachtet, ergeben sich für einige Anwendungsbereiche signifikante 

Abweichungen von der in Kapitel 5 ermittelten unbedingten Verteilung. Zur Veranschau- 

lichung werden in Tabelle 30 sowohl alle bedingten Häufigkeiten als auch in der letzten 

Zeile die unbedingten Häufigkeiten absolut und relativ (in Klammern) angegeben. 

Anwendungsbereich Anzahl Rein endogen Rein exogen Endogen und exogen 

Zeitreihen in der Finanzwirtschaft 29 15 (52 %) 7 (24 %) 7 (24 %) 

Technische Zeitreihen 19 8 (42 %) 1 (5 %) 10 (53 %) 

Künstlich generierte Zeitreihen 19 19 (100 %) - - 

Zeitreihen aus der Umwelt 18 4 (22 %) 1 (6 %) 13 (72 %) 

Anzahl Sonnenflecken 8 8 (100 %) - - 

Stromverbrauch einer Region 4 3 (75 %) - 1 (25 %) 

Makroökonomische Zeitreihen 4 4 (100 %) - - 

Zeitreihen des Marketings 3 1 (33 %) 1 (33 %) 1 (33 %) 

Zeitreihen in der Medizin 1 - 1 (100 %) - 

Alle Anwendungsbereiche 105 62 (59 %) 11 (10 %) 32 (30 %) 

Tabelle 30: Art der zur Prognose verwendeten Eingabedaten nach Anwendungsbereichen 

Daraus ist ersichtlich, dass in erster Linie finanzwirtschaftliche Zeitreihen aufgrund von 

rein exogenen Daten prognostiziert wurden. Bei technischen und Umwelt-Zeitreihen lag 

ein deutlich stärkeres Gewicht auf der Kombination von endogenen und exogenen Daten, 

und sowohl alle künstlich generierten Zeitreihen als auch die Anzahl an Sonnenflecken 

wurden ausschließlich aus eigenen Vergangenheitsdaten prognostiziert. Diese Ergebnisse 

sind nicht weiter überraschend, da finanzwirtschaftliche Zeitreihen oftmals selbst nur aus 

anderen Daten zusammengesetzte Reihen sind (bspw. bei einem Börsen-Index), während 

für die mathematisch generierten Zeitreihen und die Anzahl von Sonnenflecken keine 

externen Einflussfaktoren vorhanden sind. Mit der letztgenannten Erkenntnis ist jedoch 

der Schluss zulässig, dass den exogenen Eingabedaten insgesamt eine größere Bedeutung 

zukommt, als dies von der unbedingten Verteilung zu erwarten war. 

Zur Prognose verwendete Datensätze 

Auch bei der Anzahl der insgesamt zur Verfügung stehenden wie auch der schließlich 

zum Training verwendeten Daten wurden durch die Assoziationsanalyse Abhängigkeiten 

von den jeweiligen Anwendungsbereichen erkannt. Dass dies für beide Zahlen gilt, ist 

nicht weiter verwunderlich, da diese, wie in Kapitel 5.3.4 beschrieben, linear korrelieren. 

Um die Abhängigkeiten von den jeweiligen Anwendungsbereichen zu veranschaulichen 

werden in den Tabellen 31 und 32 die bedingten Häufigkeiten den unbedingten (jeweils 

letzte Zeile) gegenübergestellt. 

64


Anwendungsbereich Anzahl 

≤ 250 

Anzahl zur Verfügung stehender Datensätze 

251–500 501–1000 1001–3000 > 3000 

Finanzw. Zeitreihen 24 3 (13 %) 1 (4 %) 7 (29 %) 7 (29 %) 6 (25 %) 

Technische Zeitreihen 15 4 (27 %) 4 (27 %) - 2 (13 %) 5 (33 %) 

Künstlich gen. Zeitreihen 18 6 (33 %) 1 (6 %) 7 (37 %) 2 (11 %) 2 (11 %) 

Zeitreihen der Umwelt 11 2 (18 %) 2 (18 %) 3 (27 %) 3 (27 %) 1 (9 %) 

Anzahl Sonnenflecken 8 - 7 (88 %) - - 1 (13 %) 

Stromverbrauch 3 - 1 (33 %) - 2 (67 %) - 

Makroökon. Zeitreihen 3 2 (67 %) 1 (33 %) - - - 

Zeitreihen des Marketings 3 - 1 (33 %) - 1 (33 %) 1 (33 %) 

Zeitreihen in der Medizin 1 - - - - 1 (100 %) 

Alle Bereiche 86 17 (20 %) 18 (21 %) 17 (20 %) 17 (20 %) 17 (20 %) 

Tabelle 31: Anzahl der zur Prognose zur Verfügung stehenden Datensätze nach Anwendungsbereichen 

Am deutlichsten stechen sowohl bei der Anzahl der zur Verfügung stehenden als auch 

bei der Anzahl an Trainings-Datensätzen die Sonnenflecken-Zeitreihen hervor, die offen- 

sichtlich fast alle auf sehr ähnlichen Datengrundlagen beruhen. Der Ausreißer lässt sich 

jeweils dadurch erklären, dass hier anstelle von jährlichen Werten monatliche Werte ver- 

wendet und prognostiziert wurden. 

Bei den anderen Anwendungsbereichen lassen sich ansonsten nur wenig signifikante sys- 

tematische Abweichungen erkennen. Lediglich bei den finanzwirtschaftlichen Zeitreihen 

stehen offensichtlich in den meisten Fällen überdurchschnittlich viele Datensätze zur Ver- 

fügung. Insgesamt liefert die Differenzierung allerdings ein sehr ausgeglichenes Bild, da 

auch innerhalb der einzelnen Bereiche jeweils sehr verschiedene Anzahlen auftreten. Des- 

halb können aus diesen Aufstellungen auch keine weiteren Erkenntnisse über Abhängig- 

keiten gewonnen werden. 

Anwendungsbereich Anzahl 

≤ 250 

Anzahl der Trainings-Datensätze 

251–500 501–1000 1001–3000 > 3000 

Finanzw. Zeitreihen 23 3 (13 %) 6 (26 %) 2 (9 %) 12 (52 %) - 

Technische Zeitreihen 14 6 (43 %) 1 (7 %) 3 (21 %) - 4 (29 %) 

Künstlich gen. Zeitreihen 18 8 (44 %) 8 (44 %) 1 (6 %) - 1 (6 %) 

Zeitreihen aus der Umwelt 10 3 (30 %) 4 (40 %) - 3 (30 %) - 

Anzahl Sonnenflecken 8 7 (88 %) - - 1 (13 %) - 

Stromverbrauch 4 - 2 (50 %) - 2 (50 %) - 

Makroökon. Zeitreihen 3 2 (67 %) 1 (33 %) - - - 

Zeitreihen des Marketings 3 - 1 (33 %) - 2 (67 %) - 

Alle Anwendungsbereiche 83 29 (35 %) 23 (28 %) 6 (7 %) 20 (24 %) 5 (6 %) 

Tabelle 32: Anzahl der Trainings-Datensätze nach Anwendungsbereichen 

6.2.2 Abhängigkeiten von der verwendeten Datengrundlage 

Vorkommende Anwendungsbereiche in Abhängigkeit von der Vorverarbeitung der Einga- 

bedaten 

Zunächst erscheint es wenig sinnvoll, einzelne Merkmale auf Abhängigkeiten von den 

bei der Vorverarbeitung der Eingabedaten angewendeten Transformationen hin zu un- 

tersuchen, da der Entscheidungsweg eigentlich in der umgekehrten Richtung verläuft. 

65


Dennoch wird diese Analyse hier durchgeführt, da aus ihrem Ergebnis Rückschlüsse auf 

potentielle in Entscheidungsrichtung verlaufende Abhängigkeiten gezogen werden könn- 

ten. 

In Tabelle 33 werden zunächst die einzelnen Anwendungsbereiche nach den jeweiligen 

Transformationen aufgeschlüsselt. An signifikanten Abweichungen fällt dabei in erster 

Linie auf, dass sowohl bei den Logarithmus-Funktionen als auch bei der Bildung von 

Differenzen überdurchschnittlich viele finanzwirtschaftliche Zeitreihen betroffen sind. 

Transformation Anzahl Finanzw. Technik Künstl. Umwelt Sonnenfl. Sonstige 

Lin. Skalierung 36 11 (31 %) 5 (14 %) 9 (25 %) 7 (19 %) 2 (6 %) 2 (6 %) 

Logarithmus 16 13 (81 %) - - 1 (6 %) - 2 (13 %) 

Differenzen 16 13 (81 %) - - 1 (6 %) - 2 (13 %) 

Trend/Saison 5 2 (40 %) - - - - 3 (60 %) 

Gl. Durchschnitte 6 4 (76 %) 1 (17 %) - - - 1 (17 %) 

Rauschen 4 - 3 (75 %) 1 (25 %) - - - 

Wavelet 1 - - - - - 1 (100 %) 

Alle Transformat. 58 24 (41 %) 9 (16 %) 9 (16 %) 8 (14 %) 2 (3 %) 6 (10 %) 

Tabelle 33: Vorkommende Anwendungsbereiche differenziert nach im Preprocessing angewendeten 

Transformationen 106 

Diese Information alleine bringt zwar noch keinen praktischen Nutzen, jedoch ist nun zu 

untersuchen, ob diese Abhängigkeiten auch in umgekehrter Richtung gelten, da dies eine 

wichtige Hilfe für die Modellierung von Neuronalen Netzen darstellen würde. Hierfür 

sind in Tabelle 34 auch die bedingten Häufigkeiten in umgekehrter Richtung angegeben. 

Anwendungsber. Anzahl Skalierung Logarithmus Differenzen Gl. Durchschn. Sonstige 

Finanzwirtschaft 24 11 (46 %) 13 (54 %) 13 (54 %) 4 (17 %) 2 (8 %) 

Technik 9 5 (56 %) - - 1 (11 %) 3 (33 %) 

Künstl. Zeitr. 9 9 (100 %) - - - 1 (11 %) 

Umwelt 8 7 (88 %) 1 (13 %) 1 (13 %) - - 

Sonstige 8 4 (50 %) 2 (25 %) 2 (25 %) 1 (13 %) 4 (50 %) 

Alle Bereiche 58 36 (62 %) 16 (28 %) 16 (28 %) 6 (10 %) 10 (17 %) 

Tabelle 34: In der Vorverarbeitung angewendete Transformationen nach Anwendungsbereichen 107 

Anhand der in Tabelle 34 aufgeführten Daten ist ersichtlich, dass es sich tatsächlich bei 

immerhin mehr als der Hälfte der Transformationen, die für die finanzwirtschaftlichen 

Zeitreihen angegeben wurden, um die Logarithmus- und Differenzenfunktionen handel- 

te. Daraus kann abgeleitet werden, dass derartige Transformationen bei der Modellierung 

von Prognosen auf finanzwirtschaftlichen Zeitreihen immer zumindest in Erwägung ge- 

zogen werden sollten. 

106 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. Da die Anwendungsbereiche 

Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant oft vorkamen, werden 

sie hier aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst. 

107 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. Da die Anwendungsbereiche 

Sonnenflecken, Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant oft 

vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst. Gleiches 

gilt für die Transformationen Trend-/Saisonkomponente, Rauschen und Wavelet. 

66


Verwendete Vergangenheitstiefen in Abhängigkeit von der Vorverarbeitung der Eingabe- 

daten 

Auch bei der Vergangenheitstiefe, der Größe des Eingabe-Zeitfensters der Prognose-Mo- 

delle, wurden durch die Assoziationsanalyse Abhängigkeiten von den in der Vorverarbei- 

tung angewendeten Transformationen ermittelt. Wie aus den in Tabelle 35 angegebenen 

Werten ersichtlich ist, gilt dies in erster Linie für die Bildung gleitender Durchschnitte, 

die offensichtlich durchweg zu einer großen Vergangenheitstiefe führt. Diese Abhängig- 

keit liegt in der Natur der Sache, wird es doch gerade durch derartige bereits im Vorhinein 

aggregierte Daten ermöglicht, Informationen aus einem relativ großen Zeitspektrum zu 

integrieren, ohne dadurch die Komplexität der Netz-Topologie unverhältnismäßig stark 

zu strapazieren. 

Angewendete Transformation Anzahl 1 Schritt 2–9 Schritte ≥ 10 Schritte 

Lineare Skalierung 31 6 (19 %) 16 (52 %) 9 (29 %) 

Logarithmus 14 2 (14 %) 7 (50 %) 5 (36 %) 

Differenzenbildung 14 2 (14 %) 6 (43 %) 6 (43 %) 

Trend- und Saisonbereinigung 5 2 (40 %) 3 (60 %) - 

Bildung gleitender Durchschnitte 5 - - 5 (100 %) 

Hinzufügen von Rauschen 3 - 3 (100 %) - 

Alle Transformationen 50 6 (12 %) 27 (54 %) 17 (34 %) 

Tabelle 35: Vergangenheitstiefen differenziert nach in der Vorverarbeitung angewendeten Transformationen 

108 

Auch hier ist jedoch die umgekehrte Sichtweise für die Unterstützung eines Modellie- 

rungs-Prozesses von Bedeutung. Dabei ist es von besonderem Interesse, wie häufig für 

eine Vergangenheitstiefe von mehr als neun Schritten auf die Bildung gleitender Durch- 

schnitte zurückgegriffen wurde. Ebenso könnte die Größe des Eingabefensters einen Ein- 

fluss auf die Anwendung anderer Transformationen haben. Um dies zu untersuchen wer- 

den in Tabelle 36 auch die umgekehrt bedingten Häufigkeiten angegeben. 

Vergangenh.-Tiefe Anzahl Skalierung Logarithm. Differenzen Gl. Durchschn. Sonstige 

1 Schritt 6 6 (100 %) 2 (33 %) 2 (33 %) - 2 (33 %) 

2–9 Schritte 27 16 (59 %) 7 (26 %) 6 (22 %) - 6 (22 %) 

≥ 10 Schritte 17 9 (53 %) 5 (29 %) 6 (35 %) 5 (29 %) - 

Alle Anwendungen 50 31 (62 %) 14 (28 %) 14 (28 %) 5 (10 %) 8 (16 %) 

Tabelle 36: In der Vorverarbeitung angewendete Transformationen nach Vergangenheitstiefen der 

Eingabedaten 109 

Es zeigt sich jedoch, dass lediglich bei weniger als einem Drittel der Anwendungen mit 

großer Vergangenheitstiefe gleitende Durchschnitte gebildet wurden. Stattdessen lässt 

sich allerdings die Tendenz beobachten, dass die Anwendung einer linearen Skalierung 

108 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. 

109 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. Da die Transformationen 

Trend-/Saisonkomponente, Rauschen und Wavelet nur insignifikant oft vorkamen, werden sie hier aus 

Gründen der Übersichtlichkeit unter Sonstige zusammengefasst. 

67


mit einer zunehmenden Vergangenheitstiefe abnimmt. Dies ist damit zu erklären, dass 

sich das Netz mit einem größeren Eingabefenster besser auf systematische Schwankun- 

gen einstellen kann. 

Anzahl der Trainings-Datensätze in Abhängigkeit von der Anzahl insgesamt zur Verfü- 

gung stehendender Datensätze 

Wie bereits in Kapitel 5.3.4 beschrieben, deutet der Korrelations-Koeffizient von 75 % 

zwischen der Anzahl der insgesamt zur Verfügung stehenden und der dann zum Training 

genutzten Datensätze auf eine lineare Abhängigkeit zwischen den beiden Kriterien hin. 

Demnach ist es nicht weiter verwunderlich, dass diese Abhängigkeit durch die Assoziati- 

onsanalyse identifiziert wurde. Auch aus Tabelle 37 ist der direkte Zusammenhang deut- 

lich erkennbar, dass in den untersuchten Anwendungen eine größere Anzahl von zur Ver- 

fügung stehenden Datensätzen auch zu einer größeren Anzahl von Trainings-Datensätzen 

führte. 

Anzahl aller Datensätze Anzahl 

≤ 250 

Anzahl der Trainings-Datensätze 

251–500 501–1000 1001–3000 > 3000 

Bis 250 Datensätze 16 16 (100 %) - - - - 

251–500 Datensätze 17 12 (71 %) 5 (29 %) - - - 

501–1000 Datensätze 17 - 16 (94 %) 1 (6 %) - - 

1001–3000 Datensätze 17 - 1 (6 %) 4 (24 %) 12 (71 %) - 

Mehr als 3000 Datensätze 15 1 (7 %) - 1 (7 %) 8 (53 %) 5 (33 %) 

Alle betr. Anwendungen 82 29 (35 %) 22 (27 %) 6 (7 %) 20 (24 %) 5 (6 %) 

Tabelle 37: Anzahl der Trainings-Datensätze nach der Anzahl der insgesamt zur Verfügung stehenden 

Datensätze 

Zur Verfügung stehende Anzahl an Datensätzen in Abhängigkeit von der Anzahl verwen- 

deter Test-Datensätze 

Auch bei der Anzahl an Test-Datensätzen wurde in Kapitel 5.3.4 bereits eine Abhängig- 

keit von der Anzahl an zur Verfügung stehenden Datensätzen vermutet, da diese Grö- 

ße oftmals als fester Anteil aller Daten festgelegt wird. Ebenso deutet der Korrelations- 

Koeffizient beider Merkmale mit 65 % auf einen linearen Zusammenhang hin. Durch die 

Anzahl Test-Datensätze Anzahl 

≤ 250 

Anzahl zur Verfügung stehender Datensätze 

251–500 501–1000 1001–3000 > 3000 

Bis 30 Datensätze 6 5 (83 %) 1 (17 %) - - - 

31–60 Datensätze 24 9 (38 %) 8 (33 %) 7 (29 %) - - 

61–200 Datensätze 13 2 (15 %) 3 (23 %) 3 (23 %) 4 (31 %) 1 (8 %) 

201–500 Datensätze 19 - 2 (11 %) 7 (37 %) 8 (42 %) 2 (11 %) 

501–1000 Datensätze 8 - - - 5 (63 %) 3 (38 %) 

Mehr als 1000 Datensätze 8 - - - - 8 (100 %) 


Tabelle 38: Anzahl der zur Prognose zur Verfügung stehenden Datensätze nach der Anzahl der 

Test-Datensätze 

68


Assoziationsanalyse wurde jedoch lediglich eine umgekehrte Abhängigkeit identifiziert. 

Die konkreten Häufigkeiten hierfür sind in Tabelle 38 aufgeführt. 

Hier ist deutlich ersichtlich, dass von der Anzahl der Test-Daten bei den untersuchten An- 

wendungen auch durchaus auf die Anzahl an zur Verfügung stehenden Daten geschlos- 

sen werden kann. Da im Fall dieser Abhängigkeit jedoch ausschließlich die umgekehrte 

Information einen Beitrag für eine zukünftige Partitionierung von Daten eines Prognose- 

Modells leisten könnte, werden in Tabelle 39 auch die umgekehrt bedingten Häufigkeiten 

aufgeführt. 

Alle Datensätze Anzahl 

≤ 30 31–60 

Anzahl der Test-Datensätze 

61–200 201–500 501–1000 > 1000 

≤ 250 16 5 (31 %) 9 (56 %) 2 (13 %) - - - 

251–500 14 1 (7 %) 8 (57 %) 3 (21 %) 2 (14 %) - - 

501–1000 17 - 7 (41 %) 3 (18 %) 7 (41 %) - - 

1001–3000 17 - - 4 (24 %) 8 (47 %) 5 (29 %) - 

> 3000 14 - - 1 (7 %) 2 (14 %) 3 (21 %) 8 (57 %) 

Alle Anwend. 78 8 (6 %) 24 (31 %) 13 (17 %) 19 (24 %) 8 (10 %) 8 (10 %) 

Tabelle 39: Anzahl an Test-Datensätzen differenziert nach der Anzahl zur Verfügung stehender 

Datensätze 

In dieser Bedingungs-Richtung ist zwar die Streuung über die in dieser Arbeit gewählten 

Klassen größer, weshalb dieser Zusammenhang durch den Apriori-Algorithmus nicht als 

signifikant identifiziert wurde. Trotzdem ist der Zusammenhang, dass bei Vorliegen eines 

größeren Datenvorrats in den untersuchten Anwendungen auch eine größere Anzahl an 

Test-Datensätzen gewählt wurde, durch diese Auflistung unzweifelhaft erkennbar. 

Für das Training verwendete Anzahl an Datensätzen in Abhängigkeit von der Anzahl der 

verwendeten Test-Datensätze 

Da in den vorausgegangenen Abschnitten sowohl Abhängigkeiten zwischen der Anzahl 

zur Verfügung stehender und der Anzahl zum Training verwendeter Datensätze als auch 

Abhängigkeiten zwischen der Anzahl zur Verfügung stehender und der Anzahl zum Tes- 

ten verwendeter Datensätze aufgezeigt wurden, ist es nicht weiter überraschend, dass 

durch die Assoziationsanalyse auch eine Abhängigkeit der Anzahl zum Training ver- 

wendeter von der Anzahl zum Testen verwendeter Datensätze identifiziert wurde. Die 

bedingten Häufigkeiten hierfür sind in Tabelle 40 angegeben. 

Anzahl Test-Datensätze Anzahl 

≤ 250 

Anzahl der Trainings-Daten 

251–500 501–1000 1001–3000 > 3000 

Bis 30 6 5 (83 %) 1 (17 %) - - - 

31–60 24 14 (58 %) 9 (38 %) 1 (4 %) - - 

61–200 13 5 (38 %) 3 (23 %) 2 (15 %) 2 (15 %) 1 (8 %) 

201–500 20 2 (10 %) 9 (45 %) 1 (5 %) 8 (40 %) - 

501–1000 8 - - 1 (13 %) 4 (50 %) 3 (38 %) 

Mehr als 1000 8 1 (13 %) - 1 (13 %) 6 (75 %) - 


Tabelle 40: Anzahl der Trainings-Datensätze nach der Anzahl der Test-Datensätze 

69


Das Bild ist nicht so eindeutig wie bei den beiden anderen Verknüpfungen. Aber auch 

hier wird deutlich, dass insbesondere eine kleine Anzahl an Test-Datensätzen auch auf 

nur wenige Trainings-Datensätze und entsprechend eine große Zahl an Test-Datensätzen 

auf viele Trainings-Datensätze zurückzuführen ist. Da die beiden Datenmengen aber of- 

fensichtlich jeweils in Abhängigkeit von der Gesamtmenge an Datensätzen gewählt wur- 

den, ergibt sich aus dieser Information für eine zukünftige Partitionierung der Daten kein 

weiterer Nutzen. 

6.2.3 Abhängigkeiten vom Aufbau der Netze 

Anzahl aller Neuronen in Abhängigkeit von der Anzahl der Neuronen der Eingabeschicht 

Durch die Assoziationsanalyse wurde auch eine Abhängigkeit der Gesamtzahl an Neuro- 

nen von der Anzahl der Eingabe-Neuronen identifiziert. Dies wird durch den Korrelations- 

Koeffizienten dieser beiden Merkmale untermauert, der mit 73 % sogar auf einen linearen 

Zusammenhang hindeutet. Mit der inhaltlich leicht nachvollziehbaren Begründung, dass 

mit zusätzlichen Neuronen in der Eingabeschicht auch automatisch die Gesamtzahl an 

Neuronen steigt und dies in der Regel zur Hinzunahme von Neuronen in den verborgenen 

Schichten führt, werden in Tabelle 41 die bedingten Häufigkeiten wiedergegeben. 

Anzahl der Eingabe-Neuronen Anzahl < 20 Neur. 20–34 Neur. 35–49 Neur. ≥ 50 Neur. 

1 Eingabe-Neuron 10 7 (70 %) 1 (10 %) 1 (10 %) 1 (10 %) 

2 bis 4 Neuronen 13 11 (85 %) - 1 (8 %) 1 (8 %) 

5 bis 9 Neuronen 26 23 (88 %) 3 (12 %) - - 

10 bis 19 Neuronen 20 5 (25 %) 9 (45 %) 4 (20 %) 2 (10 %) 

Mehr als 20 Neuronen 8 - - 2 (25 %) 6 (75 %) 

Alle betrachteten Anwendungen 77 46 (60 %) 13 (17 %) 8 (10 %) 10 (13 %) 

Tabelle 41: Anzahl aller Neuronen nach Anzahl der Neuronen der Eingabeschicht 

Hieraus ist sofort ersichtlich, dass in den untersuchten Anwendungen in den meisten Fäl- 

len tatsächlich bei weniger als 10 Eingabe-Neuronen auch insgesamt weniger als 20 Neu- 

ronen eingesetzt wurden und die Verwendung von mehr als 20 Eingabe-Neuronen auch 

zu einer relativ großen Anzahl an Neuronen insgesamt geführt hat. 

Anzahl der Schichten in Abhängigkeit von der Anzahl aller Neuronen 

Bereits bei einer intuitiven Betrachtung ist es nachvollziehbar, dass die Gesamtzahl an 

Neuronen einen direkten Einfluss auf die Anzahl an Schichten hat. So lässt sich eine große 

Anzahl an Neuronen der Zwischenschichten einfacher auf mehr als eine Schicht vertei- 

len. Auch statistisch deutet ein Korrelations-Koeffizient von 56 % zumindest noch auf 

gewisse lineare Zusammenhänge hin, die diese Vermutung unterstützen. Auch die in Ta- 

belle 42 aufgeführten bedingten Häufigkeiten bestätigen diesen Zusammenhang, da hier 

zu erkennen ist, dass mit einer zunehmenden Anzahl an Neuronen bei verhältnismäßig 

immer mehr der untersuchten Anwendungen vier statt drei Schichten eingesetzt wurden. 

70


Gesamtzahl der Neuronen Anzahl 3 Schichten 4 Schichten 6 Schichten 

Bis 19 Neuronen 46 40 (87 %) 6 (13 %) - 

20 bis 34 Neuronen 11 8 (73 %) 3 (27 %) - 

35 bis 49 Neuronen 8 5 (63 %) 3 (38 %) - 

Mehr als 50 Neuronen 10 1 (10 %) 8 (80 %) 1 (10 %) 

Alle betrachteten Anwendungen 75 54 (72 %) 20 (27 %) 1 (1 %) 

Tabelle 42: Anzahl der Schichten nach der Gesamtzahl der Neuronen 

Unter Berücksichtigung des in Kapitel 5.4.2 beschriebenen Vorgehens, bei dem eine Ef- 

fizienzsteigerung erreicht werden kann, indem bei gleicher Netzkomplexität die Gesamt- 

zahl von Neuronen durch Hinzunahme einer weiteren Schicht reduziert wird, muss dieser 

Zusammenhang jedoch mit Vorsicht betrachtet werden. Entweder wurde der Forderung 

nach einer kleinst-möglichen Komplexität in den untersuchten Anwendungen nicht ent- 

sprochen oder der Effekt der Reduktion der Neuronen-Zahl bei Hinzunahme einer weite- 

ren Schicht fiel jeweils so gering aus, dass er in der dargestellten Form nicht signifikant 

ins Gewicht fällt. 

Verwendete Netz-Typen in Abhängigkeit von der Verbindungsstruktur 

Da die grundsätzliche Art der Verbindungsstruktur in der Regel durch den jeweiligen 

Netz-Typ bereits festgelegt wird, ist es nicht weiter überraschend, dass auch Abhängigkei- 

ten der Netz-Typen von den Strukturen der Neuronen-Verbindungen identifiziert wurden. 

In Tabelle 43 sind daher die jeweiligen bedingten und unbedingten Häufigkeiten aufge- 

führt, mit denen die einzelnen Netz-Typen in den untersuchten Anwendungen eingesetzt 

wurden. 

Verbindungsstruktur Anzahl MLP RBF-Netze RNN Fuzzy-Netze Sonstige 

Nr. 1 75 61 (81 %) 6 (8 %) - 3 (4 %) 5 (7 %) 

Nr. 5 1 - - 1 (100 %) - - 

Nr. 7 4 - - 4 (100 %) - - 

Nr. 9 5 - - 1 (20 %) 1 (20 %) 3 (60 %) 

Nr. 17 6 - - 6 (100 %) - - 

Alle Strukturen 91 61 (67 %) 6 (7 %) 12 (13 %) 4 (4 %) 8 (9 %) 

Tabelle 43: Verwendeter Netz-Typ nach Art der Verbindungsstruktur 110 

Auffällig ist in erster Linie, dass alle Verbindungsstrukturen außer der Nr. 1 (ebenen- 

weise verbundene Feedforward-Netze) überwiegend bei rekurrenten Neuronalen Netzen 

(RNN) eingesetzt werden. Dies ist jedoch leicht nachvollziehbar, da alle diese Verbin- 

dungsstrukturen im Gegensatz zur Struktur Nr. 1 Rückkopplungen verursachen. Um für 

eine Modellierung hilfreiche Informationen zu erhalten, ist es allerdings notwendig, die 

umgekehrte Bedingungs-Richtung zu betrachten. Hierfür werden in Tabelle 44 die umge- 

kehrt bedingten Häufigkeiten angegeben. 

Wie erwartet, ist hieraus ersichtlich, dass in den untersuchten Anwendungen für Multi- 

Layer Perceptrons (MLP) und Radiale-Basisfunktionen-Netze (RBF-Netze) ausschließ- 

110 Die ausformulierten Verbindungsstrukturen sind u. a. in Anhang A auf Seite 100 angegeben. 

71


lich die Verbindungsstruktur eines normalen Feedforward-Netzes verwendet wurde. Bei 

den rekurrenten Netzen kamen dagegen diverse unterschiedliche Arten von rekurrenten 

Verbindungen zum Einsatz. 

Netz-Typ Anzahl Nr. 1 Nr. 5 Nr. 7 Nr. 9 Nr. 17 

MLP 61 61 (100 %) - - - - 

RBF-Netze 6 6 (100 %) - - - - 

RNN 12 - 1 (8 %) 4 (33 %) 1 (8 %) 6 (50 %) 

Fuzzy-Netze 4 3 (75 %) - - 1 (25 %) - 

Sonstige 8 5 (63 %) - - 1 (25 %) - 

Alle Typen 91 75 (82 %) 1 (1 %) 4 (4 %) 5 (5 %) 6 (7 %) 

Tabelle 44: Verwendete Verbindungsstruktur differenziert nach Netz-Typen 111 

Verwendete Netz-Typen in Abhängigkeit von den Aktivierungsfunktionen 

Die Abhängigkeit zwischen den unterschiedlichen Netz-Typen und den Aktivierungs- 

funktionen ist in erster Linie durch den Spezialfall der radialen Basisfunktion oder auch 

Gaußfunktion zu erklären. Wie in Kapitel 3.4.2 beschrieben, handelt es sich dabei um 

einen charakteristischen Bestandteil der gleichnamigen RBF-Netze, so dass es nicht wei- 

ter verwunderlich ist, dass diese in den untersuchten Anwendungen jeweils abhängig von- 

einander auftreten. Dies wird auch durch die in Tabelle 45 aufgeführten Häufigkeiten be- 

stätigt, nach denen die Gaußfunktion ausschließlich in RBF-Netzen zum Einsatz kam. 

Aktivierungsfunktion Anzahl MLP RBF-Netze RNN Fuzzy-Netze Sonstige 

Sigmoide Fkt. 55 40 (73 %) - 10 (18 %) 1 (2 %) 4 (7 %) 

Gaußfunktion 6 - 5 (83 %) - - 1 (17 %) 

Lineare Fkt. 4 1 (25 %) - - - 3 (75 %) 

Sonstige Fkt. 4 1 (25 %) - - - 3 (75 %) 

Alle Funktionen 65 42 (65 %) 5 (8 %) 10 (15 %) 1 (2 %) 7 (11 %) 

Tabelle 45: Verwendeter Netz-Typ nach Aktivierungsfunktion der verborgenen Schichten 112 

Letztlich dürfte jedoch für eine Modellierung auch hier wieder die umgekehrte Be- 

dingungs-Richtung von Interesse sein, weshalb die umgekehrt bedingten Häufigkeiten 

Netz-Typ Anzahl Sigmoid Gaußfunktion Linear Sonstige 

MLP 42 40 (95 %) - 1 (2 %) 1 (2 %) 

RBF-Netze 5 - 5 (100 %) - - 

RNN 10 10 (100 %) - - - 

Fuzzy-Netze 1 1 (100 %) - - - 

Sonstige 7 4 (57 %) 1 (14 %) 3 (43 %) 3 (43 %) 

Alle Typen 65 55 (85 %) 6 (9 %) 4 (6 %) 4 (6 %) 

Tabelle 46: Verwendete Aktivierungsfunktionen differenziert nach Netz-Typen 113 

111 Die ausformulierten Verbindungsstrukturen sind u. a. in Anhang A auf Seite 100 angegeben. 





72


in Tabelle 46 aufgeführt werden. Das Ergebnis fällt auch hier erwartungsgemäß aus. So 

wurden in RBF-Netzen ausschließlich Gaußfunktionen als Aktivierungs- bzw. Zentrums- 

funktionen eingesetzt. 

6.3 Untersuchung der nicht erwarteten Abhängigkeiten 

Neben den im vorangegangenen Kapitel beschriebenen Abhängigkeiten, die sich dadurch 

auszeichnen, dass sie letztlich auch a priori schon bekannt waren, wurden im Rahmen der 

in Kapitel 6.1 erwähnten Assoziationsanalyse auch nicht erwartete Abhängigkeiten iden- 

tifiziert, deren inhaltliche Begründung nur schwer oder gar nicht gegeben werden kann. 

Eine mögliche Ursache für solche nicht erwarteten Abhängigkeiten können zum einen 

zufällige Unregelmäßigkeiten in den Daten sein, die bei einer so kleinen Datengrundlage, 

wie sie für diese Analyse verwendet wurde, schnell unverhältnismäßig stark ins Gewicht 

fallen können. Zum anderen ist die Intention dieser Untersuchung ja gerade auch die Auf- 

deckung noch nicht bekannter bzw. nicht erwarteter Zusammenhänge. 

Aus diesem Grund werden auch alle Zusammenhänge, die in die Gruppe der nicht er- 

warteten Abhängigkeiten fallen, in diesem Kapitel näher untersucht. Auch hier bietet es 

sich in einigen Fällen an, zusätzlich auch die umgekehrt bedingten Abhängigkeiten zu 

betrachten, was unmittelbar an der jeweiligen Stelle geschieht. In Abbildung 23 sind alle 

in diesem Kapitel analysierten Zusammenhänge jeweils durch ein X markiert. 




A X 

B X 

C 

D 

E 

F X 

G 

H X 

I X 

J X 

K 

L 

M X 

N 

O X 

P X 

Q 

R X 

Abbildung 23: Untersuchte Abhängigkeiten zwischen unterschiedlichen Kriterien II 

Als Ergebnis der in diesem Kapitel durchgeführten Analysen werden die untersuchten 

Abhängigkeiten jeweils danach differenziert, ob sich aus den jeweiligen Bedingungen In- 

formationen für den Modellierungs-Prozess eines Prognose-Modells ableiten lassen, oder 

73


ob es sich bei den identifizierten Zusammenhängen lediglich um zufällige, unsystemati- 

sche Abweichungen handelt. Bei dieser Differenzierung muss jedoch berücksichtigt wer- 

den, dass die Ergebnisse aufgrund der nur relativ kleinen Datengrundlage mit Vorsicht 

zu betrachten sind. In jedem Fall würde es sich anbieten, die gewonnenen Erkenntnisse 

in weiteren Untersuchungen auf der Grundlage einer größeren Anzahl an Datensätzen zu 

verifizieren. 


Anzahl an Neuronen in der Eingabeschicht in Abhängigkeit von der Anzahl zur Verfügung 

stehender Datensätze 

Im Rahmen der Assoziationsanalyse wurde als auffällig identifiziert, dass bei Anwendun- 

gen, bei denen mehr als 3000 Datensätze zur Verfügung standen, deutlich öfter zwischen 

fünf und neun Neuronen in der Eingabeschicht waren, als dies von der unbedingten Ver- 

teilung her zu erwarten gewesen wäre. In Tabelle 47 ist zu sehen, dass es sich dabei 

offensichtlich um zwölf Anwendungen handelt, bei denen diese Kombination vorlag. Da 

eine solche Abhängigkeit jedoch nicht rational begründet werden kann, handelt es sich 

hierbei vermutlich um eine zufällige Häufung, aus der keine weiteren Schlüsse gezogen 

werden können. 

Anzahl Datensätze Anzahl 1 Neuron 2–4 Neur. 5–9 Neur. 10–19 Neur. ≥ 20 Neur. 

Bis 250 Datensätze 15 1 (7 %) 4 (27 %) 3 (20 %) 7 (47 %) - 

251–500 Datensätze 17 3 (18 %) 6 (35 %) 1 (6 %) 7 (41 %) - 

501–1000 Datensätze 15 1 (7 %) 5 (33 %) 9 (60 %) - - 

1001–3000 Datensätze 15 3 (20 %) - 5 (33 %) 3 (20 %) 4 (27 %) 

Mehr als 3000 Datens. 15 1 (7 %) 1 (7 %) 12 (80 %) 1 (7 %) - 


Tabelle 47: Anzahl der Eingabe-Neuronen nach der Anzahl der zur Verfügung stehenden Datensätze 

Anzahl der Neuronen der Eingabeschicht in Abhängigkeit von der Anzahl zum Testen 

verwendeter Datensätze 

Ein ähnlicher Zusammenhang wurde zwischen der Anzahl der Eingabe-Neuronen und der 

Anzahl der Test-Datensätze identifiziert. Wie in Tabelle 48 zu sehen ist, wurde auch bei 

mehr als 500 Test-Datensätzen in den untersuchten Anwendungen besonders häufig eine 

Eingabeschicht mit fünf bis neun Neuronen angegeben. 

Diese Abweichungen sind insofern nicht weiter überraschend, da bereits in Kapitel 6.2.2 

ein enger Zusammenhang zwischen der Anzahl zur Verfügung stehender und der Anzahl 

zum Testen verwendeter Datensätze aufgezeigt wurde. Demnach beruht der hier festge- 

stellte Zusammenhang, entsprechend dem im vorangegangenen Abschnitt beschriebenen, 

vermutlich auch auf rein zufälligen Häufungen in den untersuchten Anwendungen. 

74


Test-Datensätze Anzahl 1 Neuron 2–4 Neur. 5–9 Neur. 10–19 Neur. ≥ 20 Neur. 

Bis 30 Datensätze 5 1 (20 %) - 2 (40 %) 2 (40 %) - 

31–60 Datensätze 23 1 (4 %) 3 (13 %) 9 (39 %) 10 (43 %) - 

61–200 Datensätze 10 3 (30 %) 6 (60 %) 1 (10 %) - - 

201–500 Datensätze 18 2 (11 %) 5 (28 %) 4 (22 %) 3 (17 %) 4 (22 %) 

501–1000 Datensätze 8 - - 7 (88 %) 1 (13 %) - 

Mehr als 1000 Datens. 7 - 1 (14 %) 6 (86 %) - - 


Tabelle 48: Anzahl der Eingabe-Neuronen nach der Anzahl der Test-Datensätze 


Vorkommende Anwendungsbereiche in Abhängigkeit der verwendeten Netz-Typen 

Die Information darüber, welche Anwendungsbereiche betroffen sind, wenn ein spezi- 

eller Netz-Typ zum Einsatz kam, ist für einen Modellierungs-Prozess nur von geringem 

Interesse. Da ein solcher Zusammenhang aber von dem Apriori-Algorithmus identifiziert 

wurde, werden in Tabelle 49 die jeweiligen bedingten Häufigkeiten angegeben. 

Netz-Typ Anzahl Finanzw. Technik Künstl. Umwelt Sonnenfl. Sonstige 

MLP 62 20 (32 %) 11 (18 %) 9 (15 %) 14 (23 %) 4 (6 %) 4 (6 %) 

RBF-Netze 8 - 1 (13 %) 6 (75 %) - - 1 (13 %) 

RNN 13 3 (23 %) 3 (23 %) 1 (8 %) 1 (8 %) 2 (15 %) 3 (23 %) 

TDNN 2 - - 1 (50 %) - 1 (50 %) - 

Fuzzy-Netze 4 - 3 (75 %) - - - 1 (25 %) 

Sonstige 14 6 (43 %) 1 (7 %) 2 (14 %) 2 (14 %) 1 (7 %) 2 (14 %) 

Alle Typen 103 29 (28 %) 19 (18 %) 19 (18 %) 17 (17 %) 8 (8 %) 11 (11 %) 

Tabelle 49: Vorkommende Anwendungsbereiche differenziert nach verwendeten Netz-Typen 114 

Als auffällige Abweichung von den unbedingten Häufigkeiten wurden die verhältnismä- 

ßig häufigen künstlichen Zeitreihen bei Anwendung von RBF-Netzen erkannt. Da es sich 

allerdings um lediglich sechs Anwendungen handelt, die diese Verschiebung verursachen, 

liegt hier wahrscheinlich nur eine zufällige Abweichung vor. Selbst wenn es eine solche 

Anwendungsber. Anzahl MLP RBF-Netze RNN TDNN Fuzzy Sonstige 

Finanzwirtschaft 29 20 (69 %) - 3 (10 %) - - 6 (21 %) 

Technik 19 11 (58 %) 1 (5 %) 3 (16 %) - 3 (16 %) 1 (5 %) 

Künstl. Zeitr. 19 9 (47 %) 6 (32 %) 1 (5 %) 1 (5 %) - 2 (11 %) 

Umwelt 17 14 (82 %) - 1 (6 %) - - 2 (12 %) 

Sonnenflecken 8 4 (50 %) - 2 (25 %) 1 (13 %) - 1 (13 %) 

Stromverbrauch 4 1 (25 %) - 1 (25 %) - - 2 (50 %) 

Makroökonomik 4 2 (50 %) 1 (25 %) 1 (25 %) - - - 

Marketing 2 1 (50 %) - - - 1 (50 %) - 

Medizin 1 - - 1 (100 %) - - - 

Alle Bereiche 103 62 (60 %) 8 (8 %) 13 (13 %) 2 (2 %) 4 (4 %) 14 (14 %) 

Tabelle 50: Verwendete Netz-Typen differenziert nach Anwendungsbereichen 

114 Da die Anwendungsbereiche Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant 

oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst. 

75


Abhängigkeit wirklich geben würde, brächte sie für die Modellierung von KNN aus- 

schließlich in der umgekehrten Richtung einen Nutzen. Aus diesem Grund werden in 

Tabelle 50 auch die umgekehrt bedingten Häufigkeiten angegeben. 

Da jedoch in keiner der beiden Bedingungs-Richtungen signifikante systematische Ab- 

weichungen von den unbedingten Verteilungen zu erkennen sind, ergeben sich aus der 

verknüpften Betrachtung keine weiteren für den Modellierungs-Prozess eines Prognose- 

Modells hilfreichen Informationen. 

Art der Eingabedaten in Abhängigkeit von der Anzahl der Eingabe-Neuronen 

Auch zwischen der Art der Eingabedaten und der Anzahl an Neuronen in der Eingabe- 

schicht wurde eine potentielle Abhängigkeit identifiziert. Wie in Tabelle 51 zu sehen ist, 

fällt in erster Linie auf, dass bei den Anwendungen mit mehr als 20 Eingabe-Neuronen 

sowohl endogenene als auch exogenene Eingabedaten verwendet wurden. Weiterhin ist 

auch auffällig, dass mit zunehmender Anzahl an Eingabe-Neuronen auch tendenziell ein 

größerer Anteil an Anwendungen auf beide Arten von Eingabedaten zurückgreift. 

Anzahl der Eingabe-Neuronen Anzahl Rein endogen Rein exogen Endogen und exogen 

1 Eingabe-Neuron 10 7 (70 %) 2 (20 %) 1 (10 %) 

2 bis 4 Neuronen 16 10 (63 %) 2 (13 %) 4 (25 %) 

5 bis 9 Neuronen 33 22 (67 %) 2 (6 %) 9 (27 %) 

10 bis 19 Neuronen 21 12 (57 %) 4 (19 %) 5 (24 %) 

Mehr als 20 Neuronen 8 - - 8 (100 %) 


Tabelle 51: Art der Eingabedaten nach Anzahl der Neuronen der Eingabeschicht 

Dieses Phänomen lässt sich dadurch erklären, dass eine größere Anzahl an Eingabe- 

Neuronen oftmals durch die Verwendung von mehr Datenquellen verursacht wird. Da 

durch eine Kombination von endogenen und exogenen Eingabedaten natürlicherweise be- 

reits mehr Datenquellen betroffen sind, als dies bei rein endogenen Daten der Fall ist, ist es 

auch nicht weiter verwunderlich, dass diese Kombination bei der Verwendung von mehr 

Eingabe-Neuronen auch öfters anzutreffen ist. Es ist deshalb wahrscheinlich, dass es sich 

um eine auch allgemein geltende Abhängigkeit handelt. Da jedoch in der Regel sowohl die 

Art der Eingabedaten als auch die Anzahl der Eingabe-Neuronen durch die Problemstel- 

lung einer Prognose bereits vorgegeben sind, ergeben sich für den Modellierungs-Prozess 

keine verwertbaren Erkenntnisse. 

Art der Eingabedaten in Abhängigkeit von der Anzahl aller Neuronen 

Eine ähnliche Abhängigkeit wurde auch zwischen der Art der Eingabedaten und der Ge- 

samtzahl aller Neuronen festgestellt. Dies ist insofern nicht weiter überraschend, da in 

Kapitel 6.2.3 auch ein linearer Zusammenhang zwischen der Anzahl an Neuronen der 

Eingabeschicht und der Gesamtzahl an Neuronen aufgezeigt wurde. Wie in Tabelle 52 zu 

erkennen ist, wurde dementsprechend bei einer Verwendung von mehr als 50 Neuronen 

76


in fast allen Anwendungen auf eine Kombination aus endogenen und exogenen Eingabe- 

daten zurückgegriffen. 

Gesamtzahl der Neuronen Anzahl Rein endogen Rein exogen Endogen und exogen 

Bis 19 Neuronen 46 32 (70 %) 3 (7 %) 11 (24 %) 

20 bis 34 Neuronen 13 6 (46 %) 4 (31 %) 3 (23 %) 

35 bis 49 Neuronen 8 4 (50 %) 2 (25 %) 2 (25 %) 

Mehr als 50 Neuronen 10 1 (10 %) - 9 (90 %) 


Tabelle 52: Art der Eingabedaten nach der Gesamtzahl der Neuronen 

Da die Anzahl der zu verwendenden Neuronen bei der Modellierung eines KNN einen 

weitestgehend frei zu wählenden Parameter darstellt, könnten Abhängigkeiten dieser Grö- 

ße von anderen Faktoren eine wichtige Hilfestellung für den Modellierungs-Prozess ge- 

ben. Aus diesem Grund werden in Tabelle 53 auch die umgekehrt bedingten Häufigkeiten 

angegeben, die einen solchen Zusammenhang aufdecken könnten. 

Anzahl der Eingabedaten Anzahl < 20 Neur. 20–34 Neur. 35–49 Neur. ≥ 50 Neur. 

Rein endogene Daten 43 32 (74 %) 6 (14 %) 4 (9 %) 1 (2 %) 

Rein exogene Daten 9 3 (33 %) 4 (44 %) 2 (22 %) - 

Endogene und exogene Daten 25 11 (44 %) 3 (12 %) 2 (8 %) 9 (36 %) 

Alle betrachteten Anwendungen 77 46 (60 %) 13 (17 %) 8 (10 %) 10 (13 %) 

Tabelle 53: Anzahl aller Neuronen nach Art der Eingabedaten 

Die Vermutung, dass bei einer Kombination endogener und exogener Eingabedaten in 

den untersuchten Anwendungen auch besonders viele Neuronen eingesetzt wurden, wird 

durch diese Zahlen jedoch nicht signifikant bestätigt. 

Art der Lernverfahren in Abhängigkeit von den Aktivierungsfunktionen verborgener 

Schichten 

Bei dem durch die Assoziationsanalyse als Abhängigkeit identifizierten Zusammenhang 

zwischen den Lernverfahren und den in den verborgenen Schichten verwendeten Akti- 

vierungsfunktionen handelt es sich vermutlich nur um eine zufällige Abweichung. Wie 

in Tabelle 54 zu sehen ist, sticht bei den bedingten Häufigkeiten vor allem heraus, dass 

bei Verwendung von Gaußfunktionen in den untersuchten Anwendungen ausschließlich 

Lernverfahren angewendet wurden, die hier unter Sonstige zusammengefasst werden. 

Aktivierungsfunktion Anzahl Backpropagation Levenberg-M. Verf. f. RNN Sonstige 

Sigmoide Funktionen 46 25 (54 %) 7 (15 %) 8 (17 %) 6 (13 %) 

Gaußfunktionen 5 - - - 5 (100 %) 

Lineare Funktionen 4 1 (25 %) - 3 (75 %) - 

Sonstige Funktionen 3 1 (33 %) - - 2 (67 %) 

Alle Funktionen 54 27 (50 %) 7 (13 %) 8 (15 %) 12 (22 %) 

Tabelle 54: Art des Lernverfahrens nach verwendeten Aktivierungsfunktionen 115 



77


Da es sich dabei jedoch lediglich um fünf Anwendungen handelt und auch sonst keine 

signifikanten Abweichungen von der unbedingten Verteilung zu erkennen sind, können 

aus dieser Untersuchung keine weiteren Informationen gefolgert werden. 

6.3.3 Abhängigkeiten vom Lernvorgang 

Anzahl der Test-Datensätze in Abhängigkeit vom angewendeten Lernverfahren 

Als weiterer Zusammenhang wurde eine Abhängigkeit der Anzahl der zum Testen ver- 

wendeten Datensätze und dem angewendeten Lernverfahren identifiziert. Wie aus Tabel- 

le 55 ersichtlich ist, besteht hier jedoch die einzige signifikante Abweichung der bedingten 

gegenüber den unbedingten Häufigkeiten darin, dass bei relativ vielen Anwendungen, bei 

denen ein Lernverfahren für rekurrente Netze zum Einsatz kam, zwischen 61 und 200 

Datensätzen zum Testen verwendet wurden. 

Lernverfahren Anzahl 

≤ 30 31–60 

Anzahl der Test-Datensätze 

61–200 201–500 501–1000 > 1000 

Backpropagation 34 2 (6 %) 19 (56 %) 2 (6 %) 4 (12 %) 1 (3 %) 6 (18 %) 

Levenberg-M. 10 - 1 (10 %) 1 (10 %) 3 (30 %) 4 (40 %) 1 (10 %) 

Verf. f. RNN 7 - 1 (14 %) 6 (86 %) - - - 

Verf. f. TDNN 1 - - - 1 (100 %) - - 

Sonstige 18 2 (11 %) 2 (11 %) 6 (33 %) 5 (28 %) 3 (17 %) - 

Alle Verfahren 70 4 (6 %) 23 (33 %) 15 (21 %) 13 (19 %) 8 (11 %) 7 (10 %) 

Tabelle 55: Anzahl an Test-Datensätzen differenziert nach angewendeten Lernverfahren 

Auch dieser angebliche Zusammenhang kann auf zufällige Schwankungen zurückgeführt 

werden, da eine solche Abhängigkeit inhaltlich nicht begründet werden kann und die 

Abweichung durch nur sehr wenige Anwendungen verursacht wurde. 

Vorkommende Anwendungsbereiche in Abhängigkeit von der verwendeten Zielfunktion 

Bei der letzten in diesem Abschnitt untersuchten Verknüpfung handelt es sich um die 

Frage, ob die Bereiche, in denen Zeitreihen-Prognosen gemacht werden, abhängig von 

den jeweils verwendeten Zielfunktionen sind. In der Gegenüberstellung der bedingten 

und unbedingten Häufigkeiten in Tabelle 56 existiert allerdings nur eine einzige deutliche 

Abweichung. Bei den Zielfunktionen, die unter Sonstige zusammengefasst werden, gibt 

es eine unverhältnismäßige Anhäufung finanzwirtschaftlicher Zeitreihen. 

Zielfunktion Anzahl Finanzw. Technik Künstl. Umwelt Sonnenfl. Sonstige 

Quadratische 41 8 (20 %) 4 (10 %) 9 (22 %) 7 (17 %) 6 (15 %) 7 (17 %) 

Lineare 30 10 (33 %) 8 (27 %) 10 (33 %) 1 (3 %) 1 (3 %) - 

Sonstige 7 6 (86 %) - - - - 1 (14 %) 

Alle Zielfkt. 78 24 (31 %) 12 (15 %) 19 (24 %) 8 (10 %) 7 (9 %) 8 (10 %) 

Tabelle 56: Vorkommende Anwendungsbereiche differenziert nach verwendeten Zielfunktionen 

116 


oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst. 

78


Da es evident ist, dass es sich dabei um keinen sinnvollen Zusammenhang handelt, können 

aus dieser vermutlich nur zufällig aufgetretenen Auffälligkeit keine weiteren Informatio- 

nen für den Modellierungs-Prozess eines Prognose-Modells gefolgert werden. 

6.4 Untersuchung der wünschenswerten Abhängigkeiten 

Neben den bereits in den beiden vorangegangenen zwei Abschnitten untersuchten Ab- 

hängigkeiten gibt es noch einige weitere potentielle Zusammenhänge, deren Kenntnis 

den Modellierungs-Prozess eines Prognose-Modells unterstützen würde. Aus diesem 

Grund werden im Folgenden zusätzlich zu den Abhängigkeiten, die durch den Apriori- 

Algorithmus identifiziert wurden, noch weitere Kombinationen unterschiedlicher Kriteri- 

en auf mögliche Zusammenhänge hin untersucht. 

Die Auswahl der Kombinationen, die in diesem Abschnitt noch zusätzlich untersucht wer- 

den, erfolgte in Hinblick auf eine praktische Verwertbarkeit der potentiellen Ergebnisse. 

In Abbildung 24 sind alle in diesem Kapitel analysierten Zusammenhänge durch ein X 

markiert. 




A X X X X X 

B 

C 

D X X X 

E 

F X X 

G 

H 

I X X X 

J 

K 

L 

M 

N 

O 

P X 

Q 

R 

Abbildung 24: Untersuchte Abhängigkeiten zwischen unterschiedlichen Kriterien III 

Da es möglich ist, dass einige dieser zusätzlichen Verknüpfungen die in Kapitel 6.1 fest- 

gelegten Mindest-Voraussetzungen nur knapp verfehlt haben, können sich hier auch noch 

statistisch signifikante Abhängigkeiten befinden. In der Regel werden diese jedoch, so- 

weit vorhanden, tendenziell schwächer fundiert sein, so dass eine Falschklassifikation in 

beiden Richtungen nicht ausgeschlossen werden kann. 

79


6.4.1 Abhängigkeiten von den Anwendungsfeldern 

Prognose-Horizont 

Bei dem ersten der zu prüfenden Zusammenhänge handelt es sich um die potentielle Ab- 

hängigkeit des bei der Prognose verwendeten Horizonts vom Anwendungsbereich der 

jeweiligen Zeitreihe. Wenn es in einigen Bereichen von größerer Bedeutung wäre, wei- 

ter in der Zukunft liegende Werte zu prognostizieren, als dies in anderen Bereichen der 

Fall ist, könnte dieser Aspekt bei der Modellierung von Prognosemodellen verstärkt be- 

rücksichtigt werden. Wie aber in Tabelle 57 zu erkennen ist, gibt es bei den bedingten 

Häufigkeiten keinerlei auffallende Abweichungen von den unbedingten, so dass eine der- 

artige Abhängigkeit in den untersuchten Anwendungen anscheinend nicht vorliegt. 

Anwendungsbereich Anzahl 1 Schritt 2–9 Schritte ≥ 10 Schritte 


Technische Zeitreihen 19 15 (79 %) 2 (11 %) 2 (11 %) 

Künstlich generierte Zeitreihen 19 17 (89 %) - 2 (11 %) 

Zeitreihen aus der Umwelt 18 11 (61 %) 4 (22 %) 3 (17 %) 

Anzahl Sonnenflecken 8 7 (88 %) - 1 (13 %) 

Stromverbrauch einer Region 4 3 (75 %) - 1 (25 %) 

Makroökonomische Zeitreihen 4 3 (75 %) 1 (25 %) - 

Zeitreihen des Marketings 2 1 (50 %) 1 (50 %) - 


Anzahl aller Neuronen 

Tabelle 57: Prognose-Horizont nach Anwendungsbereichen 

Ebenso ist es von Interesse, ob die Anzahl aller in einem KNN eingesetzten Neuronen von 

dem jeweiligen Anwendungsbereich der Zeitreihe abhängig ist. Es wäre durchaus mög- 

lich, dass die Prognose von Zeitreihen in manchen Bereichen ein komplexeres Problem 

darstellt und deshalb in den jeweiligen KNN mehr Neuronen als in denen anderer Berei- 

che zum Einsatz kommen. Sollte sich eine solche Abhängigkeit herausstellen, könnte das 

Wissen darüber die Bestimmung einer adäquaten Anzahl an Neuronen vereinfachen. Wie 

in Tabelle 58 zu erkennen ist, geht jedoch aus der Untersuchung kein solcher Zusammen- 

hang hervor. 

Anwendungsbereich Anzahl 4–19 Neur. 20–34 Neur. 35–49 Neur. ≥ 50 Neur. 

Zeitreihen in d. Finanzwirtschaft 23 14 (61 %) 3 (13 %) 4 (17 %) 2 (9 %) 

Technische Zeitreihen 15 9 (60 %) 2 (13 %) - 4 (27 %) 

Künstlich generierte Zeitreihen 14 10 (71 %) 1 (7 %) 3 (21 %) - 

Zeitreihen aus der Umwelt 12 6 (50 %) 3 (25 %) - 3 (25 %) 

Anzahl Sonnenflecken 8 3 (38 %) 3 (38 %) 1 (13 %) 1 (13 %) 

Sonstige Bereiche 5 4 (80 %) 1 (20 %) - - 

Alle Anwendungsbereiche 77 46 (60 %) 13 (17 %) 8 (10 %) 10 (13 %) 

Tabelle 58: Gesamtzahl der Neuronen nach Anwendungsbereichen 117 


oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige Bereiche zusammengefasst. 

80


Aktivierungsfunktionen verborgener Schichten 

Die Information über eine Abhängigkeit der in den verborgenen Schichten eingesetzten 

Aktivierungsfunktionen von den jeweiligen Anwendungsbereichen könnte die Wahl der 

Aktivierungsfunktionen bei weiteren Prognose-Modellen erleichtern. Die einzige Abwei- 

chung, die bei der entsprechenden Untersuchung dieser Verknüpfung auftritt, ist eine et- 

was häufigere Verwendung der Gaußfunktion bei künstlich generierten Zeitreihen. Da be- 

reits in Kapitel 6.3.2 vermutet wurde, dass der damit verwandte Zusammenhang zwischen 

RBF-Netzen und künstlich erzeugten Zeitreihen auf zufällige Schwankungen zurückzu- 

führen ist, kann dies für die in Tabelle 59 erkennbare Abweichung ebenso angenommen 

werden. Für die Modellierung von Prognose-Modellen bietet diese Untersuchung dem- 

nach keine weiteren Informationen. 

Anwendungsbereich Anzahl Sigmoide Gaußfunktion Lineare Sonstige 

Zeitreihen in der Finanzwirtschaft 21 21 (100 %) 1 (5 %) 3 (14 %) - 

Technische Zeitreihen 8 8 (100 %) - - - 

Künstlich generierte Zeitreihen 15 9 (60 %) 4 (27 %) - 2 (13 %) 

Zeitreihen aus der Umwelt 6 5 (83 %) - - 1 (17 %) 

Anzahl Sonnenflecken 7 6 (86 %) - - 1 (14 %) 

Sonstige Bereiche 8 6 (75 %) 1 (13 %) 1 (13 %) - 

Alle Anwendungsbereiche 65 51 (78 %) 6 (9 %) 4 (6 %) 4 (6 %) 

Tabelle 59: Eingesetzte Aktivierungsfunktionen nach Anwendungsbereichen 118 

Verwendete Lernverfahren 

Auch bei den Lernverfahren ist es von Interesse, ob diese abhängig vom Anwendungsbe- 

reich unterschiedlich häufig eingesetzt werden. Aus diesem Grund werden in Tabelle 60 

die bedingten Häufigkeiten der Lernverfahren den unbedingten gegenübergestellt. Da- 

bei fällt auf, dass das Verhältnis von Backpropagation- (BP) und Levenberg-Marquardt- 

Verfahren (LM) je nach Anwendungsbereich deutlich unterschiedlich ausfällt. Während 

Anwendungsbereich Anzahl Backprop. Lev.-Marq. RNN-Verf. TDNN-Verf. Sonstige 

Finanzwirtschaft 20 14 (70 %) - 3 (15 %) - 3 (15 %) 

Technik 17 8 (47 %) 6 (35 %) 1 (6 %) - 2 (12 %) 

Künstl. Zeitreihen 17 10 (59 %) 1 (6 %) 1 (6 %) 1 (6 %) 4 (24 %) 

Umwelt 14 4 (29 %) 5 (36 %) 1 (7 %) - 4 (29 %) 

Sonnenflecken 8 3 (38 %) - 2 (25 %) 1 (13 %) 2 (25 %) 

Sonstige Bereiche 11 5 (45 %) 1 (9 %) - - 5 (45 %) 

Alle Bereiche 87 44 (51 %) 13 (15 %) 8 (9 %) 2 (2 %) 20 (23 %) 

Tabelle 60: Eingesetzte Lernverfahren nach Anwendungsbereichen 119 


Schichten kombiniert. Da die Anwendungsbereiche Stromverbrauch, Makroökonomik, Marketing und 

Medizin nur insignifikant oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige 

Bereiche zusammengefasst. 



81


in den untersuchten Anwendungen das LM bei finanzwirtschaftlichen Zeitreihen niemals 

zum Einsatz kam, wurde es bei Zeitreihen aus der Umwelt sogar etwas häufiger als das 

BP eingesetzt. Demgegenüber wurde das BP bei finanzwirtschaftlichen Zeitreihen deut- 

lich häufiger als bei Zeitreihen aus der Umwelt eingesetzt. 

Wegen der nur geringen Zahl untersuchter Anwendungen lässt sich daraus jedoch nur mit 

Vorbehalt eine echte Abhängigkeit ableiten. Ebenso werden auch alle anderen Verfahren 

zu selten eingesetzt, als dass für sie systematische Zusammenhänge erkennbar wären. 

Art der Zielfunktionen 

Als letzte Abhängigkeit von den Anwendungsbereichen wird die der Zielfunktionen un- 

tersucht. Für die jeweiligen Arten von Zielfunktionen werden daher in Tabelle 61 die 

Häufigkeiten differenziert nach Anwendungsbereichen aufgeführt. Darin ist ersichtlich, 

dass in den untersuchten Anwendungen bei den ersten drei Bereichen jeweils die linearen 

Zielfunktionen häufiger als die quadratischen eingesetzt wurden, bei den anderen Berei- 

chen jedoch die quadratischen Zielfunktionen häufiger zum Einsatz kamen. 

Anwendungsbereich Anzahl Quadratisch Linear Sonstige 


Technische Zeitreihen 12 4 (33 %) 8 (67 %) - 

Künstlich generierte Zeitreihen 19 9 (47 %) 10 (53 %) - 

Zeitreihen aus der Umwelt 8 7 (88 %) 1 (13 %) - 

Anzahl Sonnenflecken 7 6 (86 %) 1 (14 %) - 

Sonstige Bereiche 8 7 (87 %) - 1 (13 %) 


Tabelle 61: Art der Zielfunktion nach Anwendungsbereichen 120 

Da dieser Unterschied zwischen einigen Bereichen sehr deutlich ausfällt, kann eine Ab- 

hängigkeit nicht ausgeschlossen werden. Eine Ursache hierfür könnte die Tatsache sein, 

dass die quadratischen Zielfunktionen im Verhältnis zu den linearen Zielfunktionen sen- 

sibler auf große Fehler reagieren. Ob ein solches Verhalten wirklich in manchen Berei- 

chen stärker verlangt wird als in anderen, sollte daher in weiterführenden Untersuchungen 

genauer analysiert und die Ursachen hierfür aufgezeigt werden. Sollte dann ein solcher 

Zusammenhang auch inhaltlich begründbar sein, könnte dies die Wahl der Zielfunktion 

maßgeblich beeinflussen. 


Verwendete Vergangenheitstiefen in Abhängigkeit vom Prognose-Horizont 

Die Frage, ob die bei einer Prognose anzuwendende Vergangenheitstiefe abhängig da- 

von zu wählen ist, wie weit in der Zukunft der prognostizierte Wert liegen soll, ist für 



82


die Auswahl des Zeitfensters der Eingabevariablen sowie die Bestimmung der Rekurren- 

zen in RNN und der Verzögerungen in TDNN von großer Bedeutung. Da ein größerer 

Prognose-Horizont ein umfangreicheres Wissen über die jeweilige Zeitreihe erfordert, 

wäre es möglich, dass dieses über eine größere Vergangenheitstiefe erlangt würde. Um 

diese Vermutung zu bestätigen, werden in Tabelle 62 die jeweils bedingten Häufigkeiten 

der untersuchten Anwendungen aufgeführt. 

Prognose-Horizont Anzahl 1 Schritt 2–9 Schritte ≥ 10 Schritte 

1 Schritt 71 12 (17 %) 39 (55 %) 20 (28 %) 

2–9 Schritte 7 - 5 (71 %) 2 (29 %) 

≥ 10 Schritte 7 - 2 (29 %) 5 (71 %) 


Tabelle 62: Vergangenheitstiefen differenziert nach dem Prognose-Horizont 

Auch wenn die Ausprägungen der beiden Kriterien keine lineare Abhängigkeit aufweisen 

(der Korrelationskoeffizient beträgt nur 4 %), ist in der Auflistung die Tendenz zu erken- 

nen, dass tatsächlich mit ansteigendem Prognose-Horizont der Anteil der Anwendungen, 

die auch auf weiter in der Vergangenheit liegende Werte zurückgreifen, größer wird. 

Verwendete Netz-Typen in Abhängigkeit vom Prognose-Horizont 

Ob in den untersuchten Anwendungen auch die Wahl des Netz-Typs durch den Prognose- 

Horizont beeinflusst wurde, wird anhand der in Tabelle 63 angegebenen bedingten Häu- 

figkeiten analysiert. Ein Zusammenhang könnte Aufschluss darüber geben, inwiefern ins- 

besondere ein großer Prognose-Horizont durch die einzelnen Netz-Typen jeweils unter- 

stützt wird. Da sich eine solche Abhängigkeit durch mit zunehmenden Horizont anstei- 

gende oder abfallende Häufigkeiten auszeichnen würde, kommen nur die RNN, TDNN 

und Fuzzy-Netze als potentiell abhängige Netz-Typen in Frage. 

Prognose-Horizont Anzahl MLP RBF-N. RNN TDNN Fuzzy Sonstige 

1 Schritt 80 49 (61 %) 7 (9 %) 8 (10 %) - 4 (5 %) 12 (15 %) 

2–9 Schritte 7 6 (86 %) - 1 (14 %) - - - 

≥ 10 Schritte 11 6 (55 %) 1 (9 %) 2 (18 %) 2 (15 %) - 2 (18 %) 

Alle Anwendungen 98 61 (62 %) 8 (8 %) 11 (11 %) 2 (2 %) 4 (4 %) 14 (14 %) 

Tabelle 63: Netz-Typen differenziert nach dem Prognose-Horizont 

Da die jeweiligen Häufigkeits-Verschiebungen jedoch in allen Fällen auf nur sehr we- 

nigen Anwendungen beruhen, tritt der beobachtete Effekt möglicherweise lediglich zu- 

fallsbedingt auf. Ob sich die speziell auf Zeitreihenprognosen ausgelegten Netz-Typen 

tatsächlich für Prognosen mit größerem Horizont eignen, sollte deshalb in weiterführen- 

den Untersuchungen validiert werden. 

Anzahl aller Neuronen in Abhängigkeit vom Prognose-Horizont 

Ein weiteres Kriterium, dessen Abhängigkeit vom Prognose-Horizont eine hilfreiche In- 

formation für den Modellierungs-Prozess liefern würde, ist die Anzahl aller Neuronen 

83


des entsprechenden KNN. Hier gilt es die Vermutung zu überprüfen, dass ein größerer 

Prognose-Horizont aufgrund der komplexeren Problemstellung auch zu einem komplexe- 

ren Neuronalen Netz und dadurch zu einer größeren Anzahl an Neuronen führt. Wie aus 

Tabelle 64 hervorgeht, kann jedoch ein solcher Zusammenhang anhand der untersuchten 

Anwendungen nicht bestätigt werden. 

Prognose-Horizont Anzahl < 20 Neuronen 20–34 Neur. 35–49 Neur. ≥ 50 Neur. 

1 Schritt 63 44 (70 %) 10 (16 %) 5 (8 %) 4 (6 %) 

2–9 Schritte 5 - 1 (20 %) - 4 (80 %) 

≥ 10 Schritte 6 1 (17 %) - 3 (50 %) 2 (33 %) 

Alle betr. Anwendungen 74 45 (61 %) 11 (15 %) 8 (11 %) 10 (14 %) 

Tabelle 64: Gesamtzahl an Neuronen differenziert nach dem Prognose-Horizont 

Verwendete Netz-Typen in Abhängigkeit von der Anzahl zur Verfügung stehender Daten- 

sätze 

Bei der Analyse, ob in den untersuchten Anwendungen die jeweiligen Netz-Typen abhän- 

gig von der Anzahl der zur Verfügung stehenden Daten gewählt wurden, wird insbeson- 

dere untersucht, ob bei besonders wenigen bzw. besonders vielen Datensätzen spezielle 

Netz-Typen bevorzugt oder ob diese, als gegenteiliges Extrem, sogar gar nicht eingesetzt 

wurden. Sollten solche Abhängigkeiten bestehen, könnten daraus unmittelbar hilfreiche 

Schlüsse für eine zukünftige Modellierung gezogen werden. Für die Untersuchung sind 

in Tabelle 65 die bedingten Häufigkeiten der einzelnen Netz-Typen aufgeführt. 

Anzahl Datensätze Anzahl MLP RBF-N. RNN TDNN Fuzzy Sonstige 

Bis 250 17 14 (82 %) 1 (6 %) - - 1 (6 %) 1 (6 %) 

251–500 17 10 (59 %) - 2 (12 %) - 3 (18 %) 2 (12 %) 

501–1000 17 12 (71 %) 3 (18 %) 1 (6 %) - - 1 (6 %) 

1001–3000 16 5 (31 %) 1 (6 %) 5 (31 %) - - 5 (31 %) 

Mehr als 3000 17 8 (47 %) 3 (18 %) 3 (18 %) 1 (6 %) - 2 (12 %) 

Alle Anwendungen 84 49 (58 %) 8 (10 %) 11 (13 %) 1 (1 %) 4 (5 %) 11 (13 %) 

Tabelle 65: Netz-Typen differenziert nach der Anzahl zur Verfügung stehender Datensätze 

In dieser Aufstellung fällt auf, dass bei Anwendungen, bei denen nur wenige Datensät- 

ze zur Verfügung standen, bevorzugt MLP eingesetzt wurden, während bei Anwendun- 

gen mit besonders vielen Datensätzen eine gleichmäßigere Verteilung bei der Wahl des 

Netz-Typs besteht. Weiter ist zu erkennen, dass Fuzzy-Netze, die allerdings insgesamt nur 

selten zum Einsatz kamen, ausschließlich bei Anwendungen mit weniger als 500 Daten- 

sätzen verwendet wurden. Auch wenn diese Beobachtungen jeweils auf einer nur kleinen 

Anzahl an Anwendungen beruhen, verbleibt die Vermutung, dass auch allgemein insbe- 

sondere eine geringe Anzahl zur Verfügung stehender Datensätze die Wahl des Netz-Typs 

maßgeblich in der ersichtlichen Weise beeinflussen kann. Für eine Konkretisierung die- 

ser Vermutung wären allerdings weitere Untersuchungen dieser Abhängigkeit mit einer 

größeren Anzahl an Anwendungen notwendig. 

84


Anzahl aller Neuronen in Abhängigkeit von der Anzahl zur Verfügung stehender Daten- 

sätze 

Ebenso stellt sich die Frage, ob eine kleinere Anzahl zur Verfügung stehender Datensätze 

auch einen Einfluss auf die maximal mögliche Komplexität eines KNN und damit auch 

auf die maximale Anzahl der darin verwendeten Neuronen hat. In Tabelle 66 ist zwar für 

Anwendungen mit weniger als 250 Datensätzen ein solcher Trend im Ansatz erkennbar, 

da aber die Abweichungen nur sehr insignifikant sind, kann die aufgestellte Vermutung 

nicht ausreichend gestützt werden. 

Anzahl Datensätze Anzahl 4–19 Neuronen 20–34 Neur. 35–49 Neur. ≥ 50 Neur. 

Bis 250 14 10 (71 %) 3 (21 %) 1 (7 %) - 

251–500 16 8 (50 %) 4 (25 %) 2 (13 %) 2 (13 %) 

501–1000 14 13 (93 %) - 1 (7 %) - 

1001–3000 10 2 (20 %) 3 (30 %) 3 (30 %) 2 (20 %) 

Mehr als 3000 13 11 (85 %) 2 (15 %) - - 

Alle betr. Anwendungen 67 44 (66 %) 12 (18 %) 7 (10 %) 4 (6 %) 

Tabelle 66: Gesamtzahl der Neuronen differenziert nach der Anzahl zur Verfügung stehender Datensätze 


In der Vorverarbeitung angewendete Transformationen in Abhängigkeit vom verwendeten 

Netz-Typ 

Zur Unterstützung eines Modellierungs-Prozesses ist es hilfreich zu wissen, ob bei man- 

chen Netz-Typen Präferenzen für spezielle Arten der Daten-Vorverarbeitung existieren. 

Aus diesem Grund werden in Tabelle 67 die Häufigkeiten, mit denen einzelne Transak- 

tionen in den untersuchten Anwendungen durchgeführt wurden, nach Netz-Typen diffe- 

renziert angegeben. 

Netz-Typ Anzahl Skalierung Logarithmus Differenzen Gl. Durchschn. Sonstige 

MLP 40 26 (65 %) 11 (28 %) 10 (25 %) 5 (13 %) 4 (10 %) 

RBF-Netze 3 2 (67 %) 1 (33 %) - - 1 (33 %) 

RNN 8 3 (38 %) 4 (50 %) 3 (38 %) - 3 (38 %) 

TDNN 2 1 (50 %) - - - 1 (50 %) 

Sonstige 4 3 (75 %) - 2 (50 %) - 1 (25 %) 

Alle Typen 57 35 (61 %) 16 (28 %) 15 (26 %) 5 (9 %) 10 (18 %) 

Tabelle 67: In der Vorverarbeitung angewendete Transformationen differenziert nach Netz-Typen 

121 

Insgesamt sind aber keine signifikanten systematischen Abweichungen erkennbar. Le- 

diglich der Verzicht auf die Bildung gleitender Durchschnitte bei den RNN und TDNN 

121 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. Da die die Transformationen 

Trend-/Saisonkomponente, Rauschen und Wavelet nur insignifikant oft vorkamen, werden sie hier 

aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst. 

85


könnte dadurch erklärt werden, dass bei diesen Netz-Typen eine derartige Datenverarbei- 

tung bereits intern stattfindet, so dass eine externe Vorverarbeitung dieser Art nicht mehr 

notwendig ist. 

Anzahl aller Neuronen in Abhängigkeit vom verwendeten Netz-Typ 

Weiterhin wird untersucht, welche Auswirkungen die Wahl des Netz-Typs auf die Anzahl 

der insgesamt verwendeten Neuronen hat. Wie üblich werden in Tabelle 68 hierfür die be- 

dingten Häufigkeiten der untersuchten Anwendungen den unbedingten gegenübergestellt. 

Netz-Typ Anzahl 4–19 Neuronen 20–34 Neur. 35–49 Neur. ≥ 50 Neur. 

MLP 55 35 (64 %) 9 (16 %) 4 (7 %) 7 (13 %) 

RBF-Netze 3 3 (100 %) - - - 

RNN 11 6 (55 %) 2 (18 %) 1 (9 %) 2 (18 %) 

TDNN 2 1 (50 %) - 1 (50 %) - 

Fuzzy-Netze 2 1 (50 %) - - 1 (50 %) 

Sonstige 3 - 1 (33 %) 2 (67 %) 1 (33 %) 

Alle Netz-Typen 76 46 (61 %) 12 (16 %) 8 (11 %) 10 (13 %) 

Tabelle 68: Gesamtzahl der Neuronen differenziert nach den verwendeten Netz-Typen 

Dabei fällt für die RBF-Netze auf, dass diese in allen betrachteten Fällen mit nur wenigen 

Neuronen auskommen. Dieser Zusammenhang stützt sich zwar nur auf wenige Anwen- 

dungen, da sich aber, wie bereits in Kapitel 3.4.2 beschrieben, RBF-Netze durch ihre 

einfache Struktur auszeichnen, ist er vermutlich auch allgemein gültig. Von den anderen 

Netz-Typen ausgehend lassen sich dagegen keine allgemein gültigen Hinweise auf die zu 

verwendende Anzahl an Neuronen folgern. 

Eingesetzte Lernverfahren in Abhängigkeit vom verwendeten Netz-Typ 

Auch bei den Lernverfahren wird untersucht, ob diese abhängig vom jeweils verwendeten 

Netz-Typ eingesetzt wurden. Aus der Aufstellung in Tabelle 69 geht dabei wie erwartet 

hervor, dass bei RNN und TDNN auch überwiegend die speziell für diese Netz-Typen 

entwickelten Lernverfahren zum Einsatz kamen. 

Netz-Typ Anzahl Backprop. Levenb.-M. Verf. für RNN für TDNN Sonstige 

MLP 54 39 (72 %) 10 (19 %) - - 5 (9 %) 

RBF-Netze 6 1 (17 %) 1 (17 %) - - 4 (67 %) 

RNN 9 1 (11 %) 2 (22 %) 5 (56 %) - 1 (11 %) 

TDNN 2 - - - 2 (100 %) - 

Fuzzy-Netze 3 2 (67 %) - - - 1 (33 %) 

Sonstige 12 1 (8 %) - 3 (25 %) - 8 (67 %) 

Alle Netz-Typen 86 44 (51 %) 13 (15 %) 8 (9 %) 2 (2 %) 19 (22 %) 

Tabelle 69: Lernverfahren differenziert nach den verwendeten Netz-Typen 

Weiterhin fällt die Dominanz des Backpropagation- über das Levenberg-Marquardt- 

Verfahren bei den MLP überraschend stark aus. Dies liegt vermutlich daran, dass beide 

86


Ausprägungen jeweils als Standard innerhalb ihres Kriteriums angesehen werden und so- 

mit bei einer Modellierung oftmals ohne weitere Begründung die erste Wahl darstellen. 

Dieser Zusammenhang könnte demnach auf fragwürdigen Annahmen bestehen und sollte 

deshalb bei der Modellierung zukünftiger Prognose-Modelle nicht explizit berücksichtigt 

werden. 

6.4.4 Abhängigkeiten vom Lernvorgang 

Aktivierungsfunktionen verborgener Schichten in Abhängigkeit vom eingesetzten Lernver- 

fahren 

Als letzte Verknüpfung wird die Wahl der Aktivierungsfunktionen verborgener Schich- 

ten auf Abhängigkeiten von den eingesetzten Lernverfahren hin untersucht. In Tabelle 70 

sind hierfür die bedingten Häufigkeiten der untersuchten Anwendungen aufgeführt. We- 

gen der äußerst starken Dominanz der sigmoiden Funktionen lässt sich daraus jedoch für 

keines der explizit genannten Lernverfahren eine spezifische Auswirkung auf die Wahl 

der Aktivierungsfunktionen ableiten. 

Lernverfahren Anzahl Sigmoide Funktion Gaußfunktion Lineare Funktion Sonstige 

Backpropagation 27 25 (93 %) - 1 (4 %) 1 (4 %) 

Levenb.-Marquardt 7 7 (100 %) - - - 

Verfahren für RNN 8 8 (100 %) - 3 (38 %) - 

Sonstige Verfahren 12 6 (50 %) 5 (42 %) - 2 (17 %) 

Alle Lernverfahren 54 46 (85 %) 5 (9 %) 4 (7 %) 3 (6 %) 

Tabelle 70: Aktivierungsfunktionen differenziert nach eingesetztem Lernverfahren 122 

6.5 Klassifizierung der Erkenntnisse 

Werden die Ergebnisse aus allen untersuchten Verknüpfungen zusammengestellt, so kön- 

nen diese aufgrund der gewonnenen Erkenntnisse in vier Gruppen aufgeteilt werden: 

• Bei der ersten Gruppe handelt es sich um Verknüpfungen, bei denen das Wissen 

über die bestehenden Abhängigkeiten für die Modellierung von Prognose-Modellen 

genutzt werden kann. Als abhängig gelten dabei alle Kriterien, deren Abhängigkeit 

sowohl statistisch als auch inhaltlich aufgrund der untersuchten Anwendungen be- 

gründet werden konnte. 

• Die zweite Gruppe beinhaltet Verknüpfungen, bei denen die jeweiligen Kriterien 

zwar Abhängigkeiten im oben genannten Sinne aufweisen, das Wissen darüber aber 

keine Hilfe für die Modellierung von Prognose-Modellen bietet. 



87


• Die Verknüpfungen der dritten Gruppe sind solche, bei denen die betrachteten Kri- 

terien zwar bei den untersuchten Anwendungen keine Abhängigkeiten aufweisen, 

aber die Kenntnis einer solchen Abhängigkeit für eine zukünftige Modellierung von 

Vorteil gewesen wäre. 

• In der vierten Gruppe werden schließlich solche Verknüpfungen zusammengefasst, 

deren Kriterien in den untersuchten Anwendungen keine Abhängigkeiten aufwei- 

sen, und die Kenntnis solcher Abhängigkeiten auch keinen unmittelbaren Nutzen 

für die Modellierung von Prognose-Modellen gebracht hätte. 

Die einzelnen Gruppen werden zur Veranschaulichung in Abbildung 25 grafisch darge- 

stellt und in Form einer Vier-Felder-Matrix angeordnet. Als Ergebnis der in diesem Ka- 

pitel durchgeführten Analysen wird sodann jede der untersuchten Verküpfungen einer 

der vier Gruppen zugeordnet. Dafür werden in Abbildung 26 alle untersuchten Kombi- 

nationen mit dem Buchstaben der Gruppe markiert, der sie nach den in dieser Arbeit 

gewonnenen Erkenntnissen angehört. 

Abhängigkeit der Kriterien 

gering hoch 

Zweite Gruppe 

B 

Vierte Gruppe 

D 

Erste Gruppe 

A 

Dritte Gruppe 

C 

gering hoch 

Nutzen für zukünftige Modelle 

Abbildung 25: Die vier möglichen Gruppen der Verknüpfungen 

Zu berücksichtigen ist dabei jedoch, dass sich zum einen alle Ergebnisse auf die für diese 

Arbeit analysierten Anwendungen beziehen und somit unter der Prämisse der begrenz- 

ten Stichprobe stehen. Zum zweiten kann in der komprimierten Form, wie sie durch das 

Schema der Abbildung vorgegeben wird, nicht für jede der Ausprägungen einzeln son- 

dern nur für die Kriterien als Ganzes eine Gruppenzuordnung erfolgen. Wenn jedoch bei 

der Untersuchung die Klassifizierung bei verschiedenen Ausprägungen eines Kriteriums 

unterschiedlich ausgefallen ist, wurde die Auswahl der Zuordnung hinsichtlich der jewei- 

ligen Bedeutung der Ausprägungen individuell getroffen. 

Es liegt auf der Hand, dass in erster Linie die 15 Verknüpfungen von Interesse sind, die 

der ersten Gruppe (A) zugeordnet wurden. Die bei diesen Verknüpfungen gewonnenen 

88





A A C A B B C C C A A 

B C 

C A 

D A A C 

E B B 

F A A A D C 

G 

H B B D 

I D C C A A A 

J B A 

K 

L 

M B A 

N B 

O B D 

P D C 

Q 

R D 

Abbildung 26: Alle untersuchten Abhängigkeiten zwischen unterschiedlichen Kriterien 

Erkenntnisse können bei der Modellierung eines Prognose-Modells unmittelbar berück- 

sichtigt werden. Bei der Festlegung von Parametern sollte diesen Abhängigkeiten nicht 

blind vertraut werden, da niemals ausgeschlossen werden kann, dass diese für einzel- 

ne Anwendungen nicht zutreffen. Sie können jedoch in den meisten Fällen bereits einen 

Hinweis auf sinnvolle Ausgangswerte geben, die dann im Laufe der Modellierung nur 

noch geringfügig angepasst werden müssen. 

Nr. Vorbedingung Konsequenz 

1. Anwendungsbereich Art der Eingabedaten 

2. Art der Vorverarbeitung 

3. Lernverfahren 

4. Art der Zielfunktion 

5. Vergangenheitstiefe Art der Vorverarbeitung 

6. Prognose-Horizont Vergangenheitstiefe 

7. Netz-Typ 

8. Anzahl der Datensätze Anzahl der Trainingsdaten 

9. Anzahl der Testdaten 

10. Netz-Typ 

11. Netz-Typ Verbindungsstruktur 

12. Aktivierungsfunktionen 

13. Lernverfahren 

14. Anzahl der Eingabe-Neuronen Anzahl aller Neuronen 

15. Anzahl aller Neuronen Anzahl der Schichten 

Tabelle 71: Alle Verknüpfungen der ersten Gruppe (A) 

Die Verknüpfungen der ersten Gruppe (A) sind deshalb in Tabelle 71 noch einmal in 

Kurzform aufgeführt. Dabei muss jedoch wieder beachtet werden, dass die jeweiligen 

Abhängigkeiten bei einigen Kriterien nur für einzelne Ausprägungen aufgetreten sind. 

89

7 ZUSAMMENFASSUNG UND AUSBLICK 

7 Zusammenfassung und Ausblick 

In dieser Arbeit wurden die Eigenschaften von Künstlichen Neuronalen Netzen analy- 

siert, die in den vergangenen Jahren für die Prognose von Zeitreihen entwickelt wurden. 

Betrachtet wurden dabei sowohl die Anwendungssituationen als auch die jeweils ange- 

wandten Methoden. Auf diese Weise wurden Präferenzen und Zusammenhänge einzelner 

Merkmale identifiziert, deren Kenntnis die Modellierung zukünftiger Prognose-Modelle 

unterstützen kann. 

Einstiegspunkt war eine Analyse einschlägiger Fachzeitschriften, die auf Beschreibungen 

von KNN zur Prognose von Zeitreihen hin untersucht wurden. Auf diese Weise wurden 

105 unterschiedliche Anwendungen erfasst, die in den Jahren 2000–2004 veröffentlicht 

wurden. In Kapitel 5 wurden diese Anwendungen zunächst nach einer Vielzahl einzelner 

Kriterien klassifiziert. Die Kriterien wurden dabei zunächst jeweils unabhängig vonein- 

ander betrachtet und erläutert. Dadurch wurde zum einen die Vielfalt innerhalb einzelner 

Kriterien dargestellt, und zum anderen konnten für einige Merkmale bereits deutliche 

Präferenzen herausgestellt werden. 

In einem weiteren Schritt wurden in Kapitel 6 die 18 wichtigsten Kriterien herausgegrif- 

fen und jeweils paarweise miteinander kombiniert. Um die Auswahl der zu betrachtenden 

Kombinationen auf eine sinnvolle Anzahl zu beschränken, wurden diese nach zwei unter- 

schiedlichen Gesichtspunkten selektiert. 

Zum einen wurden mit Hilfe einer Assoziationsanalyse alle statistisch signifikanten Ab- 

weichungen der bedingten Häufigkeiten gegenüber den unbedingten Häufigkeiten ermit- 

telt, mit denen die Ausprägung eines Kriteriums verwendet wurde. Diese Methode wurde 

gewählt, um in den Anwendungen liegende, aber bis dato unbekannte Informationen ent- 

decken zu können. Es wurden dabei sowohl bereits im Vorhinein bekannte als auch nicht 

erwartete Zusammenhänge identifiziert, die jeweils auf ihre inhaltliche Begründbarkeit 

und Bedeutung für eine zukünftige Modellierung hin untersucht wurden. Insbesondere 

bei den nicht erwarteten Zusammenhängen konnten jedoch die meisten Abhängigkeiten 

auch nicht begründet werden, weshalb zu vermuten ist, dass diese lediglich auf zufälligen 

Häufungen in den untersuchten Anwendungen beruhen. 

Einer anderen Sichtweise folgend, wurden im Anschluss daran zusätzlich diejenigen 

Verknüpfungen einzelner Kriterien untersucht, deren potentielle Abhängigkeiten einen 

großen Nutzen für eine zukünftige Modellierung bringen könnten. Da diese Auswahl je- 

doch losgelöst von der statistischen Grundlage der Assoziationsanalyse erfolgte, sind die 

hierbei gewonnenen Erkenntnisse in der Regel statistisch auch weniger deutlich fundiert. 

Als ein Ergebnis dieser Arbeit wurden alle durch eine der beiden Sichtweisen ausgewähl- 

ten Verknüpfungen auf begründbare existierende Abhängigkeiten zwischen den Kriterien 

sowie deren Bedeutung für eine zukünftige Modellierung hin untersucht und entsprechend 

der dabei erhaltenen Ergebnisse klassifiziert. 

90

7 ZUSAMMENFASSUNG UND AUSBLICK 

Die zentralen Erkenntnisse dieser Arbeit beruhen in erster Linie auf zwei unterschied- 

lichen Arten von Verknüpfungen. Zum einen ließen sich durch das rein datenorientierte 

Vorgehen der Assoziationsanalyse nur wenige bisher unbekannte und unerwartete Zusam- 

menhänge entdecken. Bei der überwiegenden Mehrheit dieser Verknüpfungen stellte sich 

heraus, dass diese entweder bereits bekannt und damit erwartet waren, keine hilfreichen 

Informationen für einen Modellierungsprozess lieferten oder inhaltlich nicht begründbar 

und damit vermutlich nur zufällig aufgetreten waren. Eine Begründung hierfür könnte 

darin liegen, dass die Streuung der einzelnen Merkmale sehr groß ist, da die Prognose- 

Modelle jeweils individuell und ohne ein allgemein anerkanntes systematisches Verfahren 

modelliert wurden. Dies würde gleichzeitig bedeuten, dass die angewandten Methoden 

noch nicht ausgereift sind oder dass sie sich zumindest noch nicht hinreichend durchset- 

zen konnten. 

Bei der zweiten Art von Verknüpfungen, aus denen Erkenntnisse gewonnen werden konn- 

ten, handelt es sich um die Verknüpfungen, bei denen Abhängigkeiten zwischen Ausprä- 

gungen der einzelnen Kriterien nachgewiesen werden konnten und bei denen auch aus 

diesen Abhängigkeiten ein hinreichend großer Nutzen für einen Modellierungsprozess 

abgeleitet werden kann. Zwar ließen sich solche Abhängigkeiten oftmals nur für wenige 

Ausprägungen zeigen, jedoch können auch eingeschränkte Abhängigkeiten je nach An- 

wendung bereits eine Hilfestellung für eine Modellierung darstellen. 

Die in dieser Arbeit gewonnenen Erkenntnisse beruhen ausschließlich auf den zur Unter- 

suchung herangezogenen Anwendungen. Die Methodik dieser Untersuchung impliziert 

dabei, dass die Auswahl der Anwendungen hinreichend repräsentativ ist und die darin 

angewandten Methoden für ihre jeweiligen Aufgaben optimal konfiguriert wurden. Auf- 

grund der notwendigen Beschränkung auf lediglich drei wissenschaftliche Zeitschriften 

sowie der daraus resultierenden geringen Zahl von 105 Anwendungen musste die Erfül- 

lung der ersten Prämisse eingeschränkt werden. Wie in Kapitel 5.6 dargelegt wurde, ist 

eine externe Bewertung der einzelnen Methoden im Allgemeinen nicht möglich. Da somit 

beide Prämissen nicht in vollem Umfang gewährleistet werden können, sind auch alle ge- 

wonnenen Erkenntnisse mit Vorsicht zu betrachten. Diese Erkenntnisse sind deshalb auch 

jeweils bei den einzelnen Analysen dieser Arbeit kritisch hinterfragt worden. 

Aus diesem Grund wird empfohlen, die gewonnenen Erkenntnisse in weiteren Untersu- 

chungen auf der Grundlage einer größeren Zahl von Anwendungen zu verifizieren. Wei- 

terhin könnten die einzelnen Kriterien in einer derartigen Untersuchung auch auf mehr- 

wertige Abhängigkeiten hin untersucht werden. Insgesamt sollte dabei aber nicht vernach- 

lässigt werden, dass Abhängigkeiten neben ihrer statistischen wie inhaltlichen Relevanz 

auch jeweils inhaltlich begründet werden sollten, da nur so zu erwarten ist, dass sich aus 

den Erkenntnissen der Untersuchungen abgeleitete Handlungsempfehlungen auch in der 

Praxis durchsetzen werden. 

91

LITERATUR 

Literaturverzeichnis 

[BBJP + 01] Hans-Georg Beyer, Eva Brucherseifer, Wilfried Jakob, Hartmut Pohlheim, 

Bernhard Sendhoff und Thanh Binh To. Evolutionäre Algorithmen - Begriffe 

und Definitionen. Universität Dortmund, Dortmund. Juni 2001. 

[BEPW03] Klaus Backhaus, Bernd Erichson, Wulff Plinke und Rolf Weiber. Multivariate 

Analysemethoden. Springer Verlag, Berlin, Heidelberg, New York. 

10. Auflage, 2003. 

[BHKL + 98] Jörg Biethahn, Abrecht Hönerloh, Jochen Kuhl, Marie-Claire Leisewitz, 

Volker Nissen und Martin Tietze. Betriebswirtschaftliche Anwendungen 

des Soft Computing. Vieweg Verlag, Braunschweig, Wiesbaden, 1998. 

[BoJe76] George E. P. Box und Gwilym M. Jenkins. Time series analysis. forecasting 

and control. Holden-Day, San Francisco u. a. Überarb. Auflage, 1976. 

[Day99] Donald K. Day. Genetische Algorithmen und ihre Anwendung zur Prognose 

finanzwirtschaftlicher Daten. Diplomarbeit, Ludwig-Maximilians- 

Universität, München, Februar 1999. 

[FKPT01] Ludwig Fahrmeir, Rita Künstler, Iris Pigeot und Gerhard Tutz. Statistik. 

Springer Verlag, Berlin, Heidelberg, New York. 3. Auflage, 2001. 

[Gerb04] Alexander Gerber. Entwicklung einer Beispieldatenbank für Neuronale 

Netze. Diplomarbeit, Westfälische Wilhelms-Universität, Münster, Juli 

2004. 

[HaEK89] Joachim Hartung, Bärbel Elpelt und Karl-Heinz Klösener. Statistik. R. 

Oldenbourg Verlag, München, Wien. 7. Auflage, 1989. 

[Kopf04] Jürgen Kopf. Arbeitspapiere zur Zeitreihenanalyse. http://www.wifak.uniwuerzburg.de/ewf/doku/zra/ap-zra.htm, 

2004. Abrufdatum 2004-09-27. 

[Lexi01] Meyers Lexikonredaktion (Hrsg.). Informatik. Ein Fachlexikon für Studium 

und Praxis. Dudenverlag, Mannheim u. a. 3. Auflage, 2001. 

[Lipp02] Wolfram-Maria Lippe. Script zu „Einführung in SoftComputing“. 

http://wwwmath.uni-muenster.de/math/inst/info/Professoren/Lippe/lehre/ 

skripte/nnscript/index.html, 2002. Abrufdatum 2005-01-26. 

[Mohr76] Walter Mohr. Univariate Autoregressive Moving-Average-Prozesse und die 

Anwendung der Box-Jenkins-Technik in der Zeitreihenanalyse. Physica- 

Verlag, Würzburg. 1976. 

[NaKK96] Detlef Nauck, Frank Klawonn und Rudolf Kruse. Neuronale Netze und 

Fuzzy-Systeme. Vieweg Verlag, Braunschweig, Wiesbaden. 2. Auflage, 

1996. 

[NaKr98] Detlef Nauck und Rudolf Kruse. Fuzzy-Systeme und Neuro-Fuzzy-Systeme. 

In Jörg Biethahn u. a. (Hrsg.), Betriebswirtschaftliche Anwendungen 

des Soft Computing, S. 35–54. Vieweg Verlag, Braunschweig, Wiesbaden, 

1998. 

92

LITERATUR 

[NHRO99] Michael Nelson, Tim Hill, William Remus und Marcus O’Connor. Time 

Series Forecasting Using Neural Networks: Should the Data be Deseasonalized 

First? Journal of Forecasting Band 18, 1999, S. 359–367. 

[Niss98] Volker Nissen. Einige Grundlagen Evolutionärer Algorithmen. In Jörg Biethahn 

u. a. (Hrsg.), Betriebswirtschaftliche Anwendungen des Soft Computing, 

S. 55–78. Vieweg Verlag, Braunschweig, Wiesbaden, 1998. 

[Roja96] Raúl Rojas. Theorie der neuronalen Netze. Springer Verlag, Berlin, Heidelberg, 

New York. 4. Auflage, 1996. 

[Schi03] Josef Schira. Statistische Methoden der VWL und BWL. Pearson Studium, 

München u. a. 2003. 

[Schw94] Walter S. A. Schwaiger. Stochastische Abhängigkeiten in Aktienmarktzeitreihen. 

Deutscher Universitäts-Verlag, Wiesbaden. 1994. 

[ScSt99] Rainer Schlittgen und Bernd H. J. Streitberg. Zeitreihenanalyse. R. Oldenbourg 

Verlag, München, Wien. 8. Auflage, 1999. 

[Thie98] Frank M. Thiesing. Analyse und Prognose von Zeitreihen mit Neuronalen 

Netzen. Shaker Verlag, Aachen. 1998. 

[Webe95] René Weber. Vergleich der Prognosen von Künstlichen Neuronalen Netzen, 

von Arima-Modellen und der Spektralanalyse mit unterschiedlichen Gütemaßen. 

http://www.dr-rene-weber.de/files/vergleich.prognosen.pdf, 1995. 

Abrufdatum 2005-02-15. 

[Webe98] René Weber. Statische und dynamische Evaluation von Prognosen. ZA- 

Information Band 43, 1998, S. 111–123. 

[Weic99] Karsten Weicker. Evolutionäre Algorithmen. In Karsten Weicker (Hrsg.), 

Softcomputing - Tagungsband zum ersten Softcomputing-Treffen, S. 27–39. 

Informatikverbund Stuttgart, Stuttgart, 1999. German. 

[Weic02] Karsten Weicker. Evolutionäre Algorithmen. Teubner Verlag, Stuttgart, 

Leipzig, Wiesbaden. 2002. 

[Wiki04] Wikipedia. Zeitreihenanalyse. http://de.wikipedia.org/wiki/zeitreihenanalyse, 

2004. Abrufdatum 2004-11-21. 

[Zabe01] Thomas Zabel. Neuronale Netze für Clustern und Vorhersage – Methodenvergleich 

und Tools. Diplomarbeit, Westfälische Wilhelms-Universität, 

Münster, Januar 2001. 

[Zell00] Andreas Zell. Simulation neuronaler Netze. R. Oldenbourg Verlag, München, 

Wien. 3. Auflage, 2000. 

[ZhPH98] Guoqiang Zhang, B. Eddy Patuwo und Michael Y. Hu. Forecasting with 

artificial neural networks: The state of the art. International Journal of 

Forecasting Band 14, 1998, S. 35–62. 

93

LITERATUR 

Zur Analyse verwendete Artikel 

[Abra04] Ajith Abraham. Meta learning evolutionary artificial neural networks. Neurocomputing 

Band 56, 2004, S. 1–38. 

[ABVKA04] Athanassios A. Argiriou, Ioannis Bellas-Velidis, Michael Kummert und 

Philippe Andre. A neural network controller for hydronic heating systems 

of solar buildings. Neural Networks Band 17, 2004, S. 427–440. 

[Amil03] Henrik Amilon. A neural network versus Black-Scholes: a comparison of 

pricing and hedging performances. Journal of Forecasting Band 22, 2003, 

S. 317–335. 

[ArBVB00] A. A. Argiriou, I. Bellas-Velidis und C. A Balaras. Development of a neural 

network heating controller for solar buildings. Neural Networks Band 13, 

2000, S. 811–820. 

[AuHi00] Alex Aussem und David Hill. Neural-network metamodelling for the prediction 

of Caulerpa taxifolia development in the Mediterranean sea. Neurocomputing 

Band 30, 2000, S. 71–78. 

[BaHH03] Bunchingiv Bazartseren, Gerald Hildebrandt und K. P Holz. Short-term 

water level prediction using neural networks and neuro-fuzzy approach. 

Neurocomputing Band 55, 2003, S. 439–450. 

[BCFP + 03] R. Baratti, B. Cannas, A. Fanni, M. Pintus, G. M. Sechi und N Toreno. River 

flow forecast for reservoir management through neural networks. Neurocomputing 

Band 55, 2003, S. 421–437. 

[BeMe00] Yves Bentz und Dwight Merunka. Neural networks and the multinomial 

logit for brand choice modelling: a hybrid approach. Journal of Forecasting 

Band 19, 2000, S. 177–200. 

[BoCB02] Romuald Bone, Michel Crucianu und Jean-Pierre Asselin de Beauville. 

Learning long-term dependencies by the selective addition of time-delayed 

connections to recurrent neural networks. Neurocomputing Band 48, 2002, 

S. 251–266. 

[ChSM02] J. Paul Choudhury, Bijan Sarkar und S. K Mukherjee. Forecasting of engineering 

manpower through fuzzy associative memory neural network with 

ARIMA: a comparative study. Neurocomputing Band 47, 2002, S. 241– 

257. 

[Cioc02] Iulian B Ciocoiu. RBF networks training using a dual extended Kalman 

filter. Neurocomputing Band 48, 2002, S. 609–622. 

[dBET00] Michel de Bollivier, Walter Eifler und Sylvie Thiria. Sea surface temperature 

forecasts using on-line local learning algorithm in upwelling regions. 


[DuHu02] Christian L. Dunis und Xuehuan Huang. Forecasting and trading currency 

volatility: an application of recurrent neural regression and model combination. 

Journal of Forecasting Band 21, 2002, S. 317–354. 

94

LITERATUR 

[FeFR02] P. M. Ferreira, E. A. Faria und A. E Ruano. Neural network models in 

greenhouse air temperature prediction. Neurocomputing Band 43, 2002, 

S. 51–75. 

[FRCK03] Damien Fay, John V. Ringwood, Marissa Condon und Michael Kelly. 24-h 

electrical load data–a sequential or partitioned time series? Neurocomputing 

Band 55, 2003, S. 469–498. 

[HaCF04] Ying Han, Emilio Corchado und Colin Fyfe. Forecasting using twinned 

principal curves and twinned self-organising maps. Neurocomputing 

Band 57, 2004, S. 37–47. 

[HaNe02] James V. Hansen und Ray D Nelson. Data mining of time series using 

stacked generalizers. Neurocomputing Band 43, 2002, S. 173–184. 

[JaWo03] Teo Jasic und Douglas Wood. Neural network protocols and model performance. 


[JeLe00] So-Young Jeong und Soo-Young Lee. Adaptive learning algorithms to 

incorporate additional functional constraints into neural networks. Neurocomputing 

Band 35, 2000, S. 73–90. 

[Kana03] Angelos Kanas. Non-linear forecasts of stock returns. Journal of Forecasting 

Band 22, 2003, S. 299–315. 

[Kasa01] Nikola K. Kasabov. On-line learning, reasoning, rule extraction and aggregation 

in locally optimized evolving fuzzy neural networks. Neurocomputing 

Band 41, 2001, S. 25–45. 

[KavD02] Johan F. Kaashoek und Herman K. van Dijk. Neural network pruning 

applied to real exchange rate analysis. Journal of Forecasting Band 21, 

2002, S. 559–577. 

[Kim03] Kyoung-jae Kim. Financial time series forecasting using support vector 

machines. Neurocomputing Band 55, 2003, S. 307–319. 

[KOKD04] Tae Yoon Kim, Kyong Joo Oh, Chiho Kim und Jong Doo Do. Artificial 

neural networks for non-stationary time series. Neurocomputing Band 61, 

2004, S. 439–447. 

[KuWW02] R. J. Kuo, P. Wu und C. P Wang. An intelligent sales forecasting system 

through integration of artificial neural networks and fuzzy neural networks 

with fuzzy weight elimination. Neural Networks Band 15, 2002, S. 909– 

925. 

[LaLa00] Kin Lam und King Chung Lam. Forecasting for the generation of trading 

signals in financial markets. Journal of Forecasting Band 19, 2000, S. 39– 

52. 

[LiDL04] Andreas Lindemann, Christian L. Dunis und Paolo Lisboa. Propability 

Distributions, Trading Strategies and Leverage: An Application of Gaussian 

Mixture Models. Journal of Forecasting Band 23, 2004, S. 559–585. 

95

LITERATUR 

[LiLi00] Chun-Shin Lin und Chien-Kuo Li. A sum-of-product neural network (SO- 

PNN). Neurocomputing Band 30, 2000, S. 273–291. 

[Lotr04] Uros Lotric. Wavelet based denoising integrated into multilayered perceptron. 


[LuFL03] W. Z. Lu, H. Y. Fan und S. M Lo. Application of evolutionary neural 

network method in predicting pollutant levels in downtown area of Hong 

Kong. Neurocomputing Band 51, 2003, S. 387–400. 

[MaBT00] Olivier Maas, Jean-Philippe Boulanger und Sylvie Thiria. Use of neural 

networks for predictions using time series: Illustration with the El Nino 

Southern oscillation phenomenon. Neurocomputing Band 30, 2000, S. 53– 

58. 

[MKZM + 02] Noboru Murata, Motoaki Kawanabe, Andreas Ziehe, Klaus-Robert Muller 

und Shun-ichi Amari. On-line learning in changing environments with 

applications in supervised and unsupervised learning. Neural Networks 

Band 15, 2002, S. 743–760. 

[MoBr04] Saeed Moshiri und Laura Brown. Unemployment variation over the business 

cycles: a comparison of forecasting models. Journal of Forecasting 

Band 23, 2004, S. 497–511. 

[MoCa00] Saeed Moshiri und Norman Cameron. Neural network versus econometric 

models in forecasting inflation. Journal of Forecasting Band 19, 2000, 

S. 201–217. 

[MZCA00] F. Murtagh, G. Zheng, J. G. Campbell und A Aussem. Neural network 

modelling for environmental prediction. Neurocomputing Band 30, 2000, 

S. 65–70. 

[NaMi02] Ashok K. Nag und Amit Mitra. Forecasting daily foreign exchange rates 

using genetically optimized neural networks. Journal of Forecasting 

Band 21, 2002, S. 501–511. 

[NiIb03] Nikolay Y. Nikolaev und Hitoshi Iba. Polynomial harmonic GMDH learning 

networks for time series modeling. Neural Networks Band 16, 2003, 

S. 1527–1540. 

[PaRM03] M. Panella, A. Rizzi und G Martinelli. Refining accuracy of environmental 

data prediction by MoG neural networks. Neurocomputing Band 55, 2003, 

S. 521–549. 

[PoGr02] Primoz Potocnik und Igor Grabec. Nonlinear model predictive control of 

a cutting process. Neurocomputing Band 43, 2002, S. 107–126. 

[PPHD + 00] Arthur Petrosian, Danil Prokhorov, Richard Homan, Richard Dasheiff und 

Donald Wunsch II. Recurrent neural network based prediction of epileptic 

seizures in intra- and extracranial EEG. Neurocomputing Band 30, 2000, 

S. 201–218. 

96

LITERATUR 

[RMBW02] Thomas Ragg, Wolfram Menzel, Walter Baum und Michael Wigbers. 

Bayesian learning for sales rate prediction for thousands of retailers. Neurocomputing 

Band 43, 2002, S. 127–144. 

[RPBO + 02] I. Rojas, H. Pomares, J. L. Bernier, J. Ortega, B. Pino, F. J. Pelayo und 

A Prieto. Time series analysis using normalized PG-RBF network with 

regression weights. Neurocomputing Band 42, 2002, S. 267–285. 

[ScDD00] Christian Schittenkopf, Georg Dorffner und Engelbert J. Dockner. Forecasting 

time-dependent conditional densities: a seminonparametric neural 

network approach. Journal of Forecasting Band 19, 2000, S. 355–374. 

[SLCF + 04] Geoffroy Simon, Amaury Lendasse, Marie Cottrell, Jean-Claude Fort und 

Michel Verleysen. Double quantization of the regressor space for longterm 

time series prediction: method and proof of stability. Neural Networks 

Band 17, 2004, S. 1169–1181. 

[SOPP01] Moises Salmeron, Julio Ortega, Carlos G. Puntonet und Alberto Prieto. 

Improved RAN sequential prediction using orthogonal techniques. Neurocomputing 

Band 41, 2001, S. 153–172. 

[SRDu01] J. Santos Reyes und R. J Duro. Influence of noise on discrete time backpropagation 

trained networks. Neurocomputing Band 41, 2001, S. 67–89. 

[SYAJ04] N. Arzu Sisman-Yilmaz, Ferda N. Alpaslan und Lakhmi Jain. AN- 

FIS_unfolded_in_time for multivariate time series forecasting. Neurocomputing 

Band 61, 2004, S. 139–168. 

[ThEn04] Suraphan Thawornwong und David Enke. The adaptive selection of financial 

and economic variables for use with artificial neural networks. Neurocomputing 

Band 56, 2004, S. 205–232. 

[TiZM02] Yuan Tian, Jie Zhang und Julian Morris. Optimal control of a fed-batch 

bioreactor based upon an augmented recurrent neural network model. Neurocomputing 

Band 48, 2002, S. 919–936. 

[ToEr03] Ayca Kumluca Topalli und Ismet Erkmen. A hybrid learning for neural 

networks applied to short term load forecasting. Neurocomputing Band 51, 

2003, S. 495–500. 

[ToSc01] Dirk Tomandl und Andreas Schober. A Modified General Regression 

Neural Network (MGRNN) with new, efficient training algorithms as a 

robust ’black box’-tool for data analysis. Neural Networks Band 14, 2001, 

S. 1023–1034. 

[TrGB03] Stefania Tronci, Massimiliano Giona und Roberto Baratti. Reconstruction 

of chaotic time series by neural models: a case study. Neurocomputing 

Band 55, 2003, S. 581–591. 

[WaZu01] Hiroshi Wakuya und Jacek M Zurada. Bi-directional computing architecture 

for time series prediction. Neural Networks Band 14, 2001, S. 1307– 

1321. 

97

LITERATUR 

[YaCh00] Jim Y. F. Yam und Tommy W. S Chow. A weight initialization method for 

improving training speed in feedforward neural network. Neurocomputing 

Band 30, 2000, S. 219–232. 

[YaTa00] Jingtao Yao und Chew Lim Tan. A case study on using neural networks 

to perform technical forecasting of forex. Neurocomputing Band 34, 2000, 

S. 79–98. 

[Zhan03] G. Peter Zhang. Time series forecasting using a hybrid ARIMA and neural 

network model. Neurocomputing Band 50, 2003, S. 159–175. 

98

ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN 

Anhang A: Bei der Literaturanalyse erhobene Daten 

In den Tabellen A bis E werden alle für die Analyse der Anwendungen erhobenen Daten 

aufgeführt. Die Methodik der Erhebung sowie weitere Erläuterungen werden in Kapitel 5 

gegeben. Leere Felder bedeuten, dass die entsprechende Information bei der jeweiligen 

Anwendung nicht zur Verfügung stand. 

Zur einfacheren Darstellung werden folgende Abkürzungen verwendet: 

Vorverarbeitung 

dif Bildung von Differenzen 

gd Bildung gleitender Durchschnitte 

log Anwendung der Logarithmusfunktion 

rausch Additives Hinzufügen von Rauschen 

sais Eliminierung saisonaler Schwankungen 

skal Lineare Skalierung der Werte auf ein eingeschränktes Intervall 

trend Eliminierung eines Trends 

wav Anwendung einer Wavelet-Transformation 

Netz-Typ 

ANFIS u. i. t. Adaptive-Network-based Fuzzy Inference Systems unfolded in time 

dMLP Multi-Layer Perceptron mit denoising Einheit 

EFuNN Evolving Neuro-Fuzzy System 

FAM Fuzzy Associative Memory Neural Network 

FNN Fuzzy Neural Network 

GANN Genetic Algorithm Neural Network 

GM Gaussian Mixture Model 

GRNN Generalized Regression Neural Network 

MLEANN Meta-Learning Evolutionary Neural Network 

MLP Multi-Layer Perceptron 

PHN Polynomial harmonic network 

PNN Probabilistic Neural Network 

PS-MoG Phase Shift Mixture of Gaussian Neural Network 

RBF Radial Basis Function 

RMDN Recurrent Mixture Density Network 

RNN Recurrent Neural Network 

SG Stacked Generalsisation 

SOM Self Organizing Map 

SOPNN Sum-of-Product Neural Network 

TDNN Time Delay Neural Network 

TF-MoG Two Fold Mixture of Gaussian Neural Network 

99


Verbindungs-Struktur 

Nr. 1 Feedforward ebenenweise verbunden 

Nr. 5 Feedforward ebenenweise verbunden mit direkten Rückkopplungen 

Nr. 7 Feedforward ebenenweise verbunden mit vollständigen lateralen 

Verbindungen innerhalb einer Ebene 

Nr. 9 Vollständig ebenenweise verbunden 

Nr. 17 Feedforward ebenenweise verbunden mit Shortcut-Verbindungen in 

Lern-Verfahren 

Backward-Richtung 

BP-phGMDH Backpropagation polynomial harmonic GMDH 

CBPTT Constructive Backpropagation Through Time 

DBT Discrete Time Backpropagation Algorithm 

EKF Extended Kalman Filter 

GRG2 Generalized Reduced Gradient 

RTRL Real-Time Recurrent Learning 

Zielfunktionen und Fehlermaße 

MAE Mean Absolute Error 

MAPE Mean Absolute Percentage Error 

MSE Mean Squared Error 

MSPE Mean Squared Percentage Error 

NMSE Normalized Squared Error 

NRMSE Normalized Root Mean Squared Error 

PER Prediction Error Ratio 

R 2 Bestimmtheitsmaß 

RMSE Root Mean Squared Error 

SSE Sum of Squared Errors 

Alternative Modelle 

ANFIS Adaptive Network Fuzzy Inference System 

AR Autoregressives Modell 

ARIMA Autoregressives Integriertes Moving-Average-Modell 

ARMA Autoregressives Moving-Average-Modell 

ARMAX Autoregressives Moving-Average-Modell mit exogenem Input 

ARX Autoregressives Modell mit exogenem Input 

dMLP Multi-Layer Perceptron mit denoising Einheit 

GARCH Generalized Autoregressive Conditional Heteroscedastisity-Modell 

FB Feedback Neural Network 

100


FF Feedforward Neural Network 

GRNN Generalized Regression Neural Network 

GMDH Group Method of Data Handling 

NN Neural Network 

RAN Resource Allocating Network 

RBF Radial Basis Function 

SVM Support Vector Machines 

TDNN Time Delay Neural Network 

101


Tabelle A 

Nr. Quelle Zeitreihe Bereich Nutzen Art der Eingabedaten 

1 [Abra04] Abwasserzufluss einer Kläranlage Technik vielleicht endogen 

2 [Abra04] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

3 [Abra04] Kohlendioxid-Konzentration eines Gasofens Technik vielleicht endogen, exogen 

4 [ABVKA04] Sonneneinstrahlung Umwelt ja endogen, exogen, Saison 

5 [ABVKA04] Außentemperatur Umwelt ja endogen, exogen, Saison 

6 [ABVKA04] Wassertemperatur eines Heizkreislaufs Technik ja endogen, exogen 

7 [ABVKA04] Zimmertemperatur Technik ja endogen, exogen 

8 [Amil03] Optionspreise auf den schwedischen OMX- 

Index 

Finanzwirtschaft ja exogen 

9 [ArBVB00] Sonneneinstrahlung Umwelt ja endogen, exogen, Saison 

10 [ArBVB00] Außentemperatur Umwelt ja endogen, exogen, Saison 

11 [ArBVB00] Zimmertemperatur Technik ja endogen, exogen 

12 [AuHi00] Verbreitung der grünen Alge Caulerpa Taxi- 

folia im nordw. Mittelmeer 

Umwelt ja exogen 

13 [BaHH03] Wasserstand der Oder bei Frankfurt Umwelt ja endogen, exogen 

14 [BaHH03] Wasserstand des Rheins bei Wesel Umwelt ja endogen, exogen 

15 [BCFP + 03] Regenwasserabfluss im Tirso Basin, Italien Umwelt ja endogen, exogen, Saison 

16 [BCFP + 03] Regenwasserabfluss im Tirso Basin, Italien Umwelt ja endogen, Saison 

17 [BCFP + 03] Regenwasserabfluss im Tirso Basin, Italien Umwelt ja endogen, exogen, Saison 

18 [BeMe00] Einzelne Instantkaffee-Verkäufe in Australi- 

en 

Marketing ja exogen 

19 [BoCB02] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

20 [BoCB02] Ausgestrahlte Lichtintensität eines Lasers Technik vielleicht endogen 

21 [BoCB02] Jährliche Anzahl von Sonnenflecken Sonnenflecken nein endogen 

22 [BoCB02] Wasserzufluss des Lac St. Jean Reservoir in 

Kanada 

23 [ChSM02] Arbeitseinsatz der Stahlindustrie in West 

Bengalen, Indien 

Umwelt ja endogen, exogen 

Technik ja endogen 

24 [Cioc02] Chaotische Qudratic map Zeitreihe Künstlich nein endogen 

25 [dBET00] Meeresoberflächentemperatur Umwelt ja endogen, exogen 

26 [DuHu02] Volatilität des Wechselkurses GBP/USD Finanzwirtschaft ja endogen, exogen 

27 [DuHu02] Volatilität des Wechselkurses GBP/USD Finanzwirtschaft ja endogen, exogen 

28 [DuHu02] Volatilität des Wechselkurses GBP/JPY Finanzwirtschaft ja endogen, exogen 

29 [DuHu02] Volatilität des Wechselkurses GBP/JPY Finanzwirtschaft ja endogen, exogen 

30 [FeFR02] Lufttemperatur eines Gewächshauses Technik ja exogen 

31 [FRCK03] Stromnachfrage in Irland um 18 Uhr Stromverbrauch ja endogen, exogen 

32 [HaCF04] Wechselkurs USD/JPY Finanzwirtschaft ja endogen 

33 [HaNe02] Versteuerbare Verkäufe im Staat Utah, USA Makroökonomik ja endogen 

34 [JaWo03] Wechselkurs USD/DEM Finanzwirtschaft ja endogen 

35 [JaWo03] Wechselkurs USD/JPY Finanzwirtschaft ja endogen 

36 [JaWo03] Wechselkurs USD/CHF Finanzwirtschaft ja endogen 

37 [JaWo03] Wechselkurs USD/GBP Finanzwirtschaft ja endogen 

38 [JeLe00] Ausgestrahlte Lichtintensität eines Lasers Technik vielleicht endogen 

39 [JeLe00] Jährliche Anzahl von Sonnenflecken Sonnenflecken nein endogen 

40 [JeLe00] Jährliche Anzahl von Sonnenflecken Sonnenflecken nein endogen 

41 [Kana03] Börsenertrag des S&P-Index Finanzwirtschaft ja exogen 

42 [Kasa01] Kohlendioxid-Konzentration eines Gasofens Technik vielleicht endogen, exogen 

43 [KavD02] Wechselkurs USD/JPY Finanzwirtschaft ja endogen 

44 [Kim03] Vorzeichen des KOSPI-Index aus Korea Finanzwirtschaft ja exogen 

45 [KOKD04] KOSPI-Index aus Korea Finanzwirtschaft ja endogen 

46 [KuWW02] Absatz von Papaya Milch einer Kiosk-Kette 

in Taiwan 

Marketing ja endogen, exogen 

47 [LaLa00] Hang Seng-Index, Hong Kong Finanzwirtschaft ja endogen 

48 [LiDL04] Verteilung des Wechselkurses EUR/USD Finanzwirtschaft ja exogen 

49 [LiLi00] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

50 [LiLi00] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

102


Nr. Quelle Zeitreihe Bereich Nutzen Art der Eingabedaten 

51 [Lotr04] Second Order Prozess Künstlich nein endogen 



54 [Lotr04] Chaotische Feigenbaum Sequenz Künstlich nein endogen 



57 [Lotr04] Härtegrad einer Gummizusammensetzung Technik ja endogen 



60 [LuFL03] Luftverschmutzung (RSP) in Hongkong Umwelt ja endogen, exogen 

61 [MaBT00] Meeresoberflächentemperatur Umwelt ja endogen, exogen 

62 [MKZM + 02] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

63 [MoBr04] Arbeitslosenquote in den USA Makroökonomik ja endogen 

64 [MoBr04] Arbeitslosenquote in den USA Makroökonomik ja endogen 

65 [MoCa00] Inflation in Kanada Makroökonomik ja endogen 

66 [MZCA00] Meeresoberflächentemperatur Umwelt ja endogen, exogen 

67 [NaMi02] Wechselkurs USD/DEM Finanzwirtschaft ja endogen, exogen 

68 [NaMi02] Wechselkurs USD/GBP Finanzwirtschaft ja endogen, exogen 

69 [NaMi02] Wechselkurs USD/JPY Finanzwirtschaft ja endogen, exogen 

70 [NiIb03] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen, Saison 

71 [NiIb03] Jährliche Anzahl von Sonnenflecken Sonnenflecken nein endogen, Saison 

72 [PaRM03] Stromnachfrage in Rom Stromverbrauch ja endogen 

73 [PaRM03] Ozonlevel in der Altstadt von Rom Umwelt ja endogen 

74 [PaRM03] Lärm in der Altstadt von Rom Umwelt ja endogen 

75 [PoGr02] Schnittfehler eines Schnittprozesses Technik ja endogen, exogen 

76 [PPHD + 00] Hirnströme Medizin ja exogen 

77 [RMBW02] Absatz der Bildzeitung eines Händlers Marketing ja endogen, Saison 

78 [RPBO + 02] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

79 [RPBO + 02] Chaotische Lorenz-Attraktor Zeitreihe Künstlich nein endogen 

80 [ScDD00] Volatilität des FTSE 100-Index Finanzwirtschaft ja exogen 

81 [SLCF + 04] Ausgestrahlte Lichtintensität eines Lasers Technik vielleicht endogen 

82 [SLCF + 04] Stromnachfrage in Polen Stromverbrauch ja endogen 

83 [SOPP01] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

84 [SRDu01] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

85 [SRDu01] Monatliche Anzahl von Sonnenflecken Sonnenflecken nein endogen 

86 [SYAJ04] Kohlendioxid-Konzentration eines Gasofens Technik vielleicht endogen, exogen 

87 [ThEn04] Vorzeichen des S&P 500-Index Finanzwirtschaft ja exogen 

88 [ThEn04] Vorzeichen des S&P 500-Index Finanzwirtschaft ja exogen 

89 [TiZM02] Abgabemenge eines Proteins Technik ja endogen, exogen 



92 [ToEr03] Stromnachfrage in der Türkei Stromverbrauch ja endogen, Saison 

93 [ToSc01] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen 

94 [TrGB03] Chaotische Brusselator Zeitreihe Künstlich nein endogen 

95 [WaZu01] Jährliche Anzahl von Sonnenflecken Sonnenflecken nein endogen 

96 [YaCh00] Jährliche Anzahl von Sonnenflecken Sonnenflecken nein endogen 

97 [YaTa00] Wechselkurs USD/DEM Finanzwirtschaft ja endogen 

98 [YaTa00] Wechselkurs USD/GBP Finanzwirtschaft ja endogen 

99 [YaTa00] Wechselkurs USD/JPY Finanzwirtschaft ja endogen 

100 [YaTa00] Wechselkurs USD/DEM Finanzwirtschaft ja endogen 

101 [YaTa00] Wechselkurs USD/GBP Finanzwirtschaft ja endogen 

102 [YaTa00] Wechselkurs USD/JPY Finanzwirtschaft ja endogen 

103 [Zhan03] Wechselkurs USD/GBP Finanzwirtschaft ja endogen 

104 [Zhan03] Jährliche Anzahl von Sonnenflecken Sonnenflecken nein endogen 

105 [Zhan03] Jährl. Anzahl gefangener Luchse im Ma- 

ckenzie River District, Kanada 

Umwelt vielleicht endogen 

103


Tabelle B 

Nr. Vorverarbeitung Schrittweite Zeitfenster 

[Schritte] 

Horizont 

[Schritte] 

Daten- 

sätze 

Trainings- 

1 gd 1 Stunde 24 1 475 240 235 

2 6 Punkte 4 1 1.000 500 500 

3 9 Sekunden 1 1 292 146 146 

4 15 Minuten 8 1–4 

5 15 Minuten 8 1–4 

6 15 Minuten 8 1–4 

7 15 Minuten 8 1–4 

daten 

Test- 

daten 

Validierung 

8 skal 1 Tag 5 1 9.416 2.354 470 x 

9 skal 15 Minuten 4 1 x 



12 skal 1 Jahr 12 600 480 120 

13 15 Minuten 20 

14 1 Stunde 15 

15 skal 1 Monat 5 1 828 480 240 x 

16 skal 1 Monat 6 1 828 480 240 x 

17 1 Tag 60 1 3.650 x 

18 4.952 2.899 1.731 x 

19 6 Punkte 1 1 600 500 100 

20 1 1 1.100 900 100 x 

21 1 Jahr 1 1 256 221 35 

22 log/skal 1 Viertelmonat 1 1 1.440 1.152 144 x 

23 1 Jahr 1 1 13 

24 1 600 500 100 

25 1 Tag 3 8 

26 log/dif 1 Tag 21 21 1.610 1.049 280 x 

27 log/dif 1 Tag 21 21 1.610 1.049 280 x 

28 log/dif 1 Tag 21 21 1.610 1.049 280 x 

29 log/dif 1 Tag 21 21 1.610 1.049 280 x 

30 skal 5 Minuten 1 1 4.257 1.000 3.257 

31 trend/sais/skal 1 Tag 2 1 360 300 30 x 

32 1 Tag 10 1 3.497 1.706 1.706 

33 1 Quartal 4 x 

34 log/dif 1 Tag 6 1 3.616 2.606 1.010 

35 log/dif 1 Tag 7 1 3.616 2.606 1.010 

36 log/dif 1 Tag 6 1 3.616 2.606 1.010 

37 log/dif 1 Tag 7 1 3.616 2.606 1.010 

38 60 1.200 1.000 200 

39 1 Jahr 12 1 295 221 35 

40 1 Jahr 12 1 295 221 35 

41 log/dif 1 Jahr 2 1 127 118 9 

42 4 1 292 146 146 

43 log/skal 1 Monat 1 1 495 

44 gd/skal 1 Tag 1 2.928 2.347 581 

45 5 1 

46 1 Tag 15 1 379 334 45 

47 log 1 Tag 30 5 

48 dif 1 Tag 19 1 1.149 1.459 290 

49 19 1 1.000 500 500 

50 19 1 1.000 500 500 

51 skal 0,2 Sekunden 14 1 250 181 33 x 



54 skal 4 1 250 181 33 x 

104


Nr. Vorverarbeitung Schrittweite Zeitfenster 

[Schritte] 

Horizont 

[Schritte] 

Daten- 

sätze 

Trainings- 

daten 

Test- 

daten 

Validierung 

55 skal 11 1 250 181 33 x 

56 skal 4 1 250 181 33 x 

57 skal 19 1 199 144 33 x 

58 skal 7 1 199 144 33 x 

59 skal 18 1 199 144 33 x 

60 1 Stunde 1 1 88 70 18 

61 skal 1 Monat 6 349 250 

62 skal 6 Punkte 6 1 12.000 200 11.800 

63 log/trend 1 Quartal 2 1 196 128 68 

64 log/trend 1 Quartal 2 1 196 128 68 

65 dif 1 Monat 1 300 252 48 

66 dif 1 Tag 6 1 339 299 40 

67 1 Tag 1 150 

68 1 Tag 1 150 

69 1 Tag 1 150 

70 skal 1 Punkt 6 1 400 100 300 

71 skal 1 Jahr 6 1 280 221 35 

72 1 Stunde 5 1 2.600 2.000 600 

73 5 Minuten 5 1 2.600 2.000 600 

74 5 Minuten 14 1 2.600 2.000 600 

75 0,025 Sekunden 2 1 

76 wav/skal 20.000 

77 dif, gd 1 Tag 11 6 1.800 1.200 500 

78 6 Punkte 4 1 1.000 500 500 

79 1 Punkt 3 1 1.000 500 500 

80 log/dif 1 Tag 1.762 521 260 

81 7 25 10.000 6.000 100 x 

82 1 Tag 8 40 3.000 2.000 200 x 

83 19 85 8.000 4.000 0 

84 skal/rausch 1–50 

85 1 Monat 12 3.003 2.000 353 

86 9 Sekunden 4 1 296 292 

87 trend/sais/dif/skal 1 Monat 1 1 222 160 22 x 

88 trend/sais/dif/skal 1 Monat 1 1 222 160 22 x 

89 rausch 6 Minuten 3 1 5.400 4.500 750 x 



92 1 Tag 3 1 365 365 

93 1 Punkt 5 1 2.000 500 500 

94 8 1 2.000 1.000 1.000 

95 skal 1 Jahr 1 1 280 100 

96 1 Jahr 12 1 280 208 36 

97 skal 1 Woche 5 1 510 357 51 x 

98 skal 1 Woche 5 1 510 357 51 x 

99 skal 1 Woche 5 1 510 357 51 x 

100 gd/skal 1 Woche 120 1 510 357 51 x 

101 gd/skal 1 Woche 120 1 510 357 51 x 

102 gd/skal 1 Woche 120 1 510 357 51 x 

103 log 1 Woche 1 731 679 52 

104 1 Jahr 1 288 221 67 

105 1 Jahr 1 114 100 14 

105


Nr. Netz-Typ Anzahl 

Schichten 

Tabelle C 

Topologie Struktur Aktivierungsfunktionen der ver- 

steckten Schichten 

1 MLEANN 3 4-11-1 1 tanh, tanh-sigmoid, log-sigmoid linear 

2 MLEANN 3 4-8-1 1 tanh, tanh-sigmoid linear 

3 MLEANN 3 2-9-1 1 tanh, log-sigmoid linear 

4 MLP 4 18-32-32-4 1 

5 MLP 4 18-32-32-4 1 

6 MLP 4 52-32-32-12 1 

7 MLP 4 56-32-32-4 1 

Aktivierungsfkt. d. 

Ausgabeschicht 

8 MLP 3 9-10/12/14-2 1 tanh logistisch 

9 MLP 4 10-8-4-1 1 

10 MLP 4 28-16-8-1 1 

11 MLP 4 28-16-8-1 1 

12 MLP 4-?-1 nicht linear 

13 MLP 3 1 

14 MLP 3 1 

15 MLP 3 8-6-1 1 sigmoid 



18 MLP 3 8-4-1 1 linear Softmax 

19 RNN 3 1-7-1 7 sigmoid 




23 FAM 2 9 

24 RBF 3 x-5-1 1 RBF linear 

25 MLP 6-? 1 

26 MLP 4 44-10-5-1 1 sigmoid sigmoid 

27 RNN 3 44-1-1 17 sigmoid sigmoid 

28 MLP 3 44-1-1 1 sigmoid sigmoid 

29 RNN 3 44-5-1 17 sigmoid sigmoid 

30 RBF 3 3-6-1 1 

31 MLP 4 10-4-4-1 1 tan-sigmoid linear 

32 SOM 25 Zentren 

33 SG 

34 MLP 3 6-4-1 1 logistisch linear 




38 MLP 1 sigmoid 

39 MLP 12-8-1 1 sigmoid 

40 MLP 12-8-1 1 sigmoid 

41 MLP 3 2-8-1 1 logistisch 

42 EFuNN 5 2-x-x-x-1 1 


44 MLP 3 12-24-1 1 sigmoid linear 


46 FNN + MLP 4 / 3 3-7-7-1 / 25-28-1 1 sigmoid 

47 MLP 3 x-5-1 1 tanh 

48 GM 4 10-5-5-1 1 sigmoid/RBF linear 

49 MLP 3 4-35-1 1 

50 SOPNN 3 1 overlapped rectangular pulses Sum of product 

51 dMLP 3 14-(39-14)-1-1 1 tanh 

52 MLP 4 10-2-4-1 1 tanh 

53 MLP 4 12-2-2-1 1 tanh 

54 dMLP 3 4-(9-4)-10-1 1 tanh 

106


Nr. Netz-Typ Anzahl 

Schichten 

Topologie Struktur Aktivierungsfunktionen der ver- 

55 MLP 4 11-2-3-1 1 tanh 

56 MLP 3 4-10-1 1 tanh 

57 dMLP 3 19-(53-19)-1-1 1 tanh 

58 MLP 3 7-3-1 1 tanh 

59 MLP 3 18-1-1 1 tanh 

60 MLP 4 7-8-8-1 1 

61 3 12-10-4 1 

62 RBF 

steckten Schichten 

Aktivierungsfkt. d. 

Ausgabeschicht 

63 MLP 3 2-1-1 1 tanh Identität 

64 GRNN 3 2-x-1 1 RBF Identität 

65 MLP 3 1 tan-sigmoid linear 

66 MLP 3 7-3-1 1 

67 GANN 9 linear, tanh, sigmoid 



70 PHN 4 10-8-8-8-1 1 polynomial 

71 PHN 4 10-8-8-8-1 1 polynomial 

72 TF-MoG 5-?-1 

73 PS-MoG 5-?-1 

74 PS-MoG 9-?-1 

75 MLP 3 6-10-2 1 sigmoid 

76 RNN 3 11-10-1 17 bipolare sigmoide Nichtlinearität 

77 10-? 

78 RBF 3 4-12-1 1 pseudo Gausssche RBF 

79 RBF 3 3-6-1 1 pseudo Gausssche RBF 

80 RMDN 3 1-3*3-3*2 17 tanh 

81 SOM 1 

82 SOM 1 

83 RBF x-18-1 RBF 

84 TDNN 4 1-20-20-1 

85 TDNN 4 1-7-7-1 

86 ANFIS u. i. t 6 2-4-4-4-4-1 1 

87 MLP 3 15-27-2 1 tanh-sigmoid 

88 PNN 4 1 

89 MLP 3 6-8-1 1 

90 RNN 3 5-6-1 17 

91 RNN 3 / 3 6-8-1 / 8-9-1 17 

92 RNN 3 9 sigmoid 

93 Modified 

GRNN 

94 MLP 3 8-13-1 1 sigmoid sigmoid 

95 RNN 4 / 4 1-9-9-1 / 1-9-9-1 5 logistisch linear 

96 MLP 3 12-8-1 1 sigmoid 

97 MLP 3 6-3-1 1 

98 MLP 3 6-3-1 1 

99 MLP 3 5-3-1 1 

100 MLP 3 6-4-1 1 

101 MLP 3 6-4-1 1 

102 MLP 3 6-4-1 1 




1 

107


Tabelle D 

Nr. Lernverfahren Lernobjekt Lernart Zielfunktion 

1 Levenberg-Marquardt Gewichte, Architektur durch GA gewählt überwacht RMSE 

2 Konjugierte Gradienten Gewichte, Architektur durch GA gewählt überwacht RMSE 

3 Levenberg-Marquardt Gewichte, Architektur durch GA gewählt überwacht RMSE 

4 Backpropagation Gewichte überwacht 




8 Backpropagation Gewichte überwacht SSE 

9 Backpropagation mit Momentum Gewichte überwacht 



12 überwacht NMSE 

13 Levenberg-Marquardt Gewichte überwacht 


15 Levenberg-Marquardt Gewichte überwacht MSE 



18 Backpropagation Gewichte überwacht Model-Entropy 

19 CBPTT Gewichte und Verzögerungen überwacht NMSE 



22 CBPTT Gewichte und Verzögerungen überwacht RMSE 

23 unüberwacht 

24 Dual EKF Gewichten und Zentren überwacht NMSE 

25 

26 Gewichte überwacht RMSE 




30 Levenberg-Marquardt Gewichte überwacht SSE 


32 

33 Backpropagation Gewichte überwacht MSE 

34 Konjugierte Gradienten mit Momentum Gewichte überwacht RMSE 




38 Kombination aus BP, Hebbscher Lern- 

regel weight decay Regeln 

39 Kombination aus BP, Hebbscher Lern- 

regel weight decay Regeln 

Gewichte überwacht MSE 

Gewichte überwacht MSE 

40 Backpropagation Gewichte überwacht MSE 

41 RMSE 

42 Widrow-Hoff LMS Algorithmus Gewichte und Verzögerungen unüberwacht/ 

überwacht 

43 Backpropagation Gewichte überwacht R 2 


45 überwacht RSE 

46 Backpropagation mit Momentum und 

Gewichtselimination 

Gewichte, bei FNN auch Entf. von Verbin- 

dungen 

überwacht MSE 

47 Regulation training SSE 

48 Expectation Maximization Algorithm Gewichte und Dichteparameter unüberwacht 


50 Gradienten Abstieg Gewichte, weitere Untermodule überwacht SSE 

51 angepasstes Backpropagation Gewichte und Schwellenwerte überwacht NRMSE 

52 Backpropagation Gewichte überwacht NRMSE 

108


Nr. Lernverfahren Lernobjekt Lernart Zielfunktion 








60 Particle Swarm Optimization (PSO) Gewichte MSE 

61 

62 Stochastischer Gradientenabstieg Gewichte überwacht SSE 


64 Kein Training durch Iteration Entwickeln neuer Zellen überwacht MSE 


66 

67 Recurrent Backpropagation Gewichte überwacht Abs. Abweichung 



70 BP-phGMDH Aktivierungsfkt., Schwingungen und Ge- 

wichte 

71 BP-phGMDH Aktivierungsfkt., Schwingungen und Ge- 

wichte 



72 SHEM Algorithmus überwacht NMSE 



75 

76 EKF-based Gewichte überwacht MSE 

77 Standard Weight Decay + Bayes Gewichte 

78 Sequentiell Gewichte, Entwickeln und Entf. von Zellen überwacht NRMSE 

79 Sequentiell Gewichte, Entwickeln und Entf. von Zellen überwacht NRMSE 

80 Gewichte überwacht loss function 

81 SOM-Algorithmus Gewichte unüberwacht MSE 

82 SOM-Algorithmus Gewichte unüberwacht MSE 

83 NRMSE 

84 DTB Gewichte und Verzögerungen überwacht SSE 

85 DTB Gewichte und Verzögerungen überwacht SSE 

86 Temporal Backpropagation Algorithm Gewichte überwacht RMSE 

87 Backpropagation Gewichte und Bias überwacht RMSE 

88 


90 Levenberg-Marquardt Gewichte überwacht RMSE 

91 Levenberg-Marquardt Gewichte überwacht RMSE 

92 Gewichte überwacht 

93 Kernelweiten überwacht MSE 


95 RTRL Gewichte überwacht SSE 

96 Backpropagation Gewichte überwacht RMSE 

97 Backpropagation Gewichte überwacht NMSE 






103 GRG2 basiert überwacht 



109


Tabelle E 

Nr. Gütefunktionen besser als ähnlich wie schlechter als 

1 RMSE FF, ANFIS 



4 TDNN 

5 TDNN 

6 TDNN 

7 TDNN, FF 

8 RMSE Black-Scholes 

9 

10 

11 

12 NMSE 

13 MAE, RMSE u. a. ARMA, ANFIS ARX 

14 MAE, RMSE u. a. ARMA, ANFIS, ARX 

15 MAE, RMSE u. a. Naiver Wert 

16 MAE, RMSE u. a. ARMAX 

17 MAE, RMSE u. a. Naiver Wert 

18 R 2 Multinomial Logit Model 

19 NMSE FF, RBF 

20 NMSE FF 

21 NMSE AR FF 

22 RMSE AR u. a. 

23 average error ARIMA 

24 NMSE u. a. RBF 

25 R 2 u. a. 

26 MAE, MSE, Vorzeichen GARCH FB 

27 MAE, MSE, Vorzeichen GARCH, FF 

28 MAE, MSE, Vorzeichen GARCH FB 

29 MAE, MSE, Vorzeichen GARCH FF 

30 RMSE 

31 MAPE AR 

32 MAPE 

33 SSE u. a. ARMA, FB, RBF 

34 MAE, NMSE, RMSE, Vorzeichen u. a. Random Walk 




38 MSE FF 

39 MSE AR, FF 

40 MSE AR 

41 RMSE Nearest Neighbour 

42 RMSE u. a. 

43 RMSE, R 2 ARIMA 

44 Vorzeichen SVM 

45 RSE 

46 MAPE, MSE ARMA, FF 

47 Durchschn. Gewinn 

48 Jahresrendite ARMA u. a. FF 

49 

50 

51 NRMSE FF u. a. 

52 NRMSE FF dMLP 

53 NRMSE dMLP u. a. 

54 NRMSE stat. ber. MLP FF 

55 NRMSE FF, dMLP 

110


Nr. Gütefunktionen besser als ähnlich wie schlechter als 

56 NRMSE dMLP u. a. 



59 NRMSE stat. ber. MLP dMLP 

60 

61 

62 RMSE 

63 MSPE AR RBF 

64 MSPE AR, FF 

65 MAE, RMSE ARIMA 

66 RMSE GRNN u. a. 

67 MAPE, MSE u. a. GARCH, FF u. a. 



70 MSE Standart GMDH 

71 MSE Standart GMDH FF 

72 NMSE RBF, ANFIS u. a. 



75 RMSE 

76 

77 

78 RMSE u. a. AR, FF, RBF, ANFIS u.a . 

79 RMSE u. a. Neuro-Fuzzy u. a. 

80 MAE u. a. GARCH 

81 spez. TDNN 

82 

83 NRMSE RAN 

84 PER u. a. 

85 PER u. a. 

86 RMSE ANFIS 

87 Vorzeichen Random Walk, u. a. 

88 Vorzeichen Random Walk, u. a. 

89 FB 

90 FF 

91 FF, FB 

92 real-time percent error 

93 MSE, R 2 

94 

95 SSE FF 

96 FF (schneller) 

97 NMSE, R 2 , Vorzeichen ARIMA 



100 NMSE, Vorzeichen ARIMA 



103 MSE u. a. ARIMA (leicht) Kombination aus NN+ARIMA 

104 MSE u. a. ARIMA, Kombination 

105 MSE u. a. ARIMA (leicht) Kombination aus NN+ARIMA 

111

ANHANG B: DURCH DATA-MINING ERMITTELTE REGELN 

Anhang B: Durch Data-Mining ermittelte Regeln 

Durch den in Kapitel 6.1 beschriebenen Data-Mining-Prozess wurden mit Hilfe von 

SPSS Clementine 8.5 insgesamt 245 Regeln generiert. Die verwendeten Parameter des 

Apriori-Algorithmus waren dabei: 

Mindest-Support: 5 % 

Mindest-Confidence: 70 % 

Maximal erlaubte Vorbedingungen: 1 

Da lediglich Regeln von Interesse sind, deren Li ft signifikant von eins abweicht,werden 

im Folgenden nur die Regeln wiedergegeben, die einen Li ft von mindestens 1,5 haben. 

Zur Auswertung wurden jedoch lediglich Regeln mit einem Li ft von mindestens 2,0 be- 

trachtet. Die Regeln sind wie folgt zu interpretieren: 

Vorbedingung X ⇒ Konsequenz Y 

Support(X) = 

Con f idence(X ⇒ Y) = 

Lift (X ⇒ Y) = 

#X 

#Alle Anwendungen 

Support(X ∪ Y) 

Support(X) 

Con f idence(X ⇒ Y) 

Support(Y) 

Die als Vorbedingungen und Konsequenzen in Frage kommenden Kriterien sind in Tabel- 

le 29 auf S. 60 mit den jeweils als Abkürzungen genutzten Buchstaben angegebenen. Die 

Regeln im einzelnen sind: 

Konsequenz Y Vorbedingung X Support(X) Con f idence(X⇒Y) Li ft 

I = RBF O = RBF 6 % 83 % 10,9 

I = RNN N = 17 6 % 100 % 8,1 

M = ≥ 50 J = ≥ 20 8 % 75 % 7,9 

F = > 3000 H = > 1000 8 % 100 % 6,2 

F = ≤ 250 H = ≤ 30 6 % 83 % 5,1 

F = 251–500 A = Sonnenflecken 8 % 88 % 5,1 

H = 61–200 P = Recurrent Backpropagation 8 % 75 % 4,9 

P = Sonstige O = RBF 6 % 83 % 4,4 

G = 251–500 F = 501–1000 16 % 94 % 4,3 

A = Künstlich I = RBF 8 % 75 % 4,1 

L = 4 M = ≥ 50 10 % 80 % 4,0 

G = 1001–3000 H = > 1000 8 % 75 % 3,9 

G = 1001–3000 F = 1001–3000 16 % 71 % 3,7 

G = ≤ 250 F = ≤ 250 16 % 94 % 3,4 

112

ANHANG B: DURCH DATA-MINING ERMITTELTE REGELN 

Konsequenz Y Vorbedingung X Support(X) Con f idence(X⇒Y) Li ft 

B = endogen, exogen J = ≥ 20 8 % 100 % 3,3 

C => 9 E = gd 6 % 83 % 3,2 

G = ≤ 250 A = Sonnenflecken 8 % 88 % 3,2 

A = Finanzwirtschaft R = Sonstige 7 % 86 % 3,1 

G = ≤ 250 H = ≤ 30 6 % 83 % 3,0 

B = endogen, exogen M = ≥ 50 10 % 90 % 3,0 

A = Finanzwirtschaft E = dif 15 % 81 % 2,9 

A = Finanzwirtschaft E = log 15 % 81 % 2,9 

J = 5–9 H = 501–1000 8 % 88 % 2,8 

J = 5–9 H = > 1000 8 % 75 % 2,4 

B = endogen, exogen A = Umwelt 17 % 72 % 2,4 

J = 5–9 F = > 3000 16 % 71 % 2,2 

O = sigmoid P = Recurrent Backpropagation 8 % 100 % 1,9 

P = Backpropagation H = 31–60 23 % 79 % 1,9 

P = Backpropagation H = > 1000 8 % 75 % 1,8 

O = sigmoid E = log 15 % 94 % 1,8 

M = 4–19 F = 501–1000 16 % 76 % 1,7 

C = 2–9 H = 501–1000 8 % 75 % 1,7 

M = 4–19 H = > 1000 8 % 75 % 1,7 

P = Backpropagation J = 10–19 20 % 71 % 1,7 

L = 3 N = 17 6 % 100 % 1,7 

B = endogen A = Sonnenflecken 8 % 100 % 1,7 

L = 3 P = Levenberg-Marquardt 12 % 100 % 1,7 

B = endogen A = Künstlich 18 % 100 % 1,7 

P = Backpropagation M = ≥ 50 10 % 70 % 1,7 

C = 2–9 J = 5–9 31 % 73 % 1,7 

O = sigmoid R = Sonstige 7 % 86 % 1,6 

M = 4–19 H = 31–60 23 % 71 % 1,6 

C = 2–9 M = ≥ 50 10 % 70 % 1,6 

M = 4–19 J = 1 10 % 70 % 1,6 

L = 3 F = 501–1000 16 % 94 % 1,6 

O = sigmoid G = 501–1000 6 % 83 % 1,6 

L = 3 E = log 15 % 94 % 1,6 

B = endogen H = 31–60 23 % 92 % 1,6 

O = sigmoid E = dif 15 % 81 % 1,6 

O = sigmoid J = 1 10 % 80 % 1,5 

O = sigmoid R = linear 29 % 80 % 1,5 

I = MLP P = Backpropagation 42 % 89 % 1,5 

B = endogen F = 501–1000 16 % 88 % 1,5 

B = endogen I = RBF 8 % 88 % 1,5 

I = MLP H = 31–60 23 % 88 % 1,5 

L = 3 M = 4–19 44 % 87 % 1,5 

O = sigmoid I = RNN 12 % 77 % 1,5 

O = sigmoid M = 20–34 12 % 77 % 1,5 

O = sigmoid F = ≤ 150 16 % 76 % 1,5 

113

Erklärung 

Ich versichere hiermit, dass ich meine Diplomarbeit „Künstliche Neuronale Netze zur 

Prognose von Zeitreihen“ selbständig und ohne fremde Hilfe angefertigt habe und dass 

ich alle von anderen Autoren wörtlich übernommenen Stellen wie auch die sich an die 

Gedankengänge anderer Autoren eng anlegenden Ausführungen meiner Arbeit besonders 

gekennzeichnet und die Quellen zitiert habe. 

Münster, den 21. März 2005 

Dominik Eisenbach

Künstliche Neuronale Netze zur Prognose von Zeitreihen

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?