14.07.2013 Aufrufe

Künstliche Neuronale Netze zur Prognose von Zeitreihen

Künstliche Neuronale Netze zur Prognose von Zeitreihen

Künstliche Neuronale Netze zur Prognose von Zeitreihen

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Westfälische Wilhelms-Universität Münster<br />

Diplomarbeit<br />

<strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong> <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong><br />

<strong>Zeitreihen</strong><br />

Dominik Eisenbach<br />

Themensteller: Prof. Dr. Wolfram-M. Lippe<br />

Institut für Informatik<br />

Abgabetermin: 2005-03-21<br />

Westfälische Wilhelms-Universität Münster


Inhaltsverzeichnis<br />

1 Einführung 1<br />

1.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1<br />

1.2 Ziel und Aufbau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2<br />

2 Statistische <strong>Zeitreihen</strong>analyse 4<br />

2.1 <strong>Zeitreihen</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4<br />

2.2 Komponentenmodelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6<br />

2.2.1 Bestimmung der Trendkomponente . . . . . . . . . . . . . . . . 7<br />

2.2.2 Bestimmung der Saisonkomponente . . . . . . . . . . . . . . . . 9<br />

2.3 Stochastische Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.3.1 Stationäre Prozesse . . . . . . . . . . . . . . . . . . . . . . . . . 11<br />

2.3.2 Die Differenzenmethode . . . . . . . . . . . . . . . . . . . . . . 12<br />

2.3.3 Lineare Modelle . . . . . . . . . . . . . . . . . . . . . . . . . . 13<br />

2.4 <strong>Zeitreihen</strong>prognosen mit statistischen Modellen . . . . . . . . . . . . . . 16<br />

3 <strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong> 18<br />

3.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18<br />

3.2 Aufbau und Bestandteile <strong>Künstliche</strong>r <strong>Neuronale</strong>r <strong>Netze</strong> . . . . . . . . . . 19<br />

3.3 Lernvorgang . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22<br />

3.4 <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> mittels <strong>Künstliche</strong>r <strong>Neuronale</strong>r <strong>Netze</strong> . . . . . . 27<br />

3.4.1 Multi-Layer Perceptrons . . . . . . . . . . . . . . . . . . . . . . 27<br />

3.4.2 Radiale-Basisfunktionen-<strong>Netze</strong> . . . . . . . . . . . . . . . . . . 27<br />

3.4.3 Rekurrente <strong>Netze</strong> . . . . . . . . . . . . . . . . . . . . . . . . . . 29<br />

3.4.4 Time-Delay-<strong>Netze</strong> . . . . . . . . . . . . . . . . . . . . . . . . . 30<br />

3.5 Vor- und Nachteile der Verwendung <strong>von</strong> KNN <strong>zur</strong> <strong>Zeitreihen</strong>-<strong>Prognose</strong> . 31<br />

4 Weitere <strong>Prognose</strong>-Methoden des Soft Computing 33<br />

4.1 Überblick . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

4.2 Fuzzy-Systeme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33<br />

4.3 Evolutionäre Algorithmen . . . . . . . . . . . . . . . . . . . . . . . . . 35<br />

5 Anwendungen <strong>von</strong> KNN <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> 38<br />

5.1 Angewandte Methodik <strong>zur</strong> Literaturrecherche . . . . . . . . . . . . . . . 38<br />

5.2 Anwendungsfelder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39<br />

5.3 Zur <strong>Prognose</strong> verwendete Datengrundlage . . . . . . . . . . . . . . . . . 40<br />

5.3.1 Art der Eingabedaten . . . . . . . . . . . . . . . . . . . . . . . . 40<br />

5.3.2 Vergangenheitstiefe der Eingabedaten und <strong>Prognose</strong>-Horizont . . 41<br />

II


5.3.3 Vorverarbeitung der Eingabedaten . . . . . . . . . . . . . . . . . 42<br />

5.3.4 Zur <strong>Prognose</strong> verwendete Datensätze . . . . . . . . . . . . . . . 43<br />

5.4 Aufbau der verwendeten <strong>Netze</strong> . . . . . . . . . . . . . . . . . . . . . . . 45<br />

5.4.1 Verwendete Netz-Typen . . . . . . . . . . . . . . . . . . . . . . 45<br />

5.4.2 Topologie der <strong>Netze</strong> . . . . . . . . . . . . . . . . . . . . . . . . 47<br />

5.4.3 Struktur der Verbindungen zwischen den Neuronen . . . . . . . . 50<br />

5.4.4 Verwendete Aktivierungsfunktionen . . . . . . . . . . . . . . . . 50<br />

5.5 Lernvorgang der <strong>Künstliche</strong>n <strong>Neuronale</strong>n <strong>Netze</strong> . . . . . . . . . . . . . . 52<br />

5.5.1 Verwendete Lernverfahren . . . . . . . . . . . . . . . . . . . . . 52<br />

5.5.2 Verwendete Lern-Typen . . . . . . . . . . . . . . . . . . . . . . 52<br />

5.5.3 Eingesetzte Zielfunktionen . . . . . . . . . . . . . . . . . . . . . 54<br />

5.6 Erfolgsmessung der <strong>Prognose</strong>n . . . . . . . . . . . . . . . . . . . . . . . 55<br />

5.6.1 Verwendete Gütefunktionen . . . . . . . . . . . . . . . . . . . . 56<br />

5.6.2 Vergleiche mit anderen Modellen . . . . . . . . . . . . . . . . . 58<br />

6 Zusammenhänge zwischen den einzelnen Kriterien 60<br />

6.1 Methodik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60<br />

6.2 Untersuchung der erwarteten Abhängigkeiten . . . . . . . . . . . . . . . 63<br />

6.2.1 Abhängigkeiten <strong>von</strong> den Anwendungsfeldern . . . . . . . . . . . 63<br />

6.2.2 Abhängigkeiten <strong>von</strong> der verwendeten Datengrundlage . . . . . . 65<br />

6.2.3 Abhängigkeiten vom Aufbau der <strong>Netze</strong> . . . . . . . . . . . . . . 70<br />

6.3 Untersuchung der nicht erwarteten Abhängigkeiten . . . . . . . . . . . . 73<br />

6.3.1 Abhängigkeiten <strong>von</strong> der verwendeten Datengrundlage . . . . . . 74<br />

6.3.2 Abhängigkeiten vom Aufbau der <strong>Netze</strong> . . . . . . . . . . . . . . 75<br />

6.3.3 Abhängigkeiten vom Lernvorgang . . . . . . . . . . . . . . . . . 78<br />

6.4 Untersuchung der wünschenswerten Abhängigkeiten . . . . . . . . . . . 79<br />

6.4.1 Abhängigkeiten <strong>von</strong> den Anwendungsfeldern . . . . . . . . . . . 80<br />

6.4.2 Abhängigkeiten <strong>von</strong> der verwendeten Datengrundlage . . . . . . 82<br />

6.4.3 Abhängigkeiten vom Aufbau der <strong>Netze</strong> . . . . . . . . . . . . . . 85<br />

6.4.4 Abhängigkeiten vom Lernvorgang . . . . . . . . . . . . . . . . . 87<br />

6.5 Klassifizierung der Erkenntnisse . . . . . . . . . . . . . . . . . . . . . . 87<br />

7 Zusammenfassung und Ausblick 90<br />

Literaturverzeichnis 92<br />

Zur Analyse verwendete Artikel 94<br />

Anhang A: Bei der Literaturanalyse erhobene Daten 99<br />

Anhang B: Durch Data-Mining ermittelte Regeln 112<br />

III


1 EINFÜHRUNG<br />

1 Einführung<br />

1.1 Motivation<br />

Zeitabhängige Größen sind überall anzutreffen. Sowohl die Frequenz unseres Herzschlags<br />

als auch auch Aktienkurse sind Beispiele für Größen, die sich mit dem Zeitablauf än-<br />

dern. Durch die Beobachtung derartiger Variablen werden <strong>Zeitreihen</strong> gebildet, die den<br />

vielfältigsten Bereichen entstammen können. Bei einigen dieser Beobachtungen ist die<br />

zukünftige Entwicklung der jeweiligen <strong>Zeitreihen</strong> <strong>von</strong> besonderem Interesse. Wäre diese<br />

bekannt, könnten daraus in vielen Fällen Vorteile für den Einzelnen, wie beispielswei-<br />

se monetäre Gewinne an der Börse, oder sogar für eine große Gruppe <strong>von</strong> Menschen,<br />

wie etwa bei Sturmwarnungen, abgeleitet werden. Auch bei Unternehmen liegt es auf der<br />

Hand, dass diese beispielsweise <strong>von</strong> Informationen über die zukünftige Entwicklung des<br />

Produkt-Absatzes direkt profitieren. Aus diesem Grund ist es nicht verwunderlich, dass<br />

die Menschen schon seit Urzeiten versuchen, auf die verschiedensten Arten den weiteren<br />

Verlauf solcher Größen vorherzusehen.<br />

Eine sichere <strong>Prognose</strong> über die Zukunft ist zwar in der Regel nicht möglich, jedoch kön-<br />

nen durch die Anwendung unterschiedlichster Methoden die Entwicklungen zumindest<br />

einigermaßen genau vorausgesagt werden. Bei mathematischen <strong>Prognose</strong>n werden hier-<br />

für die bekannten Werte einer Zeitreihe genutzt, um aus den darin liegenden Informa-<br />

tionen Rückschlüsse auf die zukünftige Entwicklung der Reihe zu ziehen. Dieser Ansatz<br />

liegt auch den <strong>Künstliche</strong>n <strong>Neuronale</strong>n <strong>Netze</strong>n (KNN) zugrunde, die seit 1964 1<br />

ebenfalls für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> eingesetzt werden. Insbesondere seit 1986 das<br />

Backpropagation-Verfahren als allgemeiner Lernalgorithmus für <strong>Neuronale</strong> <strong>Netze</strong> eine<br />

größere Verbreitung erlangte, 2 wurden diese auch als ernst zu nehmende Konkurrenten<br />

der traditionellen statistischen Verfahren wahrgenommen. 3<br />

Im Laufe der Zeit wurden immer mehr auf KNN basierende <strong>Prognose</strong>verfahren entwi-<br />

ckelt und stetig weiter verfeinert. Es existiert jedoch bis heute keine Methode, die den<br />

anderen Methoden in jeder Situation überlegen wäre. 4 Auch ein allgemein gültiges Vor-<br />

gehen, nach dem aus speziellen Situationen Handlungsanweisungen für die Modellierung<br />

eines optimalen <strong>Prognose</strong>-Modells abgeleitet werden könnten, konnte sich bis heute nicht<br />

durchsetzen. Stattdessen werden die einzelnen Methoden oft nahezu willkürlich ausge-<br />

wählt und die Parameter der jeweiligen Methoden in der Regel jedes Mal neu durch einen<br />

mehr oder weniger aufwändigen „Trial and Error“-Prozess bestimmt.<br />

1 1964 wurde <strong>von</strong> M. J. C. HU erstmals eine Anwendung <strong>von</strong> WIDROWS Adeline-Netz <strong>zur</strong> Wettervorhersage<br />

veröffentlicht (Vgl. [ZhPH98, S. 36]).<br />

2 Das Backpropagation-Verfahren wurde zwar erstmalig bereits 1969 <strong>von</strong> A. E. BRYSON und Y. C. HO<br />

(1969) beschrieben, seine große Bedeutung erlangte es allerdings erst 1986 durch die Arbeiten <strong>von</strong> D.<br />

RUMMELHART und J. MCCLELLAND (Vgl. [Zabe01, S. 5 f.], [Zell00, S. 30 ff.]).<br />

3 Vgl. [ZhPH98, S. 36].<br />

4 Vgl. [Zhan03, S. 160].<br />

1


1 EINFÜHRUNG<br />

1.2 Ziel und Aufbau<br />

Wie in Kapitel 1.1 beschrieben, existiert beim Einsatz <strong>von</strong> KNN <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> Zeitrei-<br />

hen keine einheitliche Vorgehensweise. Im Rahmen dieser Arbeit wird deshalb unter-<br />

sucht, ob zwischen unterschiedlichen Anwendungen und Methoden, sowie den einzel-<br />

nen Merkmalen der jeweiligen Methoden, Zusammenhänge zu erkennen sind. Aus diesen<br />

könnten im günstigsten Fall Handlungsempfehlungen für die Modellierung <strong>von</strong> <strong>Prognose</strong>-<br />

Modellen abgeleitet und somit zukünftige <strong>Prognose</strong>n erleichtert werden. Falls dies nicht<br />

möglich ist, sollte zumindest deutlich werden, wonach in weiteren Untersuchungen ge-<br />

zielt gesucht werden müsste. Hierfür wurden die letzten fünf Jahrgänge (2000–2004) der<br />

internationalen wissenschaftlichen Zeitschriften Neurocomputing, Neural Networks und<br />

Journal of Forecasting auf Anwendungen <strong>Künstliche</strong>r <strong>Neuronale</strong>r <strong>Netze</strong> <strong>zur</strong> <strong>Prognose</strong><br />

<strong>von</strong> <strong>Zeitreihen</strong> untersucht und auf diese Fragestellung hin ausgewertet.<br />

Kapitel 2:<br />

Statistische<br />

Methoden<br />

Kapitel 1: Problembeschreibung und Zielsetzung<br />

Kapitel 3:<br />

<strong>Künstliche</strong><br />

<strong>Neuronale</strong> <strong>Netze</strong><br />

Kapitel 5:<br />

Erhebung und Klassifikation <strong>von</strong> Anwendungen<br />

Kapitel 4:<br />

Weitere Methoden<br />

des Soft Computing<br />

Kapitel 6:<br />

Verknüpfung einzelner Kriterien <strong>zur</strong> Ableitung <strong>von</strong> Empfehlungen<br />

Kapitel 7:<br />

Zusammenfassung und Ausblick<br />

Abbildung 1: Aufbau der Arbeit<br />

Grundlagen<br />

Auswertung der<br />

Datenerhebung<br />

Analyse der<br />

Zusammenhänge<br />

In den Kapiteln 2 bis 4 dieser Arbeit werden zunächst die für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong><br />

notwendigen Grundlagen beschrieben. Hierfür werden in Kapitel 2 die für die statistische<br />

<strong>Zeitreihen</strong>analyse üblichen Methoden vorgestellt. Diese dienen bei einigen Anwendungen<br />

<strong>von</strong> KNN als Vergleichsmethoden, die <strong>zur</strong> Evaluation der jeweiligen <strong>Prognose</strong>-Modelle<br />

hinzugezogen werden. Zusätzlich werden die statistischen Methoden oftmals für die Auf-<br />

bereitung <strong>von</strong> Daten angewendet, bevor diese einem KNN vorgelegt werden.<br />

In Kapitel 3 werden <strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong> als universelle Funktionsapproximatoren<br />

vorgestellt. Dabei wird zunächst der generelle Aufbau <strong>von</strong> KNN und aller wesentlichen<br />

Bestandteile allgemein beschrieben. Anhand der <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> am häu-<br />

figsten eingesetzten Netz-Typen wird sodann das jeweilige Vorgehen bei den <strong>Prognose</strong>n<br />

dargestellt. Weiter werden generelle Vor- und Nachteile bei der Verwendung <strong>von</strong> KNN<br />

2


1 EINFÜHRUNG<br />

<strong>zur</strong> <strong>Zeitreihen</strong>-<strong>Prognose</strong> diskutiert. Eine grundsätzliche Einordnung <strong>von</strong> KNN in das Ge-<br />

biet des Soft Computing findet in Kapitel 4 statt. Neben einer kurzen Einführung in dieses<br />

Gebiet werden hier auch zu KNN alternative Soft Computing-Verfahren <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong><br />

<strong>Zeitreihen</strong> vorgestellt.<br />

Der Hauptteil dieser Arbeit beschäftigt sich in den Kapiteln 5 und 6 mit den für diese<br />

Arbeit erfassten <strong>Prognose</strong>-Anwendungen <strong>von</strong> KNN. In Kapitel 5 wird zunächst die bei<br />

der Literaturrecherche angewandte Methodik dargelegt. Im Anschluss daran werden die<br />

durch die Recherche erfassten Anwendungen beschrieben und in Anwendungsbereiche<br />

aufgeteilt. Weiterhin werden die Eigenschaften der jeweils angewendeten Methoden ka-<br />

tegorisiert und die Anwendungen den jeweiligen Kategorien zugeordnet.<br />

Während die angewandten Methoden hier jedoch noch ausschließlich auf singuläre Mus-<br />

ter untersucht werden, wird dieses Vorgehen in Kapitel 6 auf die verknüpfte Betrach-<br />

tung einzelner Eigenschaften ausgeweitet. Dabei werden die Ergebnisse dieser Analysen<br />

auf potentiell ableitbare Handlungsempfehlungen für die Modellierung <strong>von</strong> <strong>Prognose</strong>-<br />

Modellen hin untersucht. Abschließend werden die Erkenntnisse in Kapitel 7 noch einmal<br />

zusammengefasst, und es werden Möglichkeiten für ein weiteres Vorgehen vorgeschla-<br />

gen.<br />

Zur besseren Übersicht ist in Abbildung 1 der Aufbau dieser Arbeit noch einmal grafisch<br />

dargestellt.<br />

3


2 STATISTISCHE ZEITREIHENANALYSE<br />

2 Statistische <strong>Zeitreihen</strong>analyse<br />

2.1 <strong>Zeitreihen</strong><br />

Eine Zeitreihe besteht aus einer geordneten Folge <strong>von</strong> Beobachtungen yt eines Merk-<br />

mals Y , die über einen Zeitraum hinweg erfolgen. Die Zeitpunkte 5 t = 1,...,n können<br />

äquidistant sein, wie beispielsweise bei der stündlichen Stromnachfrage einer Stadt. Oft-<br />

mals haben sie allerdings unregelmäßige Abstände. So werden beispielsweise bei der Un-<br />

tersuchung <strong>von</strong> „täglichen“ Schlusskursen einer Aktie weder Wochenenden noch Feier-<br />

tage, sondern lediglich die Börsentage betrachtet. Bei anderen <strong>Zeitreihen</strong> sind auch voll-<br />

kommen unregelmäßige Abstände möglich.<br />

Handelt es sich um einen kontinuierlichen Datenstrom, können aus diesem durch Abtas-<br />

ten <strong>Zeitreihen</strong> gebildet werden. Hier legt dann in der Regel die sogenannte Samplingrate<br />

ein konstantes Intervall zwischen zwei Datenpunkten fest. Neben den univariaten gibt es<br />

auch multivariate <strong>Zeitreihen</strong>. Dies bedeutet, dass die einzelnen Datenpunkte aus mehrdi-<br />

mensionalen (allerdings immer gleichartigen) Datentupeln bestehen können.<br />

115,0<br />

110,0<br />

105,0<br />

100,0<br />

95,0<br />

90,0<br />

100,0<br />

95,0<br />

90,0<br />

1991 1992 1993 1994 1995<br />

Abbildung 2: Monatlicher Preisindex für „Pflanzen, Güter für die Gartenpflege“<br />

Zur Veranschaulichung 115,0 können die einzelnen Beobachtungen in ein Diagramm eingetra-<br />

110,0<br />

gen werden, wie es in Abbildung 2 zu sehen ist. Die hier zu Grunde liegende Zeitreihe<br />

105,0<br />

besteht aus den monatlichen Werten eines Preisindex für die Warengruppe „Pflanzen, Gü-<br />

ter für die Gartenpflege“ über den Zeitraum <strong>von</strong> 1991 bis 1995. Die zugehörigen Daten<br />

sind in Tabelle 1 angegeben. 6 Auch wenn die ursprüngliche Zeitreihe aus diskreten Be-<br />

obachtungen besteht, wurden die Beobachtungspunkte in der Abbildung <strong>zur</strong> optischen<br />

10,0<br />

-10,0<br />

1991 1992 1993 1994 1995<br />

Aufwertung miteinander verbunden.<br />

Schon auf den ersten Blick ist ein positiver Trend in den Daten erkennbar. Hinzu kommt,<br />

dass in offenbar regelmäßigen Abständen wiederkehrende Höhen und Tiefen der Daten<br />

5 Es kann sich 5,0hierbei<br />

auch um Zeiträume handeln. Dies ist z. B. der Fall, wenn Mengen pro Zeiteinheit<br />

6<br />

gemessen werden.<br />

0,0<br />

Die Werte wurden entnommen aus [FKPT01, S. 526].<br />

1991 1992 1993<br />

-5,0<br />

1994 1995<br />

4


2 STATISTISCHE ZEITREIHENANALYSE<br />

auftreten. Diese beiden Eigenschaften der Zeitreihe werden als Trend- und Saisonkompo-<br />

nenten des Komponentenmodells in Kapitel 2.2 genauer untersucht.<br />

Jan. Febr. März April Mai Juni Juli Aug. Sept. Okt. Nov. Dez.<br />

1991 104,7 103,5 102,8 101,6 98,2 101,3 99,2 95,3 94,2 97,1 100,5 102,1<br />

1992 107,4 106,8 106,3 104,0 105,3 100,9 100,3 99,3 100,7 101,8 105,1 106,0<br />

1993 107,6 107,8 107,8 106,4 106,5 104,8 104,2 104,1 104,8 106,0 107,8 108,7<br />

1994 109,5 110,2 109,4 108,0 107,9 106,6 105,1 104,2 105,6 106,9 108,5 109,6<br />

1995 110,8 111,3 110,3 109,1 108,0 107,2 106,2 105,6 106,2 108,3 109,8 110,9<br />

Tabelle 1: Monatlicher Preisindex für „Pflanzen, Güter für die Gartenpflege“<br />

<strong>Zeitreihen</strong>analysen können <strong>zur</strong> Erreichung unterschiedlicher Ziele durchgeführt werden. 7<br />

Diese Ziele sind z. B.<br />

• die Bestimmung <strong>von</strong> Regelmäßigkeiten eines zeitlichen Vorgangs, um diesen be-<br />

schreiben zu können,<br />

• die Elimination <strong>von</strong> seriellen Abhängigkeiten oder Trends in <strong>Zeitreihen</strong>, um einfa-<br />

che Parameter schätzen zu können,<br />

• das Erkennen <strong>von</strong> Veränderungen in <strong>Zeitreihen</strong>, um ggf. Gegenmaßnahmen einlei-<br />

ten zu können,<br />

• das Erkennen <strong>von</strong> bekannten Mustern in <strong>Zeitreihen</strong>, um bestimmte Ereignisse iden-<br />

tifizieren zu können,<br />

• die <strong>Prognose</strong> der zukünftigen Entwicklung einer Zeitreihe (sowohl die qualitative<br />

Richtung als auch deren quantitatives Ausmaß können hierbei Inhalt der <strong>Prognose</strong><br />

sein).<br />

Um diese Ziele zu erreichen, wird in der Statistik ein Modell konstruiert, mit dem die<br />

beobachtete Zeitreihe beschrieben werden kann. Hierfür gibt es zwei grundsätzlich ver-<br />

schiedene Modellformen: Zum einen das deterministische Modell, das in Form des Kom-<br />

ponentenmodells in Kapitel 2.2 beschrieben wird und zum anderen das in Kapitel 2.3<br />

erläuterte stochastische Modell. Die Eigenschaften des jeweiligen Modells sollten dabei<br />

mit denen der beobachteten Zeitreihe möglichst genau übereinstimmen, so dass die Werte<br />

der Reihe auch durch das gefundene Modell hervorgebracht worden sein könnten. 8<br />

Der Modellbildungsprozess lässt sich in vier Phasen einteilen: 9<br />

• In der Identifikationsphase wird die Zeitreihe beispielsweise durch grafische Aufbe-<br />

reitung (wie oben geschehen) oder statistische Tests auf ihre Eigenschaften hin un-<br />

tersucht. Aufgrund dieser Eigenschaften und der weitergehenden Zielsetzung wird<br />

das grundsätzliche Modell <strong>zur</strong> Beschreibung der Zeitreihe gewählt.<br />

7 Vgl. beispielsweise [HaEK89, S. 637].<br />

8 Vgl. [Schi03, S. 568 f.].<br />

9 Vgl. [Wiki04, Kap. 2].<br />

5


2 STATISTISCHE ZEITREIHENANALYSE<br />

• In der Schätzphase werden die Parameter des gewählten Modells beispielswei-<br />

se durch die weiter unten beschriebene Methode der Kleinsten Quadrate (Kapi-<br />

tel 2.2.1) oder die Box-Jenkins-Methode (Kapitel 2.3.3) geschätzt.<br />

• In der Diagnosephase werden die geschätzten Parameter des Modells über Visua-<br />

lisierung oder statistische Tests überprüft. Liegen verschiedene Modellalternativen<br />

vor, so wird hier diejenige ausgewählt, die die Zeitreihe am besten erklärt.<br />

• In der Einsatzphase wird das spezifizierte Modell verwendet, um das vorher festge-<br />

legte Ziel der <strong>Zeitreihen</strong>analyse wie beispielsweise die <strong>Prognose</strong> zukünftiger Werte<br />

der Zeitreihe zu erreichen.<br />

2.2 Komponentenmodelle<br />

Liegen in den erhobenen Werten Regelmäßigkeiten vor, kann man die daraus resultieren-<br />

de Zeitreihe als Zusammensetzung einzelner Bestandteile beschreiben. Hierfür wird die<br />

Zeitreihe beispielsweise auf einen Trend oder auf periodisch wiederkehrende Schwankun-<br />

gen hin untersucht. Diese werden durch verschiedene Methoden quantifiziert, so dass sich<br />

die ursprüngliche Zeitreihe in ihre additiv bzw. multiplikativ verknüpften Komponenten<br />

zerlegen lässt. 10 Gängige Komponenten einer solchen Zerlegung sind:<br />

• ein Trend mt, der die langfristige Veränderung des Niveaus der Zeitreihe beschreibt,<br />

• ein Zyklus kt (oft auch Konjunkturkomponente), der mehrjährige, nicht notwendi-<br />

gerweise regelmäßige Schwankungen, wie beispielsweise die wirtschaftliche Kon-<br />

junktur, beschreibt,<br />

• die Saison st, die Schwankungen mit regelmäßiger Periode beschreibt und<br />

• der Rest ut, der als übrig bleibende und nicht weiter erklärbare Komponente unre-<br />

gelmäßige Einflüsse oder Störungen enthält.<br />

Mit ihren einzelnen Komponenten können <strong>Zeitreihen</strong> als additives oder multiplikatives<br />

Modell zusammengesetzt werden:<br />

yt = mt + kt + st + ut bzw. yt = mt · kt · st · ut<br />

Bei der Aufstellung eines Komponenten-Modells ist allerdings zu beachten, dass nicht in<br />

jeder Zeitreihe alle aufgeführten Komponenten zu finden sind und deshalb die Formeln<br />

leicht abweichen können. Beispielsweise werden insbesondere dann, wenn der Zeitraum<br />

der betrachteten Daten nicht über einen Zyklus hinausgeht, Trend und Zyklus in einer<br />

10 Vgl. [Schi03, S. 130 ff.].<br />

6


2 STATISTISCHE ZEITREIHENANALYSE<br />

glatten Komponente gt zusammengefasst. Da dies sehr häufig der Fall ist, wird im Wei-<br />

teren nicht gesondert auf die Zyklenkomponente eingegangen. Stattdessen werden die<br />

Begriffe „Trend“ und „glatte Komponente“ synonym verwendet. Ob überhaupt ein signi-<br />

fikanter Trend in der Zeitreihe vorliegt, kann über statistische Tests überprüft werden.<br />

Beispiele für solche Tests finden sich u. a. in [HaEK89, S. 247 ff.].<br />

Der im Modell vorkommende Rest ut kann sehr unterschiedliche Bedeutungen haben.<br />

Während hier in manchen Fällen nur zufällige und unwesentliche Schwankungen zusam-<br />

mengefasst werden, liegt bei anderen <strong>Zeitreihen</strong> gerade in dieser Restkomponente die<br />

eigentlich gesuchte Information. Ein Beispiel hierfür ist die Analyse <strong>von</strong> Arbeitslosen-<br />

zahlen. Wird hierbei untersucht, wie sich arbeitsmarktpolitische Maßnahmen ausgewirkt<br />

haben, sind in erster Linie die <strong>von</strong> den regelmäßigen Schwankungen befreiten Änderun-<br />

gen <strong>von</strong> Interesse.<br />

Es existieren verschiedene Methoden um die Restkomponente einer Zeitreihe zu bestim-<br />

men. Im Folgenden werden einige einfache Möglichkeiten dargestellt, wie die Trend- und<br />

Saisonkomponenten bestimmt werden können. Nachdem diese aus der Zeitreihe elimi-<br />

niert wurden, bleibt als Residuum die gesuchte Restkomponente.<br />

2.2.1 Bestimmung der Trendkomponente<br />

Zur Isolierung der langfristigen Veränderung einer Zeitreihe wird durch eine Regressions-<br />

analyse eine Funktion der Zeit konstruiert. Deren Parameter werden derart geschätzt, dass<br />

die Funktion das durchschnittliche Niveau der Zeitreihe möglichst genau abbildet. Schon<br />

die Betrachtung des Datenplots einer Zeitreihe gibt schon erste Aufschlüsse darüber, ob<br />

es sich um einen positiven oder negativen Trend handelt. Um für die Regression einen<br />

geeigneten Funktionstyp zu wählen, ist es jedoch auch wichtig festzustellen, ob der Trend<br />

anwachsend, gleichbleibend oder abschwächend verläuft. Es gilt einen Funktionstyp zu<br />

finden, der diesem Verlauf möglichst genau entspricht. Beispiele solcher Funktionstypen<br />

sind in Tabelle 2 angegeben. Die Parameter dieser Funktionen sind linear und können<br />

11 Vgl. [BEPW03, S. 80].<br />

Nr. Bezeichnung Definition<br />

1 Linear ax + b<br />

2 Logarithmus ln(x)<br />

3 Exponential exp(x)<br />

4 Arkussinus sin −1 (x)<br />

5 Arkustangens tan−1 (x)<br />

<br />

6 Logit ln<br />

7 Reziprok 1<br />

x<br />

8 Quadrat x2 √<br />

9 Wurzel x<br />

x<br />

(1−x)<br />

Tabelle 2: Beispiele für Funktionstypen <strong>zur</strong> Trendbestimmung 11<br />

7


2 STATISTISCHE ZEITREIHENANALYSE<br />

beispielsweise über die Methode der Kleinsten Quadrate (KQ) geschätzt werden. Hierbei<br />

werden die Parameter so bestimmt, dass die Summe der quadrierten Abweichungen je-<br />

des <strong>Zeitreihen</strong>wertes yt <strong>von</strong> dem zugehörigen Wert der glatten Komponente mt minimiert<br />

wird. Es gilt also:<br />

n<br />

∑<br />

t=1<br />

(yt − mt) 2 −→ min<br />

Die einfachste, aber dennoch häufig angewandte Funktion ist die lineare Funktion. Von<br />

der Grundfunktion mt = a + b · t ausgehend, werden die Parameter a und b mit der KQ-<br />

Methode geschätzt. Durch einfache Differenzialrechnung ergibt sich: 12<br />

115,0<br />

110,0<br />

105,0 n<br />

∑<br />

100,0t=1<br />

mit t · y = 1 n<br />

95,0<br />

t · yt, y = 1 n<br />

â = y − ˆb ·t<br />

n<br />

∑<br />

t=1<br />

yt, t 2 = 1 n<br />

ˆb =<br />

t · y −t · y<br />

t 2 −t 2<br />

n<br />

∑ t<br />

t=1<br />

2 = (n+1)·(2n+1)<br />

6 , t = 1 n<br />

n<br />

∑<br />

t=1<br />

t = n+1<br />

2<br />

Für die konkreten Parameter der Zeitreihe des Preisindex für „Pflanzen, Güter für die<br />

90,0<br />

Gartenpflege“ 1991 aus Kapitel 2.1 1992ergeben sich 1993 somit die 1994 Parameter 1995 a = 100,4093 und b =<br />

0,1593. Zur Verdeutlichung ist in Abbildung 3 zusätzlich <strong>zur</strong> ursprünglichen Zeitreihe yt<br />

die damit berechnete Trendfunktion mt eingezeichnet.<br />

115,0<br />

110,0<br />

105,0<br />

100,0<br />

95,0<br />

90,0<br />

10,0<br />

5,0<br />

0,0<br />

-10,0<br />

1991 1992 1993 1994 1995<br />

Abbildung 3: Monatlicher Preisindex für „Pflanzen, Güter für die Gartenpflege“ mit linearem<br />

Trend<br />

In Abbildung 4 ist die vom Trend bereinigte Zeitreihe zu sehen, die sich als Residualreihe<br />

durch die Subtraktion des Trends <strong>von</strong> der ursprünglichen Zeitreihe ergibt (yt − mt). Aus<br />

den so entstehenden Werten ist das absolute Niveau der ursprünglichen Zeitreihe natürlich<br />

nicht mehr ablesbar.<br />

1991 1992 1993 1994 1995<br />

-5,0<br />

Weitere Methoden, den Trend aus einer Zeitreihe zu eliminieren, fasst man unter Filte-<br />

rung zusammen. Hierzu gehören beispielsweise die Bildung <strong>von</strong> Differenzen, wie sie in<br />

Kapitel 2.3.2 5,0 beschrieben wird, oder die Bildung geeigneter Durchschnitte<br />

3,0<br />

1,0<br />

-1,0<br />

mt = ∑αiyt−i 1991 1992 1993 1994 1995<br />

-3,0<br />

i<br />

12 Vgl. [Kopf04, -5,0 Kap. 2.4.1].<br />

5,0<br />

8


90,0<br />

1991 1992 1993 1994 1995<br />

2 STATISTISCHE ZEITREIHENANALYSE<br />

10,0<br />

5,0<br />

0,0<br />

-5,0<br />

-10,0<br />

1991 1992 1993 1994 1995<br />

Abbildung 4: Trendbereinigter Preisindex für „Pflanzen, Güter für die Gartenpflege“<br />

5,0<br />

3,0<br />

1,0<br />

über eine festgelegte -1,0 Anzahl <strong>von</strong> i benachbarten Beobachtungswerten<br />

-3,0<br />

-5,0<br />

1991 1992 1993 1994 1995<br />

13 , die mit den Faktoren<br />

αi gewichtet werden. 14 Beispiele für letztere Methode sind gleitende Durchschnitte<br />

und die exponentielle Glättung. Während bei der Bildung <strong>von</strong> Differenzen der Trend aus<br />

der Zeitreihe herausgefiltert wird, filtert die Durchschnittsbildung alle Bestandteile aus<br />

der Zeitreihe, die nicht Bestandteil des Trends oder der glatten Komponente sind.<br />

5,0<br />

2.2.2 Bestimmung der Saisonkomponente<br />

0,0<br />

1991<br />

-5,0<br />

1992 1993 1994 1995<br />

Auch <strong>zur</strong> Bestimmung der Saisonkomponente gibt es viele verschiedene Verfahren. Diese<br />

hängen unter -10,0anderem<br />

vom grundsätzlichen Verlauf der Komponente ab. Entscheidend für<br />

die Modellwahl ist, wie sich die positiven und negativen saisonalen Abweichungen in den<br />

Perioden des Beobachtungszeitraums verhalten. Mögliche Modelle sind<br />

10<br />

• eine konstante Saisonfigur, bei der die Abweichungen in allen Perioden gleich groß<br />

sind,<br />

• eine Saisonfigur mit variabler Amplitude, deren Ausmaß in allen Perioden propor-<br />

tional zu den Werten der glatten Komponente steht oder<br />

• eine variable Saisonfigur, falls sich die Struktur der Saisonfigur im Zeitablauf verändert.<br />

15<br />

Eine mögliche Methode für die erste Modellform stellt das Phasendurchschnittsverfah-<br />

ren 16 dar. Hier wird für jede Phase ph der k Phasen pro Periode die durchschnittliche Ab-<br />

weichung dph <strong>von</strong> der glatten Komponente ermittelt. Normiert man diese Durchschnitte<br />

derart, dass deren Summe 0 ergibt, so erhält man für die einzelnen Phasen jeweils eine<br />

Saisonveränderungszahl sph:<br />

sph := dph − 1<br />

k ∑dph ph<br />

13 Gibt es in den zugrunde liegenden Daten eine saisonale Komponente, so bietet es sich an für i genau<br />

deren Periode zu nehmen.<br />

14 Vgl. [Schi03, S. 133].<br />

15 Vgl. [HaEK89, S. 641].<br />

16 Vgl. [Kopf04, Kap. 2.6.5].<br />

9


2 STATISTISCHE ZEITREIHENANALYSE<br />

Das Beispiel 115,0aus<br />

Kapitel 2.1 hat als Phasen die zwölf Kalendermonate, deren Saisonver-<br />

änderungszahlen 110,0 in Tabelle 3 angegeben sind.<br />

105,0<br />

Jan. Febr. März April Mai Juni Juli Aug. Sept. Okt. Nov. Dez.<br />

1991 100,0 4,1 2,8 1,9 0,6 -3,0 -0,1 -2,3 -6,4 -7,6 -4,9 -1,7 -0,2<br />

1992<br />

1993 95,0<br />

4,9<br />

3,2<br />

4,2<br />

3,2<br />

3,5<br />

3,1<br />

1,0<br />

1,5<br />

2,2<br />

1,5<br />

-2,4<br />

-0,4<br />

-3,1<br />

-1,1<br />

-4,3<br />

-1,4<br />

-3,1<br />

-0,9<br />

-2,1<br />

0,2<br />

1,0<br />

1,8<br />

1,8<br />

2,6<br />

1994 3,2<br />

90,0<br />

1995 2,6<br />

sph<br />

1991 3,6<br />

3,7<br />

2,9<br />

3,4<br />

2,8<br />

1,8<br />

2,6 1992<br />

1,2<br />

0,4<br />

0,9<br />

1,0 -0,5<br />

-0,9 -1,8<br />

0,21993-1,0 -2,2<br />

-3,0<br />

-2,3<br />

-3,2<br />

-3,7<br />

1994 -3,8<br />

-2,0<br />

-3,3<br />

-3,4<br />

-0,8<br />

-1,3<br />

1995 -1,8<br />

0,6<br />

0,0<br />

0,4<br />

1,5<br />

0,9<br />

1,3<br />

Tabelle 3: Monatliche Abweichung des Preisindex für „Pflanzen, Güter für die Gartenpflege“ vom<br />

linearen Trend<br />

Da <strong>zur</strong> Approximation 10,0 des Trends in Kapitel 2.2.1 eine lineare Funktion verwendet wur-<br />

5,0<br />

de, sind diese Zahlen bereits mit den durchschnittlichen Abweichungen vom berechneten<br />

Trend identisch. Wird <strong>von</strong> der trendbereinigten Zeitreihe auch noch diese Saisonkompo-<br />

nente abgezogen, so bleibt nur noch der in Abbildung 5 zu sehende unerklärte Rest ut<br />

übrig.<br />

0,0<br />

-5,0<br />

-10,0<br />

5,0<br />

3,0<br />

1,0<br />

-1,0<br />

-3,0<br />

-5,0<br />

5,0<br />

0,0<br />

1991 1992 1993 1994 1995<br />

1991 1992 1993 1994 1995<br />

1991 1992 1993 1994 1995<br />

Abbildung 5: Unerklärte Komponente ut des Preisindex für „Pflanzen, Güter für die Gartenpflege“<br />

Alternative Ansätze <strong>zur</strong> Bestimmung der Saisonkomponente sind z. B.<br />

1991<br />

-5,0<br />

1992 1993 1994 1995<br />

• das -10,0 Regressionsverfahren, bei dem die Saisonveränderungszahlen durch die KQ-<br />

Methode bestimmt werden,<br />

10<br />

• die Differenzenmethode <strong>zur</strong> Elimination der Saisonkomponente, 17<br />

• das Berliner Verfahren, bei dem eine harmonische Schwingung mit geschätzten Pa-<br />

rametern die Saisonkomponente approximiert und<br />

• das Phasendurchschnittsverfahren für das multiplikative Komponentenmodell, bei<br />

dem die Saisonveränderungszahlen so normiert werden, dass ihr Durchschnitt genau<br />

1 ist. 18<br />

17 Vgl. Kap. 2.3.2.<br />

18 Vgl. beispielsweise [HaEK89, S. 668 f.], [Kopf04, Kap. 2.6] oder [Schi03, S. 155 ff.].<br />

10


2 STATISTISCHE ZEITREIHENANALYSE<br />

2.3 Stochastische Prozesse<br />

Eine zeitlich geordnete Folge <strong>von</strong> Zufallsvariablen<br />

{Y } = Y1,Y2,Y3,...,Yt,...<br />

wird als stochastischer Prozess bezeichnet. 19 Es handelt sich dabei also um einen dyna-<br />

mischen Vorgang mit Zufallscharakter. Bei der <strong>Zeitreihen</strong>analyse wird unterstellt, dass<br />

es sich bei der beobachteten Zeitreihe y1,y2,...,yn um eine mögliche (zufällige) Realisie-<br />

rung eines solchen Prozesses handelt. Da dies bedeutet, dass jede einzelne Beobachtung yt<br />

durch eine eigene Zufallsvariable Yt generiert wurde, ist es sehr schwierig <strong>von</strong> den Beob-<br />

achtungen ausgehend Rückschlüsse auf den stochastischen Prozess zu ziehen. Trotzdem<br />

muss versucht werden, aus den Informationen, die aus der beobachteten Zeitreihe gewon-<br />

nen werden, das Modell eines stochastischen Prozesses derart zu schätzen, dass es sich<br />

bei der Zeitreihe um eine endliche Realisierung eben dieses Prozesses handeln könnte.<br />

Um die Bestimmung des stochastischen Prozesses zu vereinfachen, wird a priori eine<br />

Klasse <strong>von</strong> möglichen Prozessen 20 vorgegeben. Für die Beschreibung des konkreten Pro-<br />

zesses {Y } ist es in der Regel dann ausreichend, die ersten und zweiten Momente seiner<br />

Zufallsvariablen anzugeben: 21<br />

1. Mittelwertfunktion µ(t) :=E(Yt)<br />

2. Varianzfunktion σ 2 (t) :=Var(Yt)<br />

3. Autokovarianzfunktion γ j(t) :=Cov(Yt,Yt− j)<br />

4. Autokorrelationsfunktion ρ j(t) :=<br />

γ j(t)<br />

σ(t)·σ(t− j)<br />

Bei j handelt es sich in den Autokovarianz- und Autokorrelationsfunktionen um den Ab-<br />

stand der jeweils betrachteten Zufallsvariablen Yt und Yt− j, der auch Zeitlag genannt wird.<br />

2.3.1 Stationäre Prozesse<br />

Oftmals wird eine gewisse zeitliche Stabilität des stochastischen Prozesses gefordert.<br />

Dies wird beispielsweise dadurch erreicht, dass jede endliche Folge <strong>von</strong> Zufallsvariablen<br />

Y1,...,Ym eine identische Wahrscheinlichkeitsverteilung besitzt, wie die um eine belie-<br />

bige Anzahl <strong>von</strong> k Zeitpunkten verschobene Folge Y1+k,...,Ym+k. Daraus folgt, dass die<br />

durch den Prozess gebildeten <strong>Zeitreihen</strong> einen beliebigen Startzeitpunkt haben können,<br />

da die Verteilungen vom Zeitindex unabhängig sind. In einem solchen Fall spricht man<br />

<strong>von</strong> einem streng stationären Prozess.<br />

19 Vgl. [Schi03, S. 567].<br />

20 Dies sind beispielsweise die im folgenden Kapitel beschriebenen stationären Prozesse.<br />

21 Vgl. [Schi03, S.569].<br />

11


2 STATISTISCHE ZEITREIHENANALYSE<br />

In der Praxis besteht ein Problem darin, dass eine solche Stationarität nur schwer nach-<br />

weisbar ist. In der Regel ist allerdings auch schon eine schwache Stationarität ausrei-<br />

chend. Hierfür wird lediglich gefordert, dass die Zufallsvariablen des Prozesses in ihren<br />

ersten beiden Momenten übereinstimmen. Das heißt, es soll für alle t und j gelten: 22<br />

1. µ(t) = µ<br />

2. σ 2 (t) = σ 2<br />

3. γ j(t) = γ j<br />

Selbst bei einem streng stationären Prozess müssen die Zufallsvariablen nicht notwendi-<br />

gerweise unabhängig verteilt sein. Im Gegenteil sind es oftmals gerade die bestehenden<br />

Abhängigkeiten, die durch die <strong>Zeitreihen</strong>analyse aufgedeckt werden sollen. Die Art der<br />

Abhängigkeit ist jedoch bei allen Zufallsvariablen eines stationären Prozesses dieselbe<br />

und lediglich durch den Grad der Nachbarschaft der betrachteten Variablen bestimmt.<br />

Um <strong>von</strong> einer gegebenen Zeitreihe ausgehend die Momente eines Prozesses schätzen zu<br />

können, ist es nicht ausreichend, dass dieser stationär ist. Zusätzlich dürfen die Autoko-<br />

varianzen γ j nicht zu groß sein und müssen mit steigendem Lag j schnell kleiner werden,<br />

damit gilt: 23<br />

∞<br />

∑ |γ j| < ∞<br />

j=0<br />

Ist auch diese Voraussetzung erfüllt, können die Momente eines stationären Prozesses aus<br />

den jeweiligen empirischen Momenten der betrachteten Zeitreihe geschätzt werden. 24<br />

Ein Spezialfall der stochastischen Prozesse ist der sogenannte White-Noise-Prozess bzw.<br />

das Weiße Rauschen. Dieser Prozess ist deshalb <strong>von</strong> Interesse, da er vielen anderen Pro-<br />

zessen wie beispielsweise den in Kapitel 2.3.3 beschriebenen Moving-Average-Prozessen<br />

als Grundbaustein dient. Es handelt sich dabei um einen stationären Prozess {ε}, dessen<br />

Varianzfunktion σ 2 (t) zu allen Zeitpunkten t einen konstanten Wert annimmt und des-<br />

sen Mittelwerte µ(t) und Autokovarianzen γ j(t) für alle t und j ( j = 0) konstant 0 sind.<br />

Bisweilen wird zusätzlich vorausgesetzt, dass die Zufallsvariablen des Weißen Rauschens<br />

unabhängig und identisch verteilt sind. 25<br />

2.3.2 Die Differenzenmethode<br />

Wie bereits in Kapitel 2.2 erwähnt, eignet sich <strong>zur</strong> Elimination einer Trend- oder Sai-<br />

sonkomponente jeweils auch die Differenzenmethode. Hierbei handelt es sich um einen<br />

linearen Filter, der eine Zeitreihe durch Bildung <strong>von</strong> Differenzen in eine andere Zeitrei-<br />

he transformiert. Die gängigste Variante, die auch für die Eliminierung eines linearen<br />

22 Vgl. [HaEK89, S. 678].<br />

23 Mit dieser Voraussetzung wird sichergestellt, dass der Prozess mittelwertergodisch ist.<br />

24 Vgl. [Schi03, S. 574 f.].<br />

25 Vgl. [Schi03, S. 577].<br />

12


2 STATISTISCHE ZEITREIHENANALYSE<br />

Trends ausreicht, ist der Differenzenfilter 1. Ordnung. Durch diesen werden die Werte y ∗ t<br />

der neuen Zeitreihe durch die einfache Differenz <strong>von</strong> jeweils benachbarten Werten der<br />

ursprünglichen Zeitreihe gebildet.<br />

y ∗ t = ∆yt = yt − yt−1 für t = 2,...,n<br />

Liegt bei den Daten ein polynomer Trend vor, ist es notwendig einen Differenzenfilter<br />

höherer Ordnung (entsprechend dem Grad des angenommenen Polynoms) anzuwenden.<br />

Allgemein gilt bei einem Differenzenfilter p-ter Ordnung die folgende rekursive Transformation:<br />

26<br />

y ∗ t = ∆ p yt = ∆ p−1 yt − ∆ p−1 yt−1 für t = p + 1,...,n<br />

Um eine Saisonkomponente mit fester Periodenlänge q aus einer Zeitreihe herauszufiltern,<br />

werden saisonale Differenzen nach dem folgenden Schema gebildet: 27<br />

y ∗ t = yt − yt−q für t = q + 1,...,n<br />

Um sowohl die Trend- als auch die Saisonkomponente einer Zeitreihe zu eliminieren,<br />

können der normale und der saisonale Differenzenfilter kombiniert werden. In jedem Fall<br />

muss jedoch bei der Weiterbearbeitung der neu gebildeten Zeitreihe beachtet werden, dass<br />

diese nun aus weniger Werten als die ursprüngliche Zeitreihe besteht.<br />

2.3.3 Lineare Modelle<br />

Das für die <strong>Zeitreihen</strong>analyse gängigste lineare Modell ist das ARIMA-Modell, das <strong>von</strong><br />

BOX und JENKINS 28 in den 70er Jahren zu einem brauchbaren Modell für <strong>Prognose</strong>n<br />

weiterentwickelt wurde. Dieses wird durch eine Kombination eines Moving-Average-<br />

Prozesses und eines Autoregressiven Prozesses einer durch Differenzenbildung statio-<br />

narisierten Zeitreihe gebildet.<br />

Moving-Average-Prozesse<br />

Ein stochastischer Prozess {Y } heißt Moving-Average-Prozess der Ordnung q bzw.<br />

MA(q)-Prozess, falls gilt: 29<br />

Yt = εt +<br />

q<br />

∑ α jεt− j<br />

j=1<br />

wobei es sich bei {ε} um Weißes Rauschen 30 handelt und die Koeffizienten α1,...,αq<br />

reelle Faktoren sind. Demnach ist ein MA(q)-Prozess ein Prozess, der aus dem gewogenen<br />

26 Vgl. [Kopf04, Kap. 2.5.4].<br />

27 Vgl. [HaEK89, S. 668 f.].<br />

28 GEORGE BOX, geb. 1919, engl. Chemiker und Mathematiker, GWILYM M. JENKINS, 1932-1982.<br />

29 Vgl. [ScSt99, S. 116].<br />

30 Vgl. Kapitel 2.3.1.<br />

13


2 STATISTISCHE ZEITREIHENANALYSE<br />

gleitenden Durchschnitt eines Weißen Rauschens mit der Fenstergröße q gebildet wird.<br />

Der so entstandene Prozess {Y } ist schwach stationär und besitzt die folgenden Momente:<br />

• µY = 0<br />

• σ 2 Y = σ 2 q<br />

ε ∑ α<br />

i=1<br />

2 i<br />

⎧<br />

⎪⎨ σ<br />

• γ j =<br />

⎪⎩<br />

2 q− j<br />

ε ∑ αiαi+ j<br />

i=1<br />

0<br />

⎧<br />

für<br />

für<br />

0 ≤ j ≤ q<br />

j > q<br />

1 für j = 0<br />

⎪⎨<br />

• ρ j =<br />

⎪⎩<br />

q− j<br />

∑ αiαi+ j<br />

i=1<br />

q<br />

∑ α<br />

i=1<br />

2 i<br />

Autoregressive Prozesse<br />

für 1 ≤ j ≤ q<br />

0 für j > q<br />

Ein stochastischer Prozess {Y } heißt Autoregressiver Prozess der Ordnung p bzw. AR(p)-<br />

Prozess, falls gilt: 31<br />

Yt = εt +<br />

p<br />

∑ β jYt− j<br />

j=1<br />

wobei es sich bei {ε} wieder um Weißes Rauschen 32 handelt und die Koeffizienten<br />

β1,...,βq reelle Faktoren sind. Damit wird jedes Yt des Prozesses als gewichtetes Mit-<br />

tel seiner p Vorgänger mit einem zufälligen Rest εt gebildet.<br />

Damit ein Autoregressiver Prozess stationär ist, müssen dessen Koeffizienten gewissen<br />

Anforderungen 33 genügen. Werden diese Anforderungen erfüllt, ergeben sich für den<br />

AR(p)-Prozess {Y } die folgenden Momente:<br />

• µY = 0<br />

• σ 2 Y = σ 2 ε<br />

p<br />

∑ βiγi<br />

i=1<br />

• γ j = p<br />

∑ βiγ j−i<br />

i=1<br />

für j > 0<br />

⎧<br />

⎪⎨ 1 für j = 0<br />

• ρ j =<br />

⎪⎩<br />

p<br />

βiγ j−i<br />

∑ σ<br />

i=1<br />

2 Y<br />

für j > 0<br />

31 Vgl. [ScSt99, S. 121].<br />

32 Vgl. Kapitel 2.3.1.<br />

33 Für die schwache Stationarität des Prozesses müssen die (auch komplexen) Lösungen der Gleichung<br />

1 − β1z − β2z 2 − ··· − βpz p = 0 alle dem Betrag nach größer als 1 sein (vgl. [HaEK89, S. 679]).<br />

14


2 STATISTISCHE ZEITREIHENANALYSE<br />

Als Spezialfall wird an dieser Stelle der AR(1)-Prozess herausgegriffen, der nach der oben<br />

angegebenen Formel wie folgt gebildet wird:<br />

Yt = βYt−1 + εt<br />

Damit dieser Prozess stationär ist, muss der Parameter β betragsmäßig kleiner als 1 sein.<br />

Ist dagegen β = 1, ergibt sich ein sogenannter Random-Walk, der nicht stationär ist. In<br />

vielen Anwendungsgebieten wie beispielsweise bei der Modellierung <strong>von</strong> Aktienkursen<br />

kann auf solche Random-Walks <strong>zur</strong>ückgegriffen werden. In der <strong>Zeitreihen</strong>analyse werden<br />

sie manchmal auch bei der Bewertung alternativer Modelle als einfache Vergleichsmodel-<br />

le hinzugezogen.<br />

Autoregressive Integrierte Moving-Average-Prozesse<br />

Als Grundlage <strong>von</strong> Autoregressiven Integrierten Moving-Average-Prozessen (ARIMA-<br />

Prozessen) dienen ARMA-Prozesse, die eine Kombination <strong>von</strong> Moving-Average und Au-<br />

toregressiven Prozessen darstellen. Ein ARMA(p,q)-Prozess wird demnach wie folgt ge-<br />

bildet: 34<br />

Yt =<br />

p<br />

q<br />

∑ β jYt− j + εt + ∑ α jεt− j<br />

j=1<br />

j=1<br />

wobei {ε} Weißes Rauschen 35 darstellt und die Koeffizienten β1,...,βp,α1,...,αq reelle<br />

Faktoren sind.<br />

Voraussetzung für die Anwendung eines ARMA-Prozesses ist jedoch, dass es sich bei der<br />

beobachteten Zeitreihe um einen schwach stationären Prozess handelt. Da reale Zeitrei-<br />

hen oftmals Instationaritäten wie einen Trend oder saisonale Abhängigkeiten aufweisen,<br />

müssen diese durch Differenzenfilter, wie sie in Kapitel 2.3.2 beschrieben wurden, in sta-<br />

tionäre Prozesse transformiert werden. Dabei muss die Ordnung des Differenzenfilters<br />

hinreichend groß 36 gewählt werden, damit die dadurch entstehende Zeitreihe stationär<br />

ist. Die Kombination einer Differenzenbildung mit einem ARMA(p,q)-Modell wird als<br />

ARIMA(p,d,q)-Modell bezeichnet, wobei mit dem Parameter d die Ordnung des Diffe-<br />

renzenfilters angegeben wird.<br />

Die Bestimmung der Parameter erfolgt durch die sogenannte Box-Jenkins-Methode 37 , bei<br />

der in einem iterativen Verfahren die folgenden drei Schritte so lange durchlaufen werden,<br />

bis ein zufriedenstellendes Ergebnis erreicht wird:<br />

• Bei der Modellidentifikation werden mit Hilfe der Autokorrelationen die Dimen-<br />

sionen p, d und q des stochastischen Prozesses bestimmt. Diese Parameter müssen<br />

34 Vgl. [ScSt99, S. 132].<br />

35 Vgl. Kapitel 2.3.1.<br />

36 Bei den meisten nichtstationären <strong>Zeitreihen</strong> wird spätestens mit den Differenzen dritter Ordnung eine<br />

ausreichende Stationarität erreicht (Vgl. [Schi03, S. 599]).<br />

37 Vgl. [BoJe76, S. 171–299].<br />

15


2 STATISTISCHE ZEITREIHENANALYSE<br />

derart gewählt werden, dass die empirischen Autokorrelationen für die verschiede-<br />

nen Zeitlags der beobachteten Zeitreihe möglichst genau der theoretischen Auto-<br />

korrelationsfunktion des modellierten Prozesses entsprechen. Gleiches gilt analog<br />

dazu auch für die partiellen Autokorrelationen rk−1(k). 38<br />

• Die übrigen Koeffizienten des Modells werden bei der Parameterschätzung be-<br />

stimmt. Hierbei handelt es sich um die <strong>von</strong> den im ersten Schritt bestimmten Di-<br />

mensionen abhängigen Faktoren β1,...,βp,α1,...,αq. Diese können beispielswei-<br />

se durch die in Kapitel 2.2.1 beschriebene Methode der Kleinsten Quadrate oder<br />

die Maximum-Likelihood-Methode 39 geschätzt werden.<br />

• Wurde das Modell adäquat geschätzt, sollte es sich bei den verbleibenden Residu-<br />

en lediglich um eine Realisation eines Weißen Rauschens handeln. Dies wird bei<br />

der Modellüberprüfung durch eine visuelle Residuenanalyse oder durch statistische<br />

Tests sichergestellt. 40<br />

Der an dieser Stelle nur kurz skizzierte Vorgang kann sich in der Praxis als sehr kom-<br />

plex erweisen. Insbesondere die Ordnungen des Prozesses lassen sich nicht eindeutig be-<br />

stimmen, da es sich bei der beobachteten Zeitreihe lediglich um eine einzige Realisation<br />

des modellierten Prozesses handelt. Da die auf Anhieb geschätzten Parameter deshalb oft<br />

noch nicht zu einer ausreichenden Güte des Modells führen, müssen die einzelnen Schritte<br />

ggf. mehrfach durchgeführt werden. Dies führt dazu, dass die Identifikation des geeigne-<br />

ten Modells sehr schwierig sein kann und auch nicht in jedem Fall zufrieden stellende<br />

Ergebnisse erreicht werden. 41<br />

2.4 <strong>Zeitreihen</strong>prognosen mit statistischen Modellen<br />

Unter einer <strong>Prognose</strong> versteht man<br />

die Vorhersage zukünftiger Ereignisse auf Grund <strong>von</strong> Vergangenheitsinformation 42 .<br />

Die Anzahl der Werte, die zwischen dem letzten beobachteten und dem zu prognostizie-<br />

renden Wert der jeweiligen Zeitreihe liegen, wird als <strong>Prognose</strong>horizont bezeichnet. Liegt<br />

dieser bei eins, wird dies auch als Ein-Schritt-<strong>Prognose</strong> bezeichnet. Eine Erweiterung<br />

auf Mehr-Schritt-<strong>Prognose</strong>n lässt sich einerseits durch eine entsprechende Anpassung der<br />

Modelle oder andererseits durch die iterierte Durchführung <strong>von</strong> Ein-Schritt-<strong>Prognose</strong>n<br />

erreichen.<br />

38 Vgl. [HaEK89, S. 686].<br />

39 Weitere Informationen hierzu finden sich beispielsweise bei [Mohr76, S. 157].<br />

40 Vgl. [Schw94, S. 68 ff.].<br />

41 Vgl. [Thie98, S. 77].<br />

42 [ScSt99, S. 191].<br />

16


2 STATISTISCHE ZEITREIHENANALYSE<br />

Zur Durchführung einer <strong>Prognose</strong> eignen sich je nach Anwendung die Modelle, die in<br />

den vorausgehenden Abschnitten beschrieben wurden. Um die Unterschiede deutlich zu<br />

machen werden hier beispielhaft drei <strong>Prognose</strong>-Verfahren dargestellt.<br />

Komponentenmodell<br />

Zur <strong>Prognose</strong> <strong>von</strong> zukünftigen Werten einer Zeitreihe mit dem Komponenten-Modell<br />

müssen zunächst die einzelnen additiv oder multiplikativ verknüpften Komponenten be-<br />

stimmt werden. 43 Dies sollte derart geschehen, dass in der Größe ut lediglich unwichtige<br />

Störgrößen übrig bleiben. Anhand der gefundenen Funktionen für die glatte Komponente<br />

und Saisonschwankungen kann nun der Wert für den Zeitpunkt t + 1 berechnet werden,<br />

wobei ut+1 = 0 gesetzt wird. Diese Methode kann beispielsweise angewendet werden,<br />

wenn <strong>von</strong> einem grundsätzlich regelmäßigen Verlauf der Zeitreihe ausgegangen wird und<br />

die unerklärte Komponente lediglich durch Messschwierigkeiten entstanden ist.<br />

Random-Walk<br />

Der in Kapitel 2.3.3 beschriebene Random-Walk geht <strong>von</strong> einem Verlauf der Zeitreihe<br />

aus, der vom letzten Wert ausgehend in eine willkürliche Richtung verläuft. 44 Für eine<br />

<strong>Prognose</strong> muss die betrachtete Zeitreihe zunächst über die bereits beschriebenen Verfah-<br />

ren stationarisiert werden. In einem zweiten Schritt wird der Wert der so vorliegenden<br />

Zeitreihe für den Zeitpunkt t + 1 aus der Simulation eines Weißen Rauschens gewon-<br />

nen. 45 Um den prognostizierten Wert auch für die ursprüngliche Zeitreihe zu erhalten,<br />

müssen nun noch alle <strong>zur</strong> Stationarisierung angewandten Transformationen wieder rück-<br />

gängig gemacht werden.<br />

ARIMA-<strong>Prognose</strong>n<br />

Um zukünftige Werte einer Zeitreihe mit einem ARIMA-Modell zu prognostizieren, müs-<br />

sen dessen Parameter zunächst anhand der in Kapitel 2.3.3 beschriebenen Box-Jenkins-<br />

Methode bestimmt werden. Wurde ein adäquates Modell gefunden, kann unter der Hinzu-<br />

nahme eines Weißen Rauschens über die entsprechende Formel der Wert für yt+1 einfach<br />

berechnet werden. 46 Es muss allerdings berücksichtigt werden, dass die <strong>Prognose</strong> auf<br />

der durch Differenzenbildung stationarisierten Zeitreihe durchgeführt wird, so dass die<br />

Differenzenbildung <strong>zur</strong> Gewinnung des eigentlich gesuchten <strong>Prognose</strong>wertes rückgängig<br />

gemacht werden muss.<br />

43 Vgl. Kapitel 2.2.<br />

44 Ein solches Verhalten wird beispielsweise Aktienkursen bisweilen unterstellt.<br />

45 Ist das empirische Mittel der stationierten <strong>Zeitreihen</strong>werte ungleich null, so muss dieses noch zu dem<br />

aus dem Weißen Rauschen gewonnenen Wert εt+1 hinzu addiert werden.<br />

46 Dabei steht yt+1 für eine konkrete Realisation der Zufallsvariable Yt+1.<br />

17


3 KÜNSTLICHE NEURONALE NETZE<br />

3 <strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong><br />

3.1 Überblick<br />

In diesem Kapitel wird eine kurze Einführung in <strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong> (KNN) ge-<br />

geben. Es wird dabei angenommen, dass der Leser dieser Arbeit im Wesentlichen mit<br />

dem Aufbau und der Funktionsweise <strong>von</strong> KNN vertraut ist. Deshalb werden neben ei-<br />

nigen grundlegenden Informationen in erster Linie die für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong><br />

wichtigsten Typen <strong>von</strong> <strong>Netze</strong>n vorgestellt. Ausführlichere Darstellungen des gesamten<br />

Themenkomplexes finden sich beispielsweise bei [Zell00] und [Roja96], auf denen auch<br />

diese Einführung basiert.<br />

Bei <strong>Künstliche</strong>n <strong>Neuronale</strong>n <strong>Netze</strong>n handelt es sich um informationsverarbeitende Sys-<br />

teme, die sich an biologischen Nervensystemen <strong>von</strong> Säugetieren orientieren. Dabei geht<br />

es nicht darum, den Aufbau und die Funktionsweise eines Gehirns möglichst naturgetreu<br />

nachzubilden. Stattdessen wird das Wissen über biologische <strong>Neuronale</strong> <strong>Netze</strong> genutzt, um<br />

dort erfolgreiche Funktionalitäten künstlich nachzubilden.<br />

Analog zum biologischen Vorbild bestehen KNN aus sehr vielen einzelnen Einheiten, den<br />

sogenannten Neuronen, die im Vergleich zum Gesamtsystem jeweils sehr einfach aufge-<br />

baut sind. Diese Neuronen sind untereinander hochgradig verbunden. Durch gerichtete<br />

Verbindungen können sie sich deshalb nach vorgegebenen Regeln untereinander akti-<br />

vieren, wodurch die Informationsverarbeitung stattfindet. Auf diese Weise ist es mög-<br />

lich, durch KNN mittels einfacher arithmetischer Funktionen sehr komplexe Eingabe-<br />

Ausgabe-Zusammenhänge abzubilden.<br />

Ein fundamentaler Unterschied zwischen KNN und konventionellen Algorithmen ist die<br />

Eigenschaft <strong>von</strong> KNN, <strong>zur</strong> Bearbeitung eines Problems lediglich eine Struktur und ein<br />

Lernverfahren zu benötigen. Das bedeutet, dass nicht jeweils ein problemspezifisches<br />

Programm geschrieben wird, sondern dass sich das Netz für die Bearbeitung eines vor-<br />

liegenden Problems in einem Lernprozess anhand <strong>von</strong> Trainingsbeispielen selbständig<br />

konfigurieren muss. Durch die Lernfähigkeit (die Fähigkeit, sich in einem adaptiven Pro-<br />

zess auf die jeweiligen Erfordernisse einzustellen, ohne dass die jeweilige Konfiguration<br />

x1<br />

x2<br />

xn<br />

...<br />

<strong>Künstliche</strong>s<br />

<strong>Neuronale</strong>s Netz<br />

...<br />

Eingabe Informationsverarbeitung Ausgabe<br />

y1<br />

ym<br />

Quelle: In Anlehnung an [Roja96, S. 29].<br />

Abbildung 6: Ein <strong>Künstliche</strong>s <strong>Neuronale</strong>s Netz als Black Box<br />

18


3 KÜNSTLICHE NEURONALE NETZE<br />

explizit vorgegeben werden muss) werden reale Vorgänge eines Nervensystems imitiert<br />

und für praktische Zwecke eingesetzt.<br />

Dies bedeutet jedoch gleichzeitig, dass die funktionalen Zusammenhänge zwischen der<br />

Eingabe und der Ausgabe eines <strong>Netze</strong>s diesem auch nicht explizit vorgegeben werden<br />

können. Stattdessen fungiert ein KNN, wie es auch in Abbildung 6 dargestellt wird, als<br />

eine Art Black Box, die für eine bestimmte Eingabe x eine bestimmte Ausgabe y erzeugen<br />

soll. Die Realisierung dieser Abbildung wird jedoch nur implizit festgelegt und ist nach<br />

außen hin nicht sichtbar. Insbesondere können ggf. bestehende kausale Zusammenhänge<br />

mittels der aus dem Lernvorgang resultierenden Konfiguration nicht abgeleitet werden.<br />

Durch ihre besonderen Eigenschaften wie Lernfähigkeit, parallele Informationsverarbei-<br />

tung, Fehlertoleranz, Robustheit gegen verrauschte Daten und die Fähigkeit, Muster zu<br />

erkennen, stellen KNN bereits in vielen Bereichen eine ernst zu nehmende Alternative zu<br />

herkömmlichen Algorithmen dar. Neben der in dieser Arbeit untersuchten <strong>Prognose</strong> <strong>von</strong><br />

<strong>Zeitreihen</strong> sind dabei in erster Linie die Clusteranalyse und Klassifikation <strong>von</strong> Daten die<br />

bedeutendsten weiteren Einsatzgebiete <strong>von</strong> KNN.<br />

3.2 Aufbau und Bestandteile <strong>Künstliche</strong>r <strong>Neuronale</strong>r <strong>Netze</strong><br />

Wie bereits beschrieben, bestehen KNN aus einer Vielzahl <strong>von</strong> Neuronen. Diese werden<br />

in der Regel in sogenannten Schichten angeordnet und anhand einer vorgegebenen Struk-<br />

tur untereinander verbunden. Bei den Schichten eines KNN unterscheidet man zwischen<br />

Eingabeschicht, verborgener Schicht und Ausgabeschicht.<br />

Die Neuronen der Eingabeschicht dienen als Schnittstelle für die für das KNN bestimm-<br />

ten Eingabedaten. Da es für jede Eingabegröße ein eigenes Eingabe-Neuron geben muss,<br />

ist durch die Dimension des Eingabevektors auch die Anzahl der in der Eingabeschicht<br />

befindlichen Neuronen festgelegt. Die Aufgabe der Eingabe-Neuronen ist es, die anlie-<br />

genden Signale der Eingabedaten an alle direkt verbundenen Neuronen weiterzugeben.<br />

Dementsprechend ist es die Aufgabe der Neuronen der Ausgabeschicht, die Ausgabe des<br />

KNN zu erzeugen. Jedes Ausgabe-Neuron erzeugt dabei einen eigenen Ausgabewert. Die<br />

Anzahl der Ausgabe-Neuronen wird demnach durch die erforderliche Anzahl an Aus-<br />

gangssignalen determiniert.<br />

Die eigentliche Informationsverarbeitung findet in der Regel in den sogenannten verbor-<br />

genen Schichten statt. Hierbei handelt es sich um eine beliebige Anzahl <strong>von</strong> Schichten,<br />

die zwischen der Eingabe- und der Ausgabeschicht angeordnet werden. Die Anzahl der<br />

verborgenen Schichten sowie die Anzahl der Neuronen jeder dieser Schichten sind dabei<br />

freie Parameter eines jeden <strong>Netze</strong>s.<br />

In Abbildung 7 wird ein sogenanntes Feedforward-Netz dargestellt, das aus einer Ein-<br />

gabeschicht mit zwei Eingabe-Neuronen, einer verborgenen Schicht mit drei Neuronen<br />

und einer Ausgabeschicht mit zwei Neuronen besteht. Die Verbindungen sind gerich-<br />

tet und verbinden jeweils alle Neuronen einer Schicht mit allen Neuronen der folgenden<br />

19


3 KÜNSTLICHE NEURONALE NETZE<br />

Schicht. Die Richtung der Informationsverarbeitung verläuft bei Feedforward-<strong>Netze</strong>n al-<br />

so strikt <strong>von</strong> der Eingabe- <strong>zur</strong> Ausgabeschicht. Neben derartigen ebenenweise verbun-<br />

denen Feedforward-<strong>Netze</strong>n gibt es auch solche, bei denen mit sogenannten Shortcut-<br />

Verbindungen auch Neuronen aus nicht benachbarten Schichten miteinander verbunden<br />

werden.<br />

Eingabe<br />

x1<br />

x2<br />

Eingabeschicht Verborgene Schicht Ausgabeschicht<br />

Abbildung 7: Ein dreischichtiges Feedforward-Netz<br />

Ausgabe<br />

Alternativ sind in <strong>Netze</strong>n mit Rückkopplungen, den sogenannten Feedback- oder rekur-<br />

renten <strong>Netze</strong>n, auch noch weitere Verbindungsstrukturen möglich. Unterschieden werden<br />

dabei<br />

• <strong>Netze</strong>, in denen Neuronen innerhalb derselben Schicht durch sogenannte laterale<br />

Verbindungen verbunden sind,<br />

• <strong>Netze</strong>, in denen Neuronen mit sich selber verbunden sind, und<br />

• <strong>Netze</strong>, in denen Verbindungen zu Neuronen vorgelagerter Schichten führen.<br />

Da alle diese Verbindungsstrukturen miteinander kombiniert werden können, ist somit<br />

eine Vielzahl unterschiedlicher Strukturen denkbar.<br />

Der wichtigste Bestandteil jeder Verbindung eines KNN ist das für sie jeweils individuell<br />

festgelegte Gewicht. Durch das Gewicht wi, j wird die Stärke des übertragenen Signals<br />

für die Verbindung <strong>von</strong> Neuron i zu Neuron j individuell erfasst, da es sich in der Re-<br />

gel <strong>von</strong> den Gewichten der anderen Verbindungen unterscheidet. Durch die Gewichtung<br />

der Verbindungen werden die unterschiedlichen Stärken der Kopplungen <strong>von</strong> Synapsen<br />

biologischer Neuronen nachgebildet, und genauso wie ihre biologischen Vorbilder sind<br />

die einzelnen Gewichte jeweils modifizierbar. Die Veränderung der Stärke <strong>von</strong> Synapsen<br />

stellt bei Lebewesen mit einem Nervensystem den vermutlich wichtigsten Vorgang des<br />

y1<br />

y2<br />

20


3 KÜNSTLICHE NEURONALE NETZE<br />

„Lernens“ dar. Dementsprechend sind es auch bei den KNN vorrangig die Gewichte der<br />

Verbindungen, die durch Lernverfahren meistens modifiziert werden.<br />

Wie bereits erwähnt, findet die eigentliche Informationsverarbeitung <strong>von</strong> KNN innerhalb<br />

der Neuronen statt. In Abbildung 8 wird ein einzelnes Neuron schematisch dargestellt.<br />

Seine unterschiedlichen Bestandteile werden im Folgenden näher erläutert:<br />

o1<br />

o2<br />

o3<br />

w1,j<br />

w2,j<br />

w3,j<br />

Verbindungen <strong>von</strong> vorgelagerten<br />

Neuronen<br />

Neuron j<br />

fact(aj,netj,θj)<br />

oj<br />

oj<br />

oj<br />

Verbindungen zu nachgelagerten<br />

Neuronen<br />

Abbildung 8: Ein schematisiertes Neuron<br />

• Mit dem Aktivierungszustand a j wird der Grad der Aktivierung des Neurons ange-<br />

geben.<br />

• Mit der Propagierungsfunktion wird aus den eingehenden Verbindungen die<br />

<strong>Netze</strong>ingabe net j berechnet. In der Regel handelt es sich dabei um die Summe<br />

der mit den Verbindungsgewichten wi, j gewichteten Ausgaben oi der vorgelager-<br />

ten Neuronen net j = ∑oi · wi, j.<br />

i<br />

• Der Schwellenwert θ j ist der Grenzwert, ab dem eine Aktivierung zu einer Ausgabe<br />

des Neurons führt. In manchen Fällen wird der Schwellenwert allerdings aus prag-<br />

matischen Gründen über ein zusätzliches sogenanntes On-Neuron realisiert. Dieses<br />

gibt einen konstanten Wert ab, der dann entsprechend gewichtet in die <strong>Netze</strong>ingabe<br />

einfließt.<br />

• Mit der Aktivierungsfunktion fact(a j,net j,θj) wird aus dem Aktivierungszustand,<br />

der <strong>Netze</strong>ingabe und dem Schwellenwert eines Neurons dessen aktuelle Aktivie-<br />

rung berechnet.<br />

• Aus dieser neu berechneten Aktivierung wird sodann durch die Ausgabefunktion<br />

fout(a j) die Ausgabe o j des Neurons berechnet. Da die Aktivierungs- und die Aus-<br />

gabefunktion in der Literatur oftmals zu einer Funktion zusammengefasst werden,<br />

wird dies auch hier so gehandhabt. Die resultierende Funktion wird im Folgenden<br />

21


3 KÜNSTLICHE NEURONALE NETZE<br />

nur noch Aktivierungsfunktion genannt. Mit dieser wird dann auch direkt die Ausgabe<br />

des Neurons berechnet. 47<br />

Eine wichtige Eigenschaft <strong>von</strong> KNN ist die Fähigkeit, auch nichtlineare Zusammenhänge<br />

abbilden zu können. Um dies zu erreichen müssen die Aktivierungsfunktionen der Neu-<br />

ronen in mindestens einer Schicht nichtlinear sein. Als Aktivierungsfunktionen kommen<br />

dabei prinzipiell alle Funktionen in Frage, die auf einem Intervall monoton ansteigend<br />

sind.<br />

Oftmals wird jedoch abhängig vom verwendeten Lernverfahren zusätzlich die Differen-<br />

zierbarkeit der Funktion gefordert, weshalb sich die sogenannten sigmoiden Funktionen<br />

als bevorzugte Funktionen durchgesetzt haben. Sigmoide Funktionen haben die Eigen-<br />

schaft, dass sie monoton steigend, differenzierbar und S-förmig sind. Beispiele für sig-<br />

moide Funktionen sind die in Abbildung 9 dargestellten Funktionen Tangens hyperboli-<br />

cus und die Logistische Funktion. 48 Ein weiterer Vorteil sigmoider Funktionen ist, dass<br />

sie durch ihre Form darauf ausgerichtet sind auf Schwankungen um ihren „Mittelpunkt“<br />

besonders sensibel zu reagieren. Diese Eigenschaft ermöglicht es einem KNN, sowohl<br />

auf Signale mit kleiner als auch auf solche mit sehr großer Amplitude zu reagieren.<br />

1<br />

0,5<br />

4 2 2 4<br />

0,5<br />

1<br />

1<br />

0,5<br />

4 2 2 4<br />

Abbildung 9: Tangens hyperbolicus tanh(x) (links) und logistische Funktion 1<br />

1+e −x (rechts)<br />

3.3 Lernvorgang<br />

Eine charakteristische Eigenschaft <strong>von</strong> KNN ist die Fähigkeit, aufgrund <strong>von</strong> vorgegebe-<br />

nen Daten Zusammenhänge „lernen“ zu können. Dieser Lernvorgang basiert ausschließ-<br />

lich auf den Trainingsdaten, die dem Netz vorgelegt werden. Auch eigentlich bekannte<br />

kausale Zusammenhänge müssen <strong>von</strong> dem Netz aus den Daten „gelernt“ werden und<br />

können bei der Initialisierung nicht bereits implementiert werden.<br />

47 Dies kommt daher, dass in den meisten Fällen die entscheidenden Berechnungen bereits durch die Aktivierungsfunktionen<br />

vollzogen werden, während als Ausgabefunktionen lediglich Identitätsfunktionen<br />

verwendet werden.<br />

48 Während beim Tangens hyperbolicus der Wertebereich das Intervall [−1;1] ist, ist der Wertebereich der<br />

logistischen Funktion auf das Intervall [0;1] beschränkt. Dies sind gleichzeitig die beiden Wertebereiche,<br />

auf die die jeweiligen Aktivierungsfunktionen in der Regel normiert sind.<br />

22


3 KÜNSTLICHE NEURONALE NETZE<br />

Um ein KNN für eine Anwendungssituation zu konfigurieren werden dem Netz Daten-<br />

sätze vorgelegt, die durch dieses verarbeitet werden. Nach einem festgelegten Schema,<br />

dem Lernverfahren, reagiert das Netz durch die Anpassung <strong>von</strong> Parametern auf die in die-<br />

sen Daten befindlichen Muster und lernt so den funktionalen Zusammenhang zwischen<br />

den Eingabe- und den Ausgabedaten. Man unterscheidet dabei drei grundsätzliche Arten<br />

unterschiedlicher Lernparadigmen.<br />

• Beim überwachten Lernen werden dem Netz neben den Eingabedaten auch die er-<br />

warteten „richtigen“ Ausgabedaten vorgelegt. Anhand des Unterschieds zwischen<br />

den selbst erzeugten und den erwarteten Ausgabedaten werden dann nach festge-<br />

legten Regeln die Parameter des <strong>Netze</strong>s derart modifiziert, dass dieser Unterschied<br />

möglichst minimal wird.<br />

• Auch beim verstärkenden Lernen wird die Ausgabe des <strong>Netze</strong>s mit der erwarteten<br />

Ausgabe verglichen. In diesem Fall geht es allerdings nicht um den genauen Unter-<br />

schied der Daten, sondern dem Netz wird lediglich mitgeteilt, ob seine generierten<br />

Ausgaben richtig oder falsch waren.<br />

• Beim unüberwachten Lernen werden dem Netz ausschließlich die Eingabedaten<br />

vorgelegt. Das Netz ist somit darauf angewiesen, selbständig die in diesen Daten<br />

befindlichen Zusammenhänge zu erkennen und seine Parameter entsprechend zu<br />

modifizieren. Diese Art des Lernens kann beispielsweise <strong>zur</strong> Klassifikation <strong>von</strong><br />

Daten eingesetzt werden, bei der jeweils die statistischen Eigenschaften der Ein-<br />

gabemuster extrahiert und ausgewertet werden. Auch wenn diese Art des Lernens<br />

nach dem biologischen Vorbild am plausibelsten ist, ist sie nicht für alle Anwen-<br />

dungsgebiete <strong>von</strong> KNN geeignet.<br />

Da das überwachte Lernen das Lernparadigma ist, das für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> mit<br />

Abstand bevorzugt eingesetzt wird, wird im Folgenden ein konkretes Lernverfahren die-<br />

ser Art näher beschrieben. Das wohl populärste Lernverfahren für überwachtes Lernen ist<br />

das durch D. E. RUMELHART 1986 bekannt gemachte Backpropagation-Verfahren. Nach<br />

einer zufälligen Initialisierung aller Verbindungsgewichte durchläuft jeder der jeweils aus<br />

einem Eingabevektor und dem dazugehörigen gewünschten Ausgabevektor zusammen-<br />

gesetzten Trainingsdatensätze die folgenden fünf Schritte (Vgl. Abbildung 10):<br />

1. Der Eingabevektor wird an den Eingabe-Neuronen des KNN angelegt.<br />

2. Durch die Vorwärtspropagierung der jeweils berechneten Neuronenausgaben wird<br />

für diesen Eingabevektor der zugehörige Ausgabevektor des KNN erzeugt.<br />

3. Die erzeugte Ausgabe wird mit dem erwünschten Ausgabevektor verglichen und<br />

die Differenz in Form eines Fehlervektors quantifiziert.<br />

23


3 KÜNSTLICHE NEURONALE NETZE<br />

4. Der ermittelte Fehler wird <strong>von</strong> den Ausgabe- bis zu den Eingabe-Neuronen rück-<br />

wärtspropagiert. Entlang dieses Pfads werden die <strong>zur</strong> Minimierung der Fehler not-<br />

wendigen Modifikationen der Verbindungsgewichte bestimmt.<br />

5. Die Gewichte aller Verbindungen werden diesen Berechnungen entsprechend ge-<br />

ändert.<br />

Durch eine iterative Durchführung dieser Schritte verbessert das Netz seine Gewichte so<br />

lange, bis das gegebene Problem möglichst optimal gelöst wird.<br />

Testdatensätze<br />

Erwünschter<br />

Ausgabevektor<br />

3.<br />

3.<br />

Eingabevektor<br />

1.<br />

Netz<br />

2.<br />

Ausgabevektor<br />

5.<br />

Modifikation der<br />

Gewichte<br />

Abbildung 10: Lernprozess des Backpropagation<br />

Berechnung des<br />

Fehlervektors<br />

Zur Minimierung des Fehlers wird das aus der nichtlinearen Optimierung bekannte Gra-<br />

dientenverfahren verwendet. Um dies zu veranschaulichen, ist in Abbildung 11 die <strong>von</strong><br />

zwei Gewichten abhängige Fehlerfläche eines KNN dargestellt. 49<br />

Um das Netz zu trainieren ist es notwendig, diejenige Kombination der beiden Gewich-<br />

te zu finden, bei der der Netzfehler minimal ist. Anschaulich bedeutet dies, dass in der<br />

abgebildeten Fehlerfläche das tiefste Tal gefunden werden muss. Durch das Gradienten-<br />

verfahren werden deshalb bei jedem Datensatz die Gewichte vom Fehler der aktuellen<br />

Gewichtskonfiguration ausgehend einen „Schritt“ in Richtung des steilsten Abstiegs der<br />

Fehlerfläche verändert. Damit wird allerdings auch der wohl wesentlichste Nachteil des<br />

Verfahrens offensichtlich, der darin liegt, dass der Algorithmus nur auf lokale Minima<br />

ausgerichtet ist. Dies hat <strong>zur</strong> Folge, dass oftmals nur ein suboptimales Minimum gefun-<br />

den wird.<br />

Weitere Probleme treten bei der Wahl der Schrittweite auf. Durch diese wird festgelegt,<br />

wie stark jede Änderung ausfallen soll. Wird sie zu groß gewählt, besteht die Gefahr,<br />

dass ein Optimum übersprungen wird. Wird sie zu klein gewählt, kann sich das negativ<br />

auf die Effizienz des Algorithmus auswirken. Aus diesen Gründen wurden im Laufe der<br />

49 Bei einem realen KNN handelt es sich natürlich um eine Vielzahl <strong>von</strong> Gewichten. Da damit aber auch<br />

die Fehlerfläche multidimensional wäre, wurde aus Gründen der Darstellbarkeit auf die Integration <strong>von</strong><br />

mehr als zwei Gewichten verzichtet. Das Minimierungsverfahren verläuft jedoch auch bei einer größeren<br />

Zahl an Gewichten entsprechend der gegebenen Beschreibung.<br />

4.<br />

24


3 KÜNSTLICHE NEURONALE NETZE<br />

w2<br />

w1<br />

Quelle: [Zell00, S. 105].<br />

Abbildung 11: Fehlerfläche eines <strong>Neuronale</strong>n <strong>Netze</strong>s als Funktion der Gewichte w1 und w2<br />

Jahre viele verschiedene Varianten des Backpropagation entwickelt, die diesen Problemen<br />

entgegenwirken.<br />

Theoretisch können außer der Modifikation <strong>von</strong> Gewichten auch andere Lernmechanis-<br />

men zum Einsatz kommen, um die Güte eines KNN zu verbessern. So ist es beispielsweise<br />

möglich, im Rahmen des Lernvorgangs einzelne Neuronen oder Verbindungen komplett<br />

zu entfernen oder neu hinzuzufügen. Auch könnten die Schwellenwerte einzelner Neuro-<br />

nen oder sogar deren Aktivierungsfunktionen modifiziert werden. Auch wenn beliebige<br />

Kombinationen dieser Lernmechanismen möglich wären, beschränken sich die meisten<br />

Lernverfahren auf die reine Modifikation <strong>von</strong> Gewichten.<br />

Bevor ein KNN durch einen Lernvorgang trainiert werden kann, müssen zunächst die <strong>zur</strong><br />

Verfügung stehenden Daten sinnvoll partitioniert werden. Es werden bis zu drei disjunkte<br />

Datenmengen unterschieden, die im Lernvorgang verwendet werden, bevor das KNN zum<br />

eigentlichen Einsatz kommt. Allen Datensätzen ist dabei gemeinsam, dass sie sowohl aus<br />

einem Eingabevektor als auch einem erwünschten Ausgabevektor bestehen.<br />

Zunächst wird aus der <strong>zur</strong> Verfügung stehenden Datenmenge eine Trainings- und eine<br />

Testdatenmenge bestimmt. Während ein KNN anhand der Trainingsdaten während des<br />

Lernvorgangs konfiguriert wird, kommen die Testdaten erst nach Abschluss des Lern-<br />

vorgangs zum Einsatz. Durch die Bestimmung des Netzfehlers auf der Basis der dem<br />

Netz bislang noch unbekannten Testdaten kann die Güte des fertig konfigurierten <strong>Netze</strong>s<br />

quantifiziert und mit der Güte anderer Methoden bei der Bearbeitung derselben Aufgabe<br />

verglichen werden.<br />

Eine wichtige Eigenschaft <strong>von</strong> KNN ist ihre Generalisierungsfähigkeit. Dabei handelt es<br />

sich um die Fähigkeit, <strong>von</strong> bekannten Datenmustern auf unbekannte Muster zu abstrahie-<br />

ren. Nur so ist es möglich, Aufgaben auch auf Daten auszuführen, die dem Netz während<br />

des Trainings noch nicht vorgelegt wurden. Wird jedoch ein KNN zu lange mit den glei-<br />

25


3 KÜNSTLICHE NEURONALE NETZE<br />

chen Trainingsdaten trainiert, stellt es sich auf die einzelnen Datensätze ein (man spricht<br />

in diesem Fall auch vom Overfitting) und verliert dadurch seine Generalisierungsfähig-<br />

keit.<br />

In Abbildung 12 wird der Verlauf des Netzfehlers während eines Trainingsvorgangs dar-<br />

gestellt. Neben dem auf der Trainingsdatenmenge beruhenden Fehler, der über den gan-<br />

zen Zeitraum monoton abnimmt, ist auch der Fehler einer Validierungsdatenmenge einge-<br />

zeichnet, der nach einem gewissen Zeitraum wieder ansteigt. Bei den Validierungsdaten<br />

handelt es sich um eine Teilmenge der Trainingsdaten, deren Aufgabe darin besteht, die<br />

für das Netz optimale Konfiguration zu bestimmen. Ebenso wie bei den Testdaten wer-<br />

den die einzelnen Parameter eines <strong>Netze</strong>s durch die Validierungsdaten nicht verändert.<br />

Diese entscheiden lediglich darüber, welche Parameter-Konfiguration optimal ist. Da sich<br />

ein Overfitting während des Trainings negativ auf den Netzfehler der Validierungsdaten<br />

auswirkt, wird, wie in Abbildung dargestellt, oftmals der minimale Validierungsfehler als<br />

Indikator für das Trainingsende verwendet, um die Generalisierungsfähigkeit des <strong>Netze</strong>s<br />

zu erhalten.<br />

Netzfehler<br />

Trainingsdaten<br />

Validierungsdaten<br />

Abbruch des<br />

Trainings<br />

Anzahl der<br />

Trainingsvorgänge<br />

Quelle: In Anlehnung an [Thie98, S. 28].<br />

Abbildung 12: Verwendung <strong>von</strong> Validierungsdaten <strong>zur</strong> Bestimmung der Trainingsdauer<br />

Zur Bestimmung des Netzfehlers eines KNN werden u. a. die beiden folgenden Maße<br />

verwendet:<br />

• Der Mean Squared Error wird als mittlere Summe der quadrierten Differenzen aus<br />

generierten und erwünschten Ausgaben des <strong>Netze</strong>s über alle n betrachteten Daten-<br />

sätze berechnet.<br />

MSE = 1<br />

n<br />

n<br />

∑<br />

i=1<br />

(yi − ˆyi) 2<br />

• In ähnlicher Weise wird der Root Mean Squared Error als Wurzel aus dem Mean<br />

Squared Error bestimmt.<br />

RMSE = √ MSE<br />

26


3 KÜNSTLICHE NEURONALE NETZE<br />

3.4 <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> mittels <strong>Künstliche</strong>r <strong>Neuronale</strong>r <strong>Netze</strong><br />

Schon lange werden <strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong> auch <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> ein-<br />

gesetzt. Insbesondere durch die einfache Möglichkeit nichtlineare Zusammenhänge abzu-<br />

bilden sind sie in vielen Fällen den statistischen Methoden überlegen. Für die Erstellung<br />

eines <strong>Prognose</strong>-Modells kommen dabei verschiedene Architekturen in Frage. In diesem<br />

Kapitel werden deshalb die gängigsten Netz-Typen mit ihren jeweiligen Besonderheiten<br />

für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> vorgestellt. Für eine vertiefende Darstellung wird erneut<br />

auf [Zell00] verwiesen.<br />

3.4.1 Multi-Layer Perceptrons<br />

Bei Multi-Layer Perceptrons (MLP) handelt es sich um Feedforward-<strong>Netze</strong> mit mindes-<br />

tens einer verborgenen Schicht. Dieser Netz-Typ wird oftmals als das Standardnetz an-<br />

gesehen und erfreut sich auch bei der <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> einer großen Beliebtheit.<br />

Durch die ausschließlich nach vorne gerichtete Verbindungsstruktur kann das Netz bei<br />

seinem Einsatz lediglich auf aktuell anliegende Daten <strong>zur</strong>ückgreifen, da es keine Mög-<br />

lichkeit gibt, vorhergehende Datensätze im Netz zu speichern. Da es aber für die <strong>Prognose</strong><br />

<strong>von</strong> <strong>Zeitreihen</strong> oftmals notwendig ist Informationen aus zeitlich vorgelagerten Datensät-<br />

zen zu integrieren, müssen diese mit jedem Satz erneut in den Eingabevektor aufgenom-<br />

men werden.<br />

Bei der praktischen Umsetzung hat dies <strong>zur</strong> Folge, dass jeder einzelne Datensatz wie<br />

bei einem sogenannten sliding window neben den aktuellen Werten auch noch alle not-<br />

wendigen Werte der vorhergehenden Datensätze beinhalten muss. In Abbildung 13 ist<br />

beispielhaft dargestellt, wie der Eingabevektor zusammengestellt werden muss, um den<br />

Wert xt einer Zeitreihe aus den n vorangegangenen Werten dieser Reihe mit einem MLP<br />

zu prognostizieren. Dementsprechend besteht der Eingabevektor <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> xt+1<br />

aus den Werten xt,xt−1,...,xt−n+1.<br />

xt-1<br />

xt-2<br />

xt-n<br />

...<br />

<strong>Künstliche</strong>s<br />

<strong>Neuronale</strong>s Netz<br />

Eingabe Ausgabe<br />

Abbildung 13: Angepasster Eingabevektor für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong><br />

3.4.2 Radiale-Basisfunktionen-<strong>Netze</strong><br />

Auch Radiale-Basisfunktionen-<strong>Netze</strong> (RBF-<strong>Netze</strong>) sind Feedforward-<strong>Netze</strong>, die im Un-<br />

terschied zu den MLP jedoch in jedem Fall genau eine verborgene Schicht besitzen. Die<br />

xt<br />

27


3 KÜNSTLICHE NEURONALE NETZE<br />

Besonderheit dieser <strong>Netze</strong> sind die speziellen, radialsymmetrischen Aktivierungsfunktio-<br />

nen. Die dabei am häufigsten verwendete Funktion ist die sogenannte Gaußfunktion, die<br />

ihrem Namen entsprechend einer Normalverteilung nachempfunden ist: 50<br />

fi(x) = e<br />

1 −<br />

2σ2 ||ci−x|| 2<br />

Konzeptionell stellen die Neuronen der verborgenen Schicht jeweils Stützstellen der<br />

durch das KNN zu approximierenden Funktion dar. Im einfachsten Fall wird durch jeden<br />

Trainingsdatensatz eine dieser Stützstellen definiert. Da dies aber <strong>zur</strong> Folge hätte, dass die<br />

<strong>Netze</strong> bei einer großen Zahl an Trainingsdaten ebenfalls sehr groß und damit ineffizient<br />

würden, kann alternativ für die Stützstellen auch eine festgelegte Anzahl <strong>von</strong> sogenann-<br />

ten Zentren ermittelt werden, die den Eingaberaum möglichst vollständig abdecken. Diese<br />

Zentren entsprechen den Neuronen der verborgenen Schicht. Die Approximationsfähig-<br />

keit des RBF-<strong>Netze</strong>s hängt dann sehr stark <strong>von</strong> der Wahl der richtigen Zentren ab. Diese<br />

können beispielsweise durch eine möglichst repräsentative Teilmenge der Trainingsdaten<br />

oder durch eine zusätzlich mit einem unüberwachten Lernverfahren durchgeführte Clusteranalyse<br />

bestimmt werden. 51<br />

Bei der Verarbeitung eines Eingabemusters durch das RBF-Netz wird für jedes Zentrum<br />

die Differenz zu dem Muster bestimmt und mit der Summe aus den gewichteten Diffe-<br />

renzen die Netzausgabe berechnet. In Abbildung 14 ist ein RBF-Netz mit vier Zentren<br />

dargestellt. Die Eingabevektoren für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> werden dabei genau<br />

wie bei den MLP jeweils aus den Werten aller für die <strong>Prognose</strong> relevanten Zeitpunkte<br />

gebildet.<br />

xt-1<br />

xt-2<br />

xt-3<br />

||c1-x||<br />

||c2-x||<br />

||c3-x||<br />

||c4-x||<br />

Abbildung 14: Ein RBF-Netz mit den vier Zentren c1 bis c4<br />

Der Vorteil <strong>von</strong> RBF-<strong>Netze</strong>n liegt gegenüber den MLP in ihrer meist einfacheren Struk-<br />

50 Vgl. [FeFR02, S. 54].<br />

51 Vgl. [Cioc02, S. 610].<br />

∑<br />

xt<br />

28


3 KÜNSTLICHE NEURONALE NETZE<br />

tur, die den Modellierungs- und Trainingsprozess erleichtert. 52 So ist es zum Beispiel<br />

möglich, die Gewichte der Verbindungen bereits bei der Initialisierung zu ermitteln, so<br />

dass sie während des <strong>Prognose</strong>-Einsatzes durch ein Lernverfahren nur noch nachtrainiert<br />

werden müssen.<br />

3.4.3 Rekurrente <strong>Netze</strong><br />

Im Unterschied zu den Feedforward-<strong>Netze</strong>n zeichnen sich Rekurrente <strong>Netze</strong> (RNN) da-<br />

durch aus, dass dort auch <strong>von</strong> der allgemeinen Verarbeitungsrichtung des KNN abwei-<br />

chende Verbindungen existieren. Da durch derartige Verbindungen Zyklen gebildet wer-<br />

den, spricht man auch <strong>von</strong> <strong>Netze</strong>n mit Rückkopplungen. Wie bereits beschrieben, sind<br />

dabei verschiedene Arten <strong>von</strong> Rückkopplungen möglich. In Abbildung 15 ist beispiel-<br />

haft ein RNN dargestellt, das sowohl direkte, indirekte als auch laterale Rückkopplungen<br />

aufweist.<br />

Eingabe Ausgabe<br />

xt-1<br />

yt-1<br />

Abbildung 15: Ein rekurrentes Netz mit direkten, indirekten und lateralen Rückkopplungen<br />

Durch die bestehenden Rückkopplungen ist das Netz in der Lage, Informationen auch<br />

über die Verarbeitung eines Datensatzes hinaus zu speichern. Auf diese Weise kann bei<br />

der <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> aus den noch im Netz verbleibenden Signalen <strong>von</strong> vorherge-<br />

henden Datensätzen auf Informationen vorhergehender <strong>Zeitreihen</strong>werte <strong>zur</strong>ückgegriffen<br />

werden, ohne dass diese nochmals explizit in das Netz eingegeben werden müssen. Wie<br />

weit die gespeicherten Informationen bereits durch das Netz bearbeitet wurden, hängt<br />

dabei jeweils <strong>von</strong> der Art der Rekurrenz ab.<br />

Die Daten vorhergehender Zeitpunkte müssen bei den RNN wegen der internen Spei-<br />

cherung nicht wie bei den MLP oder RBF-<strong>Netze</strong>n in den Eingabevektor aufgenommen<br />

werden. Allerdings spielt die Reihenfolge, mit der die einzelnen Datensätze dem Netz<br />

vorgelegt werden, eine große Rolle. Da es keinen Sinn macht, willkürliche Werte einer<br />

52 Vgl. [FeFR02, S. 53].<br />

xt<br />

xt+1<br />

29


3 KÜNSTLICHE NEURONALE NETZE<br />

Zeitreihe miteinander in Verbindung zu bringen, müssen die Eingaben in das Netz immer<br />

in chronologischer Reihenfolge vorgenommen werden. Ebenso können ausschließlich zu-<br />

sammenhängende Blöcke an Datensätzen zu sinnvollen Ergebnissen führen.<br />

Durch die interne Speicherung <strong>von</strong> bereits verarbeiteten Werten sind RNN bei der Verar-<br />

beitung <strong>von</strong> Daten prinzipiell mächtiger als normale Feedforward-<strong>Netze</strong>. 53 Da dies jedoch<br />

mit größeren Schwierigkeiten beim Training der <strong>Netze</strong> einhergeht, sind weder die RNN<br />

noch die Feedforward-<strong>Netze</strong> den Netz-Typen der jeweils anderen Gruppe grundsätzlich<br />

überlegen.<br />

3.4.4 Time-Delay-<strong>Netze</strong><br />

Die Motivation für die Time-Delay-<strong>Netze</strong> (TDNN) liegt darin, dass diese trotz der Struk-<br />

tur eines Feedforward-<strong>Netze</strong>s Informationen über den Zeitablauf speichern, um Zusam-<br />

menhänge aufeinander folgender Datensätze erkennen zu können. Erreicht wird dies<br />

durch Hinzunahme weiterer Verbindungen, die zwar die jeweils gleichen Neuronen er-<br />

neut verbinden, jedoch mit einer Verzögerung d versehen werden. Das bedeutet, dass der<br />

Informationsfluss durch diese Verbindungen erst nach d Schritten erfolgt. Die somit ver-<br />

zögert ankommenden Informationen entstammen demnach den bereits in vorhergehenden<br />

Schritten verarbeiteten Datensätzen.<br />

In Abbildung 16 sind zwei Neuronen dargestellt, die durch Time-Delay-Verbindungen mit<br />

unterschiedlichen Verzögerungen versehen sind. Während es sich bei der Verbindung mit<br />

der Verzögerung d = 0 um eine ganz gewöhnliche Verbindung handelt, werden die glei-<br />

chen Signale über die anderen Verbindungen erst mit der jeweiligen Verzögerung übertra-<br />

gen. Wie bei den RNN ist es es deshalb bei den TDNN für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong><br />

auch nicht nötig, die Werte <strong>von</strong> Datensätzen vergangener Zeitpunkte jedes Mal neu in<br />

das Netz einzugeben, da die relevanten Informationen innerhalb des <strong>Netze</strong>s in den Time-<br />

Delay-Verbindungen gespeichert werden.<br />

d=0<br />

d=1<br />

d=2<br />

d=3<br />

d=4<br />

Abbildung 16: Zwei Neuronen, die durch fünf Time-Delay-Verbindungen verbunden sind<br />

Würde man alle Verbindungen eines Feedforward-<strong>Netze</strong>s durch einige Time-Delay-<br />

Verbindungen ergänzen, würde das Netz sehr komplex und damit ineffizient werden. Um<br />

dies zu vermeiden wird oftmals nur eine begrenzte Anzahl an Time-Delay-Verbindungen<br />

53 Vgl. [BoCB02, S. 252].<br />

30


3 KÜNSTLICHE NEURONALE NETZE<br />

eingesetzt. Durch einen Lernalgorithmus können dann neben den herkömmlichen Ge-<br />

wichten auch die Verzögerungen der vorhandenen Verbindungen angepasst oder auch<br />

neue Verzögerungen hinzugefügt werden. Wie bei einem RNN müssen die <strong>zur</strong> Verar-<br />

beitung bestimmten Datensätze auch bei einem TDNN chronologisch geordnet und in<br />

zusammenhängenden Blöcken eingegeben werden. Dies gilt sowohl für das Training als<br />

auch für den Einsatz des <strong>Netze</strong>s.<br />

3.5 Vor- und Nachteile der Verwendung <strong>von</strong> KNN <strong>zur</strong> <strong>Zeitreihen</strong>-<br />

<strong>Prognose</strong><br />

Es gibt eine Reihe <strong>von</strong> Gründen, die für die Verwendung <strong>von</strong> KNN <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong><br />

<strong>Zeitreihen</strong> sprechen. In erster Linie handelt es sich dabei um die Eigenschaften, die KNN<br />

generell zu eigen sind und sich auch auf die <strong>Prognose</strong>n positiv auswirken. Auf der ande-<br />

ren Seite gibt es aber auch Gründe, die gegen den Einsatz <strong>von</strong> KNN sprechen oder diesen<br />

zumindest nur eingeschränkt befürworten. Im Folgenden werden deshalb die wichtigsten<br />

Vor- und Nachteile eines Einsatzes <strong>von</strong> KNN <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> gegenübergestellt.<br />

54<br />

Die Vorteile <strong>von</strong> KNN bei der <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> sind:<br />

• KNN sind universelle Funktions-Approximatoren, die jede stetige Funktion zu je-<br />

dem gewünschten Grad an Genauigkeit nachbilden können.<br />

• Durch nichtlineare Aktivierungsfunktionen können KNN auch nichtlineare Zusam-<br />

menhänge abbilden, die die zu prognostizierenden <strong>Zeitreihen</strong> oftmals bestimmen.<br />

• KNN können sehr flexibel eingesetzt werden, da sie keine speziellen Informationen<br />

über Wahrscheinlichkeitsverteilungen und auch sonst keine formalen Modellspezi-<br />

fikationen benötigen.<br />

• Vor der Erstellung des <strong>Prognose</strong>-Modells müssen keine Annahmen gemacht wer-<br />

den. Auch sind viele Parameter durch die Anwendungssituation und die <strong>zur</strong> Verfü-<br />

gung stehenden Daten bereits festgelegt.<br />

• KNN sind relativ robust und reagieren deshalb nur wenig empfindlich auf ver-<br />

rauschte Eingabedaten.<br />

• Es ist möglich, das Training eines KNN während des <strong>Prognose</strong>-Einsatzes fortzu-<br />

führen. Auf diese Weise kann es an die sich über den Zeitablauf ändernden Zusam-<br />

menhänge angepasst werden.<br />

• KNN können verhältnismäßig gut mit chaotischen Anteilen in den Daten umgehen,<br />

was bei einigen <strong>Zeitreihen</strong> notwendig ist.<br />

54 Vgl. beispielsweise [Zell00, S. 26 ff.], [HaNe02, S. 175] oder [Zhan03, S. 160 ff.].<br />

31


3 KÜNSTLICHE NEURONALE NETZE<br />

Diesen Vorteilen stehen allerdings auch einige Einschränkungen und Nachteile gegen-<br />

über:<br />

• Der Lernvorgang eines KNN gilt generell als ein sehr zeitaufwändiges Verfahren.<br />

• Der Wissenserwerb <strong>von</strong> KNN ist nur durch Lernen möglich. Bekannte Zusammen-<br />

hänge können nicht bereits im Vorhinein implementiert werden.<br />

• Es ist nicht möglich aus einem trainierten Netz die zu Grunde liegenden kausalen<br />

Zusammenhänge der resultierenden Abbildung abzuleiten. Dies hat z. B. <strong>zur</strong> Fol-<br />

ge, dass Entscheidungen, die auf den Ergebnissen einer mit einem KNN erstellten<br />

<strong>Prognose</strong> basieren, schwerer durchsetzbar sein können.<br />

• Auch wenn viele Parameter eines KNN bereits durch die jeweilige Anwendungs-<br />

situation festgelegt sind, gibt es immer eine Vielzahl <strong>von</strong> weiteren Parametern, die<br />

noch spezifiziert werden müssen. Insbesondere gibt es für die Bestimmung dieser<br />

Parameter in vielen Fällen keine zufriedenstellenden Heuristiken, so dass sie einen<br />

zeitaufwändigen Prozess darstellen kann.<br />

• KNN können nur schlecht gleichzeitig lineare und nichtlineare Zusammenhänge<br />

berücksichtigen.<br />

Sowohl aus dieser Gegenüberstellung als auch aus den Ergebnissen vieler praktischer<br />

Vergleiche in den für diese Arbeit analysierten Anwendungen <strong>von</strong> KNN geht hervor, dass<br />

der Einsatz <strong>von</strong> KNN grundsätzlich weder zu bevorzugen noch abzulehnen ist. 55 Eine ab-<br />

schließende Entscheidung ist demnach <strong>von</strong> der jeweiligen Anwendungssituation abhän-<br />

gig. Da jedoch immer eine gute Chance besteht, dass mit einem optimal konfigurierten<br />

Netz <strong>Prognose</strong>n <strong>von</strong> einer beachtenswerten Güte erstellt werden, sollte bei der Auswahl<br />

einer Methode <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> der Einsatz <strong>von</strong> KNN grundsätzlich in Erwä-<br />

gung gezogen werden.<br />

55 In Tabelle 28 auf Seite 59 werden die Ergebnisse der praktischen Vergleiche <strong>von</strong> KNN und statistischen<br />

Methoden bei der <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> aufgeführt.<br />

32


4 WEITERE PROGNOSE-METHODEN DES SOFT COMPUTING<br />

4 Weitere <strong>Prognose</strong>-Methoden des Soft Computing<br />

4.1 Überblick<br />

Während Computer mit exakten Daten, Begriffen und Anweisungen arbeiten, ist dies bei<br />

Menschen oftmals anders. Sie benutzen nicht eindeutig definierte Begriffen, erlauben Un-<br />

genauigkeiten und verwenden vage Informationen und Formulierungen. Für viele All-<br />

tagssituationen und Probleme aus der Praxis sind solche weniger exakten Lösungsansätze<br />

auch vollkommen ausreichend. Trotzdem werden für die computerunterstützte Bearbei-<br />

tung derartiger Probleme oftmals traditionelle exakte Methoden eingesetzt, wodurch oft<br />

unnötig komplexe, wenig fehlertolerante und teure Problemlösungen entstehen. 56<br />

Um Alternativen für solche „harten“ Methoden zu fördern, wurde <strong>von</strong> LOTFI A. ZADEH<br />

der Begriff Soft Computing als Oberbegriff für alle Methoden eingeführt, die im Unter-<br />

schied zu den traditionellen Verfahren tolerant gegenüber Unsicherheit, Unschärfe, un-<br />

vollständiger Information und extremer Komplexität sind. Bei den für die praktischen<br />

Anwendungen wichtigsten Methoden des Soft Computing handelt es sich um<br />

• <strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong>,<br />

• Fuzzy-Systeme und<br />

• Evolutionäre Algorithmen.<br />

Die Methoden des Soft Computing spielen insbesondere bei Systemen, die in häufigem<br />

Dialog mit Menschen stehen, eine immer größere Rolle. 57 Deshalb werden in den fol-<br />

genden Abschnitten die beiden Gebiete Fuzzy-Systeme und Evolutionäre Algorithmen<br />

kurz vorgestellt und auf ihre Bedeutung für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> hin untersucht.<br />

Für jeweils detailierte Darstellungen der jeweiligen Methoden wird beispielsweise auf<br />

[NaKK96] und [Weic02] verwiesen.<br />

4.2 Fuzzy-Systeme<br />

Die Grundidee <strong>von</strong> Fuzzy-Systemen liegt darin, das klassische Konzept der zweiwertigen<br />

Logik auf das Konzept einer mehrwertigen Logik zu erweitern, um damit beispielsweise<br />

die Handhabung <strong>von</strong> unscharfen 58 Begriffen der natürlichen Sprache zu unterstützen. Die-<br />

sem Ansatz liegen auch die <strong>von</strong> ZADEH 1965 vorgeschlagenen Fuzzy-Mengen zugrunde.<br />

Im Unterschied zu herkömmlichen scharfen Mengen, in denen ein Element einer Menge<br />

entweder ganz oder gar nicht angehört, ist es bei (unscharfen) Fuzzy-Mengen möglich,<br />

für jedes Element einen Zugehörigkeitsgrad zwischen 0 und 1 anzugeben.<br />

56 Vgl. [BHKL + 98, S. V].<br />

57 Vgl. [Lexi01, Stichwort Softcomputing].<br />

58 Unschärfe bedeutet in diesem Zusammenhang, dass statt eines exakten Wertes eine linguistische Beschreibung<br />

gegeben wird (Vgl. [NaKr98, S. 38]).<br />

33


4 WEITERE PROGNOSE-METHODEN DES SOFT COMPUTING<br />

Um dies zu veranschaulichen wird hier als Beispiel das Attribut Größe gewählt. Wäh-<br />

rend es bei einer zweiwertigen Betrachtung nur möglich ist, einen Menschen als groß<br />

oder nicht groß zu bezeichnen, kann dies bei einer Betrachtung nach der Fuzzy-Theorie<br />

differenzierter quantifiziert werden. Hier ist es möglich anzugeben, zu welchem Grad die<br />

jeweilige Person groß ist. Um den Unterschied zu verdeutlichen werden die jeweiligen<br />

Zugehörigkeits-Funktionen in Abbildung 17 beispielhaft dargestellt. Nach der Funkti-<br />

on der linken Abbildung wären alle Menschen groß, die eine Körpergröße <strong>von</strong> mindes-<br />

tens 1,80 m haben, während alle kleineren Menschen dementsprechend nicht groß wären.<br />

Nach der Funktion der rechten Abbildung wäre ein Mensch mit einer Größe <strong>von</strong> 1,60 m<br />

hingegen noch zu einem Grad <strong>von</strong> 0,7 groß.<br />

1<br />

0<br />

1,60 1,80 2,00<br />

1<br />

0,7<br />

0<br />

1,60 1,80 2,00<br />

Quelle: [NaKr98, S. 39].<br />

Abbildung 17: Zugehörigkeitsgrade des Attributs groß bei zweiwertiger Betrachtungsweise (links)<br />

und gradueller Betrachtungsweise (rechts)<br />

Durch die Zuordnung <strong>von</strong> sogenannten linguistischen Termen, wie nah, hoch oder stark,<br />

zu den Zugehörigkeitsfunktionen der jeweiligen Attribute wird es ermöglicht, auch lin-<br />

guistische Regeln der folgenden Form zu verarbeiten:<br />

Wenn der Zug dem Ziel nah ist und die Geschwindigkeit hoch ist,<br />

dann ist stark zu bremsen. 59<br />

Da solche unscharfen Angaben einer Interpretation bedürfen und sich oftmals auch Unsi-<br />

cherheit auszeichnen, wurde deren Verwendung früher weitgehend vermieden. Bei Fuzzy-<br />

Systemen werden jedoch bewusst derartige Informationen eingesetzt, da dies generell<br />

zu einer einfacheren, leichter handhabbaren und dem menschlichen Denken vertrauteren<br />

Modellierung führt. 60<br />

Bei den meisten Ansätzen, bei denen für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> auf Fuzzy-Systeme<br />

<strong>zur</strong>ückgegriffen wird, werden diese mit anderen Methoden wie <strong>Künstliche</strong>n <strong>Neuronale</strong>n<br />

<strong>Netze</strong>n kombiniert. Dabei werden zwei Ansätze unterschieden: 61<br />

Beim einem kooperativen Neuro-Fuzzy-System arbeiten das KNN und das Fuzzy-System<br />

grundsätzlich unabhängig <strong>von</strong>einander. Während durch das Fuzzy-System die eigentli-<br />

che Problemstellung bearbeitet wird, ist es die Aufgabe des KNN die Parameter dieses<br />

59 [NaKK96, S. 258].<br />

60 Vgl. [NaKK96, S. 4].<br />

61 Vgl. [NaKK96, S. 281].<br />

34


4 WEITERE PROGNOSE-METHODEN DES SOFT COMPUTING<br />

Systems zu bestimmen oder während des Einsatzes zu optimieren. Ein Vertreter der ko-<br />

operativen Fuzzy-Systeme ist das Fuzzy Associative Memory Neural Network (FAM), das<br />

beispielsweise bei [ChSM02, S. 249 ff.] <strong>zur</strong> <strong>Prognose</strong> des Arbeitseinsatzes in der Stahl-<br />

industrie verwendet wird.<br />

Dagegen werden unter den hybriden Neuro-Fuzzy-Systemen alle Kombinationen zusam-<br />

mengefasst, die sich durch eine einheitliche Architektur auszeichnen. In der Regel ist<br />

die Architektur an die Struktur eines KNN angelehnt, wobei das Fuzzy-System entwe-<br />

der als ein spezielles KNN interpretiert oder mit Hilfe eines KNN implementiert werden<br />

kann. Eine Trennung der beiden Teilsysteme ist jedoch in beiden Fällen nicht möglich.<br />

Ein Vertreter der hybriden Fuzzy-Systeme ist das Adaptive-Network-based Fuzzy Infe-<br />

rence System (ANFIS), das beispielsweise bei [SYAJ04, S. 140 ff.] für die <strong>Prognose</strong> der<br />

Kohlendioxid-Konzentration eines Gasofens zum Einsatz kommt.<br />

4.3 Evolutionäre Algorithmen<br />

Bei Evolutionären Algorithmen handelt es sich um Optimierungs- und Verbesserungs-<br />

verfahren, die der <strong>von</strong> CHARLES R. DARWIN begründeten Evolutionstheorie nachemp-<br />

funden sind. 62 Durch diese wird die Vielfalt des Lebens damit erklärt, dass im Zuge der<br />

Fortpflanzung variierte Erbinformationen weitergegeben werden, wodurch unterschied-<br />

lich konkurrenzfähige Nachkommen entstehen. Über viele Generationen hinweg konkur-<br />

rieren diese entsprechend den Prinzipien der natürlichen Selektion und des survival of the<br />

fittest um Überleben und Fortpflanzung. 63 Dabei setzen sich aufgrund einer natürlichen<br />

Auslese langfristig nur diejenigen Variationen durch, die an die gegebenen Umweltbedingungen<br />

am besten angepasst sind. 64<br />

Durch die Evolutionären Algorithmen werden auf einer sehr abstrakten Ebene einige die-<br />

ser in der Natur vorkommenden Mechanismen simuliert. Sie werden dabei in die Be-<br />

reiche Genetische Algorithmen, Evolutionsstrategien, Evolutionäre Programmierung und<br />

Genetische Programmierung untergliedert. Alle Verfahren unterliegen jedoch einem ge-<br />

meinsamen Konzept, das darauf beruht, den folgenden „Evolutions-Zyklus“ so lange zu<br />

durchlaufen, bis eine optimale Lösung gefunden wurde. 65 Das konzeptionelle Vorgehen<br />

wird in Abbildung 18 grafisch dargestellt.<br />

1. Den Ausgangspunkt bildet eine Menge <strong>von</strong> Individuen (gemeint sind Lösungskan-<br />

didaten), die zusammen eine Population bilden. Die Individuen können zufällig<br />

generiert oder durch andere Heuristiken bereits im Vorhinein ausgewählt werden.<br />

2. Mit Hilfe einer sogenannten Fitnessfunktion wird die Güte der einzelnen Individuen<br />

jeweils quantitativ bewertet. Anhand dieser Bewertung ist es möglich, die Indivi-<br />

62 Vgl. [BBJP + 01, S. 3].<br />

63 Vgl. [Day99, S. 1].<br />

64 Vgl. [Niss98, S. 55 f.].<br />

65 Vgl. [Weic02, S. 43 f.].<br />

35


4 WEITERE PROGNOSE-METHODEN DES SOFT COMPUTING<br />

Terminierungsbedingung<br />

Umweltselektion<br />

ja<br />

Bewertung<br />

Initialisierung<br />

Bewertung<br />

nein<br />

Paarungsselektion<br />

Mutation<br />

Rekombination<br />

Abbildung 18: Schematischer Zyklus der Evolutionären Algorithmen<br />

Quelle: [Weic02, S. 43]<br />

duen untereinander zu vergleichen und die Verbesserung ihrer Fitness im Laufe des<br />

Prozesses zu beobachten.<br />

3. Durch die Paarungsselektion werden die Individuen ausgewählt, die durch den Evo-<br />

lutionsprozess weiter verarbeitet werden. In der Analogie <strong>zur</strong> humanen Entwick-<br />

lung werden diese auch Eltern genannt.<br />

4. Im eigentlichen Evolutionsschritt werden die ausgewählten Individuen einer Re-<br />

kombinationen unterzogen. Das bedeutet, dass durch die Kombination der Eigen-<br />

schaften ausgewählter Eltern neue Individuen, sogenannte Kinder, generiert wer-<br />

den. Dieses Vorgehen ist der biologischen Vererbung nachempfunden.<br />

5. Um auch <strong>von</strong> den Eltern unabhängige, neue Eigenschaften zuzulassen, werden die<br />

Kindindividuen Mutationen unterworfen, bei denen einzelne Parameter der Indivi-<br />

duen zufällig variiert werden. Auch dieses Vorgehen entspricht dem biologischen<br />

Vorbild.<br />

6. Anschließend werden die neu generierten Kindindividuen mit Hilfe der Fitness-<br />

funktion bewertet.<br />

7. In der Regel soll eine Population über den Zeitablauf immer gleich groß bleiben. Da<br />

in einigen Algorithmen sowohl Eltern- als auch Kindindividuen in die Population<br />

der nächsten Generation übernommen werden, kann die Größe dieser Population<br />

durch eine begrenzte Selektion an Individuen konstant gehalten werden.<br />

8. Zum Abschluss wird mit Hilfe einer Terminierungsbedingung entschieden, ob die<br />

gesuchte Lösung gefunden wurde. Dies könnte beispielsweise dadurch begründet<br />

sein, dass die Fitness des besten Individuums der aktuell betrachteten Generation<br />

36


4 WEITERE PROGNOSE-METHODEN DES SOFT COMPUTING<br />

hinreichend optimal ist oder bereits eine maximal festgelegte Anzahl an Durchgän-<br />

gen durchlaufen wurde. Der Zyklus wird so lange fortgesetzt, bis diese Bedingung<br />

erfüllt wird.<br />

Zu beachten ist, dass je nach Verfahren nicht jeder dieser Schritte durchlaufen wird und<br />

die einzelnen Schritte leichten Abweichungen unterliegen.<br />

Die Bedeutung Evolutionärer Algorithmen für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> liegt darin,<br />

dass mit diesen andere <strong>Prognose</strong>-Verfahren modelliert und optimiert werden können. Auf<br />

diese Weise wurden bereits 1965 mit Hilfe <strong>von</strong> Evolutionärer Programmierung endliche<br />

Automaten für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> modelliert. 66<br />

Auch aus einer Integration Evolutionärer Algorithmen mit anderen Methoden des<br />

Soft Computing erhofft man sich große Vorteile. Dabei werden durch eine Kombina-<br />

tion der verschiedenen Ansätze in einem hybriden Gesamtsystem deren jeweilige Vor-<br />

teile möglichst optimal ausgenutzt. 67 Mögliche Ansätze <strong>zur</strong> Integration mit KNN und<br />

Fuzzy-Systemen werden in Abbildung 19 dargestellt. Konkrete Anwendungen, in denen<br />

die Architekturen und Parameter bzw. die Gewichte <strong>von</strong> <strong>Künstliche</strong>n <strong>Neuronale</strong>n <strong>Netze</strong>n<br />

durch Evolutionäre Algorithmen optimiert wurden, werden beispielsweise bei [NaMi02,<br />

S. 504 ff.] bzw. [LuFL03, S. 391 f.] beschrieben.<br />

<strong>Künstliche</strong><br />

<strong>Neuronale</strong> <strong>Netze</strong><br />

Topologie- und<br />

Gewichtsoptimierung<br />

Auswahl/Erzeugung<br />

<strong>von</strong> Trainingsdaten<br />

Soft Computing<br />

Evolutionäre<br />

Algorithmen<br />

Kontrolle durch<br />

Fuzzy-Logik<br />

Erzeugung <strong>von</strong><br />

Fuzzy-Regeln<br />

Fuzzy-Systeme<br />

Quelle: [Weic99, S. 31]<br />

Abbildung 19: Mögliche Integrationsmöglichkeiten Evolutionärer Algorithmen mit anderen Methoden<br />

des Soft Computing<br />

66 Vgl. [Weic02, S. 165].<br />

67 Vgl. [Niss98, S. 76].<br />

37


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

5 Anwendungen <strong>von</strong> KNN <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong><br />

5.1 Angewandte Methodik <strong>zur</strong> Literaturrecherche<br />

Um einen möglichst aktuellen Überblick über das betrachtete Gebiet zu bekommen, wur-<br />

den im Rahmen dieser Arbeit die letzten fünf Jahrgänge (2000-2004) der wissenschaft-<br />

lichen Zeitschriften Journal of Forecasting, Neural Networks und Neurocomputing auf<br />

Anwendungen <strong>Künstliche</strong>r <strong>Neuronale</strong>r <strong>Netze</strong> (KNN) <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> un-<br />

tersucht. Um ein möglichst repräsentatives Spektrum verschiedener Anwendungen und<br />

Methoden zu erhalten, wurde bei der Auswahl der Zeitschriften großer Wert auf Inter-<br />

nationalität gelegt, mit der Folge, dass alle untersuchten Beiträge in englischer Sprache<br />

verfasst sind. Zur Eingrenzung der in Frage kommenden Artikel wurden sämtliche Titel,<br />

Abstracts und Artikel nach an die jeweilige Zeitschrift angepassten Suchbegriffen durch-<br />

sucht. Diese Suchbegriffe und eine quantitative Übersicht über die erhaltenen Ergebnisse<br />

sind in Tabelle 4 aufgeführt.<br />

Zeitschrift: Journal of Forecasting Neural Networks Neurocomputing<br />

Untersuchter Zeitraum: 2000–2004 2000–2004 2000–2004<br />

Suchbegriffe: neural network forecasting,<br />

prediction,<br />

time series<br />

forecasting,<br />

prediction,<br />

time series<br />

Gefundene Artikel: 29 54 123<br />

Verwertete Artikel: 11 8 37<br />

Tabelle 4: Quantitative Ergebnisse der Zeitschriftenrecherche<br />

Die durch die jeweiligen Suchbegriffe gefundenen Artikel wurden anschließend näher auf<br />

ihre Verwertbarkeit für die Fragestellung dieser Arbeit hin untersucht. Die große Diskre-<br />

panz zwischen der Anzahl an gefundenen und verwerteten Artikeln ergibt sich dadurch,<br />

dass ausschließlich Anwendungen ausgewertet wurden, die sich auf die <strong>Prognose</strong> <strong>von</strong><br />

<strong>Zeitreihen</strong> beziehen. Zusätzlich mussten weitere Artikel aussortiert werden, in denen ent-<br />

weder keine konkreten Anwendungen oder lediglich <strong>von</strong> KNN abweichende Methoden<br />

beschrieben wurden. Auf diese Weise blieben <strong>von</strong> den 217 ursprünglich gefundenen Ar-<br />

tikeln noch 56 übrig, deren Beschreibungen <strong>von</strong> Anwendungen <strong>Künstliche</strong>r <strong>Neuronale</strong>r<br />

<strong>Netze</strong> erfasst wurden.<br />

Da in manchen Artikeln mehr als nur eine Anwendung oder unterschiedliche Methoden<br />

für die gleichen Anwendungen beschrieben werden, ergaben sich insgesamt 105 verschie-<br />

dene Datensätze. Jeder dieser Datensätze beinhaltet die durch die Beschreibung geliefer-<br />

ten Details über die jeweilige Anwendung und verwendete Methode. Wurden bei einer<br />

Anwendung für einzelne Eigenschaften keine Informationen angegeben, wurde diese An-<br />

wendung auch bei der Analyse der entsprechenden Eigenschaft ignoriert. Dadurch fällt<br />

die Datenbasis für die Untersuchung je nach betrachteter Eigenschaft unterschiedlich groß<br />

38


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

aus, was im Folgenden jeweils explizit angegeben wird. Eine detaillierte Auflistung aller<br />

erhobenen Daten befindet sich in Anhang A dieser Arbeit.<br />

5.2 Anwendungsfelder<br />

Wie bereits in Kapitel 2 erwähnt, können <strong>Zeitreihen</strong> in sehr vielen unterschiedlichen Be-<br />

reichen anfallen. Bei der durchgeführten Untersuchung wurde deshalb versucht festzu-<br />

stellen, in welchen Bereichen es Bestrebungen gibt, diese <strong>Zeitreihen</strong> mit Hilfe <strong>von</strong> KNN<br />

zu prognostizieren. Hierfür wurden alle erfassten <strong>Zeitreihen</strong>-<strong>Prognose</strong>n einzelnen Bereichen<br />

zugeordnet, deren Häufigkeiten aus Tabelle 5 hervorgehen. 68<br />

Vorkommende Bereiche Anzahl der Anwendungen Anteil<br />

<strong>Zeitreihen</strong> in der Finanzwirtschaft 15 21 %<br />

Technische <strong>Zeitreihen</strong> 14 20 %<br />

Künstlich generierte <strong>Zeitreihen</strong> 12 17 %<br />

<strong>Zeitreihen</strong> aus der Umwelt 12 17 %<br />

Anzahl Sonnenflecken 7 10 %<br />

Stromverbrauch einer Region 4 6 %<br />

Makroökonomische <strong>Zeitreihen</strong> 3 4 %<br />

<strong>Zeitreihen</strong> des Marketings 3 4 %<br />

<strong>Zeitreihen</strong> in der Medizin 1 1 %<br />

Anzahl betrachteter Anwendungen 71 100 %<br />

Tabelle 5: Übersicht über die Bereiche der untersuchten <strong>Zeitreihen</strong><br />

Die meisten der prognostizierten <strong>Zeitreihen</strong> entstammen dem Bereich der Finanz-<br />

wirtschaft. Hierbei handelt es sich in erster Linie um die <strong>Prognose</strong> <strong>von</strong> Aktienkursen,<br />

Indizes und Wechselkursen. Es ist nicht weiter überraschend, dass derartige <strong>Zeitreihen</strong><br />

<strong>von</strong> besonderem Interesse sind, kann doch jede zusätzliche Information über deren zu-<br />

künftige Entwicklung unmittelbar in bares Geld umgesetzt werden.<br />

Mit nur wenig geringerer Häufigkeit wurden technische <strong>Zeitreihen</strong> untersucht. Dies sind<br />

beispielsweise Kohlendioxid-Konzentrationen eines Gasofens, Lichtintensitäten eines La-<br />

sers oder die Zimmertemperatur in einem Solar-Gebäude. Auch wenn es sich dabei teil-<br />

weise um bei Wettbewerben vorgegebene <strong>Zeitreihen</strong> handelt, so ist doch der Nutzen <strong>von</strong><br />

Informationen über die zukünftige Entwicklung für die Kontrolle <strong>von</strong> technischen Syste-<br />

men evident.<br />

Im Bereich der künstlich generierten <strong>Zeitreihen</strong> werden alle Reihen zusammengefasst, die<br />

durch mathematische Gleichungen generiert wurden. In den meisten Fällen handelt es sich<br />

hierbei um die chaotische Mackey-Glass-Zeitreihe. Auch wenn erwähnt wird, dass durch<br />

diese Reihe die Produktion weißer Blutkörperchen <strong>von</strong> Leukämie-Patienten modelliert<br />

werden kann, 69 so liegt der praktische Nutzen derartiger <strong>Prognose</strong>n in erster Linie darin,<br />

68 Damit die Erfassung <strong>von</strong> unterschiedlichen Methoden in einem Artikel nicht zu verzerrten Ergebnissen<br />

für diese Fragestellung führt, wurde die Datengrundlage in diesem Abschnitt <strong>von</strong> mehrfach vorkommenden<br />

Datensätzen bereinigt.<br />

69 Vgl. [LiLi00, S. 283].<br />

39


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

unterschiedliche Methoden auf gleichen Daten vergleichen zu können. Zudem können mit<br />

Hilfe solcher Benchmark-<strong>Zeitreihen</strong> Methoden entwickelt werden, die dann auch generell<br />

auf weitere chaotische <strong>Zeitreihen</strong> angewandt werden können.<br />

Neben der Mackey-Glass-Zeitreihe wurde als Benchmark-Zeitreihe ebenfalls die An-<br />

zahl monatlicher bzw. jährlicher Sonnenflecken häufig prognostiziert. Zwar könnte diese<br />

Zeitreihe auch dem Bereich Umwelt zugeordnet werden, da aber der einzige Nutzen wie-<br />

der der Vergleich unterschiedlicher Methoden bzw. die Entwicklung neuer Methoden ist,<br />

wird sie an dieser Stelle als eigener Anwendungsbereich behandelt.<br />

Wesentlich praxisrelevanter sind die <strong>Prognose</strong>n der <strong>Zeitreihen</strong> aus den Bereichen des<br />

Stromverbrauchs, der Makroökonomik, des Marketings (Absatzprognosen) und der Me-<br />

dizin (Hirnströme), die jedoch nur vereinzelt in den untersuchten Artikeln beschrieben<br />

wurden.<br />

Unmittelbarer Nutzen Anzahl der Anwendungen Anteil<br />

Ja 44 62 %<br />

Vielleicht 8 11 %<br />

Nein 19 27 %<br />

Anzahl betrachteter Anwendungen 71 100 %<br />

Tabelle 6: Unmittelbarer Nutzen der <strong>Zeitreihen</strong>prognosen für die jeweilige Anwendung<br />

Werden die einzelnen <strong>Zeitreihen</strong> aus der Perspektive betrachtet, welche <strong>Prognose</strong>n einen<br />

unmittelbaren Nutzen für die jeweilige Anwendung haben, so ist dies, wie aus Tabelle 6<br />

ersichtlich ist, in 62 % der Anwendungen der Fall. Bei den <strong>Zeitreihen</strong>, die mit Vielleicht<br />

eingestuft wurden, handelt es sich um bei Wettbewerben vorgegebene Reihen, deren Pro-<br />

gnosen zwar keinen unmittelbaren Nutzen bringen, die jedoch ursprünglich einen praxis-<br />

relevanten Hintergrund hatten mit der Folge, dass die angewandten Methoden für zukünf-<br />

tige <strong>Prognose</strong>n eben solcher <strong>Zeitreihen</strong> wiederverwendet werden könnten. Der große An-<br />

teil <strong>von</strong> <strong>Prognose</strong>n ohne praktischen Nutzen ist auf die Art der Recherche <strong>zur</strong>ückzuführen,<br />

bei der wie beschrieben ausschließlich wissenschaftliche Artikel betrachtet wurden.<br />

5.3 Zur <strong>Prognose</strong> verwendete Datengrundlage<br />

Eine wesentliche Differenzierungsmöglichkeit der <strong>Prognose</strong>n <strong>von</strong> <strong>Zeitreihen</strong> unterschei-<br />

det nach den verwendeten Daten. Diese können nach ihrer Art, nach der zeitlichen Be-<br />

trachtung der Werte sowohl in die Vergangenheit als auch in die Zukunft, nach der Art<br />

der Vorverarbeitung, nach der Anzahl der <strong>zur</strong> Verfügung stehenden und der verwendeten<br />

Werte klassifiziert werden.<br />

5.3.1 Art der Eingabedaten<br />

Die unterschiedlichen Arten <strong>von</strong> Eingabedaten für die <strong>Prognose</strong>n können zum einen als<br />

endogene Werte ausschließlich aus bereits bekannten Werten in der Vergangenheit lie-<br />

gender Zeitpunkte der zu prognostizierenden Zeitreihe bestehen. Des weiteren wird bei<br />

40


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

anderen <strong>Prognose</strong>n ausschließlich auf exogene Faktoren <strong>zur</strong>ückgegriffen. Das bedeutet,<br />

dass es sich um Werte <strong>von</strong> eventuell verwandten <strong>Zeitreihen</strong> handelt, auf die eigene Histo-<br />

rie jedoch nicht <strong>zur</strong>ückgegriffen wird. Ein Beispiel hierfür wäre, wenn vom Goldpreis auf<br />

einen Aktienindex geschlossen würde, ohne dass hierfür auch die vorhergehenden Werte<br />

des Index betrachtet würden.<br />

Liegen in der zu prognostizierenden Zeitreihe zeitliche Abhängigkeiten vor, so wird bei<br />

einigen <strong>Prognose</strong>n als zusätzliche Eingabewerte auf Parameter <strong>zur</strong>ückgegriffen, mit deren<br />

Hilfe unterschiedliche Zeiträume indiziert werden. So können beispielsweise bei der Pro-<br />

gnose des Stromverbrauchs saisonale Schwankungen, die tages- oder jahreszeitlich be-<br />

dingt sind, einfacher abgebildet werden. Diese unterschiedlichen Arten <strong>von</strong> Eingabedaten<br />

können zusätzlich miteinander kombiniert werden. Die Häufigkeiten der in den untersuch-<br />

ten Anwendungen verwendeten Arten <strong>von</strong> Eingabedaten sind in Tabelle 7 angegeben.<br />

Art der Eingabedaten Anzahl der Anwendungen Anteil<br />

Endogene Datenreihen 57 54 %<br />

Endogene Datenreihen, Saisonparameter 5 5 %<br />

Exogene Datenreihen 13 12 %<br />

Endogene und exogene Datenreihen 24 23 %<br />

Endogene und exogene Datenreihen, Saisonparam. 6 6 %<br />

Anzahl betrachteter Anwendungen 105 100 %<br />

Tabelle 7: Art der <strong>zur</strong> <strong>Prognose</strong> verwendeten Eingabedaten<br />

5.3.2 Vergangenheitstiefe der Eingabedaten und <strong>Prognose</strong>-Horizont<br />

Zwei weitere Merkmale, nach denen <strong>Prognose</strong>n klassifiziert werden können, sind die Ver-<br />

gangenheitstiefe der Eingabedaten und der Horizont der <strong>Prognose</strong>n. Durch die Vergangen-<br />

heitstiefe wird beschrieben, wie weit die <strong>zur</strong> <strong>Prognose</strong> des nächsten Wertes verwendeten<br />

Eingabedaten des KNN maximal vor dem aktuellen Zeitpunkt angefallen sind. Die Wahl<br />

dieses Zeitfensters ist <strong>von</strong> der jeweiligen Zeitreihe abhängig. Wird es zu klein gewählt,<br />

werden relevante Informationen über weiter <strong>zur</strong>ückliegende Werte nicht beachtet. Ist das<br />

Fenster zu groß, wird die Eingabe des <strong>Netze</strong>s durch nutzlose Informationen verrauscht. 70<br />

Aus den in Tabelle 8 angegebenen Zahlen ist ersichtlich, dass bei mehr als zwei Drit-<br />

tel der untersuchten Anwendungen lediglich Werte berücksichtigt wurden, die weniger<br />

als zehn Schritte <strong>zur</strong>ückliegen. Werden für die <strong>Prognose</strong> Werte verwendet, die mehr als<br />

zehn Schritte <strong>zur</strong>ückliegen, wird oftmals nur auf eine Auswahl dieser Werte oder bereits<br />

aggregierte Werte wie einen gleitenden Durchschnitt <strong>zur</strong>ückgegriffen.<br />

Maximale Vergangenheitstiefe Anzahl der Anwendungen Anteil<br />

1 Schritt 12 14 %<br />

2 bis 9 Schritte 46 54 %<br />

Mehr als 9 Schritte 27 32 %<br />

Anzahl betrachteter Anwendungen 85 100 %<br />

Tabelle 8: Maximale Vergangenheitstiefen der <strong>zur</strong> <strong>Prognose</strong> verwendeten Eingabedaten<br />

70 Vgl. [BoCB02, S. 252].<br />

41


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Mit dem <strong>Prognose</strong>-Horizont wird die Anzahl der Schritte angegeben, die der prognosti-<br />

zierte Wert in der Zukunft liegt. Wie in Tabelle 9 zu sehen ist, handelt es sich in den meis-<br />

ten Fällen um sogenannte Ein-Schritt-<strong>Prognose</strong>n. Das heißt, dass lediglich der jeweils<br />

unmittelbar nächste Wert prognostiziert wird. Auch wenn Informationen über weiter in<br />

der Zukunft liegende Werte <strong>von</strong> großem Vorteil wären, besteht hier das Problem, dass<br />

<strong>Prognose</strong>n mit größerem Horizont auch zu größeren Fehlern führen.<br />

<strong>Prognose</strong>-Horizont Anzahl der Anwendungen Anteil<br />

1 Schritt 80 78 %<br />

2 bis 9 Schritte 9 9 %<br />

Mehr als 9 Schritte 13 13 %<br />

Anzahl betrachteter Anwendungen 102 100 %<br />

Tabelle 9: Reichweiten der <strong>Prognose</strong>n<br />

Ein größerer Horizont lässt sich auf zwei Wegen erreichen. Zum einen können Ein-<br />

Schritt-<strong>Prognose</strong>n iterativ durchgeführt werden, wobei jeweils die bereits prognostizier-<br />

ten Zwischenergebnisse als Eingabedaten für weitere Durchgänge dienen. Dieser Vorgang<br />

wird auch Mehr-Schritt-<strong>Prognose</strong> genannt. Die zweite Methode besteht darin, das KNN<br />

direkt auf den weiter in der Zukunft liegenden Wert zu trainieren. In weniger als einem<br />

Viertel der untersuchten Anwendungen wurde ein <strong>Prognose</strong>-Horizont <strong>von</strong> mehr als ei-<br />

nem Schritt gewählt. Dies liegt vermutlich daran, dass die <strong>Prognose</strong>güte mit wachsendem<br />

<strong>Prognose</strong>-Horizont in der Regel schnell abnimmt.<br />

5.3.3 Vorverarbeitung der Eingabedaten<br />

Viele der <strong>zur</strong> <strong>Prognose</strong> verwendeten Eingabedaten werden im Rahmen einer Vorverarbei-<br />

tung (auch Preprocessing) auf die Weiterverarbeitung mit einem KNN vorbereitet. Die<br />

am häufigsten angewandte Transformation ist dabei eine lineare Skalierung der Daten, so<br />

dass diese optimal auf den relevanten Wirkungsbereich der im KNN vorkommenden Ak-<br />

tivierungsfunktionen abgestimmt sind. 71 Zudem kann durch eine Reskalierung erreicht<br />

werden, dass alle Eingabedaten <strong>von</strong> gleicher Größenordnung sind, was die Komplexität<br />

des KNN verringern kann. 72 Alternativ <strong>zur</strong> linearen Skalierung kann abhängig <strong>von</strong> den<br />

Eingabewerten auch eine Logarithmusfunktion eingesetzt werden.<br />

Ein weiteres Augenmerk liegt beim Preprocessing auf der Stationarität der Eingabeda-<br />

ten. Stationarität wird an dieser Stelle so verstanden, dass in den Daten weder ein syste-<br />

matischer Trend noch saisonale Effekte zum Ausdruck kommen. Es existieren konträre<br />

Meinungen darüber, ob eine Bereinigung <strong>von</strong> instationären Daten die <strong>Prognose</strong>güte si-<br />

gnifikant verbessert. 73 Unbestritten ist jedoch, dass eine vorgeschaltete Stationierung die<br />

Lerngeschwindigkeit erhöht, da die Informationen über Trend- und Saisonkomponenten<br />

nicht mehr durch das KNN gelernt werden müssen.<br />

71 Vgl. [FRCK03, S. 486].<br />

72 Vgl. [Amil03, S. 321].<br />

73 Vgl. bspw. [NHRO99, S. 364 f.] oder [ThEn04, S. 210] vs. [BCFP + 03, S. 428].<br />

42


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Im Sinne einer Komplexitätsreduktion können beim Preprocessing Eingangsvariablen<br />

wie im Abschnitt <strong>zur</strong> Vergangenheitstiefe beschrieben bereits im Vorhinein als gleitende<br />

Durchschnitte aggregiert werden. Der Vorteil liegt darin, dass eine große Informations-<br />

breite aufgenommen werden kann, ohne dass dies die Komplexität des KNN durch eine<br />

überdimensional große Eingabeschicht unnötig erhöhen würde. Zudem werden durch die<br />

Bildung <strong>von</strong> gleitenden Durchschnitten Ausreißer, die zu Verfremdungen führen könnten,<br />

geglättet. Dass lediglich 10 % der Anwendungen auf gleitende Durchschnitte <strong>zur</strong>ückgrei-<br />

fen, ist damit zu erklären, dass solche Aggregate auch Informationen ausblenden können,<br />

die für die <strong>Prognose</strong>n wesentlich sein könnten.<br />

Die <strong>Zeitreihen</strong> der Anwendungen, deren Werte mathematisch berechnet wurden, unter-<br />

scheiden sich <strong>von</strong> gemessenen Daten realer <strong>Zeitreihen</strong> dadurch, dass sie keinen Mess-<br />

ungenauigkeiten unterliegen. Sollen damit jedoch Verfahren entwickelt oder <strong>Netze</strong> trai-<br />

niert werden, deren Aufgabe es ist, auch auf realen <strong>Zeitreihen</strong> zu arbeiten, können die<br />

Trainingsdaten beim Preprocessing mit einem Rauschen versehen werden. Dadurch wird<br />

sowohl die Vergleichbarkeit mit als auch die Anwendbarkeit auf reale Anwendungen ge-<br />

währleistet. Ein zusätzlicher Nutzen der Hinzufügung <strong>von</strong> Rauschen besteht in der erhöh-<br />

ten Generalisierungsfähigkeit des trainierten <strong>Netze</strong>s. 74 Trotzdem wurden unter den un-<br />

tersuchten Anwendungen die Trainingsdaten lediglich bei 7 % der <strong>Zeitreihen</strong> mit einem<br />

additiven Rauschen versehen.<br />

Eine Übersicht über die Verwendungshäufigkeiten der einzelnen Arten des Preproces-<br />

sings wird in Tabelle 10 gegeben. Besonders bei dieser Auflistung ist zu beachten, dass<br />

vermutlich viele Anwendungen, bei denen es keine Angaben über ein Preprocessing gab,<br />

auch tatsächliches keines anwenden. Schließlich können KNN abhängig <strong>von</strong> der jeweili-<br />

gen Zeitreihe auch bei vollständigem Verzicht auf ein Preprocessing sehr gute Ergebnisse<br />

bei der <strong>Prognose</strong> erzielen.<br />

Transformation Anzahl der Anwendungen Anteil<br />

Lineare Skalierung 36 62 %<br />

Logarithmus 16 28 %<br />

Differenzenbildung 16 28 %<br />

Trend- und Saisonbereinigung 5 9 %<br />

Bildung gleitender Durchschnitte 6 10 %<br />

Hinzufügen <strong>von</strong> Rauschen 4 7 %<br />

Wavelet Transformation 1 2 %<br />

Anzahl betrachteter Anwendungen 58 100 %<br />

Tabelle 10: Im Preprocessing angewandte Transformationen 75<br />

5.3.4 Zur <strong>Prognose</strong> verwendete Datensätze<br />

Wie bereits zu Beginn dieses Kapitels erwähnt, können die einzelnen Anwendungen auch<br />

nach der Anzahl der <strong>zur</strong> Verfügung stehenden Datensätze und der Anzahl der bei der<br />

74 Vgl. [Lotr04, S. 179].<br />

75 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert.<br />

43


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

<strong>Prognose</strong> verwendeten Trainings- und Testdatensätze differenziert werden. Diese sind ein<br />

wichtiges Kriterium, da beispielsweise eine kleine Datenmenge verschiedene Methoden<br />

<strong>von</strong> vornherein ausschließen könnte.<br />

Eine Übersicht darüber, wie viele Datensätze bei den untersuchten Anwendungen jeweils<br />

<strong>zur</strong> Verfügung standen, wird in Tabelle 11 gegeben. Hier fällt vor allem auf, dass nur<br />

5 % der <strong>Zeitreihen</strong> mit weniger als 150 Datensätzen prognostiziert wurden. Das bedeu-<br />

tet, dass eine Zeitreihe mit lediglich 60 Werten, wie sie in Kapitel 2 vorgestellt wurde,<br />

offensichtlich nur sehr selten prognostiziert wird.<br />

Zur Verfügung stehende Datensätze Anzahl der Anwendungen Anteil<br />

Bis 150 Datensätze 4 5 %<br />

151–250 Datensätze 13 15 %<br />

251–500 Datensätze 18 21 %<br />

501–1000 Datensätze 17 20 %<br />

1001–3000 Datensätze 17 20 %<br />

Mehr als 3000 Datensätze 17 20 %<br />

Anzahl betrachteter Anwendungen 86 100 %<br />

Tabelle 11: Anzahl der <strong>zur</strong> Verfügung stehenden Datensätze<br />

In den Tabellen 12 und 13 wird jeweils die Anzahl der Datensätze angegeben, die bei<br />

den <strong>Prognose</strong>n als Trainings- oder Testdaten dienten. Zu berücksichtigen ist, dass die<br />

Trainingsdaten (soweit angegeben) <strong>von</strong> den <strong>zur</strong> Validierung des trainierten <strong>Netze</strong>s ver-<br />

wendeten Daten bereinigt wurden.<br />

Für das Training verwendete Datensätze Anzahl der Anwendungen Anteil<br />

Bis 150 Datensätze 12 14 %<br />

151–250 Datensätze 17 20 %<br />

251–500 Datensätze 23 28 %<br />

501–1000 Datensätze 6 7 %<br />

1001–3000 Datensätze 20 24 %<br />

Mehr als 3000 Datensätze 5 6 %<br />

Anzahl betrachteter Anwendungen 83 100 %<br />

Tabelle 12: Anzahl der für das Training verwendeten Datensätze<br />

Da es sich bei Trainings-, Validierungs- und Testdatensätzen um disjunkte Mengen han-<br />

deln sollte, müssen diese selbstverständlich jeweils kleiner als die Gesamtmenge sein.<br />

Dass die Anzahl der zum Training verwendeten Datensätze häufig jedoch nur wenig klei-<br />

ner als die Anzahl der überhaupt <strong>zur</strong> Verfügung stehenden Datenmengen ist, folgt dem-<br />

nach daraus, dass für die jeweiligen <strong>Prognose</strong>n der gesamte Daten-Vorrat soweit wie mög-<br />

lich ausgeschöpft wurde. Daraus kann gefolgert werden, dass in vielen Fällen eine größere<br />

Menge an Trainingsdaten auch zu besseren <strong>Prognose</strong>ergebnissen führt. Unterstützt wird<br />

diese Vermutung durch den Korrelationskoeffizienten aus den <strong>zur</strong> Verfügung stehenden<br />

Datensätzen und den Trainingsdaten, der mit 0,75 auf eine lineare Abhängigkeit der bei-<br />

den Größen hindeutet.<br />

44


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Für das Testen verwendete Datensätze Anzahl der Anwendungen Anteil<br />

Bis 30 Datensätze 6 7 %<br />

31–60 Datensätze 24 29 %<br />

61–200 Datensätze 16 19 %<br />

201–500 Datensätze 20 24 %<br />

501–1000 Datensätze 8 10 %<br />

Mehr als 1000 Datensätze 8 10 %<br />

Anzahl betrachteter Anwendungen 82 100 %<br />

Tabelle 13: Anzahl der für das Testen verwendeten Datensätze<br />

Dass auch bei der Anzahl der Testdaten ein sehr weites Spektrum ausgeschöpft wird, ist<br />

damit zu erklären, dass auch diese oftmals einen festen Anteil des Gesamtdatenbestandes<br />

ausmachen. Eine gängige Aufteilung in Trainings-, Validierungs- und Testdatensätze ist<br />

beispielsweise 60 %, 20 % und 20 %. Dieses Vorgehen ist jedoch kritisch zu hinterfragen.<br />

Es ist durchaus denkbar, dass es möglich ist, ab einer gewissen Menge <strong>zur</strong> Verfügung<br />

stehender Daten eine allgemein gültige Anzahl an Testdaten absolut festzulegen, mit der<br />

bereits ein hinreichend genauer Fehler ermittelt werden kann. Um welche Anzahl es sich<br />

dabei konkret handelt, könnte dann in weiteren Studien durch praktische Untersuchungen<br />

bestimmt werden.<br />

Wie in Kapitel 3 beschrieben, ist es oftmals sinnvoll, die vorhandene Datenmenge nicht<br />

nur in Trainings- und Testdaten zu unterteilen, sondern zusätzlich eine dritte Datenmen-<br />

ge <strong>zur</strong> Validierung des trainierten <strong>Netze</strong>s bzw. der jeweiligen Topologie zu verwenden.<br />

Damit kann auf der einen Seite die Güte unterschiedlicher Topologien evaluiert und auf<br />

der anderen Seite der Lernvorgang kontrolliert werden, so dass ein Overfitting verhindert<br />

wird. Bei gut einem Drittel der untersuchten Anwendungen ist angegeben, dass solche Va-<br />

lidierungsdaten verwendet wurden. Vermutlich liegt die wirkliche Zahl aber noch deutlich<br />

höher.<br />

5.4 Aufbau der verwendeten <strong>Netze</strong><br />

Um die Anwendungen nach ihren jeweiligen Methoden zu klassifizieren, werden sie in<br />

diesem Abschnitt nach den dabei verwendeten KNN differenziert. Als Unterscheidungs-<br />

merkmale dienen dabei der Netz-Typ, die Struktur der Verbindungen, die Topologie der<br />

<strong>Netze</strong> mit ihrer Anzahl an Schichten und Neuronen sowie die verwendeten Aktivierungs-<br />

funktionen.<br />

5.4.1 Verwendete Netz-Typen<br />

Wie bereits in Kapitel 3 beschrieben, gibt es eine Reihe grundsätzlich unterschiedlicher<br />

Netz-Typen, mit denen <strong>Zeitreihen</strong> prognostiziert werden können. 76 In Tabelle 14 ist auf-<br />

geführt, mit welchen Häufigkeiten auf die einzelnen Netz-Typen <strong>zur</strong>ückgegriffen wurde.<br />

Dabei werden soweit möglich ähnliche Netz-Typen zusammengefasst.<br />

76 Weitere Informationen zu den gängigsten Netz-Typen finden sich in den Kapiteln 3.4.1–3.4.4.<br />

45


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Netz-Typ Anzahl der Anwendungen Anteil<br />

Multi-Layer-Perceptrons (MLP) 62 60 %<br />

Radiale-Basisfunktionen-<strong>Netze</strong> (RBF-<strong>Netze</strong>) 8 8 %<br />

Rekurrente <strong>Netze</strong> (RNN) 13 13 %<br />

Time Delay-<strong>Netze</strong> (TDNN) 2 2 %<br />

<strong>Netze</strong> mit Fuzzy-Logic 4 4 %<br />

Sonstige 14 14 %<br />

Anzahl betrachteter Anwendungen 103 100 %<br />

Tabelle 14: Bei der <strong>Prognose</strong> verwendete Netz-Typen<br />

Mit der mit Abstand größten Häufigkeit wurden Multi-Layer-Perceptrons (MLP), also<br />

einfache Feedforward-<strong>Netze</strong>, verwendet. Diese Art <strong>von</strong> <strong>Netze</strong>n sind neben der <strong>Prognose</strong><br />

auch in vielen anderen Einsatzgebieten <strong>Künstliche</strong>r <strong>Neuronale</strong>r <strong>Netze</strong> die bekanntesten<br />

und am häufigsten eingesetzten. 77 Ein großer Vorteil des MLP liegt in seiner einfachen<br />

Handhabung. So wurden durch seine große Verbreitung viele einfache und dennoch ef-<br />

fiziente Algorithmen für das Training solcher <strong>Netze</strong> gefunden. Um eine <strong>Prognose</strong> auf-<br />

grund <strong>von</strong> mehreren Vergangenheitswerten durchführen zu können, müssen bei diesem<br />

Netz-Typ alle relevanten Werte nach dem Prinzip eines „Sliding Windows“ gleichzeitig<br />

eingegeben werden. 78<br />

Dies gilt auch für Radiale-Basisfunktionen-<strong>Netze</strong> (RBF-<strong>Netze</strong>), die als Feedforward-<br />

<strong>Netze</strong> einem MLP im Aufbau sehr ähnlich sind. Sie sind jedoch <strong>von</strong> einfacherer Struktur,<br />

so dass der Trainingsvorgang in deutlich kürzerer Zeit durchgeführt werden kann. 79 Die-<br />

ser Vorteil wird in 7 % der Anwendungen ausgenutzt, wobei die Ergebnisse trotz des<br />

einfacheren Netz-Typs nicht notwendigerweise schlechter ausfallen als bei den mit einem<br />

MLP prognostizierten <strong>Zeitreihen</strong>. 80<br />

Deutlich stärker auf <strong>Prognose</strong>n ausgelegt sind alle Formen rekurrenter <strong>Netze</strong> (RNN), de-<br />

ren Besonderheit es ist, dass die Verbindungen nicht nur <strong>von</strong> der Eingabeschicht in Rich-<br />

tung Ausgabeschicht verlaufen, sondern bei denen auch rückgerichtete Verbindungen zum<br />

Einsatz kommen. Dadurch können Informationen <strong>von</strong> vorhergehenden Zeitpunkten und<br />

<strong>Prognose</strong>n im Netz gespeichert werden und müssen nicht jedes Mal neu eingegeben wer-<br />

den. Obwohl sich rekurrente <strong>Netze</strong> durch dieses Gedächtnis offenbar optimal für Pro-<br />

gnosen <strong>von</strong> <strong>Zeitreihen</strong> zu eignen scheinen, werden sie nur in 13 % der Anwendungen<br />

eingesetzt.<br />

Die ebenfalls mit einem Gedächtnis ausgestatteten Time Delay-<strong>Netze</strong>(TDNN) werden<br />

noch seltener eingesetzt, obwohl auch sie durch ihre externe Rekurrenz, den verzögerten<br />

Verbindungen, für <strong>Prognose</strong>n <strong>von</strong> <strong>Zeitreihen</strong> ausgelegt sind. Es ist allerdings zu beachten,<br />

dass auch bei einigen der rekurrenten <strong>Netze</strong> Verbindungen mit Verzögerungen eingesetzt<br />

werden.<br />

77 Vgl. [ZhPH98, S. 37].<br />

78 Vgl. Kapitel 3.4.1.<br />

79 Vgl. [HaNe02, S. 179].<br />

80 Vgl. bspw. [ChSM02, S. 277].<br />

46


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Auch die in Kapitel 4.2 vorgestellte Fuzzy-Logic hat ihren Einzug in die Welt der KNN<br />

gefunden. In der Regel handelt es sich bei den Fuzzy-<strong>Netze</strong>n in den untersuchten Anwen-<br />

dungen um Feedforward-<strong>Netze</strong>, bei denen in zusätzlichen Schichten die Eingabewerte<br />

fuzzifiziert und die Ausgabewerte wieder defuzzifiziert werden.<br />

Bei den unter „Sonstige“ zusammengefassten Netz-Typen handelt es sich um nur ver-<br />

einzelt vorkommende Typen wie beispielsweise eine Self Organizing Map (SOM) oder<br />

um Netz-Typen, die erst im Laufe des Verfahrens durch einen genetischen Algorithmus<br />

bestimmt werden. Bei solchen <strong>Netze</strong>n handelt es sich meist um rein wissenschaftliche<br />

Untersuchungen, deren Relevanz für die praktische Anwendung zumindest zum jetzigen<br />

Zeitpunkt als nicht sehr hoch einzuschätzen ist. Da ihre Bedeutung jedoch aufgrund er-<br />

folgreicher Entwicklungen anwachsen könnte, sollten sie bei weiterführenden Untersu-<br />

chungen, die zu einem späteren Zeitpunkt durchgeführt werden, ggf. mitberücksichtigt<br />

werden.<br />

5.4.2 Topologie der <strong>Netze</strong><br />

Ein wesentlicher Faktor für den Erfolg einer <strong>Zeitreihen</strong>-<strong>Prognose</strong> ist der richtige struktu-<br />

relle Aufbau des KNN. Die wichtigsten Bausteine hierfür sind die Neuronen, die in der<br />

Regel in Schichten angeordnet werden. Dabei sind die Anzahl der Neuronen der Eingabe-<br />

und Ausgabeschicht durch die jeweilige Anwendung bereits festgelegt, da diese jeweils<br />

der gewünschten Anzahl an Eingabe- bzw. Ausgabewerten entsprechen müssen. Die Ein-<br />

gaben müssen deshalb im Vorhinein sorgfältig ausgewählt werden. Dabei sollte darauf<br />

geachtet werden, dass sie keine Kollinearitäten aufweisen, da ansonsten eine schlechtere<br />

<strong>Prognose</strong>güte zu befürchten ist. 81 Das bedeutet, dass eine größere Anzahl <strong>von</strong> Eingabeva-<br />

riablen nicht automatisch zu einem besseren Modell führt, sondern auch ein gegenteiliger<br />

Effekt auftreten kann. Die bei den untersuchten Anwendungen verwendeten Eingabedi-<br />

mensionen sind in Tabelle 15 aufgeführt. Darin ist zu erkennen, dass in den meisten Fällen<br />

weniger als 20 Eingabe-Neuronen verwendet wurden und der Schwerpunkt bei fünf bis<br />

neun Eingabe-Neuronen lag.<br />

Anzahl der Eingabe-Neuronen Anzahl der Anwendungen Anteil<br />

1 Eingabe-Neuron 10 11 %<br />

2 bis 4 Neuronen 16 18 %<br />

5 bis 9 Neuronen 33 38 %<br />

10 bis 19 Neuronen 21 24 %<br />

Mehr als 20 Neuronen 8 9 %<br />

Anzahl betrachteter Anwendungen 88 100 %<br />

Tabelle 15: Anzahl der Neuronen der Eingabeschichten<br />

Wesentlich einfacher ist die Festlegung der Anzahl der Ausgabe-Neuronen. Wie in Tabel-<br />

le 16 zu sehen ist, wird fast immer nur ein einzelner Wert prognostiziert. Sollen mehrere<br />

81 Vgl. [SOPP01, S. 156].<br />

47


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

in der Zukunft liegende Werte prognostiziert werden, empfiehlt es sich, für jeden die-<br />

ser Werte jeweils ein eigenes Netz zu verwenden. Auf diese Weise werden die einzelnen<br />

<strong>Netze</strong> entlastet und können zielgerichteter trainiert werden.<br />

Anzahl der Ausgabe-Neuronen Anzahl der Anwendungen Anteil<br />

1 Ausgabe-Neuron 86 91 %<br />

Mehr als 1 Neuron 9 9 %<br />

Anzahl betrachteter Anwendungen 95 100 %<br />

Tabelle 16: Anzahl der Neuronen der Ausgabeschichten<br />

Durch die Anzahl der verborgenen Schichten und der jeweils darin befindlichen Neuronen<br />

wird die Komplexität eines KNN und damit auch dessen Fähigkeit, komplexe Aufgaben<br />

zu lösen, festgelegt. 82 Um zu möglichst guten Ergebnissen zu kommen, muss die Anzahl<br />

der verborgen Schichten und Neuronen für jede Zeitreihe individuell bestimmt werden.<br />

Mit Ausnahme einiger weniger Fuzzy-<strong>Netze</strong> und SOM bestehen alle untersuchten <strong>Netze</strong><br />

entweder aus drei oder vier Schichten. Wie aus Tabelle 17 hervorgeht, werden <strong>Netze</strong> mit<br />

drei Schichten fast drei mal so häufig verwendet wie <strong>Netze</strong> mit vier Schichten.<br />

Anzahl der Schichten Anzahl der Anwendungen Anteil<br />

1/2 Schichten 3 3 %<br />

3 Schichten 62 70 %<br />

4 Schichten 21 24 %<br />

5/6 Schichten 2 2 %<br />

Anzahl betrachteter Anwendungen 88 100 %<br />

Tabelle 17: Anzahl der Schichten der KNN<br />

Auch wenn mit zunehmender Anzahl <strong>von</strong> Schichten immer komplexere Funktionen ab-<br />

gebildet werden können, sind bei einem MLP nicht mehr als maximal zwei verborgene<br />

Schichten notwendig, da bereits mit einem solchen Netz mit einer hinreichend großen An-<br />

zahl verborgener Neuronen jede beliebige Funktion approximiert werden kann. Handelt<br />

es sich um eine stetige Funktion, ist sogar nur eine verborgene Schicht notwendig. 83<br />

Die Anzahl der Schichten sollte jedoch nicht isoliert festgelegt werden, da <strong>von</strong> ihr gleich-<br />

zeitig auch die Anzahl der Neuronen in den verborgenen Schichten abhängig ist. Beide<br />

Werte sollten zusammen so gewählt werden, dass das resultierende Netz aufgrund eine<br />

geringere Neuronenanzahl eine möglichst geringe Komplexität aufweist, da so der Trai-<br />

ningsvorgang beschleunigt werden kann. 84 Aus diesem Grund kann sogar die Effizienz<br />

des <strong>Netze</strong>s in manchen Fällen durch Hinzunahme einer weiteren verborgenen Schicht<br />

erhöht werden.<br />

Um eine optimale Generalisierungsfähigkeit des KNN zu erreichen, ist es notwendig,<br />

den Grad der Komplexität des <strong>Netze</strong>s an der Komplexität der Aufgabenstellung zu ori-<br />

82 Vgl. [LiDL04, S. 565].<br />

83 Vgl. [Amil03, S. 320].<br />

84 Vgl. [Amil03, S. 320].<br />

48


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

entieren. Wird die Netz-Komplexität zu gering gewählt, können die <strong>Prognose</strong>n nicht ad-<br />

äquat durchgeführt werden. Wird sie beispielsweise durch den Einsatz vieler Neuronen<br />

zu hoch gewählt, verliert das Netz seine Generalisierungsfähigkeit und es kommt, wie<br />

in Abbildung 20 dargestellt, zu einem Overfitting. Diesem kann durch eine Reduzierung<br />

der Netz-Komplexität, also beispielsweise der Reduktion <strong>von</strong> Neuronen, oder durch eine<br />

Erhöhung der Problem-Komplexität, beispielsweise durch ein Hinzufügen <strong>von</strong> Rauschen<br />

zu den Trainingsdaten, begegnet werden. 85 Prinzipiell sollte versucht werden, die kleinst-<br />

mögliche Netz-Komplexität zu wählen, mit der die Zeitreihe gerade noch adäquat prognostiziert<br />

werden kann. 86<br />

Problem-Komplexität<br />

Underfitting<br />

Verringere Netz-<br />

Komplexität<br />

Netz-Komplexität<br />

Gute Generalisierung<br />

Erhöhe Problem-<br />

Komplexität<br />

Overfitting<br />

Quelle: In Anlehnung an [JeLe00, S. 74].<br />

Abbildung 20: Generalisierungsfähigkeit in Abhängigkeit <strong>von</strong> Problem- und Netz-Komplexität<br />

Zwar gibt es für eine singuläre Betrachtung auch Faustregeln, nach denen die Neuronen-<br />

anzahl der verborgenen Schichten berechnet werden kann, diese führen jedoch zu unter-<br />

schiedlichen Ergebnissen und können somit höchstens als grober Richtwert dienen. 87 Für<br />

die Bestimmung der optimalen Neuronenanzahl sind sie daher nicht geeignet.<br />

In Tabelle 18 ist angegeben, wie viele Neuronen insgesamt in den KNN verwendet wur-<br />

den. Diese Zahl kann als Indikator für die Komplexität des jeweiligen <strong>Netze</strong>s angesehen<br />

werden. Es ist dabei erkennbar, dass die Mehrheit der <strong>Netze</strong> mit weniger als 20 Neuro-<br />

nen auskommt, was eine sehr überschaubare Komplexität der Problemstellung vermuten<br />

Anzahl aller Neuronen Anzahl der Anwendungen Anteil<br />

4 bis 19 Neuronen 46 60 %<br />

20 bis 34 Neuronen 13 17 %<br />

35 bis 49 Neuronen 8 10 %<br />

Mehr als 50 Neuronen 10 13 %<br />

Anzahl betrachteter Anwendungen 77 100 %<br />

85 Vgl. [JeLe00, S. 73 f.].<br />

86 Vgl. [HaNe02, S. 176].<br />

87 Vgl. bspw. [MoCa00, S. 207].<br />

Tabelle 18: Anzahl aller Neuronen der KNN<br />

49


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

lässt. Dass jedoch auch einige <strong>Netze</strong> mit weit mehr als 50 Neuronen (sogar bis zu 128<br />

Neuronen) beschrieben werden, deutet darauf hin, dass bei der <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong><br />

sehr unterschiedlich komplexe Anforderungen auftreten können.<br />

5.4.3 Struktur der Verbindungen zwischen den Neuronen<br />

Die Struktur der Verbindungen zwischen den einzelnen Neuronen wird dadurch festge-<br />

legt, welche Neuronen miteinander in welcher Richtung direkt Informationen übermit-<br />

teln können sollen. Im Extremfall ist jedes Neuron mit jedem anderen Neuron beidseitig<br />

verbunden. In den meisten Fällen sind es allerdings weniger Verbindungen, die in ei-<br />

nem KNN <strong>zur</strong> Verfügung stehen. Um eine möglichst präzise Aufstellung über die unter-<br />

schiedlichen Verbindungsstrukturen zu gewährleisten wurde das Schema <strong>von</strong> ALEXAN-<br />

DER GERBER übernommen, der insgesamt 32 verschiedene Klassen <strong>von</strong> Strukturen unter-<br />

scheidet. 88 In den untersuchten Anwendungen wurden jedoch lediglich die fünf Klassen<br />

verwendet, deren Häufigkeiten in Tabelle 19 angegeben sind.<br />

Verbindungsstruktur (Nummerierung aus der Aufstellung bei [Gerb04]) Anwendungen Anteil<br />

Feedforward ebenenweise verbunden (Nr. 1) 76 83 %<br />

Feedforward ebenenweise verbunden mit direkten Rückkopplungen (Nr. 5) 1 1 %<br />

Feedforward ebenenweise verbunden mit vollständigen lateralen Verbindungen<br />

innerhalb einer Ebene (Nr. 7)<br />

4 4 %<br />

Vollständig ebenenweise verbunden (Nr. 9) 5 5 %<br />

Feedforward ebenenweise verbunden mit shortcut-Verbindungen in 6 7 %<br />

Backward-Richtung (Nr. 17)<br />

Anzahl betrachteter Anwendungen 92 100 %<br />

Tabelle 19: Bei der <strong>Prognose</strong> verwendete Verbindungsstrukturen<br />

Dass die große Mehrheit der <strong>Netze</strong> lediglich durch einfache Verbindungen ebenenwei-<br />

se verbunden sind, überrascht nicht weiter, da dies die „normale“ Struktur <strong>von</strong> MLP,<br />

RBF-<strong>Netze</strong>n und einigen weiteren Netz-Typen ist. Auch hier liegt der Vorteil dieser<br />

Struktur darin, dass derartige <strong>Netze</strong> mit Standardverfahren wie dem Backpropagation-<br />

Lernverfahren und dessen üblichen Modifikationen trainiert werden können. Aus den we-<br />

nigen rekurrenten <strong>Netze</strong>n ist aus der vorliegenden Datengrundlage keine Präferenz für die<br />

Art der rekurrenten Verbindungen abzuleiten, was der Auffassung entgegenkommt, dass<br />

keine der Varianten den anderen grundsätzlich vorzuziehen ist. 89<br />

5.4.4 Verwendete Aktivierungsfunktionen<br />

Wie bereits in Kapitel 3 beschrieben, ist einer der Vorteile <strong>von</strong> KNN bei der <strong>Prognose</strong> <strong>von</strong><br />

<strong>Zeitreihen</strong>, dass mit diesen auch nichtlineare Zusammenhänge abgebildet werden können.<br />

Der wesentliche Bestandteil der <strong>Netze</strong> für diese Nichtlinearität ist dabei die Transfer- oder<br />

Aktivierungsfunktion. Wie auch in Tabelle 20 zu sehen ist, sind die am häufigsten genutz-<br />

ten Aktivierungsfunktionen sigmoid (s-förmig). Darunter fallen alle Funktionstypen, die<br />

88 Die vollständige Aufstellung findet sich bei [Gerb04, Anhang A].<br />

89 Vgl. [DuHu02, S. 327].<br />

50


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

monoton wachsend aber nicht konstant, beschränkt und differenzierbar sind. Häufig ver-<br />

wendete sigmoide Aktivierungsfunktionen sind die logistische Funktion und der Tangens<br />

hyperbolicus. Ein Vorteil derartiger Funktionen liegt darin, dass sie auch auf kleine Am-<br />

plituden sehr sensibel reagieren. 90 Die Differenzierbarkeit ist zudem eine Voraussetzung<br />

um beispielsweise ein Backpropagation-Verfahren durchführen zu können.<br />

Da bei der Untersuchung auch die Zentrumsfunktionen der RBF-<strong>Netze</strong> als Aktivierungs-<br />

funktionen aufgefasst wurden, ist es nicht weiter überraschend, dass in Tabelle 20 auch<br />

einige Gaußfunktionen aufgeführt werden, die allgemein auch radiale Basisfunktionen<br />

genannt werden. Alternative Aktivierungsfunktionen wie beispielsweise polynome Funk-<br />

tionen waren bei der Analyse nur selten anzutreffen und sind vermutlich in erster Linie<br />

<strong>von</strong> akademischem Interesse.<br />

Art der Aktivierungsfunktionen Anzahl der Anwendungen Anteil<br />

Sigmoide Funktionen 55 85 %<br />

Gaußfunktionen 6 9 %<br />

Lineare Funktionen 4 6 %<br />

Sonstige Funktionen 4 6 %<br />

Anzahl betrachteter Anwendungen 65 100 %<br />

Tabelle 20: In den Neuronen der verborgenen Schichten verwendete Aktivierungsfunktionen 91<br />

Auch mit unterschiedlichen sigmoiden Funktionen lassen sich unterschiedlich gute Er-<br />

gebnisse erzielen. 92 Da allerdings die Namen der jeweiligen Funktionen nicht einheitlich<br />

verwendet werden, kann eine Analyse auf den vorliegenden Daten nicht durchgeführt<br />

werden. Es ist jedoch zu vermuten, dass festgestellte Dominanzen einzelner Aktivierungs-<br />

funktionen <strong>von</strong> den jeweiligen Daten und Netz-Architekturen abhängen, und deshalb kei-<br />

ne allgemein gültigen Präferenzen angegeben werden können.<br />

Neben den Aktivierungsfunktionen der Neuronen der verborgenen Schichten können auch<br />

die Neuronen der Ausgabeschicht <strong>von</strong> Interesse sein. Da es für die Nichtlinearität ausrei-<br />

chend ist, dass mindestens eine Schicht mit nichtlinearen Neuronen bestückt wird, wer-<br />

den in der Ausgabeschicht oftmals einfache, lineare Aktivierungsfunktionen verwendet.<br />

Da nur bei wenigen Anwendungen die Art dieser Funktionen explizit angegeben wurde,<br />

wird an dieser Stelle auf eine quantitative Analyse verzichtet. Bereits aus den wenigen<br />

vorhandenen Angaben ist jedoch ersichtlich, dass auch absolut deutlich mehr lineare Ak-<br />

tivierungsfunktionen verwendet werden, als dies bei den verborgenen Schichten der Fall<br />

ist.<br />

Theoretisch ist es auch möglich, dass nicht nur Neuronen unterschiedlicher Schichten un-<br />

terschiedliche Aktivierungsfunktionen haben, sondern auch zwischen Neuronen innerhalb<br />

90 Vgl. [Zell00, S. 90].<br />

91 In einigen Anwendungen wurden unterschiedliche Aktivierungsfunktionen innerhalb der verborgenen<br />

Schichten kombiniert.<br />

92 Vgl. bspw. [LaLa00, S. 46].<br />

51


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

derselben Schicht Unterschiede bestehen. Ein solcher Aufbau wurde aber unter den un-<br />

tersuchten Anwendungen ausschließlich bei [Abra04] beschrieben, was darauf schließen<br />

lässt, dass dies auch in der Praxis keine gängige Methode ist.<br />

5.5 Lernvorgang der <strong>Künstliche</strong>n <strong>Neuronale</strong>n <strong>Netze</strong><br />

Die Wahl des richtigen Lernverfahrens hat einen großen Einfluss auf die Trainingsge-<br />

schwindigkeit und die aus dem Training resultierende Netzgüte. Die Parameter dieser<br />

Wahl sind das Lernverfahren, die veränderlichen Bestandteile des <strong>Netze</strong>s, die Art des<br />

Lernens und die Zielfunktion, durch die die Güte des <strong>Netze</strong>s während des Trainings ge-<br />

messen wird. Deshalb sind dies auch die Eigenschaften <strong>von</strong> Lernvorgängen, nach denen<br />

die erhobenen Anwendungen in den folgenden Abschnitten klassifiziert werden.<br />

5.5.1 Verwendete Lernverfahren<br />

Es existiert eine Vielzahl unterschiedlicher Lernverfahren, <strong>von</strong> denen sich bisher nur we-<br />

nige durchsetzen konnten. Das wahrscheinlich bekannteste ist das in Kapitel 3.3 beschrie-<br />

bene Backpropagation-Verfahren (BP), das in seiner Grundform oder in diversen Varian-<br />

ten in den untersuchten Anwendungen auch am häufigsten eingesetzt wurde. Das BP gilt<br />

jedoch als sehr langsames Lernverfahren, weshalb ihm aus Effizienzgründen in einigen<br />

Fällen das schneller trainierende Levenberg-Marquardt-Lernverfahren (LM) vorgezogen<br />

wurde. 93 Daher wurde das LM, wie in Tabelle 21 zu sehen ist, in immerhin 15 % der<br />

Anwendungen eingesetzt.<br />

Lernverfahren Anzahl der Anwendungen Anteil<br />

Backpropagation und Varianten 44 51 %<br />

Levenberg-Marquardt 13 15 %<br />

Spezielle Verfahren für RNN 8 9 %<br />

Spezielle Verfahren für TDNN 2 2 %<br />

Sonstige 20 23 %<br />

Anzahl betrachteter Anwendungen 87 100 %<br />

Tabelle 21: Für das Training verwendete Lernverfahren<br />

Einige weitere Verfahren lassen sich nach den speziell für ihren Netz-Typ entwickelten<br />

Verfahren klassifizieren. Da die Heterogenität unter den verwendeten Lernverfahren je-<br />

doch sehr groß ist, werden sehr viele Verfahren unter „Sonstige“ zusammengefasst. Es ist<br />

daher sinnvoll in den folgenden Abschnitten auch solche Merkmale zu untersuchen, die<br />

durch das jeweilige Lernverfahren bereits festgelegt sind.<br />

5.5.2 Verwendete Lern-Typen<br />

Unter dem Begriff „Lern-Typ“ werden an dieser Stelle die Lernmechanismen sowie die<br />

Art des Lernparadigmas eines Lernverfahrens zusammengefasst. 94 Bei der Analyse der<br />

93 Vgl. [MoCa00, S. 208],[MoBr04, S. 499].<br />

94 Vgl. [Lipp02, Kap. 3.3].<br />

52


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Lernmechanismen wird untersucht, welche Bestandteile der <strong>Netze</strong> überhaupt trainiert<br />

werden, welche Bestandteile also während des Trainings <strong>zur</strong> Verbesserung der <strong>Prognose</strong>-<br />

güte in welcher Art verändert werden können.<br />

In Tabelle 22 ist aufgeführt, welche Lernmechanismen bei den untersuchten Lernverfah-<br />

ren <strong>zur</strong> Anwendung kamen. Dabei zeigt sich, dass die Modifikation der Stärken <strong>von</strong> Ver-<br />

bindungen die anderen Mechanismen deutlich dominiert. Das bedeutet, dass nahezu alle<br />

verwendeten Lernverfahren die Anpassung <strong>von</strong> Gewichten als einen Lernmechanismus<br />

aufweisen. Dass die Entwicklung und das Löschen <strong>von</strong> Verbindungen nur selten genannt<br />

wurden, muss unter Berücksichtigung der Tatsache gesehen werden, dass derartige Me-<br />

chanismen rein praktisch auch durch die Modifikation <strong>von</strong> Gewichten erreicht werden<br />

kann. Dies wird durch das Heraufsetzen <strong>von</strong> auf null gesetzten Gewichten bzw. auf null<br />

Setzen <strong>von</strong> vorhandenen Gewichten realisiert. Ähnliches gilt für die Modifikation <strong>von</strong><br />

Schwellenwerten. Diese können alternativ auch durch ein sogenanntes „On“-Neuron rea-<br />

lisiert und anschließend durch die Modifikation der verbundenen Gewichte trainiert wer-<br />

den.<br />

Lernmechanismus Anzahl der Anwendungen Anteil<br />

Entwicklung neuer Verbindungen 0 0 %<br />

Löschen existierender Verbindungen 1 1 %<br />

Modifikation der Stärken <strong>von</strong> Verbindungen 85 98%<br />

Modifikation des Schwellenwertes <strong>von</strong> Neuronen 4 5 %<br />

Modifikation der Aktivierungs-, bzw. Ausgabefunktion 5 6 %<br />

Entwickelung neuer Zellen 6 7 %<br />

Löschen <strong>von</strong> Zellen 5 6 %<br />

Lernen <strong>von</strong> Verzögerungen 7 8 %<br />

Anzahl betrachteter Anwendungen 87 100 %<br />

Tabelle 22: Beim Training verwendete Lernmechanismen 95<br />

Die Veränderung der Topologie wird insgesamt eher stiefmütterlich behandelt. Dies liegt<br />

vermutlich daran, dass sich auf diesem Gebiet bisher noch keine Lernverfahren durchge-<br />

setzt haben. Insbesondere hinsichtlich eines Prunings, also der nachträglichen Reduktion<br />

<strong>von</strong> Neuronen für den Komplexitäts-Abbau eines <strong>Netze</strong>s, ist aber zu erwarten, dass solche<br />

Mechanismen zukünftig auch stärker eingesetzt werden. 96<br />

Die letzte Klasse der Lernmechanismen fasst das Lernen <strong>von</strong> Verzögerungen der Syn-<br />

apsen oder Verbindungen zusammen. Diese Klasse ist insbesondere für solche Modelle<br />

<strong>von</strong> Interesse, in denen zeitliche Zusammenhänge abgebildet werden, wie es bei der Pro-<br />

gnose <strong>von</strong> <strong>Zeitreihen</strong> der Fall ist. Während des Lernens können die jeweiligen Signal-<br />

Verzögerungen sowohl angelegt, als auch in ihrer Dauer modifiziert werden.<br />

Das zweite Merkmal eines Lern-Typs ist die Art des Lernparadigmas. Dabei ist entschei-<br />

dend, welche Information einem KNN während der Trainings-Phase über die Richtigkeit<br />

95 Die Klassifikation erfolgt in Anlehnung an [Zell00, S. 84]. Bei einigen Anwendungen werden unterschiedliche<br />

Lernmechanismen kombiniert eingesetzt.<br />

96 Vgl. [Zell00, S. 84].<br />

53


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

seiner Ausgabe vorgelegt werden. Unterschieden werden dabei prinzipiell Verfahren mit<br />

überwachtem, bestärkendem und unüberwachtem Lernen. Wie aus Tabelle 23 ersicht-<br />

lich ist, wird bei den untersuchten Anwendungen in nahezu allen Fällen ein überwachtes<br />

Lernen durchgeführt. Das bedeutet, dass während des Trainings der durch das Netz pro-<br />

gnostizierte Wert mit dem tatsächlichen Wert verglichen wird. Auf der Grundlage dieses<br />

Vergleichs werden dann die weiter oben beschriebenen Maßnahmen mit dem Ziel durch-<br />

geführt die Netzgüte zu verbessern.<br />

Art des Lernparadigmas Anzahl der Anwendungen Anteil<br />

Überwachtes Lernen 89 95 %<br />

Unüberwachtes Lernen 4 4 %<br />

Kombination aus überwachtem und unüberwachtem Lernen 1 1 %<br />

Anzahl betrachteter Anwendungen 94 100 %<br />

Tabelle 23: Beim Training verwendete Art des Lernparadigmas<br />

Beim unüberwachten Lernen werden dem Netz keine zu den Trainingsdaten gehören-<br />

den richtigen Ergebnisse vorgelegt. Der Lernvorgang wird stattdessen ausschließlich auf<br />

Grundlage der Eingabedaten durchgeführt. Da diese Form des Lernens allerdings vor al-<br />

lem in Anwendungen eingesetzt wird, bei denen Daten klassifiziert werden sollen, wird<br />

sie auch in den untersuchten <strong>Prognose</strong>-Anwendungen nur sehr selten verwendet. Bestär-<br />

kendes Lernen wurde sogar bei keiner der Anwendungen als Art des Lernens genannt.<br />

5.5.3 Eingesetzte Zielfunktionen<br />

Das Ziel eines jeden Lernverfahrens ist es, die Parameter eines KNN derart zu modi-<br />

fizieren, dass die gegebene Aufgabe damit möglichst gut gelöst werden kann. Hierfür<br />

ist es notwendig, dass diese Zielvorgabe formal operationalisiert wird, so dass das Trai-<br />

ning daran ausgerichtet werden kann. Um dies zu erreichen, wird in der Regel aus der<br />

Differenz der beim Training prognostizierten Werte und den tatsächlichen Werten der<br />

<strong>Zeitreihen</strong> ein Fehlermaß gebildet, mit dem die Güte des Ergebnisses und damit auch<br />

der Trainings-Fortschritt abgebildet werden kann. Aus den Ergebnissen der Zielfunktion<br />

für aufeinander folgende Trainings-Schritte ist dann beispielsweise ersichtlich, ob durch<br />

das Training überhaupt noch weitere Fortschritte erzielt werden oder ob die Netzgüte ein<br />

(lokales) Optimum erreicht hat.<br />

Zielfunktion Anzahl der Anwendungen Anteil<br />

Mean Squared Error (MSE) 17 22 %<br />

Normalized Mean Squared Error (NMSE) 14 18 %<br />

Sum of Squared Error (SSE) 10 13 %<br />

Root Mean Squared Error (RMSE) 18 23 %<br />

Normalized Root Mean Squared Error (NRMSE) 12 15 %<br />

Sonstige 7 9 %<br />

Anzahl betrachteter Anwendungen 78 100 %<br />

Tabelle 24: Beim Lernen verwendete Zielfunktion<br />

54


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Wie aus Tabelle 24 hervorgeht, ergibt sich bei den in den analysierten Anwendungen<br />

verwendeten Zielfunktionen ein relativ heterogenes Bild. Fast allen dieser Funktionen ist<br />

jedoch gemeinsam, dass sie sich auf die quadrierten Abweichungen des prognostizierten<br />

Wertes vom erwarteten Wert beziehen. Diese Quadrierung bewirkt zunächst, dass sich<br />

negative und positive Abweichungen nicht gegenseitig neutralisieren und dass größere<br />

Abweichungen im Verhältnis zu kleineren Abweichungen deutlich stärker gewichtet wer-<br />

den. Dass dadurch auch einzelne Ausreißer sehr stark ins Gewicht fallen, ist in der Regel<br />

nicht gewünscht, weshalb bei einigen Anwendungen im Anschluss wieder die Wurzel-<br />

funktion angewandt wird. Dieser Umweg hat den Vorteil, dass beispielsweise der Root<br />

Mean Squared Error (RMSE) im Gegensatz zum Mean Absolute Error (MAE), bei dem<br />

einfach die Beträge der Abweichungen aufsummiert werden, vollständig differenzierbar<br />

ist und trotzdem leicht interpretiert werden kann, da er die gleiche Dimension wie die<br />

singulären Abweichungen aufweist.<br />

Das Normalisieren eines Fehlers macht nur dann Sinn, wenn die <strong>Prognose</strong>n unterschied-<br />

licher <strong>Zeitreihen</strong> miteinander verglichen werden sollen. Da dies nicht die Aufgabe einer<br />

Zielfunktion ist, ist dieses Vorgehen demnach als überflüssig zu bezeichnen. Ähnliches<br />

gilt auch für die Bildung <strong>von</strong> Mittelwerten. Auch diese lineare Transformation hat kei-<br />

nen Einfluss auf das Training und dient lediglich einer einfacheren Interpretation, wie sie<br />

jedoch nur <strong>von</strong> einer Gütefunktion gefordert wird.<br />

Aus diesen Gründen lassen sich die ersten drei der in Tabelle 24 genannten Zielfunktionen<br />

zu einer Klasse <strong>von</strong> quadratischen Zielfunktionen zusammenfassen und die beiden darauf<br />

folgenden zu einer Klasse <strong>von</strong> linearen Zielfunktionen. Ob sich die Ergebnisse unter-<br />

scheiden, wenn Zielfunktionen aus unterschiedlichen Klassen verwendet werden, hängt<br />

vermutlich <strong>von</strong> den Parametern des Lernvorgangs und den jeweiligen Daten ab. 97 Ein sol-<br />

cher Zusammenhang sollte in weiteren Studien untersucht werden, wie auch die Frage,<br />

ob eine der beiden Funktionsklassen grundsätzlich der anderen vorzuziehen ist.<br />

5.6 Erfolgsmessung der <strong>Prognose</strong>n<br />

Um die Güte <strong>von</strong> mit einer speziellen Methode erstellten <strong>Prognose</strong>n ermitteln oder ver-<br />

schiedene Methoden miteinander vergleichen zu können, ist es notwendig diese Güte<br />

anhand einer Funktion ähnlich der im letzten Abschnitt beschriebenen Zielfunktion zu<br />

definieren. Nur Methoden, die auf gleichen Daten arbeiten und mit der gleichen Güte-<br />

funktion gemessen werden, können direkt miteinander verglichen werden. Die Wahl einer<br />

Gütefunktion ist in der Regel <strong>von</strong> der jeweiligen Aufgabe des Modells abhängig, da un-<br />

terschiedliche Arten <strong>von</strong> Funktionen zu unterschiedlichen Konsequenzen führen können.<br />

97 Laut ANDREAS ZELL spielt diese Unterscheidung bei Backpropagation-Verfahren angeblich keine Rolle<br />

(Vgl. [Zell00, S. 106]). Unterschiedlich gewichtete Fehler in der Zielfunktion können aber insbesondere<br />

beim Abbruchkriterium oder einer vom Lernfortschritt abhängigen Schrittweite entsprechend<br />

unterschiedliche Reaktionen hervorrufen.<br />

55


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Ebenso ist die Wahl <strong>von</strong> Vergleichsmethoden ausschlaggebend um den Erfolg oder Miss-<br />

erfolg der durchgeführten Methoden transparent zu machen. Aus diesem Grund werden<br />

die untersuchten Anwendungen in diesem Kapitel sowohl nach ihren Gütefunktionen als<br />

auch nach den jeweils zum Vergleich herangezogenen alternativen Modelltypen klassifi-<br />

ziert.<br />

5.6.1 Verwendete Gütefunktionen<br />

Der Unterschied zwischen der im letzten Abschnitt untersuchten Zielfunktion und der<br />

Gütefunktion besteht in ihrer Aufgabe und den <strong>zur</strong> Berechnung verwendeten Datensätzen.<br />

Während die Ergebnisse <strong>von</strong> Zielfunktionen aufgrund <strong>von</strong> Testdaten bestimmt werden<br />

und ausschließlich <strong>zur</strong> Beobachtung und Gestaltung des Lernvorgangs dienen, wird eine<br />

Gütefunktion aufgrund <strong>von</strong> Testdaten berechnet, um die Qualität eines Modells angeben<br />

und so unterschiedliche Modelle miteinander vergleichen zu können. Das bedeutet, dass<br />

mit der Zielfunktion das Netz nur in unterschiedlichen Trainingsphasen mit sich selbst<br />

verglichen wird. Es kann selbstverständlich trotzdem vorkommen, dass die Zielfunktion<br />

nach Abschluss des Trainings auch als Gütefunktion eingesetzt wird.<br />

Da demnach eine einfache Interpretierbarkeit und Vergleichbarkeit originäre Eigenschaf-<br />

ten <strong>von</strong> Gütefunktionen darstellen sollten, sind Durchschnittsbildungen und Normalisie-<br />

rungen an dieser Stelle als sehr sinnvoll anzusehen. Mit einer Durchschnittsbildung wird<br />

der ermittelte Fehler in die Größenordnung eines einzelnen Fehlers skaliert und dadurch<br />

<strong>von</strong> der Größe der Testdatenmenge gelöst. Rein theoretisch dürften somit sogar „Güte-<br />

Größen“ miteinander verglichen werden, die auf einer unterschiedlich großen Anzahl <strong>von</strong><br />

Testdaten beruhen. Derartiges sollte allerdings nicht ohne Vorbehalt geschehen, da mit<br />

zunehmender zeitlicher Entfernung <strong>von</strong> den Trainingsdaten die Zeitinvarianzannahme, al-<br />

so die Annahme, dass sich die Bedingungen, unter denen ein <strong>Prognose</strong>modell aufgebaut<br />

wurde, im Zeitraum der <strong>Prognose</strong> nicht ändern, zunehmend unwahrscheinlicher wird. 98<br />

Die Normierungen dienen dazu, auch absolut eine Aussage über die Güte der <strong>Prognose</strong>n<br />

machen zu können. Erst dadurch wird die Angabe der <strong>Prognose</strong>qualität auch losgelöst<br />

<strong>von</strong> der Größenordnung der <strong>Zeitreihen</strong>werte zu einer interpretierbaren Größe.<br />

Da für jede Anwendung oftmals mehrere Gütefunktionen berechnet werden, ist die in<br />

Tabelle 25 dargestellte Funktionsvielfalt größer als die der in Tabelle 24 aufgeführten<br />

Zielfunktionen. Neben den bereits als Zielfunktionen eingesetzten Fehlermaßen kommt<br />

hier insbesondere der Anteil richtiger Vorzeichen-Klassifikationen sowie das Bestimmt-<br />

heitsmaß (R 2 ) hinzu. Bei diesen beiden handelt es sich im Gegensatz zu den anderen<br />

Maßzahlen nicht um Fehlermaße, bei denen eine gute <strong>Prognose</strong>qualität durch einen mög-<br />

lichst geringen Wert repräsentiert wird. Stattdessen liegen beide Maßzahlen zwischen null<br />

und eins, wobei der Wert jeweils umso höher ist, je besser die <strong>Prognose</strong>n des Modells aus-<br />

fallen.<br />

98 Vgl. [Webe98, S. 112].<br />

56


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Gütefunktion Anzahl der Anwendungen Anteil<br />

Root Mean Squared Error (RMSE) 29 34 %<br />

Normalized Mean Squared Error (NMSE) 18 21 %<br />

Anteil richtiger Vorzeichen-Klassifikationen 17 20 %<br />

Mean Absolute Error (MAE) 15 18 %<br />

Mean Squared Error (MSE) 13 15 %<br />

Normalized Root Mean Squared Error (NRMSE) 10 12 %<br />

Bestimmtheitsmaß (R 2 ) 10 12 %<br />

Mean Absolute Percentage Error (MAPE) 6 7 %<br />

Sonstige 37 44 %<br />

Anzahl betrachteter Anwendungen 85 100 %<br />

Tabelle 25: Zur Erfolgsmessung verwendete Gütefunktionen 99<br />

Beim Bestimmtheitsmaß handelt es sich um eine statistische Größe, die den linearen Zu-<br />

sammenhang zwischen den vom Modell prognostizierten und den real erwarteten Werten<br />

misst. Der Vorteil dieser Funktion liegt darin, dass sie entsprechend dem Korrelations-<br />

koeffizienten der Korrelationsanalyse bestimmt wird und deshalb weit verbreitet ist. Der<br />

Verwendung ist dennoch kritisch zu hinterfragen, da dieses Maß leicht fehlinterpretiert<br />

werden kann. So ergibt sich auch ein optimaler linearer Zusammenhang (R 2 = 1), wenn<br />

der <strong>Prognose</strong>fehler zwar sehr groß ist, alle Abweichungen jedoch <strong>von</strong> gleicher Größe und<br />

Richtung sind.<br />

Das Maß der richtigen Vorzeichen-Klassifikationen wird unter den untersuchten Anwen-<br />

dungen ausschließlich bei <strong>Zeitreihen</strong> aus dem finanzwirtschaftlichen Bereich verwendet.<br />

Dies liegt darin begründet, dass es beim Wissen über die zukünftige Entwicklung einer<br />

Finanzzeitreihe oftmals <strong>von</strong> größerer Bedeutung ist, ob sich ein Kurs nach oben oder<br />

nach unten bewegt oder wann ein Wendepunkt zu erwarten ist, als die exakte Höhe jeder<br />

Kursänderung. Werden jeweils die Differenzen zweier aufeinander folgender Kurswer-<br />

te berechnet, wird durch das Vorzeichen der gebildeten Werte angezeigt, ob es sich um<br />

steigende oder fallende Kurse handelt. Aus diesem Grund ist es ausreichend, das Vorzei-<br />

chen zukünftiger Differenzen richtig zu prognostizieren um daraus eine gewinnbringende<br />

Strategie zu entwickeln.<br />

Wie bereits erwähnt, ist die Wahl der zu verwendenden Gütefunktion nicht beliebig. Zwar<br />

drücken diese Funktionen zu einem gewissen Grad aus, inwiefern die prognostizierten<br />

Werte mit den erwarteten übereinstimmen, die Abweichungen werden jedoch auch bei<br />

den Fehlermaßen unterschiedlich gewichtet. Dies kann dazu führen, dass eine Methode im<br />

Vergleich mit einer anderen Methode bei Verwendung einer Gütefunktion besser bewertet<br />

wird, während bei Verwendung einer anderen Gütefunktion die zweite Methode besser<br />

abschneidet. 100 Deshalb sollte für den Vergleich <strong>von</strong> Methoden im Vorhinein festgelegt<br />

werden, mit welcher Gütefunktion die jeweiligen <strong>Netze</strong> evaluiert werden.<br />

Die gleichzeitige Angabe verschiedener Gütefunktionen, wie sie bei den untersuchten<br />

99 Bei einigen Anwendungen werden mehrere Gütefunktionen angegeben.<br />

100 Vgl. beispielsweise in [BCFP + 03, S. 433] die Diskrepanz der Ergebnisse mit RMSE und MAE.<br />

57


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

Anwendungen häufig anzutreffen ist, erscheint auf den ersten Blick als sehr sinnvoll. Um<br />

eine möglichst gute Vergleichbarkeit mit anderen Methoden zu gewährleisten, sollte dies<br />

jedoch vor dem Hintergrund unterschiedlicher Bedeutungen wegen der fehlenden Aus-<br />

richtung auf die spezifische Ausgabe vermieden werden. In manchen Fällen ist es aller-<br />

dings auch denkbar, dass eine Aufgabe derart gestellt ist, dass eine Aussage über die<br />

Qualität der angewandten Methoden nur durch die Kombination unterschiedlicher Güte-<br />

funktionen möglich ist. 101 Auch in einem solchen Fall sollte die Auswahl der relevanten<br />

Gütefunktionen bereits im Voraus festgelegt werden um die Qualitätsmessung adäquat zu<br />

operationalisieren.<br />

5.6.2 Vergleiche mit anderen Modellen<br />

Der Erfolg einer <strong>Prognose</strong>-Methode ist nicht zuletzt auch immer <strong>von</strong> der jeweiligen Da-<br />

tengrundlage sowohl der Eingabedaten als auch der zu prognostizierenden Zeitreihe ab-<br />

hängig. Um den Erfolg einer Methode zu bewerten, werden die <strong>Prognose</strong>n, die mit dieser<br />

Methode erstellt wurden, in der Regel solchen Ergebnissen gegenübergestellt, die mit an-<br />

deren Methoden auf derselben Datengrundlage erzielt wurden. Auf diese Weise ist ein<br />

direkter Vergleich <strong>von</strong> <strong>Prognose</strong>-Methoden möglich. Zu beachten ist dabei jedoch, dass<br />

in diesem Fall auch die Ergebnisse des Vergleichs nur unter der Prämisse der jeweili-<br />

gen Datengrundlage verwendet werden können. Allgemein gültige Aussagen für andere<br />

Anwendungen können auf diese Weise also nicht erzielt werden.<br />

Wie in Tabelle 26 zu sehen ist, wurden dennoch in 81 der 105 untersuchten Anwendungen<br />

eine Vielzahl unterschiedlicher Modelle für den Vergleich der <strong>Prognose</strong>-Güten herange-<br />

zogen. Am häufigsten wurden die Ergebnisse mit denen einfacher Feedforward-<strong>Netze</strong><br />

verglichen, da diese als Standardmodell <strong>Künstliche</strong>r <strong>Neuronale</strong>r <strong>Netze</strong> betrachtet werden.<br />

Unter den statistischen Methoden wurden in den meisten Fällen lineare, autoregressive<br />

Modelle verwendet, wie sie in Kapitel 2.3.3 beschrieben wurden.<br />

Vergleichs-Methode Anzahl der Anwendungen Anteil<br />

Autoregressive Modelle 10 12 %<br />

ARMA-Modelle 6 7 %<br />

ARIMA-Modelle 12 15 %<br />

GARCH-Modelle 8 10 %<br />

Random Walk 6 7 %<br />

Feedforward-<strong>Netze</strong> 29 36 %<br />

Feedback-<strong>Netze</strong> 5 6 %<br />

Radiale-Basisfunktionen-<strong>Netze</strong> 8 10 %<br />

Sonstige 46 57 %<br />

Anzahl betrachteter Anwendungen 81 100 %<br />

Tabelle 26: Zum Vergleich herangezogene weitere Methoden 102<br />

Werden die Vergleichsmodelle in den Gruppen Statistische Methoden und <strong>Künstliche</strong><br />

<strong>Neuronale</strong> <strong>Netze</strong> zusammenfasst, ergeben sich die in Tabelle 27 angegebenen Häufigkei-<br />

101 Vgl. [Webe95, S. 3].<br />

102 In einigen Anwendungen werden auch unterschiedliche Methoden zum Vergleich herangezogen.<br />

58


5 ANWENDUNGEN VON KNN ZUR PROGNOSE VON ZEITREIHEN<br />

ten. Demnach werden sowohl statistische Methoden als auch andere Formen <strong>Künstliche</strong>r<br />

<strong>Neuronale</strong>r <strong>Netze</strong> mit großer Häufigkeit als alternative Modelle für den Vergleich der<br />

<strong>Prognose</strong>-Güten gewählt.<br />

Art der Vergleichs-Methode Anzahl der Anwendungen Anteil<br />

Statistische Methoden 41 51 %<br />

<strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong> 51 63 %<br />

Anzahl betrachteter Anwendungen 81 100 %<br />

Tabelle 27: Art der zum Vergleich herangezogenen Methoden 103<br />

Zu beachten ist jedoch, dass damit nicht gewährleistet ist, dass jeweils die optimale Pa-<br />

rametrisierung des Vergleichmodells verwendet wurde. In manchen Fällen wurde nur ein<br />

relativ einfaches Modell für den Vergleich herangezogen, so dass eine angebliche Überle-<br />

genheit der jeweils vorgestellten Methode gegenüber anderen Methoden mit Vorsicht zu<br />

betrachten ist. Diese Überlegung dürfte auch die Zahlen aus Tabelle 28 relativieren, nach<br />

denen bei 84 % der untersuchten Anwendungen, bei denen Vergleiche mit anderen Mo-<br />

dellen gemacht wurden, Vergleichsmodelle mit schlechteren Ergebnissen angegeben wur-<br />

den. Die in dieser Tabelle in Klammern angegeben Prozentzahlen beziehen sich jeweils<br />

auf den Anteil innerhalb der untersuchten Klasse <strong>von</strong> Vergleichsmethoden. Dadurch ist<br />

erkennbar, dass die statistischen Vergleichsmethoden den originär verwendeten Metho-<br />

den offenbar verhältnismäßig öfter unterliegen, als dies bei den alternativen <strong>Künstliche</strong>n<br />

<strong>Neuronale</strong>n <strong>Netze</strong>n der Fall ist.<br />

Art der Vergleichsmethode Anzahl der Anwendungen, bei denen eine Vergleichsmethode<br />

schlechter war ähnlich war besser war<br />

Statistische Methoden 36 (88 %) 3 (7 %) 3 (7 %)<br />

<strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong> 39 (76 %) 5 (10 %) 11 (22 %)<br />

Alle Vergleiche 68 (84 %) 9 (11 %) 17 (21 %)<br />

Tabelle 28: Ergebnisse der Vergleiche mit anderen Methoden<br />

Als Ergebnis dieser Untersuchung ist festzuhalten, dass <strong>Prognose</strong>n mit unterschiedlichen<br />

<strong>Künstliche</strong>n <strong>Neuronale</strong>n <strong>Netze</strong>n offenbar auch zu unterschiedlichen <strong>Prognose</strong>-Güten füh-<br />

ren. Die Tatsache, dass in drei Viertel der Fälle, in denen KNN als Vergleichsmodelle<br />

hinzugezogen wurden, diese schlechtere Ergebnisse lieferten, deutet darauf hin, dass auch<br />

nur ein möglichst optimal parametrisiertes Netz zu optimalen Ergebnissen führt. Die aus<br />

Tabelle 28 ableitbare Vermutung, dass KNN allgemein den Statistischen Methoden bei<br />

der <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> überlegen wären, kann jedoch aufgrund der nicht ausrei-<br />

chend systematischen Vergleiche in den untersuchten Artikeln nicht belegt werden.<br />

103 In einigen Anwendungen werden sowohl statistische Methoden als auch KNN zum Vergleich herange-<br />

zogen.<br />

59


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

6 Zusammenhänge zwischen den einzelnen Kriterien<br />

6.1 Methodik<br />

Hinausgehend über die einfache Betrachtung <strong>von</strong> Anwendungen und Methoden, wie sie<br />

in Kapitel 5 gemacht wurde, wird in diesem Kapitel analysiert, welche Zusammenhän-<br />

ge es zwischen den einzelnen dort besprochenen Kriterien gibt. Dadurch sollen Indika-<br />

toren identifiziert werden, die in den untersuchten Anwendungen <strong>zur</strong> Auswahl der je-<br />

weiligen Methoden-Eigenschaften beigetragen haben. Durch die Analyse <strong>von</strong> bestehen-<br />

den Regelmäßigkeiten in Abhängigkeit unterschiedlicher Kriterien wird auf diese Weise<br />

überprüft, inwiefern aus bestimmten Gegebenheiten Handlungsempfehlungen abgeleitet<br />

werden können.<br />

Betrachtet werden in diesem Kapitel in erster Linie einwertige Abhängigkeiten der fol-<br />

genden Form:<br />

Ausprägung xi <strong>von</strong> Kriterium X ⇒ Ausprägung y j <strong>von</strong> Kriterium Y<br />

Als mögliche Kriterien werden hierfür die in Kapitel 5 vorgestellten und bereits singu-<br />

lär untersuchten Anwendungsfelder und Eigenschaften der jeweiligen Anwendungen und<br />

Methoden mit den dort jeweils dargestellten Ausprägungen verwendet. Auf diese Weise<br />

ergeben sich die in Tabelle 29 aufgeführten Kriterien, die in den folgenden Abschnitten<br />

auf untereinander bestehende Abhängigkeiten hin untersucht werden.<br />

Untersuchte Kriterien Anzahl möglicher Ausprägungen<br />

A Anwendungsbereich 9<br />

B Art der Eingabedaten 3<br />

C Vergangenheitstiefe 3<br />

D <strong>Prognose</strong>-Horizont 3<br />

E Vorverarbeitung der Eingabedaten 7<br />

F Anzahl Datensätze 5<br />

G Anzahl Trainingsdaten 5<br />

H Anzahl Testdaten 6<br />

I Netz-Typ 6<br />

J Anzahl Eingabe-Neuronen 5<br />

K Anzahl Ausgabe-Neuronen 2<br />

L Anzahl Schichten 4<br />

M Anzahl Neuronen 4<br />

N Verbindungsstruktur 5<br />

O Aktivierungsfunktionen verborgener Schichten 4<br />

P Lernverfahren 5<br />

Q Art des Lernparadigmas 3<br />

R Art der Zielfunktion 3<br />

Tabelle 29: Zur Identifikation <strong>von</strong> Abhängigkeiten verwendete Kriterien<br />

Um die Anzahl der zu betrachtenden Verknüpfungen auf ein sinnvolles Maß zu beschrän-<br />

ken, werden jedoch nicht alle möglichen Kombinationen untersucht, sondern nur ein Teil<br />

60


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

da<strong>von</strong>. Die Auswahl hierfür fand nach zwei unterschiedlichen Herangehensweisen statt.<br />

Zum einen wurden in einer datenorientierten Sicht statistisch relevante und zum anderen<br />

in einer methodenorientierten Sicht inhaltlich relevante Zusammenhänge für die weitere<br />

Analyse ausgewählt.<br />

Die Identifikation <strong>von</strong> statistisch relevanten Abhängigkeiten zwischen zwei unterschiedli-<br />

chen Kriterien erfolgte im Rahmen eines Data-Mining-Prozesses mit Hilfe einer Assozia-<br />

tionsanalyse. Dabei wurde der Apriori-Algorithmus angewandt, der mit einem Mindest-<br />

Support <strong>von</strong> 5 % und einer Mindest-Confidence <strong>von</strong> 70 % insgesamt 245 Assoziations-<br />

regeln generierte. Durch den Mindest-Support wird die Häufigkeit festgelegt, mit der die<br />

Ausprägung eines Kriteriums mindestens auftreten muss, damit daraus eine Regel gene-<br />

riert werden kann. Da diese Schranke mit 5 % sehr tief angelegt wurde, werden auch<br />

viele Regeln generiert, deren Relevanz als gering anzusehen ist, da sie nur auf wenigen<br />

Datensätzen beruhen. Gleichzeitig wurde es auf diese Weise jedoch möglich, dass auch<br />

Abhängigkeiten <strong>von</strong> Ausprägungen, die weniger häufig aufgetreten sind, entdeckt werden<br />

konnten. Auch die Mindest-Confidence ist eine <strong>zur</strong> Generierung einer Regel mindestens<br />

notwendige Häufigkeit einer Ausprägung. Hier handelt es sich jedoch um die bedingte<br />

Häufigkeit, also die Häufigkeit, mit der die Ausprägung eines Kriteriums unter der Bedin-<br />

gung auftritt, dass auch eine spezielle Ausprägung eines anderen Kriteriums aufgetreten<br />

ist. Durch die Mindest-Confidence <strong>von</strong> 70 % wurde demnach gewährleistet, dass nur Re-<br />

geln generiert wurden, bei denen auch die als bedingt betrachtete Ausprägung mit einer<br />

ausreichenden Häufigkeit vorkam.<br />

Da durch den Support und die Confidence einer Regel noch nicht sichergestellt werden<br />

kann, dass diese auch für die hier vorgenommene Untersuchung relevant ist, wurde als<br />

Maß für die Relevanz einer Regel der Lift hinzugenommen. Mit dem Lift wird die relative<br />

Abweichung der bedingten Häufigkeiten <strong>von</strong> den unbedingten Häufigkeiten als Abwei-<br />

chung <strong>von</strong> eins angegeben. Von den generierten Regeln wurden deshalb nur diejenigen<br />

mit einem Lift <strong>von</strong> mindestens 2,0 ausgewählt, um eine hinreichend große Abweichung<br />

<strong>von</strong> den unbedingten Verteilungen sicherzustellen. 104 Auf diese Weise wurden statistisch<br />

relevante Regeln identifiziert, deren Ursachen in den folgenden Abschnitten näher unter-<br />

sucht werden.<br />

Eine Übersicht der durch das Data-Mining identifizierten Abhängigkeiten findet sich in<br />

Abbildung 21. Hier sind alle durch den Apriori-Algorithmus erkannten Zusammenhänge<br />

mit einem Lift <strong>von</strong> mindestens 2,0 grau markiert. Die dieser Übersicht zugrunde liegenden<br />

Regeln sowie die <strong>zur</strong> Berechnung verwendeten Formeln sind in Anhang B aufgeführt.<br />

Die in der Übersicht markierten Felder lassen sich in zwei Gruppen einteilen. Zum einen<br />

handelt es sich um Beziehungen, die bereits bei einer oberflächlichen Betrachtung evident<br />

104 Zwar können Abweichungen des Lift nach unten ebenso auf relevante Regeln hinweisen, da jedoch bei<br />

keiner der generierten Regeln eine signifikante Abweichung des Lift nach unten auftrat, musste diese<br />

Richtung nicht weiter berücksichtigt werden.<br />

61


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

In Abhängigkeit <strong>von</strong><br />

A<br />

B<br />

C<br />

D<br />

E<br />

F<br />

G<br />

H<br />

I<br />

J<br />

K<br />

L<br />

M<br />

N<br />

O<br />

P<br />

Q<br />

R<br />

Untersuchung <strong>von</strong><br />

A B C D E F G H I J K L M N O P Q R<br />

Abbildung 21: Durch die Assoziationsanalyse identifizierte Abhängigkeiten zwischen unterschiedlichen<br />

Kriterien 105<br />

sind, da sie auch ohne die Informationen einer statistischen Auswertung zu erwarten ge-<br />

wesen wären. Zum anderen handelt es sich um Abhängigkeiten, die inhaltlich nur schwer<br />

oder gar nicht zu erklären sind und die nicht zuletzt auch wegen der nur relativ kleinen<br />

Datengrundlage lediglich durch zufällige Schwankungen fälschlicherweise als Abhängig-<br />

keiten identifiziert worden sein könnten. Alle markierten Abhängigkeiten werden deshalb<br />

den beiden Gruppen erwartete und nicht erwartete Abhängigkeiten zugeordnet und in den<br />

nächsten beiden Abschnitten genauer untersucht.<br />

Wegen der nur kleinen Datengrundlage ist jedoch immer zu bedenken, dass neben unge-<br />

wollten Identifikationen auch ungewollte Nicht-Identifikationen stattfinden können. Das<br />

bedeutet, dass die untersuchten Abhängigkeiten keinesfalls als vollständig betrachtet wer-<br />

den können. Aus diesem Grund werden in Kapitel 6.4 unabhängig <strong>von</strong> den Ergebnissen<br />

der Assoziationsanalyse zusätzlich alle inhaltlich relevanten Verknüpfungen untersucht,<br />

bei denen die Feststellung einer Abhängigkeit hilfreiche Erkenntnisse für die Modellie-<br />

rung eines KNN <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> erbringen würde und die deshalb wün-<br />

schenswert wären.<br />

Insgesamt sei an dieser Stelle nochmals ausdrücklich darauf hingewiesen, dass die be-<br />

schränkte Anzahl <strong>zur</strong> Verfügung stehender Daten eine schwerwiegende Restriktion für<br />

eine derartige Analyse bedeutet, wie sie in diesem Kapitel vorgenommen wird. Diese Ein-<br />

schränkung ist jedoch, um den Rahmen dieser Arbeit nicht zu sprengen, nicht vermeidbar,<br />

so dass es empfehlenswert wäre, in weiteren Untersuchungen vergleichbare Analysen auf<br />

105 Die verwendete Nummerierung bezieht sich auf die in Tabelle 29 auf S. 60 angegebenen Buchstaben. In<br />

den einzelnen Feldern der Abbildung werden alle Ausprägungen der jeweiligen Kriterien zusammengefasst,<br />

so dass nur Abhängigkeiten der folgenden Form abgebildet werden:<br />

Kriterium X ⇒ Kriterium Y .<br />

62


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

größeren Datenbeständen durchzuführen. Neben der Verwertung der Erkenntnisse dieses<br />

Kapitels könnte dann als Erweiterung beispielsweise auch die Analyse <strong>von</strong> mehrwertigen<br />

Abhängigkeiten integriert werden, auf die in dieser Arbeit wegen der gegebenen Restrik-<br />

tionen verzichtet wurde.<br />

6.2 Untersuchung der erwarteten Abhängigkeiten<br />

Durch den im vorausgegangenen Abschnitt erwähnten Apriori-Algorithmus wurden so-<br />

wohl Abhängigkeiten zwischen unterschiedlichen Anwendungs-Merkmalen, die auch a<br />

priori bereits bekannt oder zumindest im Nachhinein sofort nachvollziehbar sind, ermit-<br />

telt, als auch solche, die nur schwer oder gar nicht als systematische Abhängigkeiten<br />

inhaltlich erklärt werden können. Die Abhängigkeiten der ersten Gruppe, die erwarteten<br />

Abhängigkeiten, werden in diesem Kapitel jeweils einzeln untersucht. Dabei werden die<br />

Abhängigkeiten dem Merkmal nach angeordnet und zusammengefasst, das die jeweili-<br />

ge Abhängigkeit bestimmt. Soweit es sich anbietet, werden zusätzlich an der jeweiligen<br />

Stelle auch die umgekehrten Bedingungen untersucht. Nähere Informationen zu den je-<br />

weiligen Merkmalen finden sich jeweils in den entsprechenden Abschnitten <strong>von</strong> Kapitel 5.<br />

In Abbildung 22 sind die in diesem Abschnitt analysierten Zusammenhänge jeweils durch<br />

ein X markiert.<br />

In Abhängigkeit <strong>von</strong><br />

Untersuchung <strong>von</strong><br />

A B C D E F G H I J K L M N O P Q R<br />

A X X X X<br />

B<br />

C X<br />

D<br />

E X X<br />

F X X<br />

G<br />

H X X<br />

I X X<br />

J X<br />

K<br />

L<br />

M X<br />

N X<br />

O X<br />

P<br />

Q<br />

R<br />

Abbildung 22: Untersuchte Abhängigkeiten zwischen unterschiedlichen Kriterien I<br />

6.2.1 Abhängigkeiten <strong>von</strong> den Anwendungsfeldern<br />

Art der Eingabedaten<br />

Da saisonale Veränderungen einer Zeitreihe neben der Möglichkeit, eine zusätzliche Ein-<br />

gabevariable in das <strong>Prognose</strong>-Modell zu integrieren, auch im Rahmen der Vorverarbeitung<br />

63


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

bereits modelliert werden können, wird <strong>von</strong> derartigen rein saisonalen Eingabevariablen<br />

bei der Analyse der Eingabedaten abstrahiert. Dementsprechend verbleiben als Ausprä-<br />

gungen möglicher Arten <strong>von</strong> Eingabedaten rein endogene, rein exogene oder beide Daten-<br />

Arten.<br />

Wird nun die Verteilung dieser Ausprägungen in Abhängigkeit <strong>von</strong> dem jeweiligen An-<br />

wendungsbereich betrachtet, ergeben sich für einige Anwendungsbereiche signifikante<br />

Abweichungen <strong>von</strong> der in Kapitel 5 ermittelten unbedingten Verteilung. Zur Veranschau-<br />

lichung werden in Tabelle 30 sowohl alle bedingten Häufigkeiten als auch in der letzten<br />

Zeile die unbedingten Häufigkeiten absolut und relativ (in Klammern) angegeben.<br />

Anwendungsbereich Anzahl Rein endogen Rein exogen Endogen und exogen<br />

<strong>Zeitreihen</strong> in der Finanzwirtschaft 29 15 (52 %) 7 (24 %) 7 (24 %)<br />

Technische <strong>Zeitreihen</strong> 19 8 (42 %) 1 (5 %) 10 (53 %)<br />

Künstlich generierte <strong>Zeitreihen</strong> 19 19 (100 %) - -<br />

<strong>Zeitreihen</strong> aus der Umwelt 18 4 (22 %) 1 (6 %) 13 (72 %)<br />

Anzahl Sonnenflecken 8 8 (100 %) - -<br />

Stromverbrauch einer Region 4 3 (75 %) - 1 (25 %)<br />

Makroökonomische <strong>Zeitreihen</strong> 4 4 (100 %) - -<br />

<strong>Zeitreihen</strong> des Marketings 3 1 (33 %) 1 (33 %) 1 (33 %)<br />

<strong>Zeitreihen</strong> in der Medizin 1 - 1 (100 %) -<br />

Alle Anwendungsbereiche 105 62 (59 %) 11 (10 %) 32 (30 %)<br />

Tabelle 30: Art der <strong>zur</strong> <strong>Prognose</strong> verwendeten Eingabedaten nach Anwendungsbereichen<br />

Daraus ist ersichtlich, dass in erster Linie finanzwirtschaftliche <strong>Zeitreihen</strong> aufgrund <strong>von</strong><br />

rein exogenen Daten prognostiziert wurden. Bei technischen und Umwelt-<strong>Zeitreihen</strong> lag<br />

ein deutlich stärkeres Gewicht auf der Kombination <strong>von</strong> endogenen und exogenen Daten,<br />

und sowohl alle künstlich generierten <strong>Zeitreihen</strong> als auch die Anzahl an Sonnenflecken<br />

wurden ausschließlich aus eigenen Vergangenheitsdaten prognostiziert. Diese Ergebnisse<br />

sind nicht weiter überraschend, da finanzwirtschaftliche <strong>Zeitreihen</strong> oftmals selbst nur aus<br />

anderen Daten zusammengesetzte Reihen sind (bspw. bei einem Börsen-Index), während<br />

für die mathematisch generierten <strong>Zeitreihen</strong> und die Anzahl <strong>von</strong> Sonnenflecken keine<br />

externen Einflussfaktoren vorhanden sind. Mit der letztgenannten Erkenntnis ist jedoch<br />

der Schluss zulässig, dass den exogenen Eingabedaten insgesamt eine größere Bedeutung<br />

zukommt, als dies <strong>von</strong> der unbedingten Verteilung zu erwarten war.<br />

Zur <strong>Prognose</strong> verwendete Datensätze<br />

Auch bei der Anzahl der insgesamt <strong>zur</strong> Verfügung stehenden wie auch der schließlich<br />

zum Training verwendeten Daten wurden durch die Assoziationsanalyse Abhängigkeiten<br />

<strong>von</strong> den jeweiligen Anwendungsbereichen erkannt. Dass dies für beide Zahlen gilt, ist<br />

nicht weiter verwunderlich, da diese, wie in Kapitel 5.3.4 beschrieben, linear korrelieren.<br />

Um die Abhängigkeiten <strong>von</strong> den jeweiligen Anwendungsbereichen zu veranschaulichen<br />

werden in den Tabellen 31 und 32 die bedingten Häufigkeiten den unbedingten (jeweils<br />

letzte Zeile) gegenübergestellt.<br />

64


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Anwendungsbereich Anzahl<br />

≤ 250<br />

Anzahl <strong>zur</strong> Verfügung stehender Datensätze<br />

251–500 501–1000 1001–3000 > 3000<br />

Finanzw. <strong>Zeitreihen</strong> 24 3 (13 %) 1 (4 %) 7 (29 %) 7 (29 %) 6 (25 %)<br />

Technische <strong>Zeitreihen</strong> 15 4 (27 %) 4 (27 %) - 2 (13 %) 5 (33 %)<br />

Künstlich gen. <strong>Zeitreihen</strong> 18 6 (33 %) 1 (6 %) 7 (37 %) 2 (11 %) 2 (11 %)<br />

<strong>Zeitreihen</strong> der Umwelt 11 2 (18 %) 2 (18 %) 3 (27 %) 3 (27 %) 1 (9 %)<br />

Anzahl Sonnenflecken 8 - 7 (88 %) - - 1 (13 %)<br />

Stromverbrauch 3 - 1 (33 %) - 2 (67 %) -<br />

Makroökon. <strong>Zeitreihen</strong> 3 2 (67 %) 1 (33 %) - - -<br />

<strong>Zeitreihen</strong> des Marketings 3 - 1 (33 %) - 1 (33 %) 1 (33 %)<br />

<strong>Zeitreihen</strong> in der Medizin 1 - - - - 1 (100 %)<br />

Alle Bereiche 86 17 (20 %) 18 (21 %) 17 (20 %) 17 (20 %) 17 (20 %)<br />

Tabelle 31: Anzahl der <strong>zur</strong> <strong>Prognose</strong> <strong>zur</strong> Verfügung stehenden Datensätze nach Anwendungsbereichen<br />

Am deutlichsten stechen sowohl bei der Anzahl der <strong>zur</strong> Verfügung stehenden als auch<br />

bei der Anzahl an Trainings-Datensätzen die Sonnenflecken-<strong>Zeitreihen</strong> hervor, die offen-<br />

sichtlich fast alle auf sehr ähnlichen Datengrundlagen beruhen. Der Ausreißer lässt sich<br />

jeweils dadurch erklären, dass hier anstelle <strong>von</strong> jährlichen Werten monatliche Werte ver-<br />

wendet und prognostiziert wurden.<br />

Bei den anderen Anwendungsbereichen lassen sich ansonsten nur wenig signifikante sys-<br />

tematische Abweichungen erkennen. Lediglich bei den finanzwirtschaftlichen <strong>Zeitreihen</strong><br />

stehen offensichtlich in den meisten Fällen überdurchschnittlich viele Datensätze <strong>zur</strong> Ver-<br />

fügung. Insgesamt liefert die Differenzierung allerdings ein sehr ausgeglichenes Bild, da<br />

auch innerhalb der einzelnen Bereiche jeweils sehr verschiedene Anzahlen auftreten. Des-<br />

halb können aus diesen Aufstellungen auch keine weiteren Erkenntnisse über Abhängig-<br />

keiten gewonnen werden.<br />

Anwendungsbereich Anzahl<br />

≤ 250<br />

Anzahl der Trainings-Datensätze<br />

251–500 501–1000 1001–3000 > 3000<br />

Finanzw. <strong>Zeitreihen</strong> 23 3 (13 %) 6 (26 %) 2 (9 %) 12 (52 %) -<br />

Technische <strong>Zeitreihen</strong> 14 6 (43 %) 1 (7 %) 3 (21 %) - 4 (29 %)<br />

Künstlich gen. <strong>Zeitreihen</strong> 18 8 (44 %) 8 (44 %) 1 (6 %) - 1 (6 %)<br />

<strong>Zeitreihen</strong> aus der Umwelt 10 3 (30 %) 4 (40 %) - 3 (30 %) -<br />

Anzahl Sonnenflecken 8 7 (88 %) - - 1 (13 %) -<br />

Stromverbrauch 4 - 2 (50 %) - 2 (50 %) -<br />

Makroökon. <strong>Zeitreihen</strong> 3 2 (67 %) 1 (33 %) - - -<br />

<strong>Zeitreihen</strong> des Marketings 3 - 1 (33 %) - 2 (67 %) -<br />

Alle Anwendungsbereiche 83 29 (35 %) 23 (28 %) 6 (7 %) 20 (24 %) 5 (6 %)<br />

Tabelle 32: Anzahl der Trainings-Datensätze nach Anwendungsbereichen<br />

6.2.2 Abhängigkeiten <strong>von</strong> der verwendeten Datengrundlage<br />

Vorkommende Anwendungsbereiche in Abhängigkeit <strong>von</strong> der Vorverarbeitung der Einga-<br />

bedaten<br />

Zunächst erscheint es wenig sinnvoll, einzelne Merkmale auf Abhängigkeiten <strong>von</strong> den<br />

bei der Vorverarbeitung der Eingabedaten angewendeten Transformationen hin zu un-<br />

tersuchen, da der Entscheidungsweg eigentlich in der umgekehrten Richtung verläuft.<br />

65


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Dennoch wird diese Analyse hier durchgeführt, da aus ihrem Ergebnis Rückschlüsse auf<br />

potentielle in Entscheidungsrichtung verlaufende Abhängigkeiten gezogen werden könn-<br />

ten.<br />

In Tabelle 33 werden zunächst die einzelnen Anwendungsbereiche nach den jeweiligen<br />

Transformationen aufgeschlüsselt. An signifikanten Abweichungen fällt dabei in erster<br />

Linie auf, dass sowohl bei den Logarithmus-Funktionen als auch bei der Bildung <strong>von</strong><br />

Differenzen überdurchschnittlich viele finanzwirtschaftliche <strong>Zeitreihen</strong> betroffen sind.<br />

Transformation Anzahl Finanzw. Technik Künstl. Umwelt Sonnenfl. Sonstige<br />

Lin. Skalierung 36 11 (31 %) 5 (14 %) 9 (25 %) 7 (19 %) 2 (6 %) 2 (6 %)<br />

Logarithmus 16 13 (81 %) - - 1 (6 %) - 2 (13 %)<br />

Differenzen 16 13 (81 %) - - 1 (6 %) - 2 (13 %)<br />

Trend/Saison 5 2 (40 %) - - - - 3 (60 %)<br />

Gl. Durchschnitte 6 4 (76 %) 1 (17 %) - - - 1 (17 %)<br />

Rauschen 4 - 3 (75 %) 1 (25 %) - - -<br />

Wavelet 1 - - - - - 1 (100 %)<br />

Alle Transformat. 58 24 (41 %) 9 (16 %) 9 (16 %) 8 (14 %) 2 (3 %) 6 (10 %)<br />

Tabelle 33: Vorkommende Anwendungsbereiche differenziert nach im Preprocessing angewendeten<br />

Transformationen 106<br />

Diese Information alleine bringt zwar noch keinen praktischen Nutzen, jedoch ist nun zu<br />

untersuchen, ob diese Abhängigkeiten auch in umgekehrter Richtung gelten, da dies eine<br />

wichtige Hilfe für die Modellierung <strong>von</strong> <strong>Neuronale</strong>n <strong>Netze</strong>n darstellen würde. Hierfür<br />

sind in Tabelle 34 auch die bedingten Häufigkeiten in umgekehrter Richtung angegeben.<br />

Anwendungsber. Anzahl Skalierung Logarithmus Differenzen Gl. Durchschn. Sonstige<br />

Finanzwirtschaft 24 11 (46 %) 13 (54 %) 13 (54 %) 4 (17 %) 2 (8 %)<br />

Technik 9 5 (56 %) - - 1 (11 %) 3 (33 %)<br />

Künstl. Zeitr. 9 9 (100 %) - - - 1 (11 %)<br />

Umwelt 8 7 (88 %) 1 (13 %) 1 (13 %) - -<br />

Sonstige 8 4 (50 %) 2 (25 %) 2 (25 %) 1 (13 %) 4 (50 %)<br />

Alle Bereiche 58 36 (62 %) 16 (28 %) 16 (28 %) 6 (10 %) 10 (17 %)<br />

Tabelle 34: In der Vorverarbeitung angewendete Transformationen nach Anwendungsbereichen 107<br />

Anhand der in Tabelle 34 aufgeführten Daten ist ersichtlich, dass es sich tatsächlich bei<br />

immerhin mehr als der Hälfte der Transformationen, die für die finanzwirtschaftlichen<br />

<strong>Zeitreihen</strong> angegeben wurden, um die Logarithmus- und Differenzenfunktionen handel-<br />

te. Daraus kann abgeleitet werden, dass derartige Transformationen bei der Modellierung<br />

<strong>von</strong> <strong>Prognose</strong>n auf finanzwirtschaftlichen <strong>Zeitreihen</strong> immer zumindest in Erwägung ge-<br />

zogen werden sollten.<br />

106 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. Da die Anwendungsbereiche<br />

Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant oft vorkamen, werden<br />

sie hier aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst.<br />

107 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. Da die Anwendungsbereiche<br />

Sonnenflecken, Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant oft<br />

vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst. Gleiches<br />

gilt für die Transformationen Trend-/Saisonkomponente, Rauschen und Wavelet.<br />

66


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Verwendete Vergangenheitstiefen in Abhängigkeit <strong>von</strong> der Vorverarbeitung der Eingabe-<br />

daten<br />

Auch bei der Vergangenheitstiefe, der Größe des Eingabe-Zeitfensters der <strong>Prognose</strong>-Mo-<br />

delle, wurden durch die Assoziationsanalyse Abhängigkeiten <strong>von</strong> den in der Vorverarbei-<br />

tung angewendeten Transformationen ermittelt. Wie aus den in Tabelle 35 angegebenen<br />

Werten ersichtlich ist, gilt dies in erster Linie für die Bildung gleitender Durchschnitte,<br />

die offensichtlich durchweg zu einer großen Vergangenheitstiefe führt. Diese Abhängig-<br />

keit liegt in der Natur der Sache, wird es doch gerade durch derartige bereits im Vorhinein<br />

aggregierte Daten ermöglicht, Informationen aus einem relativ großen Zeitspektrum zu<br />

integrieren, ohne dadurch die Komplexität der Netz-Topologie unverhältnismäßig stark<br />

zu strapazieren.<br />

Angewendete Transformation Anzahl 1 Schritt 2–9 Schritte ≥ 10 Schritte<br />

Lineare Skalierung 31 6 (19 %) 16 (52 %) 9 (29 %)<br />

Logarithmus 14 2 (14 %) 7 (50 %) 5 (36 %)<br />

Differenzenbildung 14 2 (14 %) 6 (43 %) 6 (43 %)<br />

Trend- und Saisonbereinigung 5 2 (40 %) 3 (60 %) -<br />

Bildung gleitender Durchschnitte 5 - - 5 (100 %)<br />

Hinzufügen <strong>von</strong> Rauschen 3 - 3 (100 %) -<br />

Alle Transformationen 50 6 (12 %) 27 (54 %) 17 (34 %)<br />

Tabelle 35: Vergangenheitstiefen differenziert nach in der Vorverarbeitung angewendeten Transformationen<br />

108<br />

Auch hier ist jedoch die umgekehrte Sichtweise für die Unterstützung eines Modellie-<br />

rungs-Prozesses <strong>von</strong> Bedeutung. Dabei ist es <strong>von</strong> besonderem Interesse, wie häufig für<br />

eine Vergangenheitstiefe <strong>von</strong> mehr als neun Schritten auf die Bildung gleitender Durch-<br />

schnitte <strong>zur</strong>ückgegriffen wurde. Ebenso könnte die Größe des Eingabefensters einen Ein-<br />

fluss auf die Anwendung anderer Transformationen haben. Um dies zu untersuchen wer-<br />

den in Tabelle 36 auch die umgekehrt bedingten Häufigkeiten angegeben.<br />

Vergangenh.-Tiefe Anzahl Skalierung Logarithm. Differenzen Gl. Durchschn. Sonstige<br />

1 Schritt 6 6 (100 %) 2 (33 %) 2 (33 %) - 2 (33 %)<br />

2–9 Schritte 27 16 (59 %) 7 (26 %) 6 (22 %) - 6 (22 %)<br />

≥ 10 Schritte 17 9 (53 %) 5 (29 %) 6 (35 %) 5 (29 %) -<br />

Alle Anwendungen 50 31 (62 %) 14 (28 %) 14 (28 %) 5 (10 %) 8 (16 %)<br />

Tabelle 36: In der Vorverarbeitung angewendete Transformationen nach Vergangenheitstiefen der<br />

Eingabedaten 109<br />

Es zeigt sich jedoch, dass lediglich bei weniger als einem Drittel der Anwendungen mit<br />

großer Vergangenheitstiefe gleitende Durchschnitte gebildet wurden. Stattdessen lässt<br />

sich allerdings die Tendenz beobachten, dass die Anwendung einer linearen Skalierung<br />

108 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert.<br />

109 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. Da die Transformationen<br />

Trend-/Saisonkomponente, Rauschen und Wavelet nur insignifikant oft vorkamen, werden sie hier aus<br />

Gründen der Übersichtlichkeit unter Sonstige zusammengefasst.<br />

67


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

mit einer zunehmenden Vergangenheitstiefe abnimmt. Dies ist damit zu erklären, dass<br />

sich das Netz mit einem größeren Eingabefenster besser auf systematische Schwankun-<br />

gen einstellen kann.<br />

Anzahl der Trainings-Datensätze in Abhängigkeit <strong>von</strong> der Anzahl insgesamt <strong>zur</strong> Verfü-<br />

gung stehendender Datensätze<br />

Wie bereits in Kapitel 5.3.4 beschrieben, deutet der Korrelations-Koeffizient <strong>von</strong> 75 %<br />

zwischen der Anzahl der insgesamt <strong>zur</strong> Verfügung stehenden und der dann zum Training<br />

genutzten Datensätze auf eine lineare Abhängigkeit zwischen den beiden Kriterien hin.<br />

Demnach ist es nicht weiter verwunderlich, dass diese Abhängigkeit durch die Assoziati-<br />

onsanalyse identifiziert wurde. Auch aus Tabelle 37 ist der direkte Zusammenhang deut-<br />

lich erkennbar, dass in den untersuchten Anwendungen eine größere Anzahl <strong>von</strong> <strong>zur</strong> Ver-<br />

fügung stehenden Datensätzen auch zu einer größeren Anzahl <strong>von</strong> Trainings-Datensätzen<br />

führte.<br />

Anzahl aller Datensätze Anzahl<br />

≤ 250<br />

Anzahl der Trainings-Datensätze<br />

251–500 501–1000 1001–3000 > 3000<br />

Bis 250 Datensätze 16 16 (100 %) - - - -<br />

251–500 Datensätze 17 12 (71 %) 5 (29 %) - - -<br />

501–1000 Datensätze 17 - 16 (94 %) 1 (6 %) - -<br />

1001–3000 Datensätze 17 - 1 (6 %) 4 (24 %) 12 (71 %) -<br />

Mehr als 3000 Datensätze 15 1 (7 %) - 1 (7 %) 8 (53 %) 5 (33 %)<br />

Alle betr. Anwendungen 82 29 (35 %) 22 (27 %) 6 (7 %) 20 (24 %) 5 (6 %)<br />

Tabelle 37: Anzahl der Trainings-Datensätze nach der Anzahl der insgesamt <strong>zur</strong> Verfügung stehenden<br />

Datensätze<br />

Zur Verfügung stehende Anzahl an Datensätzen in Abhängigkeit <strong>von</strong> der Anzahl verwen-<br />

deter Test-Datensätze<br />

Auch bei der Anzahl an Test-Datensätzen wurde in Kapitel 5.3.4 bereits eine Abhängig-<br />

keit <strong>von</strong> der Anzahl an <strong>zur</strong> Verfügung stehenden Datensätzen vermutet, da diese Grö-<br />

ße oftmals als fester Anteil aller Daten festgelegt wird. Ebenso deutet der Korrelations-<br />

Koeffizient beider Merkmale mit 65 % auf einen linearen Zusammenhang hin. Durch die<br />

Anzahl Test-Datensätze Anzahl<br />

≤ 250<br />

Anzahl <strong>zur</strong> Verfügung stehender Datensätze<br />

251–500 501–1000 1001–3000 > 3000<br />

Bis 30 Datensätze 6 5 (83 %) 1 (17 %) - - -<br />

31–60 Datensätze 24 9 (38 %) 8 (33 %) 7 (29 %) - -<br />

61–200 Datensätze 13 2 (15 %) 3 (23 %) 3 (23 %) 4 (31 %) 1 (8 %)<br />

201–500 Datensätze 19 - 2 (11 %) 7 (37 %) 8 (42 %) 2 (11 %)<br />

501–1000 Datensätze 8 - - - 5 (63 %) 3 (38 %)<br />

Mehr als 1000 Datensätze 8 - - - - 8 (100 %)<br />

Alle betr. Anwendungen 78 16 (21 %) 14 (18 %) 17 (22 %) 17 (22 %) 14 (18 %)<br />

Tabelle 38: Anzahl der <strong>zur</strong> <strong>Prognose</strong> <strong>zur</strong> Verfügung stehenden Datensätze nach der Anzahl der<br />

Test-Datensätze<br />

68


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Assoziationsanalyse wurde jedoch lediglich eine umgekehrte Abhängigkeit identifiziert.<br />

Die konkreten Häufigkeiten hierfür sind in Tabelle 38 aufgeführt.<br />

Hier ist deutlich ersichtlich, dass <strong>von</strong> der Anzahl der Test-Daten bei den untersuchten An-<br />

wendungen auch durchaus auf die Anzahl an <strong>zur</strong> Verfügung stehenden Daten geschlos-<br />

sen werden kann. Da im Fall dieser Abhängigkeit jedoch ausschließlich die umgekehrte<br />

Information einen Beitrag für eine zukünftige Partitionierung <strong>von</strong> Daten eines <strong>Prognose</strong>-<br />

Modells leisten könnte, werden in Tabelle 39 auch die umgekehrt bedingten Häufigkeiten<br />

aufgeführt.<br />

Alle Datensätze Anzahl<br />

≤ 30 31–60<br />

Anzahl der Test-Datensätze<br />

61–200 201–500 501–1000 > 1000<br />

≤ 250 16 5 (31 %) 9 (56 %) 2 (13 %) - - -<br />

251–500 14 1 (7 %) 8 (57 %) 3 (21 %) 2 (14 %) - -<br />

501–1000 17 - 7 (41 %) 3 (18 %) 7 (41 %) - -<br />

1001–3000 17 - - 4 (24 %) 8 (47 %) 5 (29 %) -<br />

> 3000 14 - - 1 (7 %) 2 (14 %) 3 (21 %) 8 (57 %)<br />

Alle Anwend. 78 8 (6 %) 24 (31 %) 13 (17 %) 19 (24 %) 8 (10 %) 8 (10 %)<br />

Tabelle 39: Anzahl an Test-Datensätzen differenziert nach der Anzahl <strong>zur</strong> Verfügung stehender<br />

Datensätze<br />

In dieser Bedingungs-Richtung ist zwar die Streuung über die in dieser Arbeit gewählten<br />

Klassen größer, weshalb dieser Zusammenhang durch den Apriori-Algorithmus nicht als<br />

signifikant identifiziert wurde. Trotzdem ist der Zusammenhang, dass bei Vorliegen eines<br />

größeren Datenvorrats in den untersuchten Anwendungen auch eine größere Anzahl an<br />

Test-Datensätzen gewählt wurde, durch diese Auflistung unzweifelhaft erkennbar.<br />

Für das Training verwendete Anzahl an Datensätzen in Abhängigkeit <strong>von</strong> der Anzahl der<br />

verwendeten Test-Datensätze<br />

Da in den vorausgegangenen Abschnitten sowohl Abhängigkeiten zwischen der Anzahl<br />

<strong>zur</strong> Verfügung stehender und der Anzahl zum Training verwendeter Datensätze als auch<br />

Abhängigkeiten zwischen der Anzahl <strong>zur</strong> Verfügung stehender und der Anzahl zum Tes-<br />

ten verwendeter Datensätze aufgezeigt wurden, ist es nicht weiter überraschend, dass<br />

durch die Assoziationsanalyse auch eine Abhängigkeit der Anzahl zum Training ver-<br />

wendeter <strong>von</strong> der Anzahl zum Testen verwendeter Datensätze identifiziert wurde. Die<br />

bedingten Häufigkeiten hierfür sind in Tabelle 40 angegeben.<br />

Anzahl Test-Datensätze Anzahl<br />

≤ 250<br />

Anzahl der Trainings-Daten<br />

251–500 501–1000 1001–3000 > 3000<br />

Bis 30 6 5 (83 %) 1 (17 %) - - -<br />

31–60 24 14 (58 %) 9 (38 %) 1 (4 %) - -<br />

61–200 13 5 (38 %) 3 (23 %) 2 (15 %) 2 (15 %) 1 (8 %)<br />

201–500 20 2 (10 %) 9 (45 %) 1 (5 %) 8 (40 %) -<br />

501–1000 8 - - 1 (13 %) 4 (50 %) 3 (38 %)<br />

Mehr als 1000 8 1 (13 %) - 1 (13 %) 6 (75 %) -<br />

Alle betr. Anwendungen 79 27 (34 %) 22 (28 %) 6 (8 %) 20 (25 %) 4 (5 %)<br />

Tabelle 40: Anzahl der Trainings-Datensätze nach der Anzahl der Test-Datensätze<br />

69


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Das Bild ist nicht so eindeutig wie bei den beiden anderen Verknüpfungen. Aber auch<br />

hier wird deutlich, dass insbesondere eine kleine Anzahl an Test-Datensätzen auch auf<br />

nur wenige Trainings-Datensätze und entsprechend eine große Zahl an Test-Datensätzen<br />

auf viele Trainings-Datensätze <strong>zur</strong>ückzuführen ist. Da die beiden Datenmengen aber of-<br />

fensichtlich jeweils in Abhängigkeit <strong>von</strong> der Gesamtmenge an Datensätzen gewählt wur-<br />

den, ergibt sich aus dieser Information für eine zukünftige Partitionierung der Daten kein<br />

weiterer Nutzen.<br />

6.2.3 Abhängigkeiten vom Aufbau der <strong>Netze</strong><br />

Anzahl aller Neuronen in Abhängigkeit <strong>von</strong> der Anzahl der Neuronen der Eingabeschicht<br />

Durch die Assoziationsanalyse wurde auch eine Abhängigkeit der Gesamtzahl an Neuro-<br />

nen <strong>von</strong> der Anzahl der Eingabe-Neuronen identifiziert. Dies wird durch den Korrelations-<br />

Koeffizienten dieser beiden Merkmale untermauert, der mit 73 % sogar auf einen linearen<br />

Zusammenhang hindeutet. Mit der inhaltlich leicht nachvollziehbaren Begründung, dass<br />

mit zusätzlichen Neuronen in der Eingabeschicht auch automatisch die Gesamtzahl an<br />

Neuronen steigt und dies in der Regel <strong>zur</strong> Hinzunahme <strong>von</strong> Neuronen in den verborgenen<br />

Schichten führt, werden in Tabelle 41 die bedingten Häufigkeiten wiedergegeben.<br />

Anzahl der Eingabe-Neuronen Anzahl < 20 Neur. 20–34 Neur. 35–49 Neur. ≥ 50 Neur.<br />

1 Eingabe-Neuron 10 7 (70 %) 1 (10 %) 1 (10 %) 1 (10 %)<br />

2 bis 4 Neuronen 13 11 (85 %) - 1 (8 %) 1 (8 %)<br />

5 bis 9 Neuronen 26 23 (88 %) 3 (12 %) - -<br />

10 bis 19 Neuronen 20 5 (25 %) 9 (45 %) 4 (20 %) 2 (10 %)<br />

Mehr als 20 Neuronen 8 - - 2 (25 %) 6 (75 %)<br />

Alle betrachteten Anwendungen 77 46 (60 %) 13 (17 %) 8 (10 %) 10 (13 %)<br />

Tabelle 41: Anzahl aller Neuronen nach Anzahl der Neuronen der Eingabeschicht<br />

Hieraus ist sofort ersichtlich, dass in den untersuchten Anwendungen in den meisten Fäl-<br />

len tatsächlich bei weniger als 10 Eingabe-Neuronen auch insgesamt weniger als 20 Neu-<br />

ronen eingesetzt wurden und die Verwendung <strong>von</strong> mehr als 20 Eingabe-Neuronen auch<br />

zu einer relativ großen Anzahl an Neuronen insgesamt geführt hat.<br />

Anzahl der Schichten in Abhängigkeit <strong>von</strong> der Anzahl aller Neuronen<br />

Bereits bei einer intuitiven Betrachtung ist es nachvollziehbar, dass die Gesamtzahl an<br />

Neuronen einen direkten Einfluss auf die Anzahl an Schichten hat. So lässt sich eine große<br />

Anzahl an Neuronen der Zwischenschichten einfacher auf mehr als eine Schicht vertei-<br />

len. Auch statistisch deutet ein Korrelations-Koeffizient <strong>von</strong> 56 % zumindest noch auf<br />

gewisse lineare Zusammenhänge hin, die diese Vermutung unterstützen. Auch die in Ta-<br />

belle 42 aufgeführten bedingten Häufigkeiten bestätigen diesen Zusammenhang, da hier<br />

zu erkennen ist, dass mit einer zunehmenden Anzahl an Neuronen bei verhältnismäßig<br />

immer mehr der untersuchten Anwendungen vier statt drei Schichten eingesetzt wurden.<br />

70


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Gesamtzahl der Neuronen Anzahl 3 Schichten 4 Schichten 6 Schichten<br />

Bis 19 Neuronen 46 40 (87 %) 6 (13 %) -<br />

20 bis 34 Neuronen 11 8 (73 %) 3 (27 %) -<br />

35 bis 49 Neuronen 8 5 (63 %) 3 (38 %) -<br />

Mehr als 50 Neuronen 10 1 (10 %) 8 (80 %) 1 (10 %)<br />

Alle betrachteten Anwendungen 75 54 (72 %) 20 (27 %) 1 (1 %)<br />

Tabelle 42: Anzahl der Schichten nach der Gesamtzahl der Neuronen<br />

Unter Berücksichtigung des in Kapitel 5.4.2 beschriebenen Vorgehens, bei dem eine Ef-<br />

fizienzsteigerung erreicht werden kann, indem bei gleicher Netzkomplexität die Gesamt-<br />

zahl <strong>von</strong> Neuronen durch Hinzunahme einer weiteren Schicht reduziert wird, muss dieser<br />

Zusammenhang jedoch mit Vorsicht betrachtet werden. Entweder wurde der Forderung<br />

nach einer kleinst-möglichen Komplexität in den untersuchten Anwendungen nicht ent-<br />

sprochen oder der Effekt der Reduktion der Neuronen-Zahl bei Hinzunahme einer weite-<br />

ren Schicht fiel jeweils so gering aus, dass er in der dargestellten Form nicht signifikant<br />

ins Gewicht fällt.<br />

Verwendete Netz-Typen in Abhängigkeit <strong>von</strong> der Verbindungsstruktur<br />

Da die grundsätzliche Art der Verbindungsstruktur in der Regel durch den jeweiligen<br />

Netz-Typ bereits festgelegt wird, ist es nicht weiter überraschend, dass auch Abhängigkei-<br />

ten der Netz-Typen <strong>von</strong> den Strukturen der Neuronen-Verbindungen identifiziert wurden.<br />

In Tabelle 43 sind daher die jeweiligen bedingten und unbedingten Häufigkeiten aufge-<br />

führt, mit denen die einzelnen Netz-Typen in den untersuchten Anwendungen eingesetzt<br />

wurden.<br />

Verbindungsstruktur Anzahl MLP RBF-<strong>Netze</strong> RNN Fuzzy-<strong>Netze</strong> Sonstige<br />

Nr. 1 75 61 (81 %) 6 (8 %) - 3 (4 %) 5 (7 %)<br />

Nr. 5 1 - - 1 (100 %) - -<br />

Nr. 7 4 - - 4 (100 %) - -<br />

Nr. 9 5 - - 1 (20 %) 1 (20 %) 3 (60 %)<br />

Nr. 17 6 - - 6 (100 %) - -<br />

Alle Strukturen 91 61 (67 %) 6 (7 %) 12 (13 %) 4 (4 %) 8 (9 %)<br />

Tabelle 43: Verwendeter Netz-Typ nach Art der Verbindungsstruktur 110<br />

Auffällig ist in erster Linie, dass alle Verbindungsstrukturen außer der Nr. 1 (ebenen-<br />

weise verbundene Feedforward-<strong>Netze</strong>) überwiegend bei rekurrenten <strong>Neuronale</strong>n <strong>Netze</strong>n<br />

(RNN) eingesetzt werden. Dies ist jedoch leicht nachvollziehbar, da alle diese Verbin-<br />

dungsstrukturen im Gegensatz <strong>zur</strong> Struktur Nr. 1 Rückkopplungen verursachen. Um für<br />

eine Modellierung hilfreiche Informationen zu erhalten, ist es allerdings notwendig, die<br />

umgekehrte Bedingungs-Richtung zu betrachten. Hierfür werden in Tabelle 44 die umge-<br />

kehrt bedingten Häufigkeiten angegeben.<br />

Wie erwartet, ist hieraus ersichtlich, dass in den untersuchten Anwendungen für Multi-<br />

Layer Perceptrons (MLP) und Radiale-Basisfunktionen-<strong>Netze</strong> (RBF-<strong>Netze</strong>) ausschließ-<br />

110 Die ausformulierten Verbindungsstrukturen sind u. a. in Anhang A auf Seite 100 angegeben.<br />

71


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

lich die Verbindungsstruktur eines normalen Feedforward-<strong>Netze</strong>s verwendet wurde. Bei<br />

den rekurrenten <strong>Netze</strong>n kamen dagegen diverse unterschiedliche Arten <strong>von</strong> rekurrenten<br />

Verbindungen zum Einsatz.<br />

Netz-Typ Anzahl Nr. 1 Nr. 5 Nr. 7 Nr. 9 Nr. 17<br />

MLP 61 61 (100 %) - - - -<br />

RBF-<strong>Netze</strong> 6 6 (100 %) - - - -<br />

RNN 12 - 1 (8 %) 4 (33 %) 1 (8 %) 6 (50 %)<br />

Fuzzy-<strong>Netze</strong> 4 3 (75 %) - - 1 (25 %) -<br />

Sonstige 8 5 (63 %) - - 1 (25 %) -<br />

Alle Typen 91 75 (82 %) 1 (1 %) 4 (4 %) 5 (5 %) 6 (7 %)<br />

Tabelle 44: Verwendete Verbindungsstruktur differenziert nach Netz-Typen 111<br />

Verwendete Netz-Typen in Abhängigkeit <strong>von</strong> den Aktivierungsfunktionen<br />

Die Abhängigkeit zwischen den unterschiedlichen Netz-Typen und den Aktivierungs-<br />

funktionen ist in erster Linie durch den Spezialfall der radialen Basisfunktion oder auch<br />

Gaußfunktion zu erklären. Wie in Kapitel 3.4.2 beschrieben, handelt es sich dabei um<br />

einen charakteristischen Bestandteil der gleichnamigen RBF-<strong>Netze</strong>, so dass es nicht wei-<br />

ter verwunderlich ist, dass diese in den untersuchten Anwendungen jeweils abhängig <strong>von</strong>-<br />

einander auftreten. Dies wird auch durch die in Tabelle 45 aufgeführten Häufigkeiten be-<br />

stätigt, nach denen die Gaußfunktion ausschließlich in RBF-<strong>Netze</strong>n zum Einsatz kam.<br />

Aktivierungsfunktion Anzahl MLP RBF-<strong>Netze</strong> RNN Fuzzy-<strong>Netze</strong> Sonstige<br />

Sigmoide Fkt. 55 40 (73 %) - 10 (18 %) 1 (2 %) 4 (7 %)<br />

Gaußfunktion 6 - 5 (83 %) - - 1 (17 %)<br />

Lineare Fkt. 4 1 (25 %) - - - 3 (75 %)<br />

Sonstige Fkt. 4 1 (25 %) - - - 3 (75 %)<br />

Alle Funktionen 65 42 (65 %) 5 (8 %) 10 (15 %) 1 (2 %) 7 (11 %)<br />

Tabelle 45: Verwendeter Netz-Typ nach Aktivierungsfunktion der verborgenen Schichten 112<br />

Letztlich dürfte jedoch für eine Modellierung auch hier wieder die umgekehrte Be-<br />

dingungs-Richtung <strong>von</strong> Interesse sein, weshalb die umgekehrt bedingten Häufigkeiten<br />

Netz-Typ Anzahl Sigmoid Gaußfunktion Linear Sonstige<br />

MLP 42 40 (95 %) - 1 (2 %) 1 (2 %)<br />

RBF-<strong>Netze</strong> 5 - 5 (100 %) - -<br />

RNN 10 10 (100 %) - - -<br />

Fuzzy-<strong>Netze</strong> 1 1 (100 %) - - -<br />

Sonstige 7 4 (57 %) 1 (14 %) 3 (43 %) 3 (43 %)<br />

Alle Typen 65 55 (85 %) 6 (9 %) 4 (6 %) 4 (6 %)<br />

Tabelle 46: Verwendete Aktivierungsfunktionen differenziert nach Netz-Typen 113<br />

111 Die ausformulierten Verbindungsstrukturen sind u. a. in Anhang A auf Seite 100 angegeben.<br />

112 In einigen Anwendungen wurden unterschiedliche Aktivierungsfunktionen innerhalb der verborgenen<br />

Schichten kombiniert.<br />

113 In einigen Anwendungen wurden unterschiedliche Aktivierungsfunktionen innerhalb der verborgenen<br />

Schichten kombiniert.<br />

72


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

in Tabelle 46 aufgeführt werden. Das Ergebnis fällt auch hier erwartungsgemäß aus. So<br />

wurden in RBF-<strong>Netze</strong>n ausschließlich Gaußfunktionen als Aktivierungs- bzw. Zentrums-<br />

funktionen eingesetzt.<br />

6.3 Untersuchung der nicht erwarteten Abhängigkeiten<br />

Neben den im vorangegangenen Kapitel beschriebenen Abhängigkeiten, die sich dadurch<br />

auszeichnen, dass sie letztlich auch a priori schon bekannt waren, wurden im Rahmen der<br />

in Kapitel 6.1 erwähnten Assoziationsanalyse auch nicht erwartete Abhängigkeiten iden-<br />

tifiziert, deren inhaltliche Begründung nur schwer oder gar nicht gegeben werden kann.<br />

Eine mögliche Ursache für solche nicht erwarteten Abhängigkeiten können zum einen<br />

zufällige Unregelmäßigkeiten in den Daten sein, die bei einer so kleinen Datengrundlage,<br />

wie sie für diese Analyse verwendet wurde, schnell unverhältnismäßig stark ins Gewicht<br />

fallen können. Zum anderen ist die Intention dieser Untersuchung ja gerade auch die Auf-<br />

deckung noch nicht bekannter bzw. nicht erwarteter Zusammenhänge.<br />

Aus diesem Grund werden auch alle Zusammenhänge, die in die Gruppe der nicht er-<br />

warteten Abhängigkeiten fallen, in diesem Kapitel näher untersucht. Auch hier bietet es<br />

sich in einigen Fällen an, zusätzlich auch die umgekehrt bedingten Abhängigkeiten zu<br />

betrachten, was unmittelbar an der jeweiligen Stelle geschieht. In Abbildung 23 sind alle<br />

in diesem Kapitel analysierten Zusammenhänge jeweils durch ein X markiert.<br />

In Abhängigkeit <strong>von</strong><br />

Untersuchung <strong>von</strong><br />

A B C D E F G H I J K L M N O P Q R<br />

A X<br />

B X<br />

C<br />

D<br />

E<br />

F X<br />

G<br />

H X<br />

I X<br />

J X<br />

K<br />

L<br />

M X<br />

N<br />

O X<br />

P X<br />

Q<br />

R X<br />

Abbildung 23: Untersuchte Abhängigkeiten zwischen unterschiedlichen Kriterien II<br />

Als Ergebnis der in diesem Kapitel durchgeführten Analysen werden die untersuchten<br />

Abhängigkeiten jeweils danach differenziert, ob sich aus den jeweiligen Bedingungen In-<br />

formationen für den Modellierungs-Prozess eines <strong>Prognose</strong>-Modells ableiten lassen, oder<br />

73


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

ob es sich bei den identifizierten Zusammenhängen lediglich um zufällige, unsystemati-<br />

sche Abweichungen handelt. Bei dieser Differenzierung muss jedoch berücksichtigt wer-<br />

den, dass die Ergebnisse aufgrund der nur relativ kleinen Datengrundlage mit Vorsicht<br />

zu betrachten sind. In jedem Fall würde es sich anbieten, die gewonnenen Erkenntnisse<br />

in weiteren Untersuchungen auf der Grundlage einer größeren Anzahl an Datensätzen zu<br />

verifizieren.<br />

6.3.1 Abhängigkeiten <strong>von</strong> der verwendeten Datengrundlage<br />

Anzahl an Neuronen in der Eingabeschicht in Abhängigkeit <strong>von</strong> der Anzahl <strong>zur</strong> Verfügung<br />

stehender Datensätze<br />

Im Rahmen der Assoziationsanalyse wurde als auffällig identifiziert, dass bei Anwendun-<br />

gen, bei denen mehr als 3000 Datensätze <strong>zur</strong> Verfügung standen, deutlich öfter zwischen<br />

fünf und neun Neuronen in der Eingabeschicht waren, als dies <strong>von</strong> der unbedingten Ver-<br />

teilung her zu erwarten gewesen wäre. In Tabelle 47 ist zu sehen, dass es sich dabei<br />

offensichtlich um zwölf Anwendungen handelt, bei denen diese Kombination vorlag. Da<br />

eine solche Abhängigkeit jedoch nicht rational begründet werden kann, handelt es sich<br />

hierbei vermutlich um eine zufällige Häufung, aus der keine weiteren Schlüsse gezogen<br />

werden können.<br />

Anzahl Datensätze Anzahl 1 Neuron 2–4 Neur. 5–9 Neur. 10–19 Neur. ≥ 20 Neur.<br />

Bis 250 Datensätze 15 1 (7 %) 4 (27 %) 3 (20 %) 7 (47 %) -<br />

251–500 Datensätze 17 3 (18 %) 6 (35 %) 1 (6 %) 7 (41 %) -<br />

501–1000 Datensätze 15 1 (7 %) 5 (33 %) 9 (60 %) - -<br />

1001–3000 Datensätze 15 3 (20 %) - 5 (33 %) 3 (20 %) 4 (27 %)<br />

Mehr als 3000 Datens. 15 1 (7 %) 1 (7 %) 12 (80 %) 1 (7 %) -<br />

Alle betr. Anwendungen 77 9 (12 %) 16 (21 %) 30 (39 %) 18 (23 %) 4 (5 %)<br />

Tabelle 47: Anzahl der Eingabe-Neuronen nach der Anzahl der <strong>zur</strong> Verfügung stehenden Datensätze<br />

Anzahl der Neuronen der Eingabeschicht in Abhängigkeit <strong>von</strong> der Anzahl zum Testen<br />

verwendeter Datensätze<br />

Ein ähnlicher Zusammenhang wurde zwischen der Anzahl der Eingabe-Neuronen und der<br />

Anzahl der Test-Datensätze identifiziert. Wie in Tabelle 48 zu sehen ist, wurde auch bei<br />

mehr als 500 Test-Datensätzen in den untersuchten Anwendungen besonders häufig eine<br />

Eingabeschicht mit fünf bis neun Neuronen angegeben.<br />

Diese Abweichungen sind insofern nicht weiter überraschend, da bereits in Kapitel 6.2.2<br />

ein enger Zusammenhang zwischen der Anzahl <strong>zur</strong> Verfügung stehender und der Anzahl<br />

zum Testen verwendeter Datensätze aufgezeigt wurde. Demnach beruht der hier festge-<br />

stellte Zusammenhang, entsprechend dem im vorangegangenen Abschnitt beschriebenen,<br />

vermutlich auch auf rein zufälligen Häufungen in den untersuchten Anwendungen.<br />

74


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Test-Datensätze Anzahl 1 Neuron 2–4 Neur. 5–9 Neur. 10–19 Neur. ≥ 20 Neur.<br />

Bis 30 Datensätze 5 1 (20 %) - 2 (40 %) 2 (40 %) -<br />

31–60 Datensätze 23 1 (4 %) 3 (13 %) 9 (39 %) 10 (43 %) -<br />

61–200 Datensätze 10 3 (30 %) 6 (60 %) 1 (10 %) - -<br />

201–500 Datensätze 18 2 (11 %) 5 (28 %) 4 (22 %) 3 (17 %) 4 (22 %)<br />

501–1000 Datensätze 8 - - 7 (88 %) 1 (13 %) -<br />

Mehr als 1000 Datens. 7 - 1 (14 %) 6 (86 %) - -<br />

Alle betr. Anwendungen 71 7 (10 %) 15 (21 %) 29 (41 %) 16 (23 %) 4 (6 %)<br />

Tabelle 48: Anzahl der Eingabe-Neuronen nach der Anzahl der Test-Datensätze<br />

6.3.2 Abhängigkeiten vom Aufbau der <strong>Netze</strong><br />

Vorkommende Anwendungsbereiche in Abhängigkeit der verwendeten Netz-Typen<br />

Die Information darüber, welche Anwendungsbereiche betroffen sind, wenn ein spezi-<br />

eller Netz-Typ zum Einsatz kam, ist für einen Modellierungs-Prozess nur <strong>von</strong> geringem<br />

Interesse. Da ein solcher Zusammenhang aber <strong>von</strong> dem Apriori-Algorithmus identifiziert<br />

wurde, werden in Tabelle 49 die jeweiligen bedingten Häufigkeiten angegeben.<br />

Netz-Typ Anzahl Finanzw. Technik Künstl. Umwelt Sonnenfl. Sonstige<br />

MLP 62 20 (32 %) 11 (18 %) 9 (15 %) 14 (23 %) 4 (6 %) 4 (6 %)<br />

RBF-<strong>Netze</strong> 8 - 1 (13 %) 6 (75 %) - - 1 (13 %)<br />

RNN 13 3 (23 %) 3 (23 %) 1 (8 %) 1 (8 %) 2 (15 %) 3 (23 %)<br />

TDNN 2 - - 1 (50 %) - 1 (50 %) -<br />

Fuzzy-<strong>Netze</strong> 4 - 3 (75 %) - - - 1 (25 %)<br />

Sonstige 14 6 (43 %) 1 (7 %) 2 (14 %) 2 (14 %) 1 (7 %) 2 (14 %)<br />

Alle Typen 103 29 (28 %) 19 (18 %) 19 (18 %) 17 (17 %) 8 (8 %) 11 (11 %)<br />

Tabelle 49: Vorkommende Anwendungsbereiche differenziert nach verwendeten Netz-Typen 114<br />

Als auffällige Abweichung <strong>von</strong> den unbedingten Häufigkeiten wurden die verhältnismä-<br />

ßig häufigen künstlichen <strong>Zeitreihen</strong> bei Anwendung <strong>von</strong> RBF-<strong>Netze</strong>n erkannt. Da es sich<br />

allerdings um lediglich sechs Anwendungen handelt, die diese Verschiebung verursachen,<br />

liegt hier wahrscheinlich nur eine zufällige Abweichung vor. Selbst wenn es eine solche<br />

Anwendungsber. Anzahl MLP RBF-<strong>Netze</strong> RNN TDNN Fuzzy Sonstige<br />

Finanzwirtschaft 29 20 (69 %) - 3 (10 %) - - 6 (21 %)<br />

Technik 19 11 (58 %) 1 (5 %) 3 (16 %) - 3 (16 %) 1 (5 %)<br />

Künstl. Zeitr. 19 9 (47 %) 6 (32 %) 1 (5 %) 1 (5 %) - 2 (11 %)<br />

Umwelt 17 14 (82 %) - 1 (6 %) - - 2 (12 %)<br />

Sonnenflecken 8 4 (50 %) - 2 (25 %) 1 (13 %) - 1 (13 %)<br />

Stromverbrauch 4 1 (25 %) - 1 (25 %) - - 2 (50 %)<br />

Makroökonomik 4 2 (50 %) 1 (25 %) 1 (25 %) - - -<br />

Marketing 2 1 (50 %) - - - 1 (50 %) -<br />

Medizin 1 - - 1 (100 %) - - -<br />

Alle Bereiche 103 62 (60 %) 8 (8 %) 13 (13 %) 2 (2 %) 4 (4 %) 14 (14 %)<br />

Tabelle 50: Verwendete Netz-Typen differenziert nach Anwendungsbereichen<br />

114 Da die Anwendungsbereiche Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant<br />

oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst.<br />

75


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Abhängigkeit wirklich geben würde, brächte sie für die Modellierung <strong>von</strong> KNN aus-<br />

schließlich in der umgekehrten Richtung einen Nutzen. Aus diesem Grund werden in<br />

Tabelle 50 auch die umgekehrt bedingten Häufigkeiten angegeben.<br />

Da jedoch in keiner der beiden Bedingungs-Richtungen signifikante systematische Ab-<br />

weichungen <strong>von</strong> den unbedingten Verteilungen zu erkennen sind, ergeben sich aus der<br />

verknüpften Betrachtung keine weiteren für den Modellierungs-Prozess eines <strong>Prognose</strong>-<br />

Modells hilfreichen Informationen.<br />

Art der Eingabedaten in Abhängigkeit <strong>von</strong> der Anzahl der Eingabe-Neuronen<br />

Auch zwischen der Art der Eingabedaten und der Anzahl an Neuronen in der Eingabe-<br />

schicht wurde eine potentielle Abhängigkeit identifiziert. Wie in Tabelle 51 zu sehen ist,<br />

fällt in erster Linie auf, dass bei den Anwendungen mit mehr als 20 Eingabe-Neuronen<br />

sowohl endogenene als auch exogenene Eingabedaten verwendet wurden. Weiterhin ist<br />

auch auffällig, dass mit zunehmender Anzahl an Eingabe-Neuronen auch tendenziell ein<br />

größerer Anteil an Anwendungen auf beide Arten <strong>von</strong> Eingabedaten <strong>zur</strong>ückgreift.<br />

Anzahl der Eingabe-Neuronen Anzahl Rein endogen Rein exogen Endogen und exogen<br />

1 Eingabe-Neuron 10 7 (70 %) 2 (20 %) 1 (10 %)<br />

2 bis 4 Neuronen 16 10 (63 %) 2 (13 %) 4 (25 %)<br />

5 bis 9 Neuronen 33 22 (67 %) 2 (6 %) 9 (27 %)<br />

10 bis 19 Neuronen 21 12 (57 %) 4 (19 %) 5 (24 %)<br />

Mehr als 20 Neuronen 8 - - 8 (100 %)<br />

Alle betrachteten Anwendungen 88 51 (58 %) 10 (11 %) 27 (31 %)<br />

Tabelle 51: Art der Eingabedaten nach Anzahl der Neuronen der Eingabeschicht<br />

Dieses Phänomen lässt sich dadurch erklären, dass eine größere Anzahl an Eingabe-<br />

Neuronen oftmals durch die Verwendung <strong>von</strong> mehr Datenquellen verursacht wird. Da<br />

durch eine Kombination <strong>von</strong> endogenen und exogenen Eingabedaten natürlicherweise be-<br />

reits mehr Datenquellen betroffen sind, als dies bei rein endogenen Daten der Fall ist, ist es<br />

auch nicht weiter verwunderlich, dass diese Kombination bei der Verwendung <strong>von</strong> mehr<br />

Eingabe-Neuronen auch öfters anzutreffen ist. Es ist deshalb wahrscheinlich, dass es sich<br />

um eine auch allgemein geltende Abhängigkeit handelt. Da jedoch in der Regel sowohl die<br />

Art der Eingabedaten als auch die Anzahl der Eingabe-Neuronen durch die Problemstel-<br />

lung einer <strong>Prognose</strong> bereits vorgegeben sind, ergeben sich für den Modellierungs-Prozess<br />

keine verwertbaren Erkenntnisse.<br />

Art der Eingabedaten in Abhängigkeit <strong>von</strong> der Anzahl aller Neuronen<br />

Eine ähnliche Abhängigkeit wurde auch zwischen der Art der Eingabedaten und der Ge-<br />

samtzahl aller Neuronen festgestellt. Dies ist insofern nicht weiter überraschend, da in<br />

Kapitel 6.2.3 auch ein linearer Zusammenhang zwischen der Anzahl an Neuronen der<br />

Eingabeschicht und der Gesamtzahl an Neuronen aufgezeigt wurde. Wie in Tabelle 52 zu<br />

erkennen ist, wurde dementsprechend bei einer Verwendung <strong>von</strong> mehr als 50 Neuronen<br />

76


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

in fast allen Anwendungen auf eine Kombination aus endogenen und exogenen Eingabe-<br />

daten <strong>zur</strong>ückgegriffen.<br />

Gesamtzahl der Neuronen Anzahl Rein endogen Rein exogen Endogen und exogen<br />

Bis 19 Neuronen 46 32 (70 %) 3 (7 %) 11 (24 %)<br />

20 bis 34 Neuronen 13 6 (46 %) 4 (31 %) 3 (23 %)<br />

35 bis 49 Neuronen 8 4 (50 %) 2 (25 %) 2 (25 %)<br />

Mehr als 50 Neuronen 10 1 (10 %) - 9 (90 %)<br />

Alle betrachteten Anwendungen 77 43 (56 %) 9 (12 %) 25 (32 %)<br />

Tabelle 52: Art der Eingabedaten nach der Gesamtzahl der Neuronen<br />

Da die Anzahl der zu verwendenden Neuronen bei der Modellierung eines KNN einen<br />

weitestgehend frei zu wählenden Parameter darstellt, könnten Abhängigkeiten dieser Grö-<br />

ße <strong>von</strong> anderen Faktoren eine wichtige Hilfestellung für den Modellierungs-Prozess ge-<br />

ben. Aus diesem Grund werden in Tabelle 53 auch die umgekehrt bedingten Häufigkeiten<br />

angegeben, die einen solchen Zusammenhang aufdecken könnten.<br />

Anzahl der Eingabedaten Anzahl < 20 Neur. 20–34 Neur. 35–49 Neur. ≥ 50 Neur.<br />

Rein endogene Daten 43 32 (74 %) 6 (14 %) 4 (9 %) 1 (2 %)<br />

Rein exogene Daten 9 3 (33 %) 4 (44 %) 2 (22 %) -<br />

Endogene und exogene Daten 25 11 (44 %) 3 (12 %) 2 (8 %) 9 (36 %)<br />

Alle betrachteten Anwendungen 77 46 (60 %) 13 (17 %) 8 (10 %) 10 (13 %)<br />

Tabelle 53: Anzahl aller Neuronen nach Art der Eingabedaten<br />

Die Vermutung, dass bei einer Kombination endogener und exogener Eingabedaten in<br />

den untersuchten Anwendungen auch besonders viele Neuronen eingesetzt wurden, wird<br />

durch diese Zahlen jedoch nicht signifikant bestätigt.<br />

Art der Lernverfahren in Abhängigkeit <strong>von</strong> den Aktivierungsfunktionen verborgener<br />

Schichten<br />

Bei dem durch die Assoziationsanalyse als Abhängigkeit identifizierten Zusammenhang<br />

zwischen den Lernverfahren und den in den verborgenen Schichten verwendeten Akti-<br />

vierungsfunktionen handelt es sich vermutlich nur um eine zufällige Abweichung. Wie<br />

in Tabelle 54 zu sehen ist, sticht bei den bedingten Häufigkeiten vor allem heraus, dass<br />

bei Verwendung <strong>von</strong> Gaußfunktionen in den untersuchten Anwendungen ausschließlich<br />

Lernverfahren angewendet wurden, die hier unter Sonstige zusammengefasst werden.<br />

Aktivierungsfunktion Anzahl Backpropagation Levenberg-M. Verf. f. RNN Sonstige<br />

Sigmoide Funktionen 46 25 (54 %) 7 (15 %) 8 (17 %) 6 (13 %)<br />

Gaußfunktionen 5 - - - 5 (100 %)<br />

Lineare Funktionen 4 1 (25 %) - 3 (75 %) -<br />

Sonstige Funktionen 3 1 (33 %) - - 2 (67 %)<br />

Alle Funktionen 54 27 (50 %) 7 (13 %) 8 (15 %) 12 (22 %)<br />

Tabelle 54: Art des Lernverfahrens nach verwendeten Aktivierungsfunktionen 115<br />

115 In einigen Anwendungen wurden unterschiedliche Aktivierungsfunktionen innerhalb der verborgenen<br />

Schichten kombiniert.<br />

77


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Da es sich dabei jedoch lediglich um fünf Anwendungen handelt und auch sonst keine<br />

signifikanten Abweichungen <strong>von</strong> der unbedingten Verteilung zu erkennen sind, können<br />

aus dieser Untersuchung keine weiteren Informationen gefolgert werden.<br />

6.3.3 Abhängigkeiten vom Lernvorgang<br />

Anzahl der Test-Datensätze in Abhängigkeit vom angewendeten Lernverfahren<br />

Als weiterer Zusammenhang wurde eine Abhängigkeit der Anzahl der zum Testen ver-<br />

wendeten Datensätze und dem angewendeten Lernverfahren identifiziert. Wie aus Tabel-<br />

le 55 ersichtlich ist, besteht hier jedoch die einzige signifikante Abweichung der bedingten<br />

gegenüber den unbedingten Häufigkeiten darin, dass bei relativ vielen Anwendungen, bei<br />

denen ein Lernverfahren für rekurrente <strong>Netze</strong> zum Einsatz kam, zwischen 61 und 200<br />

Datensätzen zum Testen verwendet wurden.<br />

Lernverfahren Anzahl<br />

≤ 30 31–60<br />

Anzahl der Test-Datensätze<br />

61–200 201–500 501–1000 > 1000<br />

Backpropagation 34 2 (6 %) 19 (56 %) 2 (6 %) 4 (12 %) 1 (3 %) 6 (18 %)<br />

Levenberg-M. 10 - 1 (10 %) 1 (10 %) 3 (30 %) 4 (40 %) 1 (10 %)<br />

Verf. f. RNN 7 - 1 (14 %) 6 (86 %) - - -<br />

Verf. f. TDNN 1 - - - 1 (100 %) - -<br />

Sonstige 18 2 (11 %) 2 (11 %) 6 (33 %) 5 (28 %) 3 (17 %) -<br />

Alle Verfahren 70 4 (6 %) 23 (33 %) 15 (21 %) 13 (19 %) 8 (11 %) 7 (10 %)<br />

Tabelle 55: Anzahl an Test-Datensätzen differenziert nach angewendeten Lernverfahren<br />

Auch dieser angebliche Zusammenhang kann auf zufällige Schwankungen <strong>zur</strong>ückgeführt<br />

werden, da eine solche Abhängigkeit inhaltlich nicht begründet werden kann und die<br />

Abweichung durch nur sehr wenige Anwendungen verursacht wurde.<br />

Vorkommende Anwendungsbereiche in Abhängigkeit <strong>von</strong> der verwendeten Zielfunktion<br />

Bei der letzten in diesem Abschnitt untersuchten Verknüpfung handelt es sich um die<br />

Frage, ob die Bereiche, in denen <strong>Zeitreihen</strong>-<strong>Prognose</strong>n gemacht werden, abhängig <strong>von</strong><br />

den jeweils verwendeten Zielfunktionen sind. In der Gegenüberstellung der bedingten<br />

und unbedingten Häufigkeiten in Tabelle 56 existiert allerdings nur eine einzige deutliche<br />

Abweichung. Bei den Zielfunktionen, die unter Sonstige zusammengefasst werden, gibt<br />

es eine unverhältnismäßige Anhäufung finanzwirtschaftlicher <strong>Zeitreihen</strong>.<br />

Zielfunktion Anzahl Finanzw. Technik Künstl. Umwelt Sonnenfl. Sonstige<br />

Quadratische 41 8 (20 %) 4 (10 %) 9 (22 %) 7 (17 %) 6 (15 %) 7 (17 %)<br />

Lineare 30 10 (33 %) 8 (27 %) 10 (33 %) 1 (3 %) 1 (3 %) -<br />

Sonstige 7 6 (86 %) - - - - 1 (14 %)<br />

Alle Zielfkt. 78 24 (31 %) 12 (15 %) 19 (24 %) 8 (10 %) 7 (9 %) 8 (10 %)<br />

Tabelle 56: Vorkommende Anwendungsbereiche differenziert nach verwendeten Zielfunktionen<br />

116<br />

116 Da die Anwendungsbereiche Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant<br />

oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst.<br />

78


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Da es evident ist, dass es sich dabei um keinen sinnvollen Zusammenhang handelt, können<br />

aus dieser vermutlich nur zufällig aufgetretenen Auffälligkeit keine weiteren Informatio-<br />

nen für den Modellierungs-Prozess eines <strong>Prognose</strong>-Modells gefolgert werden.<br />

6.4 Untersuchung der wünschenswerten Abhängigkeiten<br />

Neben den bereits in den beiden vorangegangenen zwei Abschnitten untersuchten Ab-<br />

hängigkeiten gibt es noch einige weitere potentielle Zusammenhänge, deren Kenntnis<br />

den Modellierungs-Prozess eines <strong>Prognose</strong>-Modells unterstützen würde. Aus diesem<br />

Grund werden im Folgenden zusätzlich zu den Abhängigkeiten, die durch den Apriori-<br />

Algorithmus identifiziert wurden, noch weitere Kombinationen unterschiedlicher Kriteri-<br />

en auf mögliche Zusammenhänge hin untersucht.<br />

Die Auswahl der Kombinationen, die in diesem Abschnitt noch zusätzlich untersucht wer-<br />

den, erfolgte in Hinblick auf eine praktische Verwertbarkeit der potentiellen Ergebnisse.<br />

In Abbildung 24 sind alle in diesem Kapitel analysierten Zusammenhänge durch ein X<br />

markiert.<br />

In Abhängigkeit <strong>von</strong><br />

Untersuchung <strong>von</strong><br />

A B C D E F G H I J K L M N O P Q R<br />

A X X X X X<br />

B<br />

C<br />

D X X X<br />

E<br />

F X X<br />

G<br />

H<br />

I X X X<br />

J<br />

K<br />

L<br />

M<br />

N<br />

O<br />

P X<br />

Q<br />

R<br />

Abbildung 24: Untersuchte Abhängigkeiten zwischen unterschiedlichen Kriterien III<br />

Da es möglich ist, dass einige dieser zusätzlichen Verknüpfungen die in Kapitel 6.1 fest-<br />

gelegten Mindest-Voraussetzungen nur knapp verfehlt haben, können sich hier auch noch<br />

statistisch signifikante Abhängigkeiten befinden. In der Regel werden diese jedoch, so-<br />

weit vorhanden, tendenziell schwächer fundiert sein, so dass eine Falschklassifikation in<br />

beiden Richtungen nicht ausgeschlossen werden kann.<br />

79


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

6.4.1 Abhängigkeiten <strong>von</strong> den Anwendungsfeldern<br />

<strong>Prognose</strong>-Horizont<br />

Bei dem ersten der zu prüfenden Zusammenhänge handelt es sich um die potentielle Ab-<br />

hängigkeit des bei der <strong>Prognose</strong> verwendeten Horizonts vom Anwendungsbereich der<br />

jeweiligen Zeitreihe. Wenn es in einigen Bereichen <strong>von</strong> größerer Bedeutung wäre, wei-<br />

ter in der Zukunft liegende Werte zu prognostizieren, als dies in anderen Bereichen der<br />

Fall ist, könnte dieser Aspekt bei der Modellierung <strong>von</strong> <strong>Prognose</strong>modellen verstärkt be-<br />

rücksichtigt werden. Wie aber in Tabelle 57 zu erkennen ist, gibt es bei den bedingten<br />

Häufigkeiten keinerlei auffallende Abweichungen <strong>von</strong> den unbedingten, so dass eine der-<br />

artige Abhängigkeit in den untersuchten Anwendungen anscheinend nicht vorliegt.<br />

Anwendungsbereich Anzahl 1 Schritt 2–9 Schritte ≥ 10 Schritte<br />

<strong>Zeitreihen</strong> in der Finanzwirtschaft 28 23 (82 %) 1 (4 %) 4 (14 %)<br />

Technische <strong>Zeitreihen</strong> 19 15 (79 %) 2 (11 %) 2 (11 %)<br />

Künstlich generierte <strong>Zeitreihen</strong> 19 17 (89 %) - 2 (11 %)<br />

<strong>Zeitreihen</strong> aus der Umwelt 18 11 (61 %) 4 (22 %) 3 (17 %)<br />

Anzahl Sonnenflecken 8 7 (88 %) - 1 (13 %)<br />

Stromverbrauch einer Region 4 3 (75 %) - 1 (25 %)<br />

Makroökonomische <strong>Zeitreihen</strong> 4 3 (75 %) 1 (25 %) -<br />

<strong>Zeitreihen</strong> des Marketings 2 1 (50 %) 1 (50 %) -<br />

Alle Anwendungsbereiche 102 80 (78 %) 9 (9 %) 13 (13 %)<br />

Anzahl aller Neuronen<br />

Tabelle 57: <strong>Prognose</strong>-Horizont nach Anwendungsbereichen<br />

Ebenso ist es <strong>von</strong> Interesse, ob die Anzahl aller in einem KNN eingesetzten Neuronen <strong>von</strong><br />

dem jeweiligen Anwendungsbereich der Zeitreihe abhängig ist. Es wäre durchaus mög-<br />

lich, dass die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> in manchen Bereichen ein komplexeres Problem<br />

darstellt und deshalb in den jeweiligen KNN mehr Neuronen als in denen anderer Berei-<br />

che zum Einsatz kommen. Sollte sich eine solche Abhängigkeit herausstellen, könnte das<br />

Wissen darüber die Bestimmung einer adäquaten Anzahl an Neuronen vereinfachen. Wie<br />

in Tabelle 58 zu erkennen ist, geht jedoch aus der Untersuchung kein solcher Zusammen-<br />

hang hervor.<br />

Anwendungsbereich Anzahl 4–19 Neur. 20–34 Neur. 35–49 Neur. ≥ 50 Neur.<br />

<strong>Zeitreihen</strong> in d. Finanzwirtschaft 23 14 (61 %) 3 (13 %) 4 (17 %) 2 (9 %)<br />

Technische <strong>Zeitreihen</strong> 15 9 (60 %) 2 (13 %) - 4 (27 %)<br />

Künstlich generierte <strong>Zeitreihen</strong> 14 10 (71 %) 1 (7 %) 3 (21 %) -<br />

<strong>Zeitreihen</strong> aus der Umwelt 12 6 (50 %) 3 (25 %) - 3 (25 %)<br />

Anzahl Sonnenflecken 8 3 (38 %) 3 (38 %) 1 (13 %) 1 (13 %)<br />

Sonstige Bereiche 5 4 (80 %) 1 (20 %) - -<br />

Alle Anwendungsbereiche 77 46 (60 %) 13 (17 %) 8 (10 %) 10 (13 %)<br />

Tabelle 58: Gesamtzahl der Neuronen nach Anwendungsbereichen 117<br />

117 Da die Anwendungsbereiche Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant<br />

oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige Bereiche zusammengefasst.<br />

80


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Aktivierungsfunktionen verborgener Schichten<br />

Die Information über eine Abhängigkeit der in den verborgenen Schichten eingesetzten<br />

Aktivierungsfunktionen <strong>von</strong> den jeweiligen Anwendungsbereichen könnte die Wahl der<br />

Aktivierungsfunktionen bei weiteren <strong>Prognose</strong>-Modellen erleichtern. Die einzige Abwei-<br />

chung, die bei der entsprechenden Untersuchung dieser Verknüpfung auftritt, ist eine et-<br />

was häufigere Verwendung der Gaußfunktion bei künstlich generierten <strong>Zeitreihen</strong>. Da be-<br />

reits in Kapitel 6.3.2 vermutet wurde, dass der damit verwandte Zusammenhang zwischen<br />

RBF-<strong>Netze</strong>n und künstlich erzeugten <strong>Zeitreihen</strong> auf zufällige Schwankungen <strong>zur</strong>ückzu-<br />

führen ist, kann dies für die in Tabelle 59 erkennbare Abweichung ebenso angenommen<br />

werden. Für die Modellierung <strong>von</strong> <strong>Prognose</strong>-Modellen bietet diese Untersuchung dem-<br />

nach keine weiteren Informationen.<br />

Anwendungsbereich Anzahl Sigmoide Gaußfunktion Lineare Sonstige<br />

<strong>Zeitreihen</strong> in der Finanzwirtschaft 21 21 (100 %) 1 (5 %) 3 (14 %) -<br />

Technische <strong>Zeitreihen</strong> 8 8 (100 %) - - -<br />

Künstlich generierte <strong>Zeitreihen</strong> 15 9 (60 %) 4 (27 %) - 2 (13 %)<br />

<strong>Zeitreihen</strong> aus der Umwelt 6 5 (83 %) - - 1 (17 %)<br />

Anzahl Sonnenflecken 7 6 (86 %) - - 1 (14 %)<br />

Sonstige Bereiche 8 6 (75 %) 1 (13 %) 1 (13 %) -<br />

Alle Anwendungsbereiche 65 51 (78 %) 6 (9 %) 4 (6 %) 4 (6 %)<br />

Tabelle 59: Eingesetzte Aktivierungsfunktionen nach Anwendungsbereichen 118<br />

Verwendete Lernverfahren<br />

Auch bei den Lernverfahren ist es <strong>von</strong> Interesse, ob diese abhängig vom Anwendungsbe-<br />

reich unterschiedlich häufig eingesetzt werden. Aus diesem Grund werden in Tabelle 60<br />

die bedingten Häufigkeiten der Lernverfahren den unbedingten gegenübergestellt. Da-<br />

bei fällt auf, dass das Verhältnis <strong>von</strong> Backpropagation- (BP) und Levenberg-Marquardt-<br />

Verfahren (LM) je nach Anwendungsbereich deutlich unterschiedlich ausfällt. Während<br />

Anwendungsbereich Anzahl Backprop. Lev.-Marq. RNN-Verf. TDNN-Verf. Sonstige<br />

Finanzwirtschaft 20 14 (70 %) - 3 (15 %) - 3 (15 %)<br />

Technik 17 8 (47 %) 6 (35 %) 1 (6 %) - 2 (12 %)<br />

Künstl. <strong>Zeitreihen</strong> 17 10 (59 %) 1 (6 %) 1 (6 %) 1 (6 %) 4 (24 %)<br />

Umwelt 14 4 (29 %) 5 (36 %) 1 (7 %) - 4 (29 %)<br />

Sonnenflecken 8 3 (38 %) - 2 (25 %) 1 (13 %) 2 (25 %)<br />

Sonstige Bereiche 11 5 (45 %) 1 (9 %) - - 5 (45 %)<br />

Alle Bereiche 87 44 (51 %) 13 (15 %) 8 (9 %) 2 (2 %) 20 (23 %)<br />

Tabelle 60: Eingesetzte Lernverfahren nach Anwendungsbereichen 119<br />

118 In einigen Anwendungen wurden unterschiedliche Aktivierungsfunktionen innerhalb der verborgenen<br />

Schichten kombiniert. Da die Anwendungsbereiche Stromverbrauch, Makroökonomik, Marketing und<br />

Medizin nur insignifikant oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige<br />

Bereiche zusammengefasst.<br />

119 Da die Anwendungsbereiche Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant<br />

oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige Bereiche zusammengefasst.<br />

81


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

in den untersuchten Anwendungen das LM bei finanzwirtschaftlichen <strong>Zeitreihen</strong> niemals<br />

zum Einsatz kam, wurde es bei <strong>Zeitreihen</strong> aus der Umwelt sogar etwas häufiger als das<br />

BP eingesetzt. Demgegenüber wurde das BP bei finanzwirtschaftlichen <strong>Zeitreihen</strong> deut-<br />

lich häufiger als bei <strong>Zeitreihen</strong> aus der Umwelt eingesetzt.<br />

Wegen der nur geringen Zahl untersuchter Anwendungen lässt sich daraus jedoch nur mit<br />

Vorbehalt eine echte Abhängigkeit ableiten. Ebenso werden auch alle anderen Verfahren<br />

zu selten eingesetzt, als dass für sie systematische Zusammenhänge erkennbar wären.<br />

Art der Zielfunktionen<br />

Als letzte Abhängigkeit <strong>von</strong> den Anwendungsbereichen wird die der Zielfunktionen un-<br />

tersucht. Für die jeweiligen Arten <strong>von</strong> Zielfunktionen werden daher in Tabelle 61 die<br />

Häufigkeiten differenziert nach Anwendungsbereichen aufgeführt. Darin ist ersichtlich,<br />

dass in den untersuchten Anwendungen bei den ersten drei Bereichen jeweils die linearen<br />

Zielfunktionen häufiger als die quadratischen eingesetzt wurden, bei den anderen Berei-<br />

chen jedoch die quadratischen Zielfunktionen häufiger zum Einsatz kamen.<br />

Anwendungsbereich Anzahl Quadratisch Linear Sonstige<br />

<strong>Zeitreihen</strong> in der Finanzwirtschaft 24 8 (33 %) 14 (58 %) 2 (8 %)<br />

Technische <strong>Zeitreihen</strong> 12 4 (33 %) 8 (67 %) -<br />

Künstlich generierte <strong>Zeitreihen</strong> 19 9 (47 %) 10 (53 %) -<br />

<strong>Zeitreihen</strong> aus der Umwelt 8 7 (88 %) 1 (13 %) -<br />

Anzahl Sonnenflecken 7 6 (86 %) 1 (14 %) -<br />

Sonstige Bereiche 8 7 (87 %) - 1 (13 %)<br />

Alle Anwendungsbereiche 78 41 (53 %) 34 (44 %) 3 (4 %)<br />

Tabelle 61: Art der Zielfunktion nach Anwendungsbereichen 120<br />

Da dieser Unterschied zwischen einigen Bereichen sehr deutlich ausfällt, kann eine Ab-<br />

hängigkeit nicht ausgeschlossen werden. Eine Ursache hierfür könnte die Tatsache sein,<br />

dass die quadratischen Zielfunktionen im Verhältnis zu den linearen Zielfunktionen sen-<br />

sibler auf große Fehler reagieren. Ob ein solches Verhalten wirklich in manchen Berei-<br />

chen stärker verlangt wird als in anderen, sollte daher in weiterführenden Untersuchungen<br />

genauer analysiert und die Ursachen hierfür aufgezeigt werden. Sollte dann ein solcher<br />

Zusammenhang auch inhaltlich begründbar sein, könnte dies die Wahl der Zielfunktion<br />

maßgeblich beeinflussen.<br />

6.4.2 Abhängigkeiten <strong>von</strong> der verwendeten Datengrundlage<br />

Verwendete Vergangenheitstiefen in Abhängigkeit vom <strong>Prognose</strong>-Horizont<br />

Die Frage, ob die bei einer <strong>Prognose</strong> anzuwendende Vergangenheitstiefe abhängig da-<br />

<strong>von</strong> zu wählen ist, wie weit in der Zukunft der prognostizierte Wert liegen soll, ist für<br />

120 Da die Anwendungsbereiche Stromverbrauch, Makroökonomik, Marketing und Medizin nur insignifikant<br />

oft vorkamen, werden sie hier aus Gründen der Übersichtlichkeit unter Sonstige Bereiche zusammengefasst.<br />

82


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

die Auswahl des Zeitfensters der Eingabevariablen sowie die Bestimmung der Rekurren-<br />

zen in RNN und der Verzögerungen in TDNN <strong>von</strong> großer Bedeutung. Da ein größerer<br />

<strong>Prognose</strong>-Horizont ein umfangreicheres Wissen über die jeweilige Zeitreihe erfordert,<br />

wäre es möglich, dass dieses über eine größere Vergangenheitstiefe erlangt würde. Um<br />

diese Vermutung zu bestätigen, werden in Tabelle 62 die jeweils bedingten Häufigkeiten<br />

der untersuchten Anwendungen aufgeführt.<br />

<strong>Prognose</strong>-Horizont Anzahl 1 Schritt 2–9 Schritte ≥ 10 Schritte<br />

1 Schritt 71 12 (17 %) 39 (55 %) 20 (28 %)<br />

2–9 Schritte 7 - 5 (71 %) 2 (29 %)<br />

≥ 10 Schritte 7 - 2 (29 %) 5 (71 %)<br />

Alle betrachteten Anwendungen 85 12 (14 %) 46 (54 %) 27 (32 %)<br />

Tabelle 62: Vergangenheitstiefen differenziert nach dem <strong>Prognose</strong>-Horizont<br />

Auch wenn die Ausprägungen der beiden Kriterien keine lineare Abhängigkeit aufweisen<br />

(der Korrelationskoeffizient beträgt nur 4 %), ist in der Auflistung die Tendenz zu erken-<br />

nen, dass tatsächlich mit ansteigendem <strong>Prognose</strong>-Horizont der Anteil der Anwendungen,<br />

die auch auf weiter in der Vergangenheit liegende Werte <strong>zur</strong>ückgreifen, größer wird.<br />

Verwendete Netz-Typen in Abhängigkeit vom <strong>Prognose</strong>-Horizont<br />

Ob in den untersuchten Anwendungen auch die Wahl des Netz-Typs durch den <strong>Prognose</strong>-<br />

Horizont beeinflusst wurde, wird anhand der in Tabelle 63 angegebenen bedingten Häu-<br />

figkeiten analysiert. Ein Zusammenhang könnte Aufschluss darüber geben, inwiefern ins-<br />

besondere ein großer <strong>Prognose</strong>-Horizont durch die einzelnen Netz-Typen jeweils unter-<br />

stützt wird. Da sich eine solche Abhängigkeit durch mit zunehmenden Horizont anstei-<br />

gende oder abfallende Häufigkeiten auszeichnen würde, kommen nur die RNN, TDNN<br />

und Fuzzy-<strong>Netze</strong> als potentiell abhängige Netz-Typen in Frage.<br />

<strong>Prognose</strong>-Horizont Anzahl MLP RBF-N. RNN TDNN Fuzzy Sonstige<br />

1 Schritt 80 49 (61 %) 7 (9 %) 8 (10 %) - 4 (5 %) 12 (15 %)<br />

2–9 Schritte 7 6 (86 %) - 1 (14 %) - - -<br />

≥ 10 Schritte 11 6 (55 %) 1 (9 %) 2 (18 %) 2 (15 %) - 2 (18 %)<br />

Alle Anwendungen 98 61 (62 %) 8 (8 %) 11 (11 %) 2 (2 %) 4 (4 %) 14 (14 %)<br />

Tabelle 63: Netz-Typen differenziert nach dem <strong>Prognose</strong>-Horizont<br />

Da die jeweiligen Häufigkeits-Verschiebungen jedoch in allen Fällen auf nur sehr we-<br />

nigen Anwendungen beruhen, tritt der beobachtete Effekt möglicherweise lediglich zu-<br />

fallsbedingt auf. Ob sich die speziell auf <strong>Zeitreihen</strong>prognosen ausgelegten Netz-Typen<br />

tatsächlich für <strong>Prognose</strong>n mit größerem Horizont eignen, sollte deshalb in weiterführen-<br />

den Untersuchungen validiert werden.<br />

Anzahl aller Neuronen in Abhängigkeit vom <strong>Prognose</strong>-Horizont<br />

Ein weiteres Kriterium, dessen Abhängigkeit vom <strong>Prognose</strong>-Horizont eine hilfreiche In-<br />

formation für den Modellierungs-Prozess liefern würde, ist die Anzahl aller Neuronen<br />

83


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

des entsprechenden KNN. Hier gilt es die Vermutung zu überprüfen, dass ein größerer<br />

<strong>Prognose</strong>-Horizont aufgrund der komplexeren Problemstellung auch zu einem komplexe-<br />

ren <strong>Neuronale</strong>n Netz und dadurch zu einer größeren Anzahl an Neuronen führt. Wie aus<br />

Tabelle 64 hervorgeht, kann jedoch ein solcher Zusammenhang anhand der untersuchten<br />

Anwendungen nicht bestätigt werden.<br />

<strong>Prognose</strong>-Horizont Anzahl < 20 Neuronen 20–34 Neur. 35–49 Neur. ≥ 50 Neur.<br />

1 Schritt 63 44 (70 %) 10 (16 %) 5 (8 %) 4 (6 %)<br />

2–9 Schritte 5 - 1 (20 %) - 4 (80 %)<br />

≥ 10 Schritte 6 1 (17 %) - 3 (50 %) 2 (33 %)<br />

Alle betr. Anwendungen 74 45 (61 %) 11 (15 %) 8 (11 %) 10 (14 %)<br />

Tabelle 64: Gesamtzahl an Neuronen differenziert nach dem <strong>Prognose</strong>-Horizont<br />

Verwendete Netz-Typen in Abhängigkeit <strong>von</strong> der Anzahl <strong>zur</strong> Verfügung stehender Daten-<br />

sätze<br />

Bei der Analyse, ob in den untersuchten Anwendungen die jeweiligen Netz-Typen abhän-<br />

gig <strong>von</strong> der Anzahl der <strong>zur</strong> Verfügung stehenden Daten gewählt wurden, wird insbeson-<br />

dere untersucht, ob bei besonders wenigen bzw. besonders vielen Datensätzen spezielle<br />

Netz-Typen bevorzugt oder ob diese, als gegenteiliges Extrem, sogar gar nicht eingesetzt<br />

wurden. Sollten solche Abhängigkeiten bestehen, könnten daraus unmittelbar hilfreiche<br />

Schlüsse für eine zukünftige Modellierung gezogen werden. Für die Untersuchung sind<br />

in Tabelle 65 die bedingten Häufigkeiten der einzelnen Netz-Typen aufgeführt.<br />

Anzahl Datensätze Anzahl MLP RBF-N. RNN TDNN Fuzzy Sonstige<br />

Bis 250 17 14 (82 %) 1 (6 %) - - 1 (6 %) 1 (6 %)<br />

251–500 17 10 (59 %) - 2 (12 %) - 3 (18 %) 2 (12 %)<br />

501–1000 17 12 (71 %) 3 (18 %) 1 (6 %) - - 1 (6 %)<br />

1001–3000 16 5 (31 %) 1 (6 %) 5 (31 %) - - 5 (31 %)<br />

Mehr als 3000 17 8 (47 %) 3 (18 %) 3 (18 %) 1 (6 %) - 2 (12 %)<br />

Alle Anwendungen 84 49 (58 %) 8 (10 %) 11 (13 %) 1 (1 %) 4 (5 %) 11 (13 %)<br />

Tabelle 65: Netz-Typen differenziert nach der Anzahl <strong>zur</strong> Verfügung stehender Datensätze<br />

In dieser Aufstellung fällt auf, dass bei Anwendungen, bei denen nur wenige Datensät-<br />

ze <strong>zur</strong> Verfügung standen, bevorzugt MLP eingesetzt wurden, während bei Anwendun-<br />

gen mit besonders vielen Datensätzen eine gleichmäßigere Verteilung bei der Wahl des<br />

Netz-Typs besteht. Weiter ist zu erkennen, dass Fuzzy-<strong>Netze</strong>, die allerdings insgesamt nur<br />

selten zum Einsatz kamen, ausschließlich bei Anwendungen mit weniger als 500 Daten-<br />

sätzen verwendet wurden. Auch wenn diese Beobachtungen jeweils auf einer nur kleinen<br />

Anzahl an Anwendungen beruhen, verbleibt die Vermutung, dass auch allgemein insbe-<br />

sondere eine geringe Anzahl <strong>zur</strong> Verfügung stehender Datensätze die Wahl des Netz-Typs<br />

maßgeblich in der ersichtlichen Weise beeinflussen kann. Für eine Konkretisierung die-<br />

ser Vermutung wären allerdings weitere Untersuchungen dieser Abhängigkeit mit einer<br />

größeren Anzahl an Anwendungen notwendig.<br />

84


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Anzahl aller Neuronen in Abhängigkeit <strong>von</strong> der Anzahl <strong>zur</strong> Verfügung stehender Daten-<br />

sätze<br />

Ebenso stellt sich die Frage, ob eine kleinere Anzahl <strong>zur</strong> Verfügung stehender Datensätze<br />

auch einen Einfluss auf die maximal mögliche Komplexität eines KNN und damit auch<br />

auf die maximale Anzahl der darin verwendeten Neuronen hat. In Tabelle 66 ist zwar für<br />

Anwendungen mit weniger als 250 Datensätzen ein solcher Trend im Ansatz erkennbar,<br />

da aber die Abweichungen nur sehr insignifikant sind, kann die aufgestellte Vermutung<br />

nicht ausreichend gestützt werden.<br />

Anzahl Datensätze Anzahl 4–19 Neuronen 20–34 Neur. 35–49 Neur. ≥ 50 Neur.<br />

Bis 250 14 10 (71 %) 3 (21 %) 1 (7 %) -<br />

251–500 16 8 (50 %) 4 (25 %) 2 (13 %) 2 (13 %)<br />

501–1000 14 13 (93 %) - 1 (7 %) -<br />

1001–3000 10 2 (20 %) 3 (30 %) 3 (30 %) 2 (20 %)<br />

Mehr als 3000 13 11 (85 %) 2 (15 %) - -<br />

Alle betr. Anwendungen 67 44 (66 %) 12 (18 %) 7 (10 %) 4 (6 %)<br />

Tabelle 66: Gesamtzahl der Neuronen differenziert nach der Anzahl <strong>zur</strong> Verfügung stehender Datensätze<br />

6.4.3 Abhängigkeiten vom Aufbau der <strong>Netze</strong><br />

In der Vorverarbeitung angewendete Transformationen in Abhängigkeit vom verwendeten<br />

Netz-Typ<br />

Zur Unterstützung eines Modellierungs-Prozesses ist es hilfreich zu wissen, ob bei man-<br />

chen Netz-Typen Präferenzen für spezielle Arten der Daten-Vorverarbeitung existieren.<br />

Aus diesem Grund werden in Tabelle 67 die Häufigkeiten, mit denen einzelne Transak-<br />

tionen in den untersuchten Anwendungen durchgeführt wurden, nach Netz-Typen diffe-<br />

renziert angegeben.<br />

Netz-Typ Anzahl Skalierung Logarithmus Differenzen Gl. Durchschn. Sonstige<br />

MLP 40 26 (65 %) 11 (28 %) 10 (25 %) 5 (13 %) 4 (10 %)<br />

RBF-<strong>Netze</strong> 3 2 (67 %) 1 (33 %) - - 1 (33 %)<br />

RNN 8 3 (38 %) 4 (50 %) 3 (38 %) - 3 (38 %)<br />

TDNN 2 1 (50 %) - - - 1 (50 %)<br />

Sonstige 4 3 (75 %) - 2 (50 %) - 1 (25 %)<br />

Alle Typen 57 35 (61 %) 16 (28 %) 15 (26 %) 5 (9 %) 10 (18 %)<br />

Tabelle 67: In der Vorverarbeitung angewendete Transformationen differenziert nach Netz-Typen<br />

121<br />

Insgesamt sind aber keine signifikanten systematischen Abweichungen erkennbar. Le-<br />

diglich der Verzicht auf die Bildung gleitender Durchschnitte bei den RNN und TDNN<br />

121 In einigen Anwendungen wurden auch mehrere Transformationen kombiniert. Da die die Transformationen<br />

Trend-/Saisonkomponente, Rauschen und Wavelet nur insignifikant oft vorkamen, werden sie hier<br />

aus Gründen der Übersichtlichkeit unter Sonstige zusammengefasst.<br />

85


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

könnte dadurch erklärt werden, dass bei diesen Netz-Typen eine derartige Datenverarbei-<br />

tung bereits intern stattfindet, so dass eine externe Vorverarbeitung dieser Art nicht mehr<br />

notwendig ist.<br />

Anzahl aller Neuronen in Abhängigkeit vom verwendeten Netz-Typ<br />

Weiterhin wird untersucht, welche Auswirkungen die Wahl des Netz-Typs auf die Anzahl<br />

der insgesamt verwendeten Neuronen hat. Wie üblich werden in Tabelle 68 hierfür die be-<br />

dingten Häufigkeiten der untersuchten Anwendungen den unbedingten gegenübergestellt.<br />

Netz-Typ Anzahl 4–19 Neuronen 20–34 Neur. 35–49 Neur. ≥ 50 Neur.<br />

MLP 55 35 (64 %) 9 (16 %) 4 (7 %) 7 (13 %)<br />

RBF-<strong>Netze</strong> 3 3 (100 %) - - -<br />

RNN 11 6 (55 %) 2 (18 %) 1 (9 %) 2 (18 %)<br />

TDNN 2 1 (50 %) - 1 (50 %) -<br />

Fuzzy-<strong>Netze</strong> 2 1 (50 %) - - 1 (50 %)<br />

Sonstige 3 - 1 (33 %) 2 (67 %) 1 (33 %)<br />

Alle Netz-Typen 76 46 (61 %) 12 (16 %) 8 (11 %) 10 (13 %)<br />

Tabelle 68: Gesamtzahl der Neuronen differenziert nach den verwendeten Netz-Typen<br />

Dabei fällt für die RBF-<strong>Netze</strong> auf, dass diese in allen betrachteten Fällen mit nur wenigen<br />

Neuronen auskommen. Dieser Zusammenhang stützt sich zwar nur auf wenige Anwen-<br />

dungen, da sich aber, wie bereits in Kapitel 3.4.2 beschrieben, RBF-<strong>Netze</strong> durch ihre<br />

einfache Struktur auszeichnen, ist er vermutlich auch allgemein gültig. Von den anderen<br />

Netz-Typen ausgehend lassen sich dagegen keine allgemein gültigen Hinweise auf die zu<br />

verwendende Anzahl an Neuronen folgern.<br />

Eingesetzte Lernverfahren in Abhängigkeit vom verwendeten Netz-Typ<br />

Auch bei den Lernverfahren wird untersucht, ob diese abhängig vom jeweils verwendeten<br />

Netz-Typ eingesetzt wurden. Aus der Aufstellung in Tabelle 69 geht dabei wie erwartet<br />

hervor, dass bei RNN und TDNN auch überwiegend die speziell für diese Netz-Typen<br />

entwickelten Lernverfahren zum Einsatz kamen.<br />

Netz-Typ Anzahl Backprop. Levenb.-M. Verf. für RNN für TDNN Sonstige<br />

MLP 54 39 (72 %) 10 (19 %) - - 5 (9 %)<br />

RBF-<strong>Netze</strong> 6 1 (17 %) 1 (17 %) - - 4 (67 %)<br />

RNN 9 1 (11 %) 2 (22 %) 5 (56 %) - 1 (11 %)<br />

TDNN 2 - - - 2 (100 %) -<br />

Fuzzy-<strong>Netze</strong> 3 2 (67 %) - - - 1 (33 %)<br />

Sonstige 12 1 (8 %) - 3 (25 %) - 8 (67 %)<br />

Alle Netz-Typen 86 44 (51 %) 13 (15 %) 8 (9 %) 2 (2 %) 19 (22 %)<br />

Tabelle 69: Lernverfahren differenziert nach den verwendeten Netz-Typen<br />

Weiterhin fällt die Dominanz des Backpropagation- über das Levenberg-Marquardt-<br />

Verfahren bei den MLP überraschend stark aus. Dies liegt vermutlich daran, dass beide<br />

86


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

Ausprägungen jeweils als Standard innerhalb ihres Kriteriums angesehen werden und so-<br />

mit bei einer Modellierung oftmals ohne weitere Begründung die erste Wahl darstellen.<br />

Dieser Zusammenhang könnte demnach auf fragwürdigen Annahmen bestehen und sollte<br />

deshalb bei der Modellierung zukünftiger <strong>Prognose</strong>-Modelle nicht explizit berücksichtigt<br />

werden.<br />

6.4.4 Abhängigkeiten vom Lernvorgang<br />

Aktivierungsfunktionen verborgener Schichten in Abhängigkeit vom eingesetzten Lernver-<br />

fahren<br />

Als letzte Verknüpfung wird die Wahl der Aktivierungsfunktionen verborgener Schich-<br />

ten auf Abhängigkeiten <strong>von</strong> den eingesetzten Lernverfahren hin untersucht. In Tabelle 70<br />

sind hierfür die bedingten Häufigkeiten der untersuchten Anwendungen aufgeführt. We-<br />

gen der äußerst starken Dominanz der sigmoiden Funktionen lässt sich daraus jedoch für<br />

keines der explizit genannten Lernverfahren eine spezifische Auswirkung auf die Wahl<br />

der Aktivierungsfunktionen ableiten.<br />

Lernverfahren Anzahl Sigmoide Funktion Gaußfunktion Lineare Funktion Sonstige<br />

Backpropagation 27 25 (93 %) - 1 (4 %) 1 (4 %)<br />

Levenb.-Marquardt 7 7 (100 %) - - -<br />

Verfahren für RNN 8 8 (100 %) - 3 (38 %) -<br />

Sonstige Verfahren 12 6 (50 %) 5 (42 %) - 2 (17 %)<br />

Alle Lernverfahren 54 46 (85 %) 5 (9 %) 4 (7 %) 3 (6 %)<br />

Tabelle 70: Aktivierungsfunktionen differenziert nach eingesetztem Lernverfahren 122<br />

6.5 Klassifizierung der Erkenntnisse<br />

Werden die Ergebnisse aus allen untersuchten Verknüpfungen zusammengestellt, so kön-<br />

nen diese aufgrund der gewonnenen Erkenntnisse in vier Gruppen aufgeteilt werden:<br />

• Bei der ersten Gruppe handelt es sich um Verknüpfungen, bei denen das Wissen<br />

über die bestehenden Abhängigkeiten für die Modellierung <strong>von</strong> <strong>Prognose</strong>-Modellen<br />

genutzt werden kann. Als abhängig gelten dabei alle Kriterien, deren Abhängigkeit<br />

sowohl statistisch als auch inhaltlich aufgrund der untersuchten Anwendungen be-<br />

gründet werden konnte.<br />

• Die zweite Gruppe beinhaltet Verknüpfungen, bei denen die jeweiligen Kriterien<br />

zwar Abhängigkeiten im oben genannten Sinne aufweisen, das Wissen darüber aber<br />

keine Hilfe für die Modellierung <strong>von</strong> <strong>Prognose</strong>-Modellen bietet.<br />

122 In einigen Anwendungen wurden unterschiedliche Aktivierungsfunktionen innerhalb der verborgenen<br />

Schichten kombiniert.<br />

87


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

• Die Verknüpfungen der dritten Gruppe sind solche, bei denen die betrachteten Kri-<br />

terien zwar bei den untersuchten Anwendungen keine Abhängigkeiten aufweisen,<br />

aber die Kenntnis einer solchen Abhängigkeit für eine zukünftige Modellierung <strong>von</strong><br />

Vorteil gewesen wäre.<br />

• In der vierten Gruppe werden schließlich solche Verknüpfungen zusammengefasst,<br />

deren Kriterien in den untersuchten Anwendungen keine Abhängigkeiten aufwei-<br />

sen, und die Kenntnis solcher Abhängigkeiten auch keinen unmittelbaren Nutzen<br />

für die Modellierung <strong>von</strong> <strong>Prognose</strong>-Modellen gebracht hätte.<br />

Die einzelnen Gruppen werden <strong>zur</strong> Veranschaulichung in Abbildung 25 grafisch darge-<br />

stellt und in Form einer Vier-Felder-Matrix angeordnet. Als Ergebnis der in diesem Ka-<br />

pitel durchgeführten Analysen wird sodann jede der untersuchten Verküpfungen einer<br />

der vier Gruppen zugeordnet. Dafür werden in Abbildung 26 alle untersuchten Kombi-<br />

nationen mit dem Buchstaben der Gruppe markiert, der sie nach den in dieser Arbeit<br />

gewonnenen Erkenntnissen angehört.<br />

Abhängigkeit der Kriterien<br />

gering hoch<br />

Zweite Gruppe<br />

B<br />

Vierte Gruppe<br />

D<br />

Erste Gruppe<br />

A<br />

Dritte Gruppe<br />

C<br />

gering hoch<br />

Nutzen für zukünftige Modelle<br />

Abbildung 25: Die vier möglichen Gruppen der Verknüpfungen<br />

Zu berücksichtigen ist dabei jedoch, dass sich zum einen alle Ergebnisse auf die für diese<br />

Arbeit analysierten Anwendungen beziehen und somit unter der Prämisse der begrenz-<br />

ten Stichprobe stehen. Zum zweiten kann in der komprimierten Form, wie sie durch das<br />

Schema der Abbildung vorgegeben wird, nicht für jede der Ausprägungen einzeln son-<br />

dern nur für die Kriterien als Ganzes eine Gruppenzuordnung erfolgen. Wenn jedoch bei<br />

der Untersuchung die Klassifizierung bei verschiedenen Ausprägungen eines Kriteriums<br />

unterschiedlich ausgefallen ist, wurde die Auswahl der Zuordnung hinsichtlich der jewei-<br />

ligen Bedeutung der Ausprägungen individuell getroffen.<br />

Es liegt auf der Hand, dass in erster Linie die 15 Verknüpfungen <strong>von</strong> Interesse sind, die<br />

der ersten Gruppe (A) zugeordnet wurden. Die bei diesen Verknüpfungen gewonnenen<br />

88


6 ZUSAMMENHÄNGE ZWISCHEN DEN EINZELNEN KRITERIEN<br />

In Abhängigkeit <strong>von</strong><br />

Untersuchung <strong>von</strong><br />

A B C D E F G H I J K L M N O P Q R<br />

A A C A B B C C C A A<br />

B C<br />

C A<br />

D A A C<br />

E B B<br />

F A A A D C<br />

G<br />

H B B D<br />

I D C C A A A<br />

J B A<br />

K<br />

L<br />

M B A<br />

N B<br />

O B D<br />

P D C<br />

Q<br />

R D<br />

Abbildung 26: Alle untersuchten Abhängigkeiten zwischen unterschiedlichen Kriterien<br />

Erkenntnisse können bei der Modellierung eines <strong>Prognose</strong>-Modells unmittelbar berück-<br />

sichtigt werden. Bei der Festlegung <strong>von</strong> Parametern sollte diesen Abhängigkeiten nicht<br />

blind vertraut werden, da niemals ausgeschlossen werden kann, dass diese für einzel-<br />

ne Anwendungen nicht zutreffen. Sie können jedoch in den meisten Fällen bereits einen<br />

Hinweis auf sinnvolle Ausgangswerte geben, die dann im Laufe der Modellierung nur<br />

noch geringfügig angepasst werden müssen.<br />

Nr. Vorbedingung Konsequenz<br />

1. Anwendungsbereich Art der Eingabedaten<br />

2. Art der Vorverarbeitung<br />

3. Lernverfahren<br />

4. Art der Zielfunktion<br />

5. Vergangenheitstiefe Art der Vorverarbeitung<br />

6. <strong>Prognose</strong>-Horizont Vergangenheitstiefe<br />

7. Netz-Typ<br />

8. Anzahl der Datensätze Anzahl der Trainingsdaten<br />

9. Anzahl der Testdaten<br />

10. Netz-Typ<br />

11. Netz-Typ Verbindungsstruktur<br />

12. Aktivierungsfunktionen<br />

13. Lernverfahren<br />

14. Anzahl der Eingabe-Neuronen Anzahl aller Neuronen<br />

15. Anzahl aller Neuronen Anzahl der Schichten<br />

Tabelle 71: Alle Verknüpfungen der ersten Gruppe (A)<br />

Die Verknüpfungen der ersten Gruppe (A) sind deshalb in Tabelle 71 noch einmal in<br />

Kurzform aufgeführt. Dabei muss jedoch wieder beachtet werden, dass die jeweiligen<br />

Abhängigkeiten bei einigen Kriterien nur für einzelne Ausprägungen aufgetreten sind.<br />

89


7 ZUSAMMENFASSUNG UND AUSBLICK<br />

7 Zusammenfassung und Ausblick<br />

In dieser Arbeit wurden die Eigenschaften <strong>von</strong> <strong>Künstliche</strong>n <strong>Neuronale</strong>n <strong>Netze</strong>n analy-<br />

siert, die in den vergangenen Jahren für die <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> entwickelt wurden.<br />

Betrachtet wurden dabei sowohl die Anwendungssituationen als auch die jeweils ange-<br />

wandten Methoden. Auf diese Weise wurden Präferenzen und Zusammenhänge einzelner<br />

Merkmale identifiziert, deren Kenntnis die Modellierung zukünftiger <strong>Prognose</strong>-Modelle<br />

unterstützen kann.<br />

Einstiegspunkt war eine Analyse einschlägiger Fachzeitschriften, die auf Beschreibungen<br />

<strong>von</strong> KNN <strong>zur</strong> <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> hin untersucht wurden. Auf diese Weise wurden<br />

105 unterschiedliche Anwendungen erfasst, die in den Jahren 2000–2004 veröffentlicht<br />

wurden. In Kapitel 5 wurden diese Anwendungen zunächst nach einer Vielzahl einzelner<br />

Kriterien klassifiziert. Die Kriterien wurden dabei zunächst jeweils unabhängig <strong>von</strong>ein-<br />

ander betrachtet und erläutert. Dadurch wurde zum einen die Vielfalt innerhalb einzelner<br />

Kriterien dargestellt, und zum anderen konnten für einige Merkmale bereits deutliche<br />

Präferenzen herausgestellt werden.<br />

In einem weiteren Schritt wurden in Kapitel 6 die 18 wichtigsten Kriterien herausgegrif-<br />

fen und jeweils paarweise miteinander kombiniert. Um die Auswahl der zu betrachtenden<br />

Kombinationen auf eine sinnvolle Anzahl zu beschränken, wurden diese nach zwei unter-<br />

schiedlichen Gesichtspunkten selektiert.<br />

Zum einen wurden mit Hilfe einer Assoziationsanalyse alle statistisch signifikanten Ab-<br />

weichungen der bedingten Häufigkeiten gegenüber den unbedingten Häufigkeiten ermit-<br />

telt, mit denen die Ausprägung eines Kriteriums verwendet wurde. Diese Methode wurde<br />

gewählt, um in den Anwendungen liegende, aber bis dato unbekannte Informationen ent-<br />

decken zu können. Es wurden dabei sowohl bereits im Vorhinein bekannte als auch nicht<br />

erwartete Zusammenhänge identifiziert, die jeweils auf ihre inhaltliche Begründbarkeit<br />

und Bedeutung für eine zukünftige Modellierung hin untersucht wurden. Insbesondere<br />

bei den nicht erwarteten Zusammenhängen konnten jedoch die meisten Abhängigkeiten<br />

auch nicht begründet werden, weshalb zu vermuten ist, dass diese lediglich auf zufälligen<br />

Häufungen in den untersuchten Anwendungen beruhen.<br />

Einer anderen Sichtweise folgend, wurden im Anschluss daran zusätzlich diejenigen<br />

Verknüpfungen einzelner Kriterien untersucht, deren potentielle Abhängigkeiten einen<br />

großen Nutzen für eine zukünftige Modellierung bringen könnten. Da diese Auswahl je-<br />

doch losgelöst <strong>von</strong> der statistischen Grundlage der Assoziationsanalyse erfolgte, sind die<br />

hierbei gewonnenen Erkenntnisse in der Regel statistisch auch weniger deutlich fundiert.<br />

Als ein Ergebnis dieser Arbeit wurden alle durch eine der beiden Sichtweisen ausgewähl-<br />

ten Verknüpfungen auf begründbare existierende Abhängigkeiten zwischen den Kriterien<br />

sowie deren Bedeutung für eine zukünftige Modellierung hin untersucht und entsprechend<br />

der dabei erhaltenen Ergebnisse klassifiziert.<br />

90


7 ZUSAMMENFASSUNG UND AUSBLICK<br />

Die zentralen Erkenntnisse dieser Arbeit beruhen in erster Linie auf zwei unterschied-<br />

lichen Arten <strong>von</strong> Verknüpfungen. Zum einen ließen sich durch das rein datenorientierte<br />

Vorgehen der Assoziationsanalyse nur wenige bisher unbekannte und unerwartete Zusam-<br />

menhänge entdecken. Bei der überwiegenden Mehrheit dieser Verknüpfungen stellte sich<br />

heraus, dass diese entweder bereits bekannt und damit erwartet waren, keine hilfreichen<br />

Informationen für einen Modellierungsprozess lieferten oder inhaltlich nicht begründbar<br />

und damit vermutlich nur zufällig aufgetreten waren. Eine Begründung hierfür könnte<br />

darin liegen, dass die Streuung der einzelnen Merkmale sehr groß ist, da die <strong>Prognose</strong>-<br />

Modelle jeweils individuell und ohne ein allgemein anerkanntes systematisches Verfahren<br />

modelliert wurden. Dies würde gleichzeitig bedeuten, dass die angewandten Methoden<br />

noch nicht ausgereift sind oder dass sie sich zumindest noch nicht hinreichend durchset-<br />

zen konnten.<br />

Bei der zweiten Art <strong>von</strong> Verknüpfungen, aus denen Erkenntnisse gewonnen werden konn-<br />

ten, handelt es sich um die Verknüpfungen, bei denen Abhängigkeiten zwischen Ausprä-<br />

gungen der einzelnen Kriterien nachgewiesen werden konnten und bei denen auch aus<br />

diesen Abhängigkeiten ein hinreichend großer Nutzen für einen Modellierungsprozess<br />

abgeleitet werden kann. Zwar ließen sich solche Abhängigkeiten oftmals nur für wenige<br />

Ausprägungen zeigen, jedoch können auch eingeschränkte Abhängigkeiten je nach An-<br />

wendung bereits eine Hilfestellung für eine Modellierung darstellen.<br />

Die in dieser Arbeit gewonnenen Erkenntnisse beruhen ausschließlich auf den <strong>zur</strong> Unter-<br />

suchung herangezogenen Anwendungen. Die Methodik dieser Untersuchung impliziert<br />

dabei, dass die Auswahl der Anwendungen hinreichend repräsentativ ist und die darin<br />

angewandten Methoden für ihre jeweiligen Aufgaben optimal konfiguriert wurden. Auf-<br />

grund der notwendigen Beschränkung auf lediglich drei wissenschaftliche Zeitschriften<br />

sowie der daraus resultierenden geringen Zahl <strong>von</strong> 105 Anwendungen musste die Erfül-<br />

lung der ersten Prämisse eingeschränkt werden. Wie in Kapitel 5.6 dargelegt wurde, ist<br />

eine externe Bewertung der einzelnen Methoden im Allgemeinen nicht möglich. Da somit<br />

beide Prämissen nicht in vollem Umfang gewährleistet werden können, sind auch alle ge-<br />

wonnenen Erkenntnisse mit Vorsicht zu betrachten. Diese Erkenntnisse sind deshalb auch<br />

jeweils bei den einzelnen Analysen dieser Arbeit kritisch hinterfragt worden.<br />

Aus diesem Grund wird empfohlen, die gewonnenen Erkenntnisse in weiteren Untersu-<br />

chungen auf der Grundlage einer größeren Zahl <strong>von</strong> Anwendungen zu verifizieren. Wei-<br />

terhin könnten die einzelnen Kriterien in einer derartigen Untersuchung auch auf mehr-<br />

wertige Abhängigkeiten hin untersucht werden. Insgesamt sollte dabei aber nicht vernach-<br />

lässigt werden, dass Abhängigkeiten neben ihrer statistischen wie inhaltlichen Relevanz<br />

auch jeweils inhaltlich begründet werden sollten, da nur so zu erwarten ist, dass sich aus<br />

den Erkenntnissen der Untersuchungen abgeleitete Handlungsempfehlungen auch in der<br />

Praxis durchsetzen werden.<br />

91


LITERATUR<br />

Literaturverzeichnis<br />

[BBJP + 01] Hans-Georg Beyer, Eva Brucherseifer, Wilfried Jakob, Hartmut Pohlheim,<br />

Bernhard Sendhoff und Thanh Binh To. Evolutionäre Algorithmen - Begriffe<br />

und Definitionen. Universität Dortmund, Dortmund. Juni 2001.<br />

[BEPW03] Klaus Backhaus, Bernd Erichson, Wulff Plinke und Rolf Weiber. Multivariate<br />

Analysemethoden. Springer Verlag, Berlin, Heidelberg, New York.<br />

10. Auflage, 2003.<br />

[BHKL + 98] Jörg Biethahn, Abrecht Hönerloh, Jochen Kuhl, Marie-Claire Leisewitz,<br />

Volker Nissen und Martin Tietze. Betriebswirtschaftliche Anwendungen<br />

des Soft Computing. Vieweg Verlag, Braunschweig, Wiesbaden, 1998.<br />

[BoJe76] George E. P. Box und Gwilym M. Jenkins. Time series analysis. forecasting<br />

and control. Holden-Day, San Francisco u. a. Überarb. Auflage, 1976.<br />

[Day99] Donald K. Day. Genetische Algorithmen und ihre Anwendung <strong>zur</strong> <strong>Prognose</strong><br />

finanzwirtschaftlicher Daten. Diplomarbeit, Ludwig-Maximilians-<br />

Universität, München, Februar 1999.<br />

[FKPT01] Ludwig Fahrmeir, Rita Künstler, Iris Pigeot und Gerhard Tutz. Statistik.<br />

Springer Verlag, Berlin, Heidelberg, New York. 3. Auflage, 2001.<br />

[Gerb04] Alexander Gerber. Entwicklung einer Beispieldatenbank für <strong>Neuronale</strong><br />

<strong>Netze</strong>. Diplomarbeit, Westfälische Wilhelms-Universität, Münster, Juli<br />

2004.<br />

[HaEK89] Joachim Hartung, Bärbel Elpelt und Karl-Heinz Klösener. Statistik. R.<br />

Oldenbourg Verlag, München, Wien. 7. Auflage, 1989.<br />

[Kopf04] Jürgen Kopf. Arbeitspapiere <strong>zur</strong> <strong>Zeitreihen</strong>analyse. http://www.wifak.uniwuerzburg.de/ewf/doku/zra/ap-zra.htm,<br />

2004. Abrufdatum 2004-09-27.<br />

[Lexi01] Meyers Lexikonredaktion (Hrsg.). Informatik. Ein Fachlexikon für Studium<br />

und Praxis. Dudenverlag, Mannheim u. a. 3. Auflage, 2001.<br />

[Lipp02] Wolfram-Maria Lippe. Script zu „Einführung in SoftComputing“.<br />

http://wwwmath.uni-muenster.de/math/inst/info/Professoren/Lippe/lehre/<br />

skripte/nnscript/index.html, 2002. Abrufdatum 2005-01-26.<br />

[Mohr76] Walter Mohr. Univariate Autoregressive Moving-Average-Prozesse und die<br />

Anwendung der Box-Jenkins-Technik in der <strong>Zeitreihen</strong>analyse. Physica-<br />

Verlag, Würzburg. 1976.<br />

[NaKK96] Detlef Nauck, Frank Klawonn und Rudolf Kruse. <strong>Neuronale</strong> <strong>Netze</strong> und<br />

Fuzzy-Systeme. Vieweg Verlag, Braunschweig, Wiesbaden. 2. Auflage,<br />

1996.<br />

[NaKr98] Detlef Nauck und Rudolf Kruse. Fuzzy-Systeme und Neuro-Fuzzy-Systeme.<br />

In Jörg Biethahn u. a. (Hrsg.), Betriebswirtschaftliche Anwendungen<br />

des Soft Computing, S. 35–54. Vieweg Verlag, Braunschweig, Wiesbaden,<br />

1998.<br />

92


LITERATUR<br />

[NHRO99] Michael Nelson, Tim Hill, William Remus und Marcus O’Connor. Time<br />

Series Forecasting Using Neural Networks: Should the Data be Deseasonalized<br />

First? Journal of Forecasting Band 18, 1999, S. 359–367.<br />

[Niss98] Volker Nissen. Einige Grundlagen Evolutionärer Algorithmen. In Jörg Biethahn<br />

u. a. (Hrsg.), Betriebswirtschaftliche Anwendungen des Soft Computing,<br />

S. 55–78. Vieweg Verlag, Braunschweig, Wiesbaden, 1998.<br />

[Roja96] Raúl Rojas. Theorie der neuronalen <strong>Netze</strong>. Springer Verlag, Berlin, Heidelberg,<br />

New York. 4. Auflage, 1996.<br />

[Schi03] Josef Schira. Statistische Methoden der VWL und BWL. Pearson Studium,<br />

München u. a. 2003.<br />

[Schw94] Walter S. A. Schwaiger. Stochastische Abhängigkeiten in Aktienmarktzeitreihen.<br />

Deutscher Universitäts-Verlag, Wiesbaden. 1994.<br />

[ScSt99] Rainer Schlittgen und Bernd H. J. Streitberg. <strong>Zeitreihen</strong>analyse. R. Oldenbourg<br />

Verlag, München, Wien. 8. Auflage, 1999.<br />

[Thie98] Frank M. Thiesing. Analyse und <strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong> mit <strong>Neuronale</strong>n<br />

<strong>Netze</strong>n. Shaker Verlag, Aachen. 1998.<br />

[Webe95] René Weber. Vergleich der <strong>Prognose</strong>n <strong>von</strong> <strong>Künstliche</strong>n <strong>Neuronale</strong>n <strong>Netze</strong>n,<br />

<strong>von</strong> Arima-Modellen und der Spektralanalyse mit unterschiedlichen Gütemaßen.<br />

http://www.dr-rene-weber.de/files/vergleich.prognosen.pdf, 1995.<br />

Abrufdatum 2005-02-15.<br />

[Webe98] René Weber. Statische und dynamische Evaluation <strong>von</strong> <strong>Prognose</strong>n. ZA-<br />

Information Band 43, 1998, S. 111–123.<br />

[Weic99] Karsten Weicker. Evolutionäre Algorithmen. In Karsten Weicker (Hrsg.),<br />

Softcomputing - Tagungsband zum ersten Softcomputing-Treffen, S. 27–39.<br />

Informatikverbund Stuttgart, Stuttgart, 1999. German.<br />

[Weic02] Karsten Weicker. Evolutionäre Algorithmen. Teubner Verlag, Stuttgart,<br />

Leipzig, Wiesbaden. 2002.<br />

[Wiki04] Wikipedia. <strong>Zeitreihen</strong>analyse. http://de.wikipedia.org/wiki/zeitreihenanalyse,<br />

2004. Abrufdatum 2004-11-21.<br />

[Zabe01] Thomas Zabel. <strong>Neuronale</strong> <strong>Netze</strong> für Clustern und Vorhersage – Methodenvergleich<br />

und Tools. Diplomarbeit, Westfälische Wilhelms-Universität,<br />

Münster, Januar 2001.<br />

[Zell00] Andreas Zell. Simulation neuronaler <strong>Netze</strong>. R. Oldenbourg Verlag, München,<br />

Wien. 3. Auflage, 2000.<br />

[ZhPH98] Guoqiang Zhang, B. Eddy Patuwo und Michael Y. Hu. Forecasting with<br />

artificial neural networks: The state of the art. International Journal of<br />

Forecasting Band 14, 1998, S. 35–62.<br />

93


LITERATUR<br />

Zur Analyse verwendete Artikel<br />

[Abra04] Ajith Abraham. Meta learning evolutionary artificial neural networks. Neurocomputing<br />

Band 56, 2004, S. 1–38.<br />

[ABVKA04] Athanassios A. Argiriou, Ioannis Bellas-Velidis, Michael Kummert und<br />

Philippe Andre. A neural network controller for hydronic heating systems<br />

of solar buildings. Neural Networks Band 17, 2004, S. 427–440.<br />

[Amil03] Henrik Amilon. A neural network versus Black-Scholes: a comparison of<br />

pricing and hedging performances. Journal of Forecasting Band 22, 2003,<br />

S. 317–335.<br />

[ArBVB00] A. A. Argiriou, I. Bellas-Velidis und C. A Balaras. Development of a neural<br />

network heating controller for solar buildings. Neural Networks Band 13,<br />

2000, S. 811–820.<br />

[AuHi00] Alex Aussem und David Hill. Neural-network metamodelling for the prediction<br />

of Caulerpa taxifolia development in the Mediterranean sea. Neurocomputing<br />

Band 30, 2000, S. 71–78.<br />

[BaHH03] Bunchingiv Bazartseren, Gerald Hildebrandt und K. P Holz. Short-term<br />

water level prediction using neural networks and neuro-fuzzy approach.<br />

Neurocomputing Band 55, 2003, S. 439–450.<br />

[BCFP + 03] R. Baratti, B. Cannas, A. Fanni, M. Pintus, G. M. Sechi und N Toreno. River<br />

flow forecast for reservoir management through neural networks. Neurocomputing<br />

Band 55, 2003, S. 421–437.<br />

[BeMe00] Yves Bentz und Dwight Merunka. Neural networks and the multinomial<br />

logit for brand choice modelling: a hybrid approach. Journal of Forecasting<br />

Band 19, 2000, S. 177–200.<br />

[BoCB02] Romuald Bone, Michel Crucianu und Jean-Pierre Asselin de Beauville.<br />

Learning long-term dependencies by the selective addition of time-delayed<br />

connections to recurrent neural networks. Neurocomputing Band 48, 2002,<br />

S. 251–266.<br />

[ChSM02] J. Paul Choudhury, Bijan Sarkar und S. K Mukherjee. Forecasting of engineering<br />

manpower through fuzzy associative memory neural network with<br />

ARIMA: a comparative study. Neurocomputing Band 47, 2002, S. 241–<br />

257.<br />

[Cioc02] Iulian B Ciocoiu. RBF networks training using a dual extended Kalman<br />

filter. Neurocomputing Band 48, 2002, S. 609–622.<br />

[dBET00] Michel de Bollivier, Walter Eifler und Sylvie Thiria. Sea surface temperature<br />

forecasts using on-line local learning algorithm in upwelling regions.<br />

Neurocomputing Band 30, 2000, S. 59–63.<br />

[DuHu02] Christian L. Dunis und Xuehuan Huang. Forecasting and trading currency<br />

volatility: an application of recurrent neural regression and model combination.<br />

Journal of Forecasting Band 21, 2002, S. 317–354.<br />

94


LITERATUR<br />

[FeFR02] P. M. Ferreira, E. A. Faria und A. E Ruano. Neural network models in<br />

greenhouse air temperature prediction. Neurocomputing Band 43, 2002,<br />

S. 51–75.<br />

[FRCK03] Damien Fay, John V. Ringwood, Marissa Condon und Michael Kelly. 24-h<br />

electrical load data–a sequential or partitioned time series? Neurocomputing<br />

Band 55, 2003, S. 469–498.<br />

[HaCF04] Ying Han, Emilio Corchado und Colin Fyfe. Forecasting using twinned<br />

principal curves and twinned self-organising maps. Neurocomputing<br />

Band 57, 2004, S. 37–47.<br />

[HaNe02] James V. Hansen und Ray D Nelson. Data mining of time series using<br />

stacked generalizers. Neurocomputing Band 43, 2002, S. 173–184.<br />

[JaWo03] Teo Jasic und Douglas Wood. Neural network protocols and model performance.<br />

Neurocomputing Band 55, 2003, S. 747–753.<br />

[JeLe00] So-Young Jeong und Soo-Young Lee. Adaptive learning algorithms to<br />

incorporate additional functional constraints into neural networks. Neurocomputing<br />

Band 35, 2000, S. 73–90.<br />

[Kana03] Angelos Kanas. Non-linear forecasts of stock returns. Journal of Forecasting<br />

Band 22, 2003, S. 299–315.<br />

[Kasa01] Nikola K. Kasabov. On-line learning, reasoning, rule extraction and aggregation<br />

in locally optimized evolving fuzzy neural networks. Neurocomputing<br />

Band 41, 2001, S. 25–45.<br />

[KavD02] Johan F. Kaashoek und Herman K. van Dijk. Neural network pruning<br />

applied to real exchange rate analysis. Journal of Forecasting Band 21,<br />

2002, S. 559–577.<br />

[Kim03] Kyoung-jae Kim. Financial time series forecasting using support vector<br />

machines. Neurocomputing Band 55, 2003, S. 307–319.<br />

[KOKD04] Tae Yoon Kim, Kyong Joo Oh, Chiho Kim und Jong Doo Do. Artificial<br />

neural networks for non-stationary time series. Neurocomputing Band 61,<br />

2004, S. 439–447.<br />

[KuWW02] R. J. Kuo, P. Wu und C. P Wang. An intelligent sales forecasting system<br />

through integration of artificial neural networks and fuzzy neural networks<br />

with fuzzy weight elimination. Neural Networks Band 15, 2002, S. 909–<br />

925.<br />

[LaLa00] Kin Lam und King Chung Lam. Forecasting for the generation of trading<br />

signals in financial markets. Journal of Forecasting Band 19, 2000, S. 39–<br />

52.<br />

[LiDL04] Andreas Lindemann, Christian L. Dunis und Paolo Lisboa. Propability<br />

Distributions, Trading Strategies and Leverage: An Application of Gaussian<br />

Mixture Models. Journal of Forecasting Band 23, 2004, S. 559–585.<br />

95


LITERATUR<br />

[LiLi00] Chun-Shin Lin und Chien-Kuo Li. A sum-of-product neural network (SO-<br />

PNN). Neurocomputing Band 30, 2000, S. 273–291.<br />

[Lotr04] Uros Lotric. Wavelet based denoising integrated into multilayered perceptron.<br />

Neurocomputing Band 62, 2004, S. 179–196.<br />

[LuFL03] W. Z. Lu, H. Y. Fan und S. M Lo. Application of evolutionary neural<br />

network method in predicting pollutant levels in downtown area of Hong<br />

Kong. Neurocomputing Band 51, 2003, S. 387–400.<br />

[MaBT00] Olivier Maas, Jean-Philippe Boulanger und Sylvie Thiria. Use of neural<br />

networks for predictions using time series: Illustration with the El Nino<br />

Southern oscillation phenomenon. Neurocomputing Band 30, 2000, S. 53–<br />

58.<br />

[MKZM + 02] Noboru Murata, Motoaki Kawanabe, Andreas Ziehe, Klaus-Robert Muller<br />

und Shun-ichi Amari. On-line learning in changing environments with<br />

applications in supervised and unsupervised learning. Neural Networks<br />

Band 15, 2002, S. 743–760.<br />

[MoBr04] Saeed Moshiri und Laura Brown. Unemployment variation over the business<br />

cycles: a comparison of forecasting models. Journal of Forecasting<br />

Band 23, 2004, S. 497–511.<br />

[MoCa00] Saeed Moshiri und Norman Cameron. Neural network versus econometric<br />

models in forecasting inflation. Journal of Forecasting Band 19, 2000,<br />

S. 201–217.<br />

[MZCA00] F. Murtagh, G. Zheng, J. G. Campbell und A Aussem. Neural network<br />

modelling for environmental prediction. Neurocomputing Band 30, 2000,<br />

S. 65–70.<br />

[NaMi02] Ashok K. Nag und Amit Mitra. Forecasting daily foreign exchange rates<br />

using genetically optimized neural networks. Journal of Forecasting<br />

Band 21, 2002, S. 501–511.<br />

[NiIb03] Nikolay Y. Nikolaev und Hitoshi Iba. Polynomial harmonic GMDH learning<br />

networks for time series modeling. Neural Networks Band 16, 2003,<br />

S. 1527–1540.<br />

[PaRM03] M. Panella, A. Rizzi und G Martinelli. Refining accuracy of environmental<br />

data prediction by MoG neural networks. Neurocomputing Band 55, 2003,<br />

S. 521–549.<br />

[PoGr02] Primoz Potocnik und Igor Grabec. Nonlinear model predictive control of<br />

a cutting process. Neurocomputing Band 43, 2002, S. 107–126.<br />

[PPHD + 00] Arthur Petrosian, Danil Prokhorov, Richard Homan, Richard Dasheiff und<br />

Donald Wunsch II. Recurrent neural network based prediction of epileptic<br />

sei<strong>zur</strong>es in intra- and extracranial EEG. Neurocomputing Band 30, 2000,<br />

S. 201–218.<br />

96


LITERATUR<br />

[RMBW02] Thomas Ragg, Wolfram Menzel, Walter Baum und Michael Wigbers.<br />

Bayesian learning for sales rate prediction for thousands of retailers. Neurocomputing<br />

Band 43, 2002, S. 127–144.<br />

[RPBO + 02] I. Rojas, H. Pomares, J. L. Bernier, J. Ortega, B. Pino, F. J. Pelayo und<br />

A Prieto. Time series analysis using normalized PG-RBF network with<br />

regression weights. Neurocomputing Band 42, 2002, S. 267–285.<br />

[ScDD00] Christian Schittenkopf, Georg Dorffner und Engelbert J. Dockner. Forecasting<br />

time-dependent conditional densities: a seminonparametric neural<br />

network approach. Journal of Forecasting Band 19, 2000, S. 355–374.<br />

[SLCF + 04] Geoffroy Simon, Amaury Lendasse, Marie Cottrell, Jean-Claude Fort und<br />

Michel Verleysen. Double quantization of the regressor space for longterm<br />

time series prediction: method and proof of stability. Neural Networks<br />

Band 17, 2004, S. 1169–1181.<br />

[SOPP01] Moises Salmeron, Julio Ortega, Carlos G. Puntonet und Alberto Prieto.<br />

Improved RAN sequential prediction using orthogonal techniques. Neurocomputing<br />

Band 41, 2001, S. 153–172.<br />

[SRDu01] J. Santos Reyes und R. J Duro. Influence of noise on discrete time backpropagation<br />

trained networks. Neurocomputing Band 41, 2001, S. 67–89.<br />

[SYAJ04] N. Arzu Sisman-Yilmaz, Ferda N. Alpaslan und Lakhmi Jain. AN-<br />

FIS_unfolded_in_time for multivariate time series forecasting. Neurocomputing<br />

Band 61, 2004, S. 139–168.<br />

[ThEn04] Suraphan Thawornwong und David Enke. The adaptive selection of financial<br />

and economic variables for use with artificial neural networks. Neurocomputing<br />

Band 56, 2004, S. 205–232.<br />

[TiZM02] Yuan Tian, Jie Zhang und Julian Morris. Optimal control of a fed-batch<br />

bioreactor based upon an augmented recurrent neural network model. Neurocomputing<br />

Band 48, 2002, S. 919–936.<br />

[ToEr03] Ayca Kumluca Topalli und Ismet Erkmen. A hybrid learning for neural<br />

networks applied to short term load forecasting. Neurocomputing Band 51,<br />

2003, S. 495–500.<br />

[ToSc01] Dirk Tomandl und Andreas Schober. A Modified General Regression<br />

Neural Network (MGRNN) with new, efficient training algorithms as a<br />

robust ’black box’-tool for data analysis. Neural Networks Band 14, 2001,<br />

S. 1023–1034.<br />

[TrGB03] Stefania Tronci, Massimiliano Giona und Roberto Baratti. Reconstruction<br />

of chaotic time series by neural models: a case study. Neurocomputing<br />

Band 55, 2003, S. 581–591.<br />

[WaZu01] Hiroshi Wakuya und Jacek M Zurada. Bi-directional computing architecture<br />

for time series prediction. Neural Networks Band 14, 2001, S. 1307–<br />

1321.<br />

97


LITERATUR<br />

[YaCh00] Jim Y. F. Yam und Tommy W. S Chow. A weight initialization method for<br />

improving training speed in feedforward neural network. Neurocomputing<br />

Band 30, 2000, S. 219–232.<br />

[YaTa00] Jingtao Yao und Chew Lim Tan. A case study on using neural networks<br />

to perform technical forecasting of forex. Neurocomputing Band 34, 2000,<br />

S. 79–98.<br />

[Zhan03] G. Peter Zhang. Time series forecasting using a hybrid ARIMA and neural<br />

network model. Neurocomputing Band 50, 2003, S. 159–175.<br />

98


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Anhang A: Bei der Literaturanalyse erhobene Daten<br />

In den Tabellen A bis E werden alle für die Analyse der Anwendungen erhobenen Daten<br />

aufgeführt. Die Methodik der Erhebung sowie weitere Erläuterungen werden in Kapitel 5<br />

gegeben. Leere Felder bedeuten, dass die entsprechende Information bei der jeweiligen<br />

Anwendung nicht <strong>zur</strong> Verfügung stand.<br />

Zur einfacheren Darstellung werden folgende Abkürzungen verwendet:<br />

Vorverarbeitung<br />

dif Bildung <strong>von</strong> Differenzen<br />

gd Bildung gleitender Durchschnitte<br />

log Anwendung der Logarithmusfunktion<br />

rausch Additives Hinzufügen <strong>von</strong> Rauschen<br />

sais Eliminierung saisonaler Schwankungen<br />

skal Lineare Skalierung der Werte auf ein eingeschränktes Intervall<br />

trend Eliminierung eines Trends<br />

wav Anwendung einer Wavelet-Transformation<br />

Netz-Typ<br />

ANFIS u. i. t. Adaptive-Network-based Fuzzy Inference Systems unfolded in time<br />

dMLP Multi-Layer Perceptron mit denoising Einheit<br />

EFuNN Evolving Neuro-Fuzzy System<br />

FAM Fuzzy Associative Memory Neural Network<br />

FNN Fuzzy Neural Network<br />

GANN Genetic Algorithm Neural Network<br />

GM Gaussian Mixture Model<br />

GRNN Generalized Regression Neural Network<br />

MLEANN Meta-Learning Evolutionary Neural Network<br />

MLP Multi-Layer Perceptron<br />

PHN Polynomial harmonic network<br />

PNN Probabilistic Neural Network<br />

PS-MoG Phase Shift Mixture of Gaussian Neural Network<br />

RBF Radial Basis Function<br />

RMDN Recurrent Mixture Density Network<br />

RNN Recurrent Neural Network<br />

SG Stacked Generalsisation<br />

SOM Self Organizing Map<br />

SOPNN Sum-of-Product Neural Network<br />

TDNN Time Delay Neural Network<br />

TF-MoG Two Fold Mixture of Gaussian Neural Network<br />

99


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Verbindungs-Struktur<br />

Nr. 1 Feedforward ebenenweise verbunden<br />

Nr. 5 Feedforward ebenenweise verbunden mit direkten Rückkopplungen<br />

Nr. 7 Feedforward ebenenweise verbunden mit vollständigen lateralen<br />

Verbindungen innerhalb einer Ebene<br />

Nr. 9 Vollständig ebenenweise verbunden<br />

Nr. 17 Feedforward ebenenweise verbunden mit Shortcut-Verbindungen in<br />

Lern-Verfahren<br />

Backward-Richtung<br />

BP-phGMDH Backpropagation polynomial harmonic GMDH<br />

CBPTT Constructive Backpropagation Through Time<br />

DBT Discrete Time Backpropagation Algorithm<br />

EKF Extended Kalman Filter<br />

GRG2 Generalized Reduced Gradient<br />

RTRL Real-Time Recurrent Learning<br />

Zielfunktionen und Fehlermaße<br />

MAE Mean Absolute Error<br />

MAPE Mean Absolute Percentage Error<br />

MSE Mean Squared Error<br />

MSPE Mean Squared Percentage Error<br />

NMSE Normalized Squared Error<br />

NRMSE Normalized Root Mean Squared Error<br />

PER Prediction Error Ratio<br />

R 2 Bestimmtheitsmaß<br />

RMSE Root Mean Squared Error<br />

SSE Sum of Squared Errors<br />

Alternative Modelle<br />

ANFIS Adaptive Network Fuzzy Inference System<br />

AR Autoregressives Modell<br />

ARIMA Autoregressives Integriertes Moving-Average-Modell<br />

ARMA Autoregressives Moving-Average-Modell<br />

ARMAX Autoregressives Moving-Average-Modell mit exogenem Input<br />

ARX Autoregressives Modell mit exogenem Input<br />

dMLP Multi-Layer Perceptron mit denoising Einheit<br />

GARCH Generalized Autoregressive Conditional Heteroscedastisity-Modell<br />

FB Feedback Neural Network<br />

100


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

FF Feedforward Neural Network<br />

GRNN Generalized Regression Neural Network<br />

GMDH Group Method of Data Handling<br />

NN Neural Network<br />

RAN Resource Allocating Network<br />

RBF Radial Basis Function<br />

SVM Support Vector Machines<br />

TDNN Time Delay Neural Network<br />

101


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Tabelle A<br />

Nr. Quelle Zeitreihe Bereich Nutzen Art der Eingabedaten<br />

1 [Abra04] Abwasserzufluss einer Kläranlage Technik vielleicht endogen<br />

2 [Abra04] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

3 [Abra04] Kohlendioxid-Konzentration eines Gasofens Technik vielleicht endogen, exogen<br />

4 [ABVKA04] Sonneneinstrahlung Umwelt ja endogen, exogen, Saison<br />

5 [ABVKA04] Außentemperatur Umwelt ja endogen, exogen, Saison<br />

6 [ABVKA04] Wassertemperatur eines Heizkreislaufs Technik ja endogen, exogen<br />

7 [ABVKA04] Zimmertemperatur Technik ja endogen, exogen<br />

8 [Amil03] Optionspreise auf den schwedischen OMX-<br />

Index<br />

Finanzwirtschaft ja exogen<br />

9 [ArBVB00] Sonneneinstrahlung Umwelt ja endogen, exogen, Saison<br />

10 [ArBVB00] Außentemperatur Umwelt ja endogen, exogen, Saison<br />

11 [ArBVB00] Zimmertemperatur Technik ja endogen, exogen<br />

12 [AuHi00] Verbreitung der grünen Alge Caulerpa Taxi-<br />

folia im nordw. Mittelmeer<br />

Umwelt ja exogen<br />

13 [BaHH03] Wasserstand der Oder bei Frankfurt Umwelt ja endogen, exogen<br />

14 [BaHH03] Wasserstand des Rheins bei Wesel Umwelt ja endogen, exogen<br />

15 [BCFP + 03] Regenwasserabfluss im Tirso Basin, Italien Umwelt ja endogen, exogen, Saison<br />

16 [BCFP + 03] Regenwasserabfluss im Tirso Basin, Italien Umwelt ja endogen, Saison<br />

17 [BCFP + 03] Regenwasserabfluss im Tirso Basin, Italien Umwelt ja endogen, exogen, Saison<br />

18 [BeMe00] Einzelne Instantkaffee-Verkäufe in Australi-<br />

en<br />

Marketing ja exogen<br />

19 [BoCB02] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

20 [BoCB02] Ausgestrahlte Lichtintensität eines Lasers Technik vielleicht endogen<br />

21 [BoCB02] Jährliche Anzahl <strong>von</strong> Sonnenflecken Sonnenflecken nein endogen<br />

22 [BoCB02] Wasserzufluss des Lac St. Jean Reservoir in<br />

Kanada<br />

23 [ChSM02] Arbeitseinsatz der Stahlindustrie in West<br />

Bengalen, Indien<br />

Umwelt ja endogen, exogen<br />

Technik ja endogen<br />

24 [Cioc02] Chaotische Qudratic map Zeitreihe Künstlich nein endogen<br />

25 [dBET00] Meeresoberflächentemperatur Umwelt ja endogen, exogen<br />

26 [DuHu02] Volatilität des Wechselkurses GBP/USD Finanzwirtschaft ja endogen, exogen<br />

27 [DuHu02] Volatilität des Wechselkurses GBP/USD Finanzwirtschaft ja endogen, exogen<br />

28 [DuHu02] Volatilität des Wechselkurses GBP/JPY Finanzwirtschaft ja endogen, exogen<br />

29 [DuHu02] Volatilität des Wechselkurses GBP/JPY Finanzwirtschaft ja endogen, exogen<br />

30 [FeFR02] Lufttemperatur eines Gewächshauses Technik ja exogen<br />

31 [FRCK03] Stromnachfrage in Irland um 18 Uhr Stromverbrauch ja endogen, exogen<br />

32 [HaCF04] Wechselkurs USD/JPY Finanzwirtschaft ja endogen<br />

33 [HaNe02] Versteuerbare Verkäufe im Staat Utah, USA Makroökonomik ja endogen<br />

34 [JaWo03] Wechselkurs USD/DEM Finanzwirtschaft ja endogen<br />

35 [JaWo03] Wechselkurs USD/JPY Finanzwirtschaft ja endogen<br />

36 [JaWo03] Wechselkurs USD/CHF Finanzwirtschaft ja endogen<br />

37 [JaWo03] Wechselkurs USD/GBP Finanzwirtschaft ja endogen<br />

38 [JeLe00] Ausgestrahlte Lichtintensität eines Lasers Technik vielleicht endogen<br />

39 [JeLe00] Jährliche Anzahl <strong>von</strong> Sonnenflecken Sonnenflecken nein endogen<br />

40 [JeLe00] Jährliche Anzahl <strong>von</strong> Sonnenflecken Sonnenflecken nein endogen<br />

41 [Kana03] Börsenertrag des S&P-Index Finanzwirtschaft ja exogen<br />

42 [Kasa01] Kohlendioxid-Konzentration eines Gasofens Technik vielleicht endogen, exogen<br />

43 [KavD02] Wechselkurs USD/JPY Finanzwirtschaft ja endogen<br />

44 [Kim03] Vorzeichen des KOSPI-Index aus Korea Finanzwirtschaft ja exogen<br />

45 [KOKD04] KOSPI-Index aus Korea Finanzwirtschaft ja endogen<br />

46 [KuWW02] Absatz <strong>von</strong> Papaya Milch einer Kiosk-Kette<br />

in Taiwan<br />

Marketing ja endogen, exogen<br />

47 [LaLa00] Hang Seng-Index, Hong Kong Finanzwirtschaft ja endogen<br />

48 [LiDL04] Verteilung des Wechselkurses EUR/USD Finanzwirtschaft ja exogen<br />

49 [LiLi00] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

50 [LiLi00] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

102


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Nr. Quelle Zeitreihe Bereich Nutzen Art der Eingabedaten<br />

51 [Lotr04] Second Order Prozess Künstlich nein endogen<br />

52 [Lotr04] Second Order Prozess Künstlich nein endogen<br />

53 [Lotr04] Second Order Prozess Künstlich nein endogen<br />

54 [Lotr04] Chaotische Feigenbaum Sequenz Künstlich nein endogen<br />

55 [Lotr04] Chaotische Feigenbaum Sequenz Künstlich nein endogen<br />

56 [Lotr04] Chaotische Feigenbaum Sequenz Künstlich nein endogen<br />

57 [Lotr04] Härtegrad einer Gummizusammensetzung Technik ja endogen<br />

58 [Lotr04] Härtegrad einer Gummizusammensetzung Technik ja endogen<br />

59 [Lotr04] Härtegrad einer Gummizusammensetzung Technik ja endogen<br />

60 [LuFL03] Luftverschmutzung (RSP) in Hongkong Umwelt ja endogen, exogen<br />

61 [MaBT00] Meeresoberflächentemperatur Umwelt ja endogen, exogen<br />

62 [MKZM + 02] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

63 [MoBr04] Arbeitslosenquote in den USA Makroökonomik ja endogen<br />

64 [MoBr04] Arbeitslosenquote in den USA Makroökonomik ja endogen<br />

65 [MoCa00] Inflation in Kanada Makroökonomik ja endogen<br />

66 [MZCA00] Meeresoberflächentemperatur Umwelt ja endogen, exogen<br />

67 [NaMi02] Wechselkurs USD/DEM Finanzwirtschaft ja endogen, exogen<br />

68 [NaMi02] Wechselkurs USD/GBP Finanzwirtschaft ja endogen, exogen<br />

69 [NaMi02] Wechselkurs USD/JPY Finanzwirtschaft ja endogen, exogen<br />

70 [NiIb03] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen, Saison<br />

71 [NiIb03] Jährliche Anzahl <strong>von</strong> Sonnenflecken Sonnenflecken nein endogen, Saison<br />

72 [PaRM03] Stromnachfrage in Rom Stromverbrauch ja endogen<br />

73 [PaRM03] Ozonlevel in der Altstadt <strong>von</strong> Rom Umwelt ja endogen<br />

74 [PaRM03] Lärm in der Altstadt <strong>von</strong> Rom Umwelt ja endogen<br />

75 [PoGr02] Schnittfehler eines Schnittprozesses Technik ja endogen, exogen<br />

76 [PPHD + 00] Hirnströme Medizin ja exogen<br />

77 [RMBW02] Absatz der Bildzeitung eines Händlers Marketing ja endogen, Saison<br />

78 [RPBO + 02] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

79 [RPBO + 02] Chaotische Lorenz-Attraktor Zeitreihe Künstlich nein endogen<br />

80 [ScDD00] Volatilität des FTSE 100-Index Finanzwirtschaft ja exogen<br />

81 [SLCF + 04] Ausgestrahlte Lichtintensität eines Lasers Technik vielleicht endogen<br />

82 [SLCF + 04] Stromnachfrage in Polen Stromverbrauch ja endogen<br />

83 [SOPP01] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

84 [SRDu01] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

85 [SRDu01] Monatliche Anzahl <strong>von</strong> Sonnenflecken Sonnenflecken nein endogen<br />

86 [SYAJ04] Kohlendioxid-Konzentration eines Gasofens Technik vielleicht endogen, exogen<br />

87 [ThEn04] Vorzeichen des S&P 500-Index Finanzwirtschaft ja exogen<br />

88 [ThEn04] Vorzeichen des S&P 500-Index Finanzwirtschaft ja exogen<br />

89 [TiZM02] Abgabemenge eines Proteins Technik ja endogen, exogen<br />

90 [TiZM02] Abgabemenge eines Proteins Technik ja endogen, exogen<br />

91 [TiZM02] Abgabemenge eines Proteins Technik ja endogen, exogen<br />

92 [ToEr03] Stromnachfrage in der Türkei Stromverbrauch ja endogen, Saison<br />

93 [ToSc01] Chaotische Mackey-Glass Zeitreihe Künstlich nein endogen<br />

94 [TrGB03] Chaotische Brusselator Zeitreihe Künstlich nein endogen<br />

95 [WaZu01] Jährliche Anzahl <strong>von</strong> Sonnenflecken Sonnenflecken nein endogen<br />

96 [YaCh00] Jährliche Anzahl <strong>von</strong> Sonnenflecken Sonnenflecken nein endogen<br />

97 [YaTa00] Wechselkurs USD/DEM Finanzwirtschaft ja endogen<br />

98 [YaTa00] Wechselkurs USD/GBP Finanzwirtschaft ja endogen<br />

99 [YaTa00] Wechselkurs USD/JPY Finanzwirtschaft ja endogen<br />

100 [YaTa00] Wechselkurs USD/DEM Finanzwirtschaft ja endogen<br />

101 [YaTa00] Wechselkurs USD/GBP Finanzwirtschaft ja endogen<br />

102 [YaTa00] Wechselkurs USD/JPY Finanzwirtschaft ja endogen<br />

103 [Zhan03] Wechselkurs USD/GBP Finanzwirtschaft ja endogen<br />

104 [Zhan03] Jährliche Anzahl <strong>von</strong> Sonnenflecken Sonnenflecken nein endogen<br />

105 [Zhan03] Jährl. Anzahl gefangener Luchse im Ma-<br />

ckenzie River District, Kanada<br />

Umwelt vielleicht endogen<br />

103


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Tabelle B<br />

Nr. Vorverarbeitung Schrittweite Zeitfenster<br />

[Schritte]<br />

Horizont<br />

[Schritte]<br />

Daten-<br />

sätze<br />

Trainings-<br />

1 gd 1 Stunde 24 1 475 240 235<br />

2 6 Punkte 4 1 1.000 500 500<br />

3 9 Sekunden 1 1 292 146 146<br />

4 15 Minuten 8 1–4<br />

5 15 Minuten 8 1–4<br />

6 15 Minuten 8 1–4<br />

7 15 Minuten 8 1–4<br />

daten<br />

Test-<br />

daten<br />

Validierung<br />

8 skal 1 Tag 5 1 9.416 2.354 470 x<br />

9 skal 15 Minuten 4 1 x<br />

10 skal 15 Minuten 6 1 x<br />

11 skal 15 Minuten 7 1 x<br />

12 skal 1 Jahr 12 600 480 120<br />

13 15 Minuten 20<br />

14 1 Stunde 15<br />

15 skal 1 Monat 5 1 828 480 240 x<br />

16 skal 1 Monat 6 1 828 480 240 x<br />

17 1 Tag 60 1 3.650 x<br />

18 4.952 2.899 1.731 x<br />

19 6 Punkte 1 1 600 500 100<br />

20 1 1 1.100 900 100 x<br />

21 1 Jahr 1 1 256 221 35<br />

22 log/skal 1 Viertelmonat 1 1 1.440 1.152 144 x<br />

23 1 Jahr 1 1 13<br />

24 1 600 500 100<br />

25 1 Tag 3 8<br />

26 log/dif 1 Tag 21 21 1.610 1.049 280 x<br />

27 log/dif 1 Tag 21 21 1.610 1.049 280 x<br />

28 log/dif 1 Tag 21 21 1.610 1.049 280 x<br />

29 log/dif 1 Tag 21 21 1.610 1.049 280 x<br />

30 skal 5 Minuten 1 1 4.257 1.000 3.257<br />

31 trend/sais/skal 1 Tag 2 1 360 300 30 x<br />

32 1 Tag 10 1 3.497 1.706 1.706<br />

33 1 Quartal 4 x<br />

34 log/dif 1 Tag 6 1 3.616 2.606 1.010<br />

35 log/dif 1 Tag 7 1 3.616 2.606 1.010<br />

36 log/dif 1 Tag 6 1 3.616 2.606 1.010<br />

37 log/dif 1 Tag 7 1 3.616 2.606 1.010<br />

38 60 1.200 1.000 200<br />

39 1 Jahr 12 1 295 221 35<br />

40 1 Jahr 12 1 295 221 35<br />

41 log/dif 1 Jahr 2 1 127 118 9<br />

42 4 1 292 146 146<br />

43 log/skal 1 Monat 1 1 495<br />

44 gd/skal 1 Tag 1 2.928 2.347 581<br />

45 5 1<br />

46 1 Tag 15 1 379 334 45<br />

47 log 1 Tag 30 5<br />

48 dif 1 Tag 19 1 1.149 1.459 290<br />

49 19 1 1.000 500 500<br />

50 19 1 1.000 500 500<br />

51 skal 0,2 Sekunden 14 1 250 181 33 x<br />

52 skal 0,2 Sekunden 10 1 250 181 33 x<br />

53 skal 0,2 Sekunden 12 1 250 181 33 x<br />

54 skal 4 1 250 181 33 x<br />

104


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Nr. Vorverarbeitung Schrittweite Zeitfenster<br />

[Schritte]<br />

Horizont<br />

[Schritte]<br />

Daten-<br />

sätze<br />

Trainings-<br />

daten<br />

Test-<br />

daten<br />

Validierung<br />

55 skal 11 1 250 181 33 x<br />

56 skal 4 1 250 181 33 x<br />

57 skal 19 1 199 144 33 x<br />

58 skal 7 1 199 144 33 x<br />

59 skal 18 1 199 144 33 x<br />

60 1 Stunde 1 1 88 70 18<br />

61 skal 1 Monat 6 349 250<br />

62 skal 6 Punkte 6 1 12.000 200 11.800<br />

63 log/trend 1 Quartal 2 1 196 128 68<br />

64 log/trend 1 Quartal 2 1 196 128 68<br />

65 dif 1 Monat 1 300 252 48<br />

66 dif 1 Tag 6 1 339 299 40<br />

67 1 Tag 1 150<br />

68 1 Tag 1 150<br />

69 1 Tag 1 150<br />

70 skal 1 Punkt 6 1 400 100 300<br />

71 skal 1 Jahr 6 1 280 221 35<br />

72 1 Stunde 5 1 2.600 2.000 600<br />

73 5 Minuten 5 1 2.600 2.000 600<br />

74 5 Minuten 14 1 2.600 2.000 600<br />

75 0,025 Sekunden 2 1<br />

76 wav/skal 20.000<br />

77 dif, gd 1 Tag 11 6 1.800 1.200 500<br />

78 6 Punkte 4 1 1.000 500 500<br />

79 1 Punkt 3 1 1.000 500 500<br />

80 log/dif 1 Tag 1.762 521 260<br />

81 7 25 10.000 6.000 100 x<br />

82 1 Tag 8 40 3.000 2.000 200 x<br />

83 19 85 8.000 4.000 0<br />

84 skal/rausch 1–50<br />

85 1 Monat 12 3.003 2.000 353<br />

86 9 Sekunden 4 1 296 292<br />

87 trend/sais/dif/skal 1 Monat 1 1 222 160 22 x<br />

88 trend/sais/dif/skal 1 Monat 1 1 222 160 22 x<br />

89 rausch 6 Minuten 3 1 5.400 4.500 750 x<br />

90 rausch 6 Minuten 3 1 5.400 4.500 750 x<br />

91 rausch 6 Minuten 5 1 5.400 4.500 750 x<br />

92 1 Tag 3 1 365 365<br />

93 1 Punkt 5 1 2.000 500 500<br />

94 8 1 2.000 1.000 1.000<br />

95 skal 1 Jahr 1 1 280 100<br />

96 1 Jahr 12 1 280 208 36<br />

97 skal 1 Woche 5 1 510 357 51 x<br />

98 skal 1 Woche 5 1 510 357 51 x<br />

99 skal 1 Woche 5 1 510 357 51 x<br />

100 gd/skal 1 Woche 120 1 510 357 51 x<br />

101 gd/skal 1 Woche 120 1 510 357 51 x<br />

102 gd/skal 1 Woche 120 1 510 357 51 x<br />

103 log 1 Woche 1 731 679 52<br />

104 1 Jahr 1 288 221 67<br />

105 1 Jahr 1 114 100 14<br />

105


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Nr. Netz-Typ Anzahl<br />

Schichten<br />

Tabelle C<br />

Topologie Struktur Aktivierungsfunktionen der ver-<br />

steckten Schichten<br />

1 MLEANN 3 4-11-1 1 tanh, tanh-sigmoid, log-sigmoid linear<br />

2 MLEANN 3 4-8-1 1 tanh, tanh-sigmoid linear<br />

3 MLEANN 3 2-9-1 1 tanh, log-sigmoid linear<br />

4 MLP 4 18-32-32-4 1<br />

5 MLP 4 18-32-32-4 1<br />

6 MLP 4 52-32-32-12 1<br />

7 MLP 4 56-32-32-4 1<br />

Aktivierungsfkt. d.<br />

Ausgabeschicht<br />

8 MLP 3 9-10/12/14-2 1 tanh logistisch<br />

9 MLP 4 10-8-4-1 1<br />

10 MLP 4 28-16-8-1 1<br />

11 MLP 4 28-16-8-1 1<br />

12 MLP 4-?-1 nicht linear<br />

13 MLP 3 1<br />

14 MLP 3 1<br />

15 MLP 3 8-6-1 1 sigmoid<br />

16 MLP 3 8-9-1 1 sigmoid<br />

17 MLP 3 9-9-1 1 sigmoid<br />

18 MLP 3 8-4-1 1 linear Softmax<br />

19 RNN 3 1-7-1 7 sigmoid<br />

20 RNN 3 1-7-1 7 sigmoid<br />

21 RNN 3 1-2-1 7 sigmoid<br />

22 RNN 3 1-6-1 7 sigmoid<br />

23 FAM 2 9<br />

24 RBF 3 x-5-1 1 RBF linear<br />

25 MLP 6-? 1<br />

26 MLP 4 44-10-5-1 1 sigmoid sigmoid<br />

27 RNN 3 44-1-1 17 sigmoid sigmoid<br />

28 MLP 3 44-1-1 1 sigmoid sigmoid<br />

29 RNN 3 44-5-1 17 sigmoid sigmoid<br />

30 RBF 3 3-6-1 1<br />

31 MLP 4 10-4-4-1 1 tan-sigmoid linear<br />

32 SOM 25 Zentren<br />

33 SG<br />

34 MLP 3 6-4-1 1 logistisch linear<br />

35 MLP 3 7-4-1 1 logistisch linear<br />

36 MLP 3 6-4-1 1 logistisch linear<br />

37 MLP 3 7-4-1 1 logistisch linear<br />

38 MLP 1 sigmoid<br />

39 MLP 12-8-1 1 sigmoid<br />

40 MLP 12-8-1 1 sigmoid<br />

41 MLP 3 2-8-1 1 logistisch<br />

42 EFuNN 5 2-x-x-x-1 1<br />

43 MLP 3 1-1-1 1 logistisch<br />

44 MLP 3 12-24-1 1 sigmoid linear<br />

45 MLP 3 5-5-1 1 logistisch<br />

46 FNN + MLP 4 / 3 3-7-7-1 / 25-28-1 1 sigmoid<br />

47 MLP 3 x-5-1 1 tanh<br />

48 GM 4 10-5-5-1 1 sigmoid/RBF linear<br />

49 MLP 3 4-35-1 1<br />

50 SOPNN 3 1 overlapped rectangular pulses Sum of product<br />

51 dMLP 3 14-(39-14)-1-1 1 tanh<br />

52 MLP 4 10-2-4-1 1 tanh<br />

53 MLP 4 12-2-2-1 1 tanh<br />

54 dMLP 3 4-(9-4)-10-1 1 tanh<br />

106


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Nr. Netz-Typ Anzahl<br />

Schichten<br />

Topologie Struktur Aktivierungsfunktionen der ver-<br />

55 MLP 4 11-2-3-1 1 tanh<br />

56 MLP 3 4-10-1 1 tanh<br />

57 dMLP 3 19-(53-19)-1-1 1 tanh<br />

58 MLP 3 7-3-1 1 tanh<br />

59 MLP 3 18-1-1 1 tanh<br />

60 MLP 4 7-8-8-1 1<br />

61 3 12-10-4 1<br />

62 RBF<br />

steckten Schichten<br />

Aktivierungsfkt. d.<br />

Ausgabeschicht<br />

63 MLP 3 2-1-1 1 tanh Identität<br />

64 GRNN 3 2-x-1 1 RBF Identität<br />

65 MLP 3 1 tan-sigmoid linear<br />

66 MLP 3 7-3-1 1<br />

67 GANN 9 linear, tanh, sigmoid<br />

68 GANN 9 linear, tanh, sigmoid<br />

69 GANN 9 linear, tanh, sigmoid<br />

70 PHN 4 10-8-8-8-1 1 polynomial<br />

71 PHN 4 10-8-8-8-1 1 polynomial<br />

72 TF-MoG 5-?-1<br />

73 PS-MoG 5-?-1<br />

74 PS-MoG 9-?-1<br />

75 MLP 3 6-10-2 1 sigmoid<br />

76 RNN 3 11-10-1 17 bipolare sigmoide Nichtlinearität<br />

77 10-?<br />

78 RBF 3 4-12-1 1 pseudo Gausssche RBF<br />

79 RBF 3 3-6-1 1 pseudo Gausssche RBF<br />

80 RMDN 3 1-3*3-3*2 17 tanh<br />

81 SOM 1<br />

82 SOM 1<br />

83 RBF x-18-1 RBF<br />

84 TDNN 4 1-20-20-1<br />

85 TDNN 4 1-7-7-1<br />

86 ANFIS u. i. t 6 2-4-4-4-4-1 1<br />

87 MLP 3 15-27-2 1 tanh-sigmoid<br />

88 PNN 4 1<br />

89 MLP 3 6-8-1 1<br />

90 RNN 3 5-6-1 17<br />

91 RNN 3 / 3 6-8-1 / 8-9-1 17<br />

92 RNN 3 9 sigmoid<br />

93 Modified<br />

GRNN<br />

94 MLP 3 8-13-1 1 sigmoid sigmoid<br />

95 RNN 4 / 4 1-9-9-1 / 1-9-9-1 5 logistisch linear<br />

96 MLP 3 12-8-1 1 sigmoid<br />

97 MLP 3 6-3-1 1<br />

98 MLP 3 6-3-1 1<br />

99 MLP 3 5-3-1 1<br />

100 MLP 3 6-4-1 1<br />

101 MLP 3 6-4-1 1<br />

102 MLP 3 6-4-1 1<br />

103 MLP 3 7-6-1 1 logistisch<br />

104 MLP 3 4-4-1 1 logistisch<br />

105 MLP 3 7-5-1 1 logistisch<br />

1<br />

107


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Tabelle D<br />

Nr. Lernverfahren Lernobjekt Lernart Zielfunktion<br />

1 Levenberg-Marquardt Gewichte, Architektur durch GA gewählt überwacht RMSE<br />

2 Konjugierte Gradienten Gewichte, Architektur durch GA gewählt überwacht RMSE<br />

3 Levenberg-Marquardt Gewichte, Architektur durch GA gewählt überwacht RMSE<br />

4 Backpropagation Gewichte überwacht<br />

5 Backpropagation Gewichte überwacht<br />

6 Backpropagation Gewichte überwacht<br />

7 Backpropagation Gewichte überwacht<br />

8 Backpropagation Gewichte überwacht SSE<br />

9 Backpropagation mit Momentum Gewichte überwacht<br />

10 Backpropagation mit Momentum Gewichte überwacht<br />

11 Backpropagation mit Momentum Gewichte überwacht<br />

12 überwacht NMSE<br />

13 Levenberg-Marquardt Gewichte überwacht<br />

14 Levenberg-Marquardt Gewichte überwacht<br />

15 Levenberg-Marquardt Gewichte überwacht MSE<br />

16 Levenberg-Marquardt Gewichte überwacht MSE<br />

17 Levenberg-Marquardt Gewichte überwacht MSE<br />

18 Backpropagation Gewichte überwacht Model-Entropy<br />

19 CBPTT Gewichte und Verzögerungen überwacht NMSE<br />

20 CBPTT Gewichte und Verzögerungen überwacht NMSE<br />

21 CBPTT Gewichte und Verzögerungen überwacht NMSE<br />

22 CBPTT Gewichte und Verzögerungen überwacht RMSE<br />

23 unüberwacht<br />

24 Dual EKF Gewichten und Zentren überwacht NMSE<br />

25<br />

26 Gewichte überwacht RMSE<br />

27 Gewichte überwacht RMSE<br />

28 Gewichte überwacht RMSE<br />

29 Gewichte überwacht RMSE<br />

30 Levenberg-Marquardt Gewichte überwacht SSE<br />

31 Backpropagation Gewichte überwacht SSE<br />

32<br />

33 Backpropagation Gewichte überwacht MSE<br />

34 Konjugierte Gradienten mit Momentum Gewichte überwacht RMSE<br />

35 Konjugierte Gradienten mit Momentum Gewichte überwacht RMSE<br />

36 Konjugierte Gradienten mit Momentum Gewichte überwacht RMSE<br />

37 Konjugierte Gradienten mit Momentum Gewichte überwacht RMSE<br />

38 Kombination aus BP, Hebbscher Lern-<br />

regel weight decay Regeln<br />

39 Kombination aus BP, Hebbscher Lern-<br />

regel weight decay Regeln<br />

Gewichte überwacht MSE<br />

Gewichte überwacht MSE<br />

40 Backpropagation Gewichte überwacht MSE<br />

41 RMSE<br />

42 Widrow-Hoff LMS Algorithmus Gewichte und Verzögerungen unüberwacht/<br />

überwacht<br />

43 Backpropagation Gewichte überwacht R 2<br />

44 Backpropagation Gewichte überwacht<br />

45 überwacht RSE<br />

46 Backpropagation mit Momentum und<br />

Gewichtselimination<br />

Gewichte, bei FNN auch Entf. <strong>von</strong> Verbin-<br />

dungen<br />

überwacht MSE<br />

47 Regulation training SSE<br />

48 Expectation Maximization Algorithm Gewichte und Dichteparameter unüberwacht<br />

49 Backpropagation Gewichte überwacht SSE<br />

50 Gradienten Abstieg Gewichte, weitere Untermodule überwacht SSE<br />

51 angepasstes Backpropagation Gewichte und Schwellenwerte überwacht NRMSE<br />

52 Backpropagation Gewichte überwacht NRMSE<br />

108


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Nr. Lernverfahren Lernobjekt Lernart Zielfunktion<br />

53 Backpropagation Gewichte überwacht NRMSE<br />

54 angepasstes Backpropagation Gewichte und Schwellenwerte überwacht NRMSE<br />

55 Backpropagation Gewichte überwacht NRMSE<br />

56 Backpropagation Gewichte überwacht NRMSE<br />

57 angepasstes Backpropagation Gewichte und Schwellenwerte überwacht NRMSE<br />

58 Backpropagation Gewichte überwacht NRMSE<br />

59 Backpropagation Gewichte überwacht NRMSE<br />

60 Particle Swarm Optimization (PSO) Gewichte MSE<br />

61<br />

62 Stochastischer Gradientenabstieg Gewichte überwacht SSE<br />

63 Backpropagation Gewichte überwacht<br />

64 Kein Training durch Iteration Entwickeln neuer Zellen überwacht MSE<br />

65 Levenberg-Marquardt Gewichte überwacht<br />

66<br />

67 Recurrent Backpropagation Gewichte überwacht Abs. Abweichung<br />

68 Recurrent Backpropagation Gewichte überwacht Abs. Abweichung<br />

69 Recurrent Backpropagation Gewichte überwacht Abs. Abweichung<br />

70 BP-phGMDH Aktivierungsfkt., Schwingungen und Ge-<br />

wichte<br />

71 BP-phGMDH Aktivierungsfkt., Schwingungen und Ge-<br />

wichte<br />

überwacht MSE<br />

überwacht MSE<br />

72 SHEM Algorithmus überwacht NMSE<br />

73 SHEM Algorithmus überwacht NMSE<br />

74 SHEM Algorithmus überwacht NMSE<br />

75<br />

76 EKF-based Gewichte überwacht MSE<br />

77 Standard Weight Decay + Bayes Gewichte<br />

78 Sequentiell Gewichte, Entwickeln und Entf. <strong>von</strong> Zellen überwacht NRMSE<br />

79 Sequentiell Gewichte, Entwickeln und Entf. <strong>von</strong> Zellen überwacht NRMSE<br />

80 Gewichte überwacht loss function<br />

81 SOM-Algorithmus Gewichte unüberwacht MSE<br />

82 SOM-Algorithmus Gewichte unüberwacht MSE<br />

83 NRMSE<br />

84 DTB Gewichte und Verzögerungen überwacht SSE<br />

85 DTB Gewichte und Verzögerungen überwacht SSE<br />

86 Temporal Backpropagation Algorithm Gewichte überwacht RMSE<br />

87 Backpropagation Gewichte und Bias überwacht RMSE<br />

88<br />

89 Levenberg-Marquardt Gewichte überwacht<br />

90 Levenberg-Marquardt Gewichte überwacht RMSE<br />

91 Levenberg-Marquardt Gewichte überwacht RMSE<br />

92 Gewichte überwacht<br />

93 Kernelweiten überwacht MSE<br />

94 Levenberg-Marquardt Gewichte überwacht MSE<br />

95 RTRL Gewichte überwacht SSE<br />

96 Backpropagation Gewichte überwacht RMSE<br />

97 Backpropagation Gewichte überwacht NMSE<br />

98 Backpropagation Gewichte überwacht NMSE<br />

99 Backpropagation Gewichte überwacht NMSE<br />

100 Backpropagation Gewichte überwacht NMSE<br />

101 Backpropagation Gewichte überwacht NMSE<br />

102 Backpropagation Gewichte überwacht NMSE<br />

103 GRG2 basiert überwacht<br />

104 GRG2 basiert überwacht<br />

105 GRG2 basiert überwacht<br />

109


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Tabelle E<br />

Nr. Gütefunktionen besser als ähnlich wie schlechter als<br />

1 RMSE FF, ANFIS<br />

2 RMSE FF, ANFIS<br />

3 RMSE FF, ANFIS<br />

4 TDNN<br />

5 TDNN<br />

6 TDNN<br />

7 TDNN, FF<br />

8 RMSE Black-Scholes<br />

9<br />

10<br />

11<br />

12 NMSE<br />

13 MAE, RMSE u. a. ARMA, ANFIS ARX<br />

14 MAE, RMSE u. a. ARMA, ANFIS, ARX<br />

15 MAE, RMSE u. a. Naiver Wert<br />

16 MAE, RMSE u. a. ARMAX<br />

17 MAE, RMSE u. a. Naiver Wert<br />

18 R 2 Multinomial Logit Model<br />

19 NMSE FF, RBF<br />

20 NMSE FF<br />

21 NMSE AR FF<br />

22 RMSE AR u. a.<br />

23 average error ARIMA<br />

24 NMSE u. a. RBF<br />

25 R 2 u. a.<br />

26 MAE, MSE, Vorzeichen GARCH FB<br />

27 MAE, MSE, Vorzeichen GARCH, FF<br />

28 MAE, MSE, Vorzeichen GARCH FB<br />

29 MAE, MSE, Vorzeichen GARCH FF<br />

30 RMSE<br />

31 MAPE AR<br />

32 MAPE<br />

33 SSE u. a. ARMA, FB, RBF<br />

34 MAE, NMSE, RMSE, Vorzeichen u. a. Random Walk<br />

35 MAE, NMSE, RMSE, Vorzeichen u. a. Random Walk<br />

36 MAE, NMSE, RMSE, Vorzeichen u. a. Random Walk<br />

37 MAE, NMSE, RMSE, Vorzeichen u. a. Random Walk<br />

38 MSE FF<br />

39 MSE AR, FF<br />

40 MSE AR<br />

41 RMSE Nearest Neighbour<br />

42 RMSE u. a.<br />

43 RMSE, R 2 ARIMA<br />

44 Vorzeichen SVM<br />

45 RSE<br />

46 MAPE, MSE ARMA, FF<br />

47 Durchschn. Gewinn<br />

48 Jahresrendite ARMA u. a. FF<br />

49<br />

50<br />

51 NRMSE FF u. a.<br />

52 NRMSE FF dMLP<br />

53 NRMSE dMLP u. a.<br />

54 NRMSE stat. ber. MLP FF<br />

55 NRMSE FF, dMLP<br />

110


ANHANG A: BEI DER LITERATURANALYSE ERHOBENE DATEN<br />

Nr. Gütefunktionen besser als ähnlich wie schlechter als<br />

56 NRMSE dMLP u. a.<br />

57 NRMSE FF u. a.<br />

58 NRMSE FF u. a.<br />

59 NRMSE stat. ber. MLP dMLP<br />

60<br />

61<br />

62 RMSE<br />

63 MSPE AR RBF<br />

64 MSPE AR, FF<br />

65 MAE, RMSE ARIMA<br />

66 RMSE GRNN u. a.<br />

67 MAPE, MSE u. a. GARCH, FF u. a.<br />

68 MAPE, MSE u. a. GARCH, FF u. a.<br />

69 MAPE, MSE u. a. GARCH, FF u. a.<br />

70 MSE Standart GMDH<br />

71 MSE Standart GMDH FF<br />

72 NMSE RBF, ANFIS u. a.<br />

73 NMSE RBF, ANFIS u. a.<br />

74 NMSE RBF, ANFIS u. a.<br />

75 RMSE<br />

76<br />

77<br />

78 RMSE u. a. AR, FF, RBF, ANFIS u.a .<br />

79 RMSE u. a. Neuro-Fuzzy u. a.<br />

80 MAE u. a. GARCH<br />

81 spez. TDNN<br />

82<br />

83 NRMSE RAN<br />

84 PER u. a.<br />

85 PER u. a.<br />

86 RMSE ANFIS<br />

87 Vorzeichen Random Walk, u. a.<br />

88 Vorzeichen Random Walk, u. a.<br />

89 FB<br />

90 FF<br />

91 FF, FB<br />

92 real-time percent error<br />

93 MSE, R 2<br />

94<br />

95 SSE FF<br />

96 FF (schneller)<br />

97 NMSE, R 2 , Vorzeichen ARIMA<br />

98 NMSE, R 2 , Vorzeichen ARIMA<br />

99 NMSE, R 2 , Vorzeichen ARIMA<br />

100 NMSE, Vorzeichen ARIMA<br />

101 NMSE, Vorzeichen ARIMA<br />

102 NMSE, Vorzeichen ARIMA<br />

103 MSE u. a. ARIMA (leicht) Kombination aus NN+ARIMA<br />

104 MSE u. a. ARIMA, Kombination<br />

105 MSE u. a. ARIMA (leicht) Kombination aus NN+ARIMA<br />

111


ANHANG B: DURCH DATA-MINING ERMITTELTE REGELN<br />

Anhang B: Durch Data-Mining ermittelte Regeln<br />

Durch den in Kapitel 6.1 beschriebenen Data-Mining-Prozess wurden mit Hilfe <strong>von</strong><br />

SPSS Clementine 8.5 insgesamt 245 Regeln generiert. Die verwendeten Parameter des<br />

Apriori-Algorithmus waren dabei:<br />

Mindest-Support: 5 %<br />

Mindest-Confidence: 70 %<br />

Maximal erlaubte Vorbedingungen: 1<br />

Da lediglich Regeln <strong>von</strong> Interesse sind, deren Li ft signifikant <strong>von</strong> eins abweicht,werden<br />

im Folgenden nur die Regeln wiedergegeben, die einen Li ft <strong>von</strong> mindestens 1,5 haben.<br />

Zur Auswertung wurden jedoch lediglich Regeln mit einem Li ft <strong>von</strong> mindestens 2,0 be-<br />

trachtet. Die Regeln sind wie folgt zu interpretieren:<br />

Vorbedingung X ⇒ Konsequenz Y<br />

Support(X) =<br />

Con f idence(X ⇒ Y) =<br />

Lift (X ⇒ Y) =<br />

#X<br />

#Alle Anwendungen<br />

Support(X ∪ Y)<br />

Support(X)<br />

Con f idence(X ⇒ Y)<br />

Support(Y)<br />

Die als Vorbedingungen und Konsequenzen in Frage kommenden Kriterien sind in Tabel-<br />

le 29 auf S. 60 mit den jeweils als Abkürzungen genutzten Buchstaben angegebenen. Die<br />

Regeln im einzelnen sind:<br />

Konsequenz Y Vorbedingung X Support(X) Con f idence(X⇒Y) Li ft<br />

I = RBF O = RBF 6 % 83 % 10,9<br />

I = RNN N = 17 6 % 100 % 8,1<br />

M = ≥ 50 J = ≥ 20 8 % 75 % 7,9<br />

F = > 3000 H = > 1000 8 % 100 % 6,2<br />

F = ≤ 250 H = ≤ 30 6 % 83 % 5,1<br />

F = 251–500 A = Sonnenflecken 8 % 88 % 5,1<br />

H = 61–200 P = Recurrent Backpropagation 8 % 75 % 4,9<br />

P = Sonstige O = RBF 6 % 83 % 4,4<br />

G = 251–500 F = 501–1000 16 % 94 % 4,3<br />

A = Künstlich I = RBF 8 % 75 % 4,1<br />

L = 4 M = ≥ 50 10 % 80 % 4,0<br />

G = 1001–3000 H = > 1000 8 % 75 % 3,9<br />

G = 1001–3000 F = 1001–3000 16 % 71 % 3,7<br />

G = ≤ 250 F = ≤ 250 16 % 94 % 3,4<br />

112


ANHANG B: DURCH DATA-MINING ERMITTELTE REGELN<br />

Konsequenz Y Vorbedingung X Support(X) Con f idence(X⇒Y) Li ft<br />

B = endogen, exogen J = ≥ 20 8 % 100 % 3,3<br />

C => 9 E = gd 6 % 83 % 3,2<br />

G = ≤ 250 A = Sonnenflecken 8 % 88 % 3,2<br />

A = Finanzwirtschaft R = Sonstige 7 % 86 % 3,1<br />

G = ≤ 250 H = ≤ 30 6 % 83 % 3,0<br />

B = endogen, exogen M = ≥ 50 10 % 90 % 3,0<br />

A = Finanzwirtschaft E = dif 15 % 81 % 2,9<br />

A = Finanzwirtschaft E = log 15 % 81 % 2,9<br />

J = 5–9 H = 501–1000 8 % 88 % 2,8<br />

J = 5–9 H = > 1000 8 % 75 % 2,4<br />

B = endogen, exogen A = Umwelt 17 % 72 % 2,4<br />

J = 5–9 F = > 3000 16 % 71 % 2,2<br />

O = sigmoid P = Recurrent Backpropagation 8 % 100 % 1,9<br />

P = Backpropagation H = 31–60 23 % 79 % 1,9<br />

P = Backpropagation H = > 1000 8 % 75 % 1,8<br />

O = sigmoid E = log 15 % 94 % 1,8<br />

M = 4–19 F = 501–1000 16 % 76 % 1,7<br />

C = 2–9 H = 501–1000 8 % 75 % 1,7<br />

M = 4–19 H = > 1000 8 % 75 % 1,7<br />

P = Backpropagation J = 10–19 20 % 71 % 1,7<br />

L = 3 N = 17 6 % 100 % 1,7<br />

B = endogen A = Sonnenflecken 8 % 100 % 1,7<br />

L = 3 P = Levenberg-Marquardt 12 % 100 % 1,7<br />

B = endogen A = Künstlich 18 % 100 % 1,7<br />

P = Backpropagation M = ≥ 50 10 % 70 % 1,7<br />

C = 2–9 J = 5–9 31 % 73 % 1,7<br />

O = sigmoid R = Sonstige 7 % 86 % 1,6<br />

M = 4–19 H = 31–60 23 % 71 % 1,6<br />

C = 2–9 M = ≥ 50 10 % 70 % 1,6<br />

M = 4–19 J = 1 10 % 70 % 1,6<br />

L = 3 F = 501–1000 16 % 94 % 1,6<br />

O = sigmoid G = 501–1000 6 % 83 % 1,6<br />

L = 3 E = log 15 % 94 % 1,6<br />

B = endogen H = 31–60 23 % 92 % 1,6<br />

O = sigmoid E = dif 15 % 81 % 1,6<br />

O = sigmoid J = 1 10 % 80 % 1,5<br />

O = sigmoid R = linear 29 % 80 % 1,5<br />

I = MLP P = Backpropagation 42 % 89 % 1,5<br />

B = endogen F = 501–1000 16 % 88 % 1,5<br />

B = endogen I = RBF 8 % 88 % 1,5<br />

I = MLP H = 31–60 23 % 88 % 1,5<br />

L = 3 M = 4–19 44 % 87 % 1,5<br />

O = sigmoid I = RNN 12 % 77 % 1,5<br />

O = sigmoid M = 20–34 12 % 77 % 1,5<br />

O = sigmoid F = ≤ 150 16 % 76 % 1,5<br />

113


Erklärung<br />

Ich versichere hiermit, dass ich meine Diplomarbeit „<strong>Künstliche</strong> <strong>Neuronale</strong> <strong>Netze</strong> <strong>zur</strong><br />

<strong>Prognose</strong> <strong>von</strong> <strong>Zeitreihen</strong>“ selbständig und ohne fremde Hilfe angefertigt habe und dass<br />

ich alle <strong>von</strong> anderen Autoren wörtlich übernommenen Stellen wie auch die sich an die<br />

Gedankengänge anderer Autoren eng anlegenden Ausführungen meiner Arbeit besonders<br />

gekennzeichnet und die Quellen zitiert habe.<br />

Münster, den 21. März 2005<br />

Dominik Eisenbach

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!