Nichtlineare Methoden zur Quantifizierung von Abhängigkeiten und ...
Nichtlineare Methoden zur Quantifizierung von Abhängigkeiten und ... Nichtlineare Methoden zur Quantifizierung von Abhängigkeiten und ...
42 KAPITEL 3. SCHÄTZEN VON ENTROPIEN UND INFORMATIONEN mit (˜x (k+1) i+1 , ỹ (l) j )(m, n) ∈ I m,n und (˜x (k) i , ỹ (l) j )(m, n) ∈ Π X (k) i (I ,Y (l) m,n ). j Als Nächstes werden die Übergangswahrscheinlichkeiten in Gl. (2.21) gemäß der Relation (2.13) durch die endlich-dimensionalen Verteilungen ersetzt. Einsetzen von Gl. (3.18) und Gl. (3.22) sowie Mitteln über alle Partitionselemente liefert dann für die Transferentropie einer Partition T In (X i+1 |X (k) i ⎛ × log ⎝ g X (k+1) M n , Y (l) ) = ∑ j g (k+1) X ((˜x (k+1) i+1 ,Y (l) j m=1 ((˜x (k+1) i+1 ,Y (l) i+1 , ỹ (l) j j ((˜x (k) i , ỹ (l) j g X (k) i ,Y (l) j i+1 , ỹ (l) j )(m, n)) )(m, n)) · g X (k) i )(m, n)) · g X (k+1) i+1 ⎞ (m, n)) ⎠ · |I m,n | . (3.23) i+1 (m, n)) (˜x (k) i (˜x (k+1) Unter Berücksichtigung der Relation Gl. (2.37) konvergiert T In (X i+1 |X (k) i , Y (l) als Riemann-Integral gegen die kontinuierliche Transferentropie, j ) T In (X i+1 |X (k) i , Y (l) j ) n→∞ −−−→ T (X i+1 |X (k) i , Y (l) j ) . (3.24) Im Gegensatz zur gegenseitigen Information muss die Konvergenz der Transferentropie bei Verfeinerungen nicht monoton sein. Die Ursache liegt darin, dass die bedingten Wahrscheinlichkeiten (Übergangswahrscheinlichkeiten) nicht additiv in ihrer Bedingung sind, das heißt P (A|B)+P (A|C) ≠ P (A|B ∪C). Dennoch wurde bei den bisher studierten Beispielsystemen beobachtet, dass die Transferentropie in Kopplungsrichtung bei gröberen Partitionierungen größer war, als die Transferentropie für die Gegenrichtung. Dieses Verhalten hat sich bei weiteren Verfeinerungen der Partition erst dann geändert, als aufgrund von endlichen Datenpunkten die Partitionselemente so klein gewählt wurden, dass auf ihnen die Verteilung nicht mehr geschätzt werden konnte. Aufgrund der Kartesischen Struktur des zugrundeliegenden Zustandsraums sind Quader die natürliche Wahl für eine Partitionierung. Werden Elemente mit einer anderen Form für die Zerlegung verwendet, so erhält man bei den Konvergenzaussagen einen zusätzlichen geometrischen Faktor. Die Konvergenzaussagen können weiter abgeschwächt werden. Sie gelten offenbar auch dann noch, wenn die Dichten bis auf endlich viele Punkte stetig sind. Diese Konvergenzaussagen können direkt angewendet werden, um die gegenseitige Information oder Transferentropie aus Daten zu berechnen. In der Praxis ist dies aber mit numerischen Problemen verbunden. Werden die Quader zu klein gewählt, so fallen zu wenige Datenpunkte in diese Partitionselemente und die Verteilungen können nicht mehr zuverlässig geschätzt werden. Folglich wird eine Konvergenz oft nicht beobachtet. Bei der einfachsten Implementierung wird der Zustandsraum in gleich große Quader zerlegt, wobei von einer Partition zur nächsten die Quadergröße gleichmäßig verkleinert wird. Für inhomogene Verteilungen ist dieses Verfahren
3.4. PARAMETRISCHE VERTEILUNGEN 43 sehr rechenintensiv, denn das Gitter der Partitionierung muss fein genug sein, um die Strukturen der Verteilung noch auflösen zu können. Dies hat zur Folge, dass viele Partitionselemente nur noch sehr wenige Punkte enthalten. Eine alternative Methode stellen adaptive Partitionen dar. Hierbei werden nur jene Quader weiter zerlegt, die in einem lokalen Gebiet des Zustandsraumes liegen, wo eine statistisch signifikante Substruktur vorhanden ist. Solch ein Algorithmus, bei dem die Quader rekursiv in jeder Dimension des Zustandsraums aufgespalten werden, wurde bereits von Fraser & Swinney (1986) vorgestellt. Eine Variante ist in [Schreiber (1990)] beschrieben. Kürzlich wurde von Darbellay (1999) ein ähnlicher Algorithmus publiziert, welcher die Quader gleichzeitig entlang aller Koordinatenachsen zerlegt. Hierdurch wird ein Symmetriebruch, den die gegenseitige Information in den zuvor erwähnten Methoden beim Vertauschen der Argumente erfährt, vermieden. Als Abbruchkriterium wird ein χ 2 -Test auf Unabhängigkeit angewandt. Auf Konvergenz wird hingegen nicht getestet, so dass sich hier eine Fehlerquelle auftut, wenn die exakten Werte benötigt werden. Da die gegenseitige Information bei den adaptiven Verfahren monoton steigt, mag dies bei ihr nicht problematisch sein, bei der Transferentropie hingegen wohl. Daher wurde von einer Modifikation der adaptiven Algorithmen zur Berechnung der Transferentropie Abstand genommen. Ein weiteres Problem bei der Schätzung der Dichten auf Partitionen ist ein zusätzlicher Bias, der durch serielle Korrelationen entstehen kann, wenn die Punkte in den Quadern gezählt werden. Eine detailierte Diskussion dieser Problematik ist in [Kantz & Schreiber (1997)] zu finden. Das einzig bekannte Korrekturverfahren besteht darin, nur solche Punkte in die Partitionselemente einzusortieren, die in der Zeit dekorreliert sind, wofür allerdings eine enorme Menge an Daten benötigt wird. Kernschätzer, die später noch vorgestellt werden, bieten eine viel ökonomischere Lösung. Falls nur ein Test auf Abhängigkeit von X t und Y s gewünscht ist, so ist es wegen der monotonen Konvergenz der gegenseitigen Information ausreichend, wenn für eine beliebige Partition gezeigt werden kann, dass M I (X i , Y j ) > 0 innerhalb statistischer Fluktuationen ist. Eine einfache Partition hierfür kann beispielsweise erzeugt werden, indem der Zustandraum in jeder Dimension in genau zwei Intervalle aufgeteilt wird. Für einen statistischen Test kann die in [Darbellay (1999)] hergeleitete Fehlerformel oder ein Test mit Surrogaten [Schreiber & Schmitz (2000a)] verwendet werden. 3.4 Parametrische Verteilungen Gehört die Verteilung des Prozesses (X, Y ) zu einer Familie von Verteilungen, die durch spezifische Parameter festgelegt sind, so reicht es aus, diese Parameter für das konkrete System zu schätzen, um die gegenseitige Information oder Transferentropie zu berechnen. Für beliebige parametrische Verteilungen sind
- Seite 1: Nichtlineare Methoden zur Quantifiz
- Seite 5 und 6: Inhaltsverzeichnis 1 Einleitung 1 2
- Seite 7 und 8: Kapitel 1 Einleitung Zum Verständn
- Seite 9 und 10: Sobald kontinuierliche Prozesse bet
- Seite 11 und 12: Kapitel 2 Grundlagen der Informatio
- Seite 13 und 14: 2.1. DISKRETE STOCHASTISCHE PROZESS
- Seite 15 und 16: 2.1. DISKRETE STOCHASTISCHE PROZESS
- Seite 17 und 18: 2.1. DISKRETE STOCHASTISCHE PROZESS
- Seite 19 und 20: 2.1. DISKRETE STOCHASTISCHE PROZESS
- Seite 21 und 22: 2.1. DISKRETE STOCHASTISCHE PROZESS
- Seite 23 und 24: 2.1. DISKRETE STOCHASTISCHE PROZESS
- Seite 25 und 26: 2.1. DISKRETE STOCHASTISCHE PROZESS
- Seite 27 und 28: 2.2. KONTINUIERLICHE STOCHASTISCHE
- Seite 29 und 30: 2.2. KONTINUIERLICHE STOCHASTISCHE
- Seite 31 und 32: 2.2. KONTINUIERLICHE STOCHASTISCHE
- Seite 33 und 34: 2.2. KONTINUIERLICHE STOCHASTISCHE
- Seite 35 und 36: 2.2. KONTINUIERLICHE STOCHASTISCHE
- Seite 37 und 38: Kapitel 3 Schätzen von Entropien u
- Seite 39 und 40: 3.1. SCHÄTZEN BEI EINER UND MEHRER
- Seite 41 und 42: 3.2. SCHÄTZER FÜR DISKRETE PROZES
- Seite 43 und 44: 3.3. PARTITIONIERUNG DES ZUSTANDSRA
- Seite 45 und 46: 3.3. PARTITIONIERUNG DES ZUSTANDSRA
- Seite 47: 3.3. PARTITIONIERUNG DES ZUSTANDSRA
- Seite 51 und 52: 3.5. KONTINUIERLICHES BEISPIEL: AR(
- Seite 53 und 54: 3.6. KERNSCHÄTZER FÜR DICHTEN 47
- Seite 55 und 56: 3.6. KERNSCHÄTZER FÜR DICHTEN 49
- Seite 57 und 58: 3.6. KERNSCHÄTZER FÜR DICHTEN 51
- Seite 59 und 60: 3.7. RÄUMLICHE ABHÄNGIGKEIT DES W
- Seite 61 und 62: 3.7. RÄUMLICHE ABHÄNGIGKEIT DES W
- Seite 63 und 64: 3.7. RÄUMLICHE ABHÄNGIGKEIT DES W
- Seite 65 und 66: 3.7. RÄUMLICHE ABHÄNGIGKEIT DES W
- Seite 67 und 68: Kapitel 4 Exkurs: Dynamische System
- Seite 69 und 70: 4.1. ENTROPIE EINES DYNAMISCHEN SYS
- Seite 71 und 72: 4.1. ENTROPIE EINES DYNAMISCHEN SYS
- Seite 73 und 74: 4.2. INTERDEPENDENZ, VERALLGEMEINER
- Seite 75 und 76: 4.2. INTERDEPENDENZ, VERALLGEMEINER
- Seite 77 und 78: 4.2. INTERDEPENDENZ, VERALLGEMEINER
- Seite 79 und 80: Kapitel 5 Punktprozesse 5.1 Definit
- Seite 81 und 82: 5.1. DEFINITION EINES PUNKTPROZESSE
- Seite 83 und 84: 5.2. MOMENTE UND EREIGNISRATEN 77 2
- Seite 85 und 86: 5.3. GEKOPPELTE PUNKTPROZESSE 79 Be
- Seite 87 und 88: 5.3. GEKOPPELTE PUNKTPROZESSE 81 f
- Seite 89 und 90: 5.4. NACHWEIS VON ABHÄNGIGKEITEN M
- Seite 91 und 92: 5.4. NACHWEIS VON ABHÄNGIGKEITEN M
- Seite 93 und 94: 5.4. NACHWEIS VON ABHÄNGIGKEITEN M
- Seite 95 und 96: 5.4. NACHWEIS VON ABHÄNGIGKEITEN M
- Seite 97 und 98: 5.4. NACHWEIS VON ABHÄNGIGKEITEN M
3.4. PARAMETRISCHE VERTEILUNGEN 43<br />
sehr rechenintensiv, denn das Gitter der Partitionierung muss fein genug sein,<br />
um die Strukturen der Verteilung noch auflösen zu können. Dies hat <strong>zur</strong> Folge,<br />
dass viele Partitionselemente nur noch sehr wenige Punkte enthalten.<br />
Eine alternative Methode stellen adaptive Partitionen dar. Hierbei werden<br />
nur jene Quader weiter zerlegt, die in einem lokalen Gebiet des Zustandsraumes<br />
liegen, wo eine statistisch signifikante Substruktur vorhanden ist. Solch ein Algorithmus,<br />
bei dem die Quader rekursiv in jeder Dimension des Zustandsraums<br />
aufgespalten werden, wurde bereits <strong>von</strong> Fraser & Swinney (1986) vorgestellt. Eine<br />
Variante ist in [Schreiber (1990)] beschrieben. Kürzlich wurde <strong>von</strong> Darbellay<br />
(1999) ein ähnlicher Algorithmus publiziert, welcher die Quader gleichzeitig entlang<br />
aller Koordinatenachsen zerlegt. Hierdurch wird ein Symmetriebruch, den<br />
die gegenseitige Information in den zuvor erwähnten <strong>Methoden</strong> beim Vertauschen<br />
der Argumente erfährt, vermieden. Als Abbruchkriterium wird ein χ 2 -Test<br />
auf Unabhängigkeit angewandt. Auf Konvergenz wird hingegen nicht getestet, so<br />
dass sich hier eine Fehlerquelle auftut, wenn die exakten Werte benötigt werden.<br />
Da die gegenseitige Information bei den adaptiven Verfahren monoton steigt, mag<br />
dies bei ihr nicht problematisch sein, bei der Transferentropie hingegen wohl. Daher<br />
wurde <strong>von</strong> einer Modifikation der adaptiven Algorithmen <strong>zur</strong> Berechnung der<br />
Transferentropie Abstand genommen.<br />
Ein weiteres Problem bei der Schätzung der Dichten auf Partitionen ist ein<br />
zusätzlicher Bias, der durch serielle Korrelationen entstehen kann, wenn die Punkte<br />
in den Quadern gezählt werden. Eine detailierte Diskussion dieser Problematik<br />
ist in [Kantz & Schreiber (1997)] zu finden. Das einzig bekannte Korrekturverfahren<br />
besteht darin, nur solche Punkte in die Partitionselemente einzusortieren,<br />
die in der Zeit dekorreliert sind, wofür allerdings eine enorme Menge an Daten<br />
benötigt wird. Kernschätzer, die später noch vorgestellt werden, bieten eine viel<br />
ökonomischere Lösung.<br />
Falls nur ein Test auf Abhängigkeit <strong>von</strong> X t <strong>und</strong> Y s gewünscht ist, so ist es<br />
wegen der monotonen Konvergenz der gegenseitigen Information ausreichend,<br />
wenn für eine beliebige Partition gezeigt werden kann, dass M I (X i , Y j ) > 0<br />
innerhalb statistischer Fluktuationen ist. Eine einfache Partition hierfür kann<br />
beispielsweise erzeugt werden, indem der Zustandraum in jeder Dimension in<br />
genau zwei Intervalle aufgeteilt wird. Für einen statistischen Test kann die<br />
in [Darbellay (1999)] hergeleitete Fehlerformel oder ein Test mit Surrogaten<br />
[Schreiber & Schmitz (2000a)] verwendet werden.<br />
3.4 Parametrische Verteilungen<br />
Gehört die Verteilung des Prozesses (X, Y ) zu einer Familie <strong>von</strong> Verteilungen,<br />
die durch spezifische Parameter festgelegt sind, so reicht es aus, diese Parameter<br />
für das konkrete System zu schätzen, um die gegenseitige Information oder<br />
Transferentropie zu berechnen. Für beliebige parametrische Verteilungen sind