Kapitel 7 Geostatistik: ortsabhängige Daten

Kapitel 7 Geostatistik: ortsabhängige Daten Kapitel 7 Geostatistik: ortsabhängige Daten

statistik.tuwien.ac.at
von statistik.tuwien.ac.at Mehr von diesem Publisher
01.11.2013 Aufrufe

Kapitel 7 Geostatistik: ortsabhängige Daten 7.1 Einführung Im Gegensatz zu üblich verwendeten Daten in der Statistik, von denen statistische Unabhängigkeit angenommen wird, werden häufig Merkmale an verschiedenen Orten“ gemessen, wobei sie über die verschiedenen Lagen der Meßorte statistische ” Abhängigkeiten aufweisen. Beispiele sieht man typisch in den Erdwissenschaften - daher auch der Name Geostatistik“ - (Dicke eines Kohleflözes, Salzkonzentration ” in einem Salzbergwerk, Magnetisierung der Erdoberfläche etc.), in den Umweltwissenschaften (Virenausbreitung im Grundwasser, Luftverschmutzung, Waldschäden, epidemiologische Probleme), aber auch in den technischen Wissenschaften (Druckverteilungen bei komplizierten Konstruktionen). In der Zeitreihenanalyse wird die Variable von Interesse als von der Zeit, also von einer eindimensionalen Variablen, abhängig angenommen, und Modelle mit Autokorrelationen“ werden konstruiert. Allgemeiner wird aber ein Ort als ein-, ” zwei- oder dreidimensional betrachtet. Das Abhängigkeitsmaß, das i.a. dann zusätzlich noch richtungsabhängig sein kann, heißt Korrelogramm oder Variogramm. Wegen der Komplexität des Problems wird meist auf ein genaues wahrscheinlichkeitstheoretisches Modell verzichtet, und man konzentriert sich nur auf die ersten beiden Momente der Verteilungen. Das Variogramm stellt das wesentliche Werkzeug dieses Methodenkreises dar. Wir streifen in diesem Kapitel kurz den Begriff der regionalisierten Variablen“, ” des Variogramms und der statistischen Interpolation von räumlich abhängigen Daten. Weiterführende Bücher hiezu sind z.B. Journel and Huijbregts (1978) oder Dutter (1985). 7.2 Regionalisierte Variable Eine Variable z(x), die Werte in Abhängigkeit vom Ort x in einem bestimmten Bereich (Region) angibt, bezeichnet man als regionalisierte Variable. Wir inter- 87

<strong>Kapitel</strong> 7<br />

<strong>Geostatistik</strong>: <strong>ortsabhängige</strong> <strong>Daten</strong><br />

7.1 Einführung<br />

Im Gegensatz zu üblich verwendeten <strong>Daten</strong> in der Statistik, von denen statistische<br />

Unabhängigkeit angenommen wird, werden häufig Merkmale an verschiedenen<br />

Orten“ gemessen, wobei sie über die verschiedenen Lagen der Meßorte statistische<br />

”<br />

Abhängigkeiten aufweisen. Beispiele sieht man typisch in den Erdwissenschaften -<br />

daher auch der Name <strong>Geostatistik</strong>“ - (Dicke eines Kohleflözes, Salzkonzentration<br />

”<br />

in einem Salzbergwerk, Magnetisierung der Erdoberfläche etc.), in den Umweltwissenschaften<br />

(Virenausbreitung im Grundwasser, Luftverschmutzung, Waldschäden,<br />

epidemiologische Probleme), aber auch in den technischen Wissenschaften (Druckverteilungen<br />

bei komplizierten Konstruktionen).<br />

In der Zeitreihenanalyse wird die Variable von Interesse als von der Zeit, also<br />

von einer eindimensionalen Variablen, abhängig angenommen, und Modelle mit<br />

Autokorrelationen“ werden konstruiert. Allgemeiner wird aber ein Ort als ein-,<br />

”<br />

zwei- oder dreidimensional betrachtet. Das Abhängigkeitsmaß, das i.a. dann zusätzlich<br />

noch richtungsabhängig sein kann, heißt Korrelogramm oder Variogramm.<br />

Wegen der Komplexität des Problems wird meist auf ein genaues wahrscheinlichkeitstheoretisches<br />

Modell verzichtet, und man konzentriert sich nur auf die ersten<br />

beiden Momente der Verteilungen. Das Variogramm stellt das wesentliche Werkzeug<br />

dieses Methodenkreises dar.<br />

Wir streifen in diesem <strong>Kapitel</strong> kurz den Begriff der regionalisierten Variablen“,<br />

”<br />

des Variogramms und der statistischen Interpolation von räumlich abhängigen <strong>Daten</strong>.<br />

Weiterführende Bücher hiezu sind z.B. Journel and Huijbregts (1978) oder<br />

Dutter (1985).<br />

7.2 Regionalisierte Variable<br />

Eine Variable z(x), die Werte in Abhängigkeit vom Ort x in einem bestimmten<br />

Bereich (Region) angibt, bezeichnet man als regionalisierte Variable. Wir inter-<br />

87


7.2. Regionalisierte Variable 88<br />

pretieren diese als Realisation einer Zufallsfunktion Z = Z(x), von der wir einige<br />

Eigenschaften in diesem Abschnitt diskutieren. Z an einem bestimmten, fixen Ort<br />

x bedeutet dabei eine übliche, eindimensionale Zufallsvariable.<br />

7.2.1 Momente, Variogramme<br />

Eine Zufallsfunktion Z wird durch die Verteilung der einzelnen Zufallsvariablen<br />

Z(x) an jeder Stelle x und die gegenseitigen Abhängigkeiten charakterisiert. Die<br />

dabei definierte Wahrscheinlichkeitsverteilung heißt auch räumliches Verteilungsgesetz.<br />

In den Umwelt- und Erdwissenschaften wird aber nie das gesamte Gesetz<br />

benötigt, sondern es genügt normalerweise das 1. und 2. Moment, um akzeptable,<br />

approximative Lösungen zu finden. Häufig werden zur Beschreibung der Verteilung<br />

auch nur diese zwei verwendet, sodass zwei Zufallsvariablen Z(x 1 ) und Z(x 2 ) in<br />

ihrer Struktur nicht unterschieden werden, wenn die ersten beiden Momente gleich<br />

sind.<br />

Die Erwartung (oder 1. Moment) schreiben wir, sofern sie existiert, jetzt als<br />

ortsabhängig, nämlich<br />

m(x) = E[Z(x)],<br />

also als gewichteten, durchschnittlichen Wert aller möglichen Realisationen von Z<br />

an der Stelle x. Die Varianz von Z(x) ist definiert als<br />

σ 2 (x) = V ar(Z(x)) = E[(Z(x) − m(x)) 2 ],<br />

die Existenz der Erwartung ebenfalls vorausgesetzt. Betrachten wir zwei Punkte<br />

im Raum, nämlich x und x 2 = x + h mit Abstand h. Dann wird die Kovarianz,<br />

die wir jetzt auch mit C bezeichnen, zwischen den Zufallsvariablen an den beiden<br />

Orten x und x + h definiert durch<br />

C(x,x + h) = σ Z(x),Z(x+h) = E[(Z(x) − m(x))(Z(x + h) − m(x + h))].<br />

Ein anderes Maß für die Abhängigkeit zwischen Z(x) und Z(x + h) stellt das<br />

Variogramm (oder die Variogramm-Funktion) dar, das durch<br />

2γ(x,x + h) = V ar[Z(x) − Z(x + h)],<br />

der Varianz der Zuwächse, definiert ist. Es sei vermerkt, dass bei Unabhängigkeit<br />

und Gleichheit der Varianzen von Z(x) und Z(x + h) gilt<br />

2γ(x,x + h) = 2V ar(Z(x)),<br />

womit die Konstante 2 in der Definition motiviert sein soll. Der Ausdruck γ(x,x+h)<br />

wird auch Semi-Variogramm genannt.


7.2. Regionalisierte Variable 89<br />

7.2.2 Stochastische Annahmen<br />

Leider steht von jeder Zufallsvariablen Z(x) häufig höchstens eine Realisation<br />

z(x) zur Verfügung, womit man schlecht weitreichende Schlussfolgerungen auf die<br />

Struktur der Variablen machen kann. Daher müssen bezüglich der Wahrscheinlichkeitsstruktur<br />

gewisse Annahmen getroffen werden. Die einschneidendste Annahme<br />

wäre die der strengen Stationarität, was ”<br />

Invarianz des räumlichen Verteilungsgesetzes<br />

gegenüber Translation“ heißt, oder ”<br />

jede Gruppe von k Zufallsvariablen<br />

{Z(x 1 ), Z(x 2 ), ...,Z(x k )} weist die gleiche Verteilung wie {Z(x 1 +h), Z(x 2 +<br />

h), ...,Z(x k +h)} für beliebige Werte von h und k = 1, 2, ... auf“. In der <strong>Geostatistik</strong><br />

arbeitet man jedoch meist nur mit den ersten zwei Momenten, sodass man<br />

sich auf eine Definition von Stationarität im weiten Sinne beschränken kann.<br />

Man spricht von Stationarität 2. Ordnung, wenn<br />

(i) die Erwartung E[Z(x)] existiert und nicht vom Ort x abhängt, d.h.<br />

E[Z(x)] = m für alle x,<br />

(ii) für jedes Paar von Zufallsvariablen (Z(x), Z(x+h)) die Kovarianz existiert<br />

und nur vom Abstand h abhängt, d.h.<br />

C(h) = E[Z(x + h).Z(x)] − m 2 für alle x.<br />

Die Stationarität der Kovarianz impliziert die Stationarität der Varianz und<br />

des Variogramms. Es gilt nämlich<br />

V ar[Z(x)] = E[Z(x) − m] 2 = C(0) für alle x, und<br />

γ(h) = γ(x,x + h) = 1 E[Z(x + h) − Z(x)]2<br />

2<br />

= 1E[Z(x + h) − 2 m]2 + 1E[Z(x) − 2 m]2 − E[(Z(x + h) − m)(Z(x) − m)]<br />

= C(0) − C(h).<br />

Die letzte Gleichung zeigt auch an, dass unter der Hypothese der Stationarität<br />

2. Ordnung die Kovarianz und das Variogramm zwei gleichwertige Hilfsmittel bei<br />

der Betrachtung des Zusammenhanges (der Autokorrelation) der beiden Variablen<br />

Z(x + h) und Z(x) darstellen. Als dimensionslose Hilfsgröße bietet sich auch die<br />

Korrelation, oder besser, die Korrelationsfunktion, das Korrelogramm, an, nämlich<br />

ρ(h) = C(h)<br />

C(0) = 1 − γ(h)<br />

C(0) .<br />

Die Forderung der Existenz der Momente 2. Ordnung ist strenger als die der<br />

Existenz des Variogramms. Nachdem aber meist nur mit dem Variogramm gearbeitet<br />

wird, kann man sich in diesem Fall mit der wesentlichen (intrinsischen)<br />

Hypothese begnügen, die lautet:<br />

(i) die Erwartung E[Z(x)] existiert für alle x und hängt nicht vom Ort x ab;


7.2. Regionalisierte Variable 90<br />

(ii) für alle h und x besitzt das Inkrement (Z(x + h) − Z(x)) eine endliche<br />

Varianz, die nicht von x abhängt, d.h.<br />

V ar[Z(x + h) − Z(x)] = E[Z(x + h) − Z(x)] 2 = 2γ(h).<br />

Die Stationarität 2. Ordnung impliziert also diese, wie man auch sagt, Hypothese<br />

der stationären Zuwächse. Die Umkehrung muss natürlich nicht gelten. In<br />

der Praxis muss man häufig noch die Größenordnung von h beschränken, und die<br />

wesentliche Hypothese kann nur für | h | < b für ein gewisses b > 0 angenommen<br />

werden. In diesem Fall spricht man von Quasi-Stationarität.<br />

Beispiel 7.1: Ein Kupferlager wurde durch eine Reihe von vertikalen Bohrlöchern<br />

erforscht. Der Kupfergehalt verringert sich systematisch mit zunehmender<br />

Tiefe, was einen gewissen Trend (Nicht-Stationarität) in der vertikalen Richtung<br />

anzeigt. Das geschätzte (berechnete) (Semi-)Variogramm in vertikaler Richtung h<br />

über alle Bohrlöcher wird in Abb. 7.1 dargestellt. Die Eigenschaften dieses ex-<br />

3<br />

.<br />

γ(h)<br />

2<br />

1<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

. . . . . . . . . .<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

. . . .<br />

[%Cu] 2 0 50 100 150 200<br />

h [ft]<br />

Abbildung 7.1: Variogramm eines Kupferlagers.<br />

perimentellen Variogramms lassen sich folgendermaßen zusammenfassen (spezielle<br />

Ausdrücke werden später noch erklärt):<br />

(i) Ein Klumpeneffekt (Nugget-Effekt) von ca. .4 [%Cu] 2 .<br />

(ii) Eine Übergangserscheinung zwischen 0 und ca. 100 Fuß mit einem Schwellenwert<br />

von 1 und einem Einflussbereich von ca. 50 Fuß.<br />

(iii) Nach etwa 100 Fuß steigt das Variogramm plötzlich wieder an, was den<br />

erwähnten Trend anzeigt.<br />

Zusammenfassend können wir feststellen, dass in diesem Beispiel in einem vertikalen<br />

Bereich von 100 Fuß die intrinsische Hypothese für die Mineralisierung


7.3. Das Variogramm 91<br />

akzeptiert werden kann. Das Semi-Variogramm weist einen endlichen (Einfluss-)<br />

Bereich von 50 Fuß auf. In diesem Bereich lässt sich auch eine theoretische Kurve,<br />

das sogenannte ”<br />

Sphärische Modell“, anpassen, die sich durch<br />

mit<br />

beschreiben lässt.<br />

γ(h) = C o + C(1.5h/a − .5h 3 /a 3 )<br />

C o = .4[%Cu] 2 , C = .6[%Cu] 2 , a = 50[ft],<br />

7.3 Das Variogramm<br />

In diesem Abschnitt diskutieren wir Eigenschaften des Variogramms, die zur Strukturanalyse<br />

einer Region (z.B. Lagerstätte) verwendet werden können. Wir werden<br />

frei das Wort Variogramm statt Semi-Variogramm verwenden, wenn klar aus dem<br />

Text hervorgeht, was gemeint ist. Ein Kovariogramm dient zur gleichzeitigen Betrachtung<br />

mehrerer regionalisierter Variablen.<br />

7.3.1 Strukturelle Eigenschaften des Variogramms<br />

Die Kovarianz C(h) besitzt die Eigenschaften, dass C(0) = V ar(Z(x)) ≥ 0, dass<br />

sie symmetrisch um 0 ist (d.h. C(h) = C(−h)) und dass gilt | C(h) | ≤ C(0)<br />

(Schwarz’sche Ungleichung). Außerdem geht der Grad der Abhängigkeit der beiden<br />

Zufallsvariablen Z(x) und Z(x+h) meistens mit dem Abstand | h | zurück, sodass<br />

i.a. die Funktion C(h) monoton fällt und praktisch nach einem gewissen Radius,<br />

d.h. | h | ≥ a, sogar verschwindend klein wird. Das Verhalten des Variogramms<br />

γ(h) = C(0) −C(h) ist entgegengesetzt: Als Varianz wird es natürlich nie negativ,<br />

für h = 0 gleich γ(0) = 0, dann aber steigt es im allgemeinen, und für | h | ≥ a ist<br />

es ungefähr gleich dem asymptotischen Wert γ(∞) = C(0).<br />

(a) Einflussbereich<br />

Der oben angedeutete Bereich | h | < a wird auch als Einflussbereich oder<br />

Einflusszone einer Probe, der Wert a als Reichweite (range) und C = γ(h) für<br />

| h | = a als Schwellenwert bezeichnet. Außerhalb dieser Zone gelten Z(x) und<br />

Z(x + h) als voneinander unabhängig oder besser unkorreliert.<br />

Dieser Einflussbereich ist aber im mehrdimensionalen Raum meistens nicht einfach<br />

als kugeliges Gebilde mit Radius a zu beschreiben. Die Reichweite hängt von<br />

der Richtung ab. Eine Illustration findet man in Abb. 7.2.<br />

(b) Geschachtelte Strukturen<br />

Die Variabilität einer regionalisierten Variablen kann viele Ursachen haben. Wir<br />

führen einige, nach gewissen Größenordnungen, wie sie typisch in den Erdwissenschaften<br />

vorkommen, eingeteilt, an:


7.3. Das Variogramm 92<br />

vertikal<br />

.<br />

horizontaler Bereich<br />

. . .<br />

. .<br />

. .<br />

v erti<br />

k aler<br />

B ereich<br />

.<br />

.<br />

.<br />

.<br />

.<br />

. . . . . . . . . . . . . . . . . . .<br />

a 1 a 2<br />

.<br />

.<br />

horizontal<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

. . . . . . . . . . . . .<br />

Abbildung 7.2: Einflussbereich einer regionalisierten Variablen.<br />

(i) Auf dem Niveau der Messpunkte (h ≃ 0): Die Variabilität hängt direkt<br />

mit der Messung zusammen (zufällige Fehler der Stichprobenerhebung).<br />

(ii) Auf dem petrografischen Niveau (z.B. | h | < 1 cm): Die Variabilität entsteht<br />

wegen des Überganges von einem mineralogischen Element zu einem anderen.<br />

(iii) Auf dem Niveau der Schichtung oder mineralisierter Linsen (z.B.| h | <<br />

100 m): Vermischung von verschiedenen Schichten oder Linsen mit fremden Einschlüssen<br />

verursacht die Variabilität.<br />

(iv) Auf dem Niveau eines Landes (z.B. | h | < 100 km): Die Gebirgsbildung<br />

eines Landes bewirkt die Variabilität.<br />

Etc.<br />

Zu jeder dieser Strukturen gehört ein anderes Variogramm mit verschiedener<br />

Reichweite a und verschiedenem Schwellenwert C. Diese Strukturen sind ineinandergeschachtelt“,<br />

und man bekommt ein zusammengesetztes Variogramm, das sich ”<br />

manchmal in seine Komponenten zerlegen lässt. (Siehe Abb. 7.3.)<br />

(c) Verhalten in der Nähe des Ursprungs<br />

Dieses kann zur Interpretation der Kontinuität und Regelmässigkeit der Variablen<br />

Z(x) im Raum verwendet werden. Vier Haupttypen werden grob unterschieden,<br />

die im folgenden, nach abnehmender Regularität geordnet, aufgeführt sind<br />

(siehe Abb. 7.4).<br />

(i) Parabolisches Verhalten: Das Variogramm verhält sich ungefähr quadratisch,<br />

d.h. γ(| h |) ≃ c | h | 2 für h → 0. Es ist stetig und differenzierbar an der Stelle


7.3. Das Variogramm 93<br />

. .<br />

C<br />

.<br />

.<br />

C 2<br />

C 1<br />

. . . . . . . . . . . . . . . .<br />

.<br />

.<br />

.<br />

.<br />

.<br />

. . . . . . . . . . . . . . . . . . . . . . . .<br />

. .<br />

.<br />

.<br />

. .<br />

. .<br />

. .<br />

.<br />

.<br />

.<br />

.<br />

..<br />

.<br />

.<br />

.<br />

a 1 a 2 h<br />

.<br />

.<br />

Abbildung 7.3: Geschachteltes Variogramm.<br />

h = 0. Dies ist charakteristisch für ein sehr regelmäßiges Verhalten, wie es z.B.<br />

bei geophysikalischen und gewissen geochemischen Variablen, Mächtigkeiten etc.<br />

auftreten kann.<br />

(ii) Lineares Verhalten: Es gilt γ(| h |) ≃ c | h | für h → 0. Das Variogramm<br />

ist nicht mehr differenzierbar an der Stelle 0, aber noch stetig. Dies kann man z.B.<br />

bei Erzgehalten finden.<br />

(iii) Unstetigkeit im Ursprung: γ(h) strebt nicht gegen 0, wenn h gegen 0 geht,<br />

obwohl γ(0) = 0 definiert ist. Das Variogramm ist also unstetig an der Stelle 0, was<br />

bedeutet, dass die Variabilität zwischen zwei ”<br />

nahen“ Punkten Z(x) und Z(x +h)<br />

bereits sehr groß sein kann. Dieses Phänomen ist in der Physik unter dem Namen<br />

”<br />

weißes Rauschen“ bekannt. Die Variabilität kann allerdings für größere Werte<br />

von h wieder stetig ansteigen. Diese Unstetigkeit im Ursprung des Variogramms<br />

wird ”<br />

Klumpeneffekt“ ( ”<br />

nugget effect“) genannt, und die Höhe des Sprunges heißt<br />

Nugget-Varianz. Dieser Sprung entsteht durch die mögliche Mikro-Variabilität der<br />

Mineralisierung, aber auch durch Messungenauigkeiten, weil diese Variabilität auf<br />

engem Raum nicht erfasst werden kann.<br />

(iv) Reiner Klumpeneffekt: Dies erscheint als Grenzfall, wenn das Variogramm<br />

nur eine Unstetigkeit im Ursprung aufweist und sonst konstant ist;<br />

γ(0) = 0 und γ(h) = C o für h ≠ 0.<br />

In der Praxis kann so ein Modell entstehen, wenn der Bereich a extrem klein in<br />

Relation zu den experimentellen Beobachtungen angenommen werden muss. Dieser<br />

reine Klumpeneffekt, dem die totale Nichtexistenz einer Autokorrelation entspricht,<br />

kommt allerdings sehr selten in den erdwissenschaftlichen Anwendungen vor.<br />

(d) Anisotropien


7.3. Das Variogramm 94<br />

. .<br />

. .<br />

. .<br />

. .<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

. . .<br />

.<br />

.<br />

0 h<br />

.<br />

.<br />

0 h<br />

.<br />

.<br />

0 h<br />

.<br />

.<br />

0 h<br />

(i)<br />

(ii)<br />

(iii)<br />

(iv)<br />

Abbildung 7.4: Verhalten des Variogramms im Ursprung.<br />

Das Argument h des Variogramms γ ist im allgemeinen vektorwertig, d.h. es<br />

besteht aus dem absoluten Betrag | h | und der Richtung α (eventuell vektorwertig<br />

mit α 1 und α 2 ). Häufig wird das Variogramm γ(h) für verschiedene Richtungen verschiedene<br />

Formen aufweisen (siehe Abb. 7.5). Dann sprechen wir von Anisotropie<br />

und erwähnen zwei Spezialfälle:<br />

.<br />

.<br />

a α4<br />

.<br />

. .<br />

a α2<br />

.<br />

.<br />

a α3<br />

.<br />

.<br />

a α1<br />

.<br />

.<br />

a α4<br />

.<br />

. .<br />

a α2<br />

.<br />

.<br />

a α1<br />

a α3<br />

.<br />

.<br />

a.<br />

α4<br />

.<br />

×<br />

a α2<br />

. .<br />

×<br />

× × a α3<br />

a α1<br />

.<br />

.<br />

.<br />

.<br />

Isotropie<br />

geom. Anisotropie<br />

zonale Anisotropie<br />

Abbildung 7.5: Bereiche bei Anisotropie.<br />

(i) Geometrische Anisotropie: Wenn Variogramme von verschiedenen Richtungen<br />

den gleichen Schwellenwert und die gleiche Nugget-Varianz, aber verschiedene<br />

Anstiege aufweisen, so kann eine geometrische Anisotropie vorliegen. Wenn der Bereich<br />

sich als einfache geometrische Form (z.B. als Ellipsoid) darstellen lässt, ist<br />

es einfach, durch Koordinatentransformation einen isotropischen Fall zu erhalten<br />

(siehe Abb. 7.6).<br />

(ii) Zonale Anisotropie: In vielen Fällen ist das Variogramm in einer ausgezeichneten<br />

Richtung sehr abweichend. Dies kann z.B. bei schichtigen Lagerstätten<br />

auftreten. Senkrecht zur Schichtung variiert der Lagerstätteninhalt viel stärker als<br />

etwa in der Richtung der Schichtung. In so einem Fall kann das Variogrammodell<br />

in zwei Terme aufgespaltet werden, in eine isotropische Komponente γ 1 (| h |) und<br />

in eine rein anisotropische γ 2 (h), die an eine bestimmte Richtung h 2 gebunden ist.<br />

Man erhält also<br />

γ(h) = γ 1 (| h |) + γ 2 (h),


7.3. Das Variogramm 95<br />

γ(h)<br />

. .<br />

gleicher<br />

Schwellenwert<br />

. . . . . .<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

a α3 a α1 a α2 a α4 |h|<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

Abbildung 7.6: Geometrische Anisotropie.<br />

wobei γ 2 (h) nur von der spezifischen Richtung h 2 abhängt. Der Grund dieser ”<br />

Additivität“<br />

liegt in der möglicherweise geschachtelten Struktur der Fehler.<br />

(e) Proportional-Effekt<br />

Manchmal ist die Varianz an einer Stelle von der mittleren Größe der Variablen<br />

abhängig. Stellen wir uns zwei quasi-stationäre Bereiche V 1 (x 1 ) und V 2 (x 2 )<br />

mit den jeweiligen Zentren x 1 und x 2 vor. Die entsprechenden Semi-Variogramme<br />

γ 1 (h) und γ 2 (h) sind im allgemeinen verschieden, manchmal aber nur über einen<br />

Proportionalitätsfaktor f(x 1 ,x 2 ). Ist dieser gleich dem Quadrat des Verhältnisses<br />

der beiden mittleren Werte m(x 1 )/m(x 2 ), so kann man ein Variogramm γ 0 (h) über<br />

beide Bereiche berechnen, indem man jeden Wert der Variablen z(x) vorher durch<br />

den geschätzten Mittelwert ˆm des entsprechenden Bereichs dividiert. Es gilt dann<br />

γ 1 (h) = γ 0 (h)[ ˆm(x 1 )] 2<br />

und<br />

γ 2 (h) = γ 0 (h)[ ˆm(x 2 )] 2 .<br />

7.3.2 Variogrammodelle und ihre Anpassung<br />

Wie man sich bei einer Häufigkeitsverteilung eine zugrundeliegende theoretische<br />

Verteilung (z.B. Normalverteilung) vorstellt, kann man auch bei experimentellen<br />

Variogrammen ein mathematisches Modell zugrunde legen. Dieses muss gewissen<br />

Regularitätsbedingungen genügen und kann auch leichter für weitere Rechnungen<br />

verwendet werden.<br />

Die Auswahl des Modells konzentriert sich meistens auf einige wesentliche Gesichtspunkte:<br />

(i) Das Verhalten in der Nähe des Ursprungs: Die eventuell vorhandene Nugget-<br />

Varianz (Unstetigkeit) wird durch Extrapolation gegen die Ordinate gefunden.<br />

(ii) Das Vorhandensein einer Schwelle (Übergangsmodell). In erster Näherung<br />

kann die statistische Varianz der Messwerte als Schwellenwert genommen werden.


7.3. Das Variogramm 96<br />

(iii) Das Auftreten von Anisotropien, geschachtelten Strukturen etc.<br />

Folgende Modelle werden häufig in der Praxis verwendet:<br />

(a) Modelle für Variogramme ohne Schwellenwert<br />

(i) Das Potenzmodell γ(h) = p| h | λ mit 0 < λ < 2. Praktisch wird aber nur das<br />

lineare Modell<br />

γ(h) = p | h |<br />

verwendet. Das Variogramm steigt linear an, zumindest bis zu den Entfernungen,<br />

die im experimentellen Variogramm erreicht werden. Diese Modelle entsprechen<br />

einer regionalisierten Variablen mit unbegrenzter Streuung.<br />

(ii) Das logarithmische Modell (De Wijs)<br />

γ(h) = log h.<br />

Dieses kann natürlich nicht bis zum Ursprung h = 0 angepasst werden. Es bietet<br />

allerdings erhebliche rechnerische Vorteile.<br />

(b) Modelle für Variogramme mit Schwellenwert<br />

Diese werden auch Übergangsmodelle genannt. Der Schwellenwert entspricht<br />

der Varianz C(0).<br />

(i) Lineares Verhalten am Ursprung.<br />

Das sphärische Modell (Matheron) hat die Form<br />

{<br />

C[<br />

3 h<br />

γ(h) =<br />

− 1 2 a 2 (h a )3 ] für h ≤ a<br />

C für h > a,<br />

wobei a die Reichweite und C den Schwellenwert bezeichnet. Die Tangente an<br />

das Variogramm durch den Ursprung schneidet die Schwelle bei 2a/3. Die zwei<br />

Parameter werden deshalb auch meist händisch geschätzt.<br />

Das exponentielle Modell (Formery) wird durch<br />

γ(h) = C[1 − e −h/a ]<br />

beschrieben. Hier schneidet die Tangente im Ursprung die Schwelle an der Stelle<br />

a. Allerdings muss man feststellen, dass das Variogramm den Schwellenwert C gar<br />

nicht annimmt, sondern sich nur asymptotisch für h → ∞ nähert. Man definiert<br />

aber hier als Bereich a ′ = 3a, wobei γ(a ′ ) = C(1 − e −3 ) = .95C.<br />

(ii) Das Gauß’sche Modell. Dieses zeigt ein quadratisches Verhalten am Ursprung<br />

und wird definiert durch<br />

γ(h) = C[1 − e −h2 /a 2 ]<br />

Der Schwellenwert wird wieder nur asymptotisch erreicht, und der praktische Bereich<br />

wird als a ′ = √ 3a betrachtet, wobei wiederum γ(a ′ ) = C(1 − e −3 ) = .95C.<br />

Die drei Modelle mit Schwellenwert sind in Abb. 7.7 skizziert.


..<br />

7.4. Statistische Interpolation 97<br />

γ(r)<br />

C<br />

0.95 1.0<br />

. .<br />

Sphärisch<br />

Gauß<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

. .<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

Exponential<br />

.<br />

√ .<br />

0 2/3 1 3 2<br />

3<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

.<br />

Abbildung 7.7: Verschiedene Variogramme.<br />

7.4 Statistische Interpolation<br />

Unter lokalem Schätzen (im Gegensatz zum globalen) versteht man das Schätzen<br />

des Mittelwertes einer regionalisierten Variablen über einen begrenzten Bereich, in<br />

dem die Messpunkte relativ zum Einflussbereich in kleinen Abständen voneinander<br />

liegen. Wir wollen das Problem des lokalen Schätzens streifen, wobei allerdings nur<br />

die Größe des Mittelwertes (mit seiner statistischen Genauigkeit) der betrachteten<br />

Variablen untersucht wird.<br />

Die zur Verfügung stehende Information besteht im allgemeinen aus einem <strong>Daten</strong>satz<br />

(z.B. n Messungen der Variablen) und Angaben über die Struktur (z.B.<br />

ein Modell des Variogramms). Wir werden den einfachsten Krige-Schätzer (benannt<br />

nach dem südafrikanischen <strong>Geostatistik</strong>er D.G. Krige) besprechen, der die<br />

gesuchte Größe mit den gegebenen <strong>Daten</strong> ”<br />

linear, am besten und erwartungstreu“<br />

schätzt.<br />

7.4.1 Der Krige-Schätzer<br />

Betrachten wir die regionalisierte Variable Z(x) und nehmen an, dass die Erwartung<br />

E(Z(x)) = m<br />

von x unabhängig ist, und dass entweder die Kovarianz<br />

oder das Variogramm<br />

E[(Z(x + h) − m)(Z(x) − m)] = C(h)<br />

E[Z(x + h) − Z(x)] 2 = 2γ(h)<br />

existiert (Stationarität 2. Ordnung oder die wesentliche Hypothese sollte gelten).<br />

Die Aufgabe ist die Schätzung des mittleren Wertes<br />

Z V (x o ) = 1 ∫<br />

Z(x)dx<br />

V V (x o)


7.4. Statistische Interpolation 98<br />

in einem Bereich V (x o ) mit Zentrum x o .<br />

Bezeichnen wir die n gegebenen <strong>Daten</strong>punkte mit z i , i = 1, ...,n, die i.a. bereits<br />

Mittelwerte über kleine Bereiche v i sein werden. Diese Werte werden als Realisierungen<br />

der Zufallsvariablen Z i interpretiert und es gilt: E(Z i ) = m für alle i. Der<br />

lineare Schätzer von Z V stellt sich als Linearkombination der Z i dar, nämlich als<br />

n∑<br />

Ẑ V = λ i Z i .<br />

i=1<br />

Die Gewichte λ i müssen so gewählt werden, dass ẐV erwartungstreu ist und minimale<br />

Varianz aufweist.<br />

(a) Erwartungstreue<br />

Aus der Bedingung der Erwartungstreue<br />

E(ẐV ) = ∑ λ i EZ i = m ∑<br />

i<br />

i<br />

λ i = EZ V = m<br />

folgt für die Gewichte λ i<br />

n ∑<br />

i=1<br />

λ i = 1.<br />

(b) Minimale Schätzvarianz<br />

Rechnen wir zunächst die Schätzvarianz E(Z V − ẐV ) 2 aus. Wir haben<br />

E(Z V − ẐV ) 2 = EZ 2 V − 2E(Z V Ẑ V ) + EẐ2 V ,<br />

wobei mittels Durchschnittsbildung folgt<br />

EZV 2 = 1 ∫<br />

E[Z(x)Z(x<br />

V<br />

∫V<br />

′ )]dx ′ dx = ¯C(V, V ) + m 2 ,<br />

2 V<br />

E(Z V Ẑ V ) = ∑ ∫<br />

λ i<br />

E[Z(x)Z(x<br />

i<br />

V v i<br />

∫V<br />

′ )]dx ′ dx = ∑ λ i ¯C(V, vi ) + m 2<br />

v i i<br />

und<br />

EẐ2<br />

= ∑ 1<br />

i<br />

∑j λ i λ j v i<br />

∫v j<br />

E[Z(x)Z(x ′ )]dx ′ dx<br />

= ∑ ∑<br />

i j λ i λ j ¯C(vi , v j ) + m 2 .<br />

v i v j<br />

∫<br />

Beim Zusammenfassen der 3 Terme fällt m 2 weg, und wir erhalten<br />

σE 2 = E(Z V − ẐV ) 2 = ¯C(V, V ) − 2 ∑ λ i ¯C(V, vi ) + ∑ ∑<br />

λ i λ j ¯C(vi , v j ).<br />

i<br />

i j<br />

Der Ausdruck für σ 2 E soll nun minimiert werden unter der Bedingung ∑ λ i = 1,<br />

der Erwartungstreue. Am einfachsten geschieht dies durch die Verwendung des<br />

Lagrange’schen Multiplikator µ, sodass<br />

σ 2 E − 2µ( ∑ i<br />

λ i − 1)


7.4. Statistische Interpolation 99<br />

bezüglich λ i und µ minimiert werden soll. Die Ableitungen nach λ i und µ müssen<br />

verschwinden, sodass wir ein System von n+1 Gleichungen mit n+1 Unbekannten<br />

erhalten:<br />

∑ nj=1<br />

λ j ¯C(vi , v j ) − µ = ¯C(V, v i ), i = 1, ...,n,<br />

∑ nj=1<br />

λ j = 1.<br />

Dieses System heißt auch Krige-System. Die minimale Schätzvarianz, oder auch<br />

Krige-Varianz, bekommt man nun durch Einsetzen der Lösungen für λ i als<br />

σK 2 = min E(Z V − ẐV ) 2 = ¯C(V,<br />

n∑<br />

V ) + µ − λ i ¯C(vi , V ).<br />

i=1<br />

Wegen des direkten Zusammenhangs zwischen der Kovarianz und dem Variogramm<br />

lassen sich Krige-System und Krige-Varianz auch in Termen des Variogramms<br />

schreiben: ∑<br />

λ j¯γ(v i , v j ) + µ = ¯γ(v i , V ), i = 1, ...,n,<br />

(b) Matrixform<br />

j<br />

∑<br />

λ j = 1<br />

j<br />

n∑<br />

σK 2 = λ i¯γ(v i , V ) + µ − ¯γ(V, V ).<br />

i=1<br />

Die linearen Gleichungen des Krige-Systems lassen sich einfacher mit Matrizen<br />

darstellen. Bezeichnen wir mit K die ”<br />

Krige-Matrix“<br />

⎛<br />

K =<br />

⎜<br />

⎝<br />

und mit λ und c, zwei Vektoren,<br />

¯C(v 1 , v 1 ) . .. ¯C(v1 , v j ) . .. ¯C(v1 , v n ) 1<br />

.<br />

¯C(v i , v 1 ) . .. ¯C(vi , v j ) . .. ¯C(vi , v n ) 1<br />

.<br />

¯C(v n , v 1 ) . .. ¯C(vn , v j ) . .. ¯C(vn , v n ) 1<br />

1 1 1 0<br />

⎛<br />

λ =<br />

⎜<br />

⎝<br />

λ 1<br />

λ 2<br />

.<br />

λ i<br />

.<br />

λ n<br />

−µ<br />

⎞<br />

⎛<br />

, c =<br />

⎟ ⎜<br />

⎠ ⎝<br />

¯C(v 1 , V )<br />

¯C(v 2 , V )<br />

.<br />

¯C(v i , V )<br />

.<br />

¯C(v n , V )<br />

1<br />

⎞<br />

,<br />

⎟<br />

⎠<br />

⎞<br />

⎟<br />


7.4. Statistische Interpolation 100<br />

so kann man das Krige-System in der einfachen Form<br />

Kλ = c<br />

schreiben, woraus bei Invertierbarkeit der Matrix K sofort die Lösung für λ folgt:<br />

λ = K −1 c.<br />

Die Krige-Varianz vereinfacht sich zu<br />

σK 2 = ¯C(V, V ) − λ ⊤ c,<br />

wobei λ ⊤ der umgeklappte (transponierte) Vektor von λ ist.<br />

7.4.2 Diskussion<br />

Bemerkung 1: Der Krige-Schätzer ist nicht nur erwartungstreu, er interpoliert auch<br />

” genau“, d.h., wenn der Bereich V mit einem v i der <strong>Daten</strong> übereinstimmt, liefert<br />

der Schätzer<br />

(i) einen Schätzwert ẑ K , der mit dem bekannten <strong>Daten</strong>punkt z i übereinstimmt,<br />

und<br />

(ii) eine Krige-Varianz σ 2 K = 0. Dies ist nicht bei allen Schätzern selbstverständlich,<br />

z.B. bei der kleinsten Quadrate-Interpolation (Ausgleich) mit Polynomen.<br />

Bemerkung 2: Die Ausdrücke im Krige-System und in der Krige-Varianz gelten<br />

mit den Begriffen ¯C und ¯γ bezüglich v i und V sehr allgemein:<br />

(i) Die Bereiche v i der <strong>Daten</strong> können beliebig angeordnet sein: v i und v j können<br />

sich auch überschneiden, dürfen allerdings nicht identisch sein (für i ≠ j). v i kann<br />

auch im Bereich V liegen.<br />

(ii) Die zugrundeliegende Struktur, die durch C(h) oder γ(h) charakterisiert<br />

wird, ist im wesentlichen beliebig, z.B. anisotropisch.<br />

Bemerkung 3: Das Krige-System und die Krige-Varianz hängen nur von der<br />

Struktur C(h) oder γ(h) und von den relativen Anordnungen der verschiedenen<br />

Bereiche v i , v j und V ab, jedoch nicht von den spezifischen Werten der <strong>Daten</strong> z i .<br />

Wenn also einmal die Konfiguration der <strong>Daten</strong>beschaffung (also die einzelnen Bereiche)<br />

festgelegt ist, kann noch vor jedem Bohren das Krige-System gelöst werden<br />

und die entsprechende Schätzvarianz berechnet werden. Dies kann vor dem Bohren<br />

sehr zur Kostensenkung beitragen.<br />

Bemerkung 4: Die Krige-Matrix K hängt nur von den relativen Anordnungen<br />

der v i und nicht von V ab. Folglich muss bei gleichen Anordnungen nur einmal<br />

die Krige-Matrix aufgestellt und invertiert werden. Wegen der oft enormen Größe<br />

dieser Matrix ergibt sich daraus eine große Rechenzeitersparnis. Wenn außerdem<br />

zwei Bereiche V und V ′ gleiche geometrische Anordnungen bezüglich der erhobenen<br />

<strong>Daten</strong> aufweisen, erhält man gleiche Gewichte λ für den Schätzer. Dies regt<br />

natürlich an, dass bei der <strong>Daten</strong>erhebung möglichst systematisch und regelmäßig<br />

vorgegangen werden sollte.


7.4. Statistische Interpolation 101<br />

Bemerkung 5: Das Krige-System und die Krige-Varianz ziehen die folgenden 4<br />

wesentlichen und intuitiven Punkte in Betracht.<br />

(i) Die geometrische Form des zu schätzenden Bereiches V drückt sich im Term<br />

¯γ(V, V ) der Varianz aus.<br />

(ii) Die Abstände zwischen V und den <strong>Daten</strong>punkten v i werden in ¯γ(v i , V ) des<br />

Vektors c berücksichtigt.<br />

(iii) Die geometrische Anordnung der <strong>Daten</strong>punkte v i beeinflusst durch ¯γ(v i , v j )<br />

die Krige-Matrix K. Die Genauigkeit der Schätzung wird nicht nur durch die Anzahl<br />

von gegebenen <strong>Daten</strong> bestimmt, sondern auch durch ihre relative Anordnung.<br />

(iv) Die Struktur der Variabilität eines betrachteten Phänomens wird hauptsächlich<br />

durch das Semi-Variogramm γ(h) charakterisiert.<br />

Beispiel 7.2: Betrachten wir die Schätzung in einem Bereich V in 2 Dimensionen<br />

durch 4 <strong>Daten</strong>punkte A, B, C und D, die symmetrisch angeordnet sind, wie<br />

es in Abb. 7.8 dargestellt wird. Wir nehmen an, dass die zugrundeliegende Mineralisierung<br />

eine ausgeprägtere Richtung u der Kontinuität aufweist, die sich in der<br />

Anisotropie des Semi-Variogramms γ(h u , h v ) ausdrückt, und zwar durch geringere<br />

Variabilität in der Richtung u. Das Krige-System legt daher mehr Gewicht auf die<br />

Punkte B und D, obwohl sie gleiche Abstände wie A und C von V haben.<br />

×A<br />

×<br />

D<br />

V<br />

×<br />

B<br />

v<br />

. .<br />

×C<br />

.<br />

.<br />

u<br />

Abbildung 7.8: Gewichtigkeit von Messpunkten.


<strong>Kapitel</strong> 8<br />

Multivariate Methoden: Überblick<br />

Häufig — und glücklicherweise — steht für jedes Objekt ein ganzer Satz von Beobachtungen<br />

unterschiedlicher Merkmale und nicht bloß die Ausprägung eines einzigen<br />

zur Verfügung (Personenmerkmale wie Körpergröße, –gewicht, Alter, Blutdruck,<br />

...), der als p–dimensionaler Beobachtungsvektor x = (x 1 , ...,x p ) ⊤ die<br />

Grundlage aller multivariaten statistischen Verfahren bildet. Im allgemeinen ist<br />

damit ein größerer Informationsgehalt verbunden, der zu einer besseren Modellierung<br />

von Merkmalen führen kann, als man sie aus der univariaten Statistik kennt.<br />

Allerdings entsteht ein unmittelbarer Interessenskonflikt zwischen dem Wunsch<br />

nach höchstmöglichem Informationsgewinn und damit verbunden einer Vielzahl beobachteter<br />

Charakteristika auf der einen Seite und dem teils stark erhöhten Rechen–<br />

und <strong>Daten</strong>aufwand auf der anderen Seite. Weiters ist zu bedenken, dass mit wachsender<br />

Dimensionalität i.a. auch die Abhängigkeiten unter den einzelnen Merkmalen<br />

steigen können, wodurch der Informationsgewinn wieder bescheidener ausfällt.<br />

Demnach ist zwischen Variablenanzahl und Aufwand ein vernünftiger Kompromiss<br />

anzustreben.<br />

Ausgangspunkt für alle statistischen Verfahren bildet die <strong>Daten</strong>matrix X der<br />

Beobachtungen an n Objekten, also<br />

⎛<br />

X =<br />

⎜<br />

⎝<br />

⎞<br />

x 11 x 12 · · · x 1p<br />

x 21 x 22 · · · x 2p<br />

⎟<br />

. . . .<br />

x n1 x n2 · · · x np<br />

⎠ .<br />

Der erste Schritt in der Statistik und speziell in der multivariaten Statistik nach<br />

der <strong>Daten</strong>gewinnung ist der Aufbereitung des <strong>Daten</strong>materials gewidmet, wozu meist<br />

auch eine vernünftige grafische Darstellung gehört. Gut aufbereitete <strong>Daten</strong> lassen<br />

bereits Strukturen erkennen und erleichtern damit Modell- und oft auch Methodenwahl<br />

(inhomogene Grundgesamtheit, Verteilungsannahme, parametrische/nichtparametrische<br />

Verfahren u.ä.m.), was in der multivariaten Statistik auf Grund der oft<br />

starken Abhängigkeiten besonders wichtig ist. Kategorielle und mehrdimensionale<br />

102


8.1. Skalierung kategorieller Merkmale 103<br />

Skalierung, Kontingenztafeln und grafische Statistik sind Begriffe, die in diesem<br />

Zusammenhang in erster Linie zu nennen sind.<br />

Eine weitere Gruppe von Verfahren dient dem Auffinden von Strukturen, sowohl<br />

in Hinblick auf inhomogene Grundgesamtheiten (Mischverteilungen) als auch wegen<br />

möglicher Abhängigkeiten von Merkmalen. Hiezu gehören etwa Clusteranalyse,<br />

Faktorenanalyse, z.T. Diskriminanzanalyse und Korrelationsanalyse.<br />

Schließlich bilden multivariate Varianzanalyse und Regressionsanalyse, oder allgemein<br />

das multivariate lineare Modell die natürlichen Verallgemeinerungen der<br />

entsprechenden univariaten Verfahren und sind ausschließlich der Modellierung von<br />

Merkmalsabhängigkeiten gewidmet.<br />

Die folgende Auflistung multivariater Methoden stellt erstens nicht den Anspruch<br />

auf Vollständigkeit und gibt zweitens nur einen groben Einblick in die Ideen.<br />

Für ein genaueres Studium kann u.a. auf Hartung und Elpelt (1986) oder Mardia<br />

et al. (1979) verwiesen werden.<br />

8.1 Skalierung kategorieller Merkmale<br />

Oft treten bei Umfragen u.ä. qualitative Merkmale (ja/nein, gut/schlecht, Farbe,<br />

Staatsbürgerschaft usw.) auf, sodass die Standardmethoden der multivariaten Statistik<br />

mit den häufigen Normalverteilungsannahmen nicht direkt anwendbar sind.<br />

Ein Weg, diese Schwierigkeit zu umgehen, liegt in einer geeigneten ( ”<br />

kontinuierlichen“)<br />

Skalierung der nominalen Merkmale.<br />

Eine der ältesten Methoden dafür ist die marginale Normalisierung, wobei hier<br />

das betrachtete Merkmal x mit den Ausprägungen a (1) , ...,a (k) als ordinal vorausgesetzt<br />

werden muss (z.B.: Schulnote, Erdbebenstärke, Bewölkung). Dabei wird bei<br />

n Beobachtungen den einzelnen Ausprägungen von x entsprechend ihrer Reihenfolge<br />

ein Bereich einer standardnormalverteilten Zufallsgröße zugeordnet, dessen<br />

Anteil der Häufigkeit der Ausprägung entspricht. Als Skalenwerte x (l) , l = 1, ...,k,<br />

wählt man dann den Erwartungswert dieser Bereiche. Die Abb. 8.1 veranschaulicht<br />

Abbildung 8.1: Skalierung eines kategoriellen Merkmals


8.2. Mehrdimensionale Skalierung 104<br />

diesen Vorgang.<br />

Formal erfolgt diese Skalierung, indem zu den relativen Häufigkeiten h l für die<br />

Ausprägungen a (l) (l = 1, ...,k) entsprechende Quantile<br />

l∑<br />

u l = Φ −1 ( h l ′) l = 1, ...,k − 1<br />

l ′ =1<br />

der Standardnormalverteilung bestimmt und schließlich<br />

x (1) = −φ(u 1 )/h 1<br />

x (l) = [φ(u l−1 ) − φ(u l )]/h l für l = 2, ...,k − 1<br />

x (k)<br />

= φ(u k−1 )/h k<br />

als neue Skalenwerte von x erhält, wobei φ und Φ für die Dichtefunktion und die<br />

Verteilungsfunktion der N(0, 1)–Verteilung stehen.<br />

Bei nominalen Merkmalen kommt das Problem einer nichtdefinierten (logischen)<br />

Reihenfolge unter den Ausprägungen hinzu. Eine Möglichkeit zur Skalierung<br />

stellt die Methode nach Lancaster dar. Dabei werden zwei (nominale) Merkmale<br />

zueinander skaliert, indem man aus allen Anordnungsmöglichkeiten für die Ausprägungen<br />

die beiden bestimmt, für die die Korrelation zwischen den Merkmalen<br />

größtmöglich ist, wobei die Skalen dann so gewählt werden, dass die Merkmale als<br />

standardisiert gelten.<br />

8.2 Mehrdimensionale Skalierung<br />

Ausgehend von der (n × p)–<strong>Daten</strong>matrix X oder einer (n × n)–Distanzmatrix<br />

⎛<br />

D =<br />

⎜<br />

⎝<br />

0 d(1, 2) · · · d(1, n)<br />

d(2, 1) 0 · · · d(2, n)<br />

. . . .<br />

d(n, 1) d(n, 2) · · · 0<br />

⎞<br />

⎟ , ⎠<br />

wird aus Gründen der Anschaulichkeit versucht, ein i.a. niederdimensionales Mess–<br />

(d.h. Koordinaten–) System zu finden. Dieses Skalensystem im IR q soll die gegebenen<br />

Objekte bestmöglich beschreiben. Typische Werte für q sind 2 oder 3, womit<br />

die Objekte unmittelbar grafisch darstellbar werden.<br />

Eine Methode dafür ist das Nonlinear Mapping (NLM). Dabei werden für die<br />

beobachteten Objekte neue q–dimensionale <strong>Daten</strong>vektoren y i = (y i1 , ...,y iq ) ⊤ , i =<br />

1, ...,n, konstruiert, für die etwa der sogenannte Mapping Error<br />

n−1 ∑<br />

g E (y 1 , ...,y q ) = (<br />

n∑<br />

i=1 j=i+1<br />

[d(i, j) − d ∗ (i, j)] 2<br />

d(i, j)<br />

n−1 ∑<br />

)/(<br />

n∑<br />

i=1 j=i+1<br />

d(i, j)) (8.1)


8.3. Clusteranalyse 105<br />

mit<br />

d ∗ q∑<br />

(i, j) := ‖y i − y j ‖ = √ (y ik − y jk ) 2<br />

k=1<br />

minimal ausfällt. Es wird dadurch der relative Fehler“ bzgl. der Distanz zweier Objekte,<br />

der durch die Repräsentation der Objekte im neuen Skalensystem entsteht,<br />

”<br />

im Duchschnitt minimiert.<br />

Beispiel 8.1: (Hartung und Elpelt, 1986) Eine jährliche Erhebung der US-<br />

Konsumentenorganisation brachte im Jahre 1971 folgende Statistik über die fünf<br />

größten Automobilgruppen (1: American Motors, 2: Chrysler, 3: Ford, 4: General<br />

Motors, 5: Ausländer) bzgl. der 7 wesentlichen Reparaturindikatoren (Karosserie<br />

innen/ außen/ Eisenteile, Bremsen, Getriebe, Stoßdämpfer, Radaufhängung).<br />

Die Werte wurden dabei mittels geeigneter kategorieller Skalierung (Lancaster-<br />

Skalierung bzgl. der Automobilgruppe) aus einer 5-stufigen Nominalskala (Reparaturanfälligkeit<br />

deutlich über/ über/ gleich/ unter/ deutlich unter der anderer<br />

Teile) gewonnen:<br />

⎛<br />

X =<br />

⎜<br />

⎝<br />

0.452 −0.394 −0.752 −0.241 −0.355 0.472 0.150<br />

0.424 −0.399 −0.515 −0.638 0.643 −0.354 0.026<br />

0.063 −0.045 −0.008 −0.270 −0.414 −0.289 −0.504<br />

−0.766 −0.309 0.358 0.873 0.260 −0.360 −0.287<br />

0.658 1.524 0.518 −0.454 −0.703 1.357 1.164<br />

Wählt man für die Distanzmatrix die euklidische Distanz, so erhält man für q = 2<br />

folgende transformierte <strong>Daten</strong>matrix<br />

⎛<br />

⎞<br />

3.066 1.941<br />

2.070 0.983<br />

Y =<br />

3.269 0.642<br />

,<br />

⎜<br />

⎟<br />

⎝ 4.481 −0.037 ⎠<br />

4.974 3.221<br />

und Abb. 8.2 zeigt diese neuen <strong>Daten</strong>punkte grafisch.<br />

Andere bekannte Verfahren in diesem Zusammenhang sind etwa die Hauptkoordinaten–Methode,<br />

die Kruskal–Methode und verschiedene Unfold–Techniken.<br />

⎞<br />

⎟<br />

⎠<br />

.<br />

8.3 Clusteranalyse<br />

Ziel der Clusteranalyse ist das Auffinden vorhandener, aber meist nicht leicht erkennbarer<br />

Strukturen (Meinungen/ Parteienzugehörigkeit, Prüfungsergebnisse an<br />

der Universität/ absolvierter Schultyp) oder deren künstliche Konstruktion (Konfektionsgrößen,<br />

Absatzmärkte). Dabei wird der gesamte <strong>Daten</strong>satz oder eine daraus<br />

gewonnene Distanz- oder Ähnlichkeitsmatrix zugrundegelegt, und die Struktur


8.3. Clusteranalyse 106<br />

Abbildung 8.2: <strong>Daten</strong>punkte im neuen Skalensystem<br />

direkt daraus konstruiert, ohne etwa den Umweg über eine MDS–Methode (Multidimensionale<br />

Skalierung) zu wählen. Im wesentlichen unterscheidet man Gruppierungsmethoden,<br />

bei denen die Objekte in mehr oder weniger zusammengehörende<br />

Gruppen eingeteilt werden (eigentliche Clusterung), und hierarchische Verfahren,<br />

wo in Form einer Hierarchie solange jeweils ”<br />

verwandte“ Gruppen zu einer größeren<br />

Gruppe zusammengefasst werden, bis alle Objekte eine einzige Klasse bilden.<br />

Praktisch alle Clusteranalysealgorithmen stellen dabei iterative Prozeduren dar.<br />

Die Gruppierungsmethoden teilen die Objekte so in eine i.a. gegebene feste<br />

Zahl von Gruppen auf, dass die Ähnlichkeit innerhalb der Gruppen möglichst groß<br />

ausfällt und die Unterscheidung zwischen den Gruppen bestmöglich ist. Die einzelnen<br />

Methoden unterscheiden sich nach den zugrundeliegenden Optimalitätskriterien<br />

und nach dem Konstruktionsalgorithmus. Zu den bekanntesten zählt wohl der<br />

KMEANS–Algorithmus, bei dem von einer Anfangsgruppierung ausgehend in jedem<br />

Iterationsschritt dasjenige Objekt aus seiner Klasse in eine andere transferiert<br />

wird, bei dem der größte Effekt erzielt wird. Dabei liegt das sogenannte Varianzkriterium<br />

zugrunde, bei dem die (gewichtete) Summe der einzelnen Gruppenvarianzen<br />

minimal ausfallen soll.<br />

Hierarchische Methoden beginnen i.a. mit einer vollständigen Zerlegung in einzelne<br />

Objekte und fassen Zug um Zug zunächst ähnliche Objekte, dann auch ähnliche<br />

Gruppen zu übergeordneten Klassen zusammen. Die Hierarchie gilt als erstellt,<br />

wenn nur mehr eine einzige gemeinsame Klasse aller Objekte übrig bleibt. Üblicherweise<br />

werden diese Verschmelzungsschritte baumartig als sogenanntes Dendrogramm<br />

dargestellt, wobei die einzelnen Objekte die Blätter, die Vereinigung von<br />

Gruppen die Knoten und die Gesamtmenge die Wurzel bilden. Durch den lotrechten<br />

Abstand eines Knoten zur Ebene der Blätter lässt sich der Abstand der zwei im<br />

Knoten vereingten Gruppen darstellen. Dem Auswerter obliegt es, die geeignetste


8.4. Faktorenanalyse 107<br />

Gruppierung durch einen Schnitt im Dendrogramm festzuhalten. Die Methoden<br />

unterscheiden sich hauptsächlich durch das Kriterium, das dem Begriff ” Ähnlichkeit“<br />

von Objekten und Klassen zugrundeliegt. Zu den bekanntesten Verfahren<br />

zählen die Single–Linkage–Methode (Distanz = Abstand zwischen den nächstliegenden<br />

Objekten), die Complete–Linkage–Methode (Distanz = Abstand zwischen<br />

den weitestentfernten Objekten) und die Average–Linkage–Methode (Distanz =<br />

Durchschnitt aller Abstände).<br />

Beispiel 8.2: (Hartung und Elpelt, 1986) 13 PKW–Typen wurden hinsichtlich<br />

der Merkmale Hubraum (x 1 , in cm 3 ), Leistung (x 2 , in PS), Verbrauch (x 3 ,<br />

in l/100 km) und Höchstgeschwindigkeit (x 4 ; ”<br />

Spitze“ in km/h) verglichen, wobei<br />

die <strong>Daten</strong>matrix aus Tab. 8.1 herauskam. Diese <strong>Daten</strong> lassen sich für jedes Merk-<br />

Tabelle 8.1: Leistungsmerkmale von 13 PKW–Typen<br />

PKW Hubraum Leistung Verbrauch Spitze<br />

1 1696 80 11.0 155<br />

2 1573 85 11.5 168<br />

3 1985 78 11.0 158<br />

4 2496 130 16.0 175<br />

5 843 37 8.0 124<br />

6 598 30 7.0 116<br />

7 2753 125 13.0 158<br />

8 1618 74 10.5 143<br />

9 1470 55 9.5 143<br />

10 1285 40 9.5 120<br />

11 1780 96 14.5 169<br />

12 1078 55 9.5 136<br />

13 1582 90 12.5 185<br />

mal standardisieren, und als mögliches Abstandsmaß kann dann die euklidische<br />

Distanz zwischen zwei Objekten (= <strong>Daten</strong>punkten) gewählt werden. Damit erhält<br />

man die Distanzmatrix D aus Tab. 8.2. Das Dendogramm, das durch Anwendung<br />

der Single–Linkage–Methode entsteht, findet sich in Abb. 8.3. Die Position der Vereinigungsstelle<br />

spiegelt dabei den Abstand zwischen den beiden zu vereinigenden<br />

Klassen wider. Ein möglicher Schnitt zur Gewinnung einer konkreten Gruppierung<br />

ist durch die strichlierte Linie angedeutet.<br />

8.4 Faktorenanalyse<br />

Wie in der Einleitung bereits angedeutet, bedingt eine große Zahl beobachtbarer<br />

Merkmale häufig auch starke Abhängigkeiten zwischen diesen. Wenn man von


8.4. Faktorenanalyse 108<br />

j<br />

Tabelle 8.2: Distanzmatrix für die 13 beobachteten PKW–Typen<br />

i 1 2 3 4 5 6 7 8 9 10 11 12 13<br />

1 0 0.68 0.51 3.02 2.71 3.41 2.42 0.63 1.20 2.24 1.62 1.68 1.54<br />

2 0.68 0 0.88 2.78 3.14 3.82 2.47 1.26 1.70 2.79 1.29 2.09 0.89<br />

3 0.51 0.88 0 2.84 3.03 3.74 2.13 0.95 1.45 2.50 1.63 2.05 1.58<br />

4 3.02 2.78 2.84 0 5.66 6.35 1.50 3.50 4.18 5.04 1.74 4.61 2.47<br />

5 2.71 3.14 3.03 5.66 0 0.71 4.95 2.20 1.59 0.97 4.12 1.07 3.92<br />

6 3.41 3.82 3.74 6.35 0.71 0 5.62 2.89 2.30 1.56 4.81 1.76 4.60<br />

7 2.42 2.47 2.13 1.50 4.95 5.62 0 2.78 3.46 4.28 2.03 3.97 2.58<br />

8 0.63 1.26 0.95 3.50 2.20 2.89 2.78 0 0.77 1.66 2.13 1.20 2.15<br />

9 1.20 1.70 1.45 4.18 1.59 2.30 3.46 0.77 0 1.20 2.71 0.73 2.53<br />

10 2.24 2.79 2.50 5.04 0.97 1.56 4.28 1.66 1.20 0 3.59 0.94 3.62<br />

11 1.62 1.29 1.63 1.74 4.12 4.81 2.03 2.13 2.71 3.59 0 3.06 1.15<br />

12 1.68 2.09 2.05 4.61 1.07 1.76 3.97 1.20 0.73 0.94 3.06 0 2.90<br />

13 1.54 0.89 1.58 2.47 3.92 4.60 2.58 2.15 2.53 3.62 1.15 2.90 0<br />

den seltenen Fällen absieht, in denen die beteiligten Größen einander direkt beeinflussen<br />

(z.B. Körpergröße und Körpergewicht), erklärt sich dieser Zusammenhang<br />

meistens durch dahinterstehende (latente) Größen (z.B. Schulnote in Mathematik<br />

und Deutsch; Einflussfaktor: Intelligenz). Ziel der Faktorenanalyse ist die möglichst<br />

gute und einfache (d.h. lineare) Erklärung der beobachtbaren quantitativen Merkmale<br />

aus einer i.a. kleinen Gruppe dahinterstehender Einflussfaktoren. Im Falle<br />

qualitativer Merkmale ist ein entsprechender Skalierungsalgorithmus voranzustellen.<br />

Nach Standardisierung der p Merkmale x l zu<br />

y l = x l − E(x l )<br />

√<br />

Var(x l )<br />

ist das zugehörende theoretische (lineare) Modell von der Gestalt<br />

y l = λ l1 f 1 + λ l2 f 2 + . .. + λ lq f q + e l l = 1, ...,p . (8.2)<br />

In Matrixschreibweise lautet dieses Modell dann<br />

y = L f + e (8.3)<br />

mit dem standardisierten Merkmalsvektor y = (y 1 , ...,y p ) ⊤ , dem standardisierten<br />

Faktorvektor f = (f 1 , ...,f q ) ⊤ und L = (λ lk ) l=1,...,p, k=1,...,q als Ladungsmatrix.<br />

Dabei wird<br />

E(f) = 0 E(e) = 0<br />

E(ff ⊤ ) = I q E(ee ⊤ ) = diag(δ1, 2 ...,δp) 2 E(fe ⊤ ) = 0<br />

vorausgesetzt. Je nach Größe und Verteilung der Ladungen λ lk (l = 1, ...,p) spricht<br />

man bei f k von einem


8.4. Faktorenanalyse 109<br />

11 47<br />

10 56<br />

13<br />

12<br />

9<br />

2<br />

8<br />

3<br />

1<br />

Abbildung 8.3: Single-Linkage-Dendrogramm für 13 PKW<br />

• allgemeinen Faktor (engl. general factor), wenn mehr oder weniger alle der<br />

oben angeführten Ladungen deutlich von Null verschieden sind;<br />

• gemeinsamen Faktor (engl. common factor), wenn mindestens zwei Ladungen<br />

beträchtlich von Null verschieden sind.<br />

• Einzelrestfaktor (engl. unique factor) nennt man die Restkomponente e l ; diese<br />

werden unkorreliert vorausgesetzt.<br />

Für die Korrelationsmatrix R = (ρ lk ) l,k=1(1)p von x gilt nun<br />

R = E(yy ⊤ )<br />

= L E(ff ⊤ )L ⊤ + L E(fe ⊤ ) + E(ef ⊤ ) L ⊤ + E(ee ⊤ )<br />

} {{ } } {{ }<br />

0 0<br />

= LL ⊤ + diag(δ1, 2 ...,δp) 2 ,<br />

wobei die wesentliche Bedeutung bei der reduzierten Korrelationsmatrix<br />

⎛<br />

˜R = LL ⊤ =<br />

⎜<br />

⎝<br />

κ 2 1 ρ 12 · · · ρ 1p<br />

ρ 21 κ 2 2 · · · ρ 2p<br />

. . . .<br />

ρ p1 ρ p2 · · · κ 2 p<br />

⎞<br />

⎟ = R − ⎠ diag(δ2 1, ...,δp) 2 (8.4)<br />

liegt, die der eigentlichen Faktorenanalyse zugrundegelegt wird. Die Diagonalelemente<br />

κ 2 j = 1 − δ 2 j = λ 2 j1 + · · · + λ 2 jq j = 1, ...,p (8.5)<br />

werden als Kommunalitäten bezeichnet und beschreiben den Anteil der Varianz<br />

des standardisierten Merkmals y j , der durch die Wirkung gemeinsamer Faktoren<br />

erklärbar ist. Im Gegensatz dazu heißt die merkmalseigene Varianz δ 2 j auch Einzelrestvarianz<br />

(in der englischen Literatur uniqueness).


8.4. Faktorenanalyse 110<br />

Der obige Ansatz (8.2) ist allerdings nicht eindeutig, wie man etwa leicht durch<br />

Einfügen einer Orthogonalmatrix T in die Modellgleichung in der Form<br />

y = LT ⊤ Tf + e = ˜L˜f + e<br />

mit ˜L = LT ⊤ und ˜f = Tf einsieht (Orthogonaltransformation!), sodass Nebenbedingungen<br />

notwendig sind. Eine Möglichkeit dafür ergibt sich durch die Forderung,<br />

dass<br />

L ⊤ diag(δ1 −2 , ...,δp −2 )L (8.6)<br />

eine Diagonalmatrix sein soll.<br />

Mit Hilfe der Faktorrotation, also der Anwendung einer orthogonalen Transformation<br />

T auf die Faktoren, versucht man eine neue Ladungsmatrix ˜L = LT ⊤ von<br />

möglichst einfacher Struktur zu erhalten, damit die Erklärung der gegebenen Merkmale<br />

erleichtert wird. Eine Definition für die Einfachstruktur einer Ladungsmatrix<br />

geht auf Thurstone zurück (siehe Hartung und Elpelt, 1986).<br />

Zu den bekanntesten derartigen Verfahren zählt die Varimax–Methode, bei der<br />

die über die q Spalten der Ladungsmatrix kumulierten Abweichungsquadratsummen<br />

der quadrierten und durch die Kommunalitäten normierten Ladungen bezüglich<br />

jeder einzelnen Spalte, also<br />

mit<br />

q∑ p∑<br />

s 2 L := (zlk 2 − z.k 2 )2 (8.7)<br />

k=1 l=1<br />

z lk = λ lk<br />

κ l<br />

und z.k 2 = 1 p∑<br />

zlk<br />

2 p<br />

l=1<br />

maximiert werden. Damit lassen sich die gegebenen Merkmale bzgl. der Faktoren<br />

möglichst gut trennen. Ein anderes bekanntes Verfahren ist die Quartimax–<br />

Methode, bei der die Summe der vierten Potenzen der Ladungen<br />

Q =<br />

q∑ p∑<br />

λ 4 lk<br />

k=1 l=1<br />

maximiert wird. Dadurch erreicht man die Dominanz einiger weniger, meist auch<br />

nur eines einzigen Faktors für jedes Merkmal. (Warum hier keine Mittelwerte abgezogen<br />

werden, sieht man in der Grundidee der Maximierung der empirischen<br />

Varianzen aller quadrierten Ladungen<br />

∑ ∑<br />

(λ<br />

2<br />

ij − λ 2 ..) 2 ,<br />

weil sich<br />

λ 2 .. = 1 ∑ ∑<br />

λ 2 ij = 1 ∑<br />

pq pq<br />

durch Drehung nicht verändert.)<br />

i<br />

j<br />

i<br />

κ i


8.4. Faktorenanalyse 111<br />

Generell sollen sich durch die Rotation die gegebenen Merkmale bzgl. der Faktoren<br />

in gut getrennte Gruppen einteilen lassen. Häufig ist diese Forderung durch<br />

eine orthogonale Transformation nicht zu erfüllen, während dies mit schiefwinkeligen<br />

Rotationen ermöglicht wird.<br />

Schließlich sind auch noch die Faktorwerte bei gegebenen Merkmalsausprägungen<br />

von Interesse. Dazu soll f = (f 1 , ...,f q ) ⊤ so gewählt werden, dass für eine<br />

gegebene (d.h. bereits ermittelte) Ladungsmatrix L<br />

y ≈ Lf<br />

bestmöglich erfüllt ist. Mit einem übertragenen GLS–Ansatz (generalized least<br />

squares) erhält man als mögliche Wahl ( ”<br />

Schätzung“) ˆf von f<br />

ˆf = L ⊤ R −1 y , (8.8)<br />

soferne die Korrelationsmatrix R von x regulär ist.<br />

Der wesentliche Schritt in der Faktorenanalyse besteht nach Obigem aber in der<br />

Schätzung einer Ladungsmatrix aus einem gegebenen <strong>Daten</strong>satz x i = (x i1 , ...,x ip ) ⊤ ,<br />

i = 1, ...,n, der in der (n ×p)–<strong>Daten</strong>matrix X zusammengefasst ist. Das wohl bekannteste<br />

Verfahren ist durch die Maximum–Likelihood–Methode gegeben, bei der<br />

unter Annahme eines p–dimensional normalverteilten Merkmals x die Likelihood–<br />

Funktion<br />

1<br />

n∑<br />

(2π) np/2 |det(R)| exp (−1 y ⊤ n/2 i R −1 y<br />

2<br />

i )<br />

maximiert wird, wobei y i für die standardisierte Form von x i steht und für<br />

i=1<br />

R = LL ⊤ + diag(δ 2 1, ...,δ 2 p) = LL ⊤ + U 2<br />

die Nebenbedingung (8.6) erfüllt sein muss. Die Lösung für L und δ 2 1, ...,δ 2 p ergibt<br />

sich aus dem Eigenwertproblem<br />

˜RU −2 A = AJ<br />

in der Form<br />

ˆL = AJ 1/2 .<br />

Das Eigenwertproblem selbst wird iterativ gelöst (siehe Hartung und Elpelt, 1986).<br />

Andere bekannte Verfahren der Faktorenanalyse sind etwa die kanonische Faktorenanalyse,<br />

bei der die Faktoren so gewählt werden, dass die kanonischen Korrelationen<br />

zwischen den Faktoren und den p Merkmalen maximal ausfallen, oder die<br />

Hauptkomponenten– bzw. die Hauptfaktorenanalyse.<br />

Im zweiten Schritt der Analyse werden die Faktoren im Sinne eines der in der<br />

Einführung genannten Kriteriums optimal rotiert. Schließlich erhält man durch


8.5. Korrelationsanalyse 112<br />

Anwendung von (8.8) aus der ursprünglichen (n × p)–<strong>Daten</strong>matrix die (n × q)–<br />

Faktormatrix<br />

⎛<br />

⎞<br />

f 11 f 12 · · · f 1n<br />

f 21 f 22 · · · f 2n<br />

F =<br />

⎜<br />

⎟<br />

(8.9)<br />

⎝ . . . . ⎠<br />

f q1 f q2 · · · f qn<br />

als möglichst gute Anpassung von<br />

Y = LF . (8.10)<br />

Häufig dient die Faktormatrix F als reduzierte <strong>Daten</strong>matrix als Ausgangspunkt<br />

für weitere multivariaten Verfahren (z.B. Clusteranalyse, Regressionsanalyse), weil<br />

einerseits auf Grund der Faktorkonstruktion kaum Information verlorengeht, aber<br />

andererseits durch die oft deutlich reduzierte Variablenanzahl der Rechenaufwand<br />

gesenkt werden kann. Siehe dazu allgemein die Bücher Hartung und Elpelt (1986)<br />

und Harman (1976) und den Artikel Clarkson and Jennrich (1988).<br />

8.5 Korrelationsanalyse<br />

Wenn in einer Analyse nicht die quantitative Beschreibung von Abhängigkeiten<br />

im Vordergrund steht, sondern nur die Frage nach Existenz und allenfalls Stärke<br />

derartiger (linearer) Zusammenhänge gestellt wird, ist die Korrelationsanalyse das<br />

geeignete Werkzeug. Grundlage der Analyse ist dabei die (symmetrische) Korrelationsmatrix<br />

⎛<br />

⎞<br />

1 ρ 12 · · · ρ 1p<br />

ρ 21 1 · · · ρ 2p<br />

R =<br />

⎜<br />

⎟<br />

⎝ . . . . ⎠<br />

ρ p1 ρ p2 · · · 1<br />

bzw. ihre Schätzung durch die empirische Korrelationsmatrix<br />

⎛<br />

ˆR =<br />

⎜<br />

⎝<br />

1 r 12 · · · r 1p<br />

r 21 1 · · · r 2p<br />

. . . .<br />

r p1 r p2 · · · 1<br />

⎞<br />

⎟ , ⎠<br />

wobei r ij für den üblichen Pearsonschen Korrelationskoeffizienten zwischen zwei<br />

(univariaten) Merkmalen x i und x j steht.<br />

Unter dem multiplen Korrelationskoeffizienten eines Merkmals y zu den Merkmalen<br />

x 1 , ...,x p versteht man den betragsgrößten Korrelationskoeffizienten zwischen<br />

y und einer beliebigen Linearkombination<br />

a 1 x 1 + a 2 x 2 + · · · + a p x p


8.5. Korrelationsanalyse 113<br />

der Zufallsgrößen x 1 , ...,x p und ergibt sich zu<br />

√<br />

ρ y,(x1 ,...,x p) = ρ ⊤ y,xR −1 ρ y,x (8.11)<br />

mit ρ y,x = (ρ y,x1 , ...,ρ y,xp ) ⊤ . Die Schätzung erfolgt über die entsprechenden paarweisen<br />

empirischen Korrelationskoeffizienten. Die Größe<br />

B y,(x1 ,...,x p) = r 2 y,(x 1 ,...,x p) (8.12)<br />

heißt multiples Bestimmtheitsmaß und beschreibt, wie gut das Merkmal y durch die<br />

Größen x 1 , ...,x p beschrieben werden kann (0: y ist zu allen x 1 , ...,x p unkorreliert;<br />

1: y ist durch x 1 , ...,x p 100% beschreibbar).<br />

Zum Testen der Hypothese<br />

H 0 : ρ y,(x1 ,...,x p) = 0<br />

mit Signifikanzniveau α verwendet man unter Zugrundelegung von n Beobachtungen<br />

die Prüfgröße<br />

F = r2 y,(x 1 ,...,x p)<br />

(n − 1 − p)<br />

p[1 − ry,(x 2 1 ,...,x ] (8.13)<br />

p)<br />

und verwirft die Hypothese, wenn<br />

F > F p,n−1−p;1−α<br />

ausfällt.<br />

Die Verallgemeinerung des Begriffes der multiplen Korrelation auf den Zusammenhang<br />

zwischen zwei Gruppen x 1 , ...,x p und y 1 , ...,y q von Merkmalen führt<br />

zur kanonischen Korrelation. Sie ist als betragsgrößter einfacher Korrelationskoeffizient<br />

zwischen beliebigen Linearkombinationen<br />

und<br />

a 1 x 1 + a 2 x 2 + · · · + a p x p<br />

b 1 y 1 + b 2 y 2 + · · · + b q y q<br />

erklärt und lässt sich durch √ λ g angeben, wobei λ g den größten Eigenwert der<br />

Matrix<br />

Ψ = Σ −1<br />

x ΣxyΣ −1<br />

y Σ −1<br />

xy<br />

mit<br />

Σx = (Cov(x i , x j )) i,j=1,...,p<br />

Σy = (Cov(y i , y j )) i,j=1,...,q<br />

Σxy = (Cov(x i , y j )) i=1,...,p;j=1,...,p<br />

angibt. Der Gewichtsvektor a = (a 1 , ...,a p ) ⊤ zur kanonischen Korrelation ergibt<br />

sich dann als Eigenvektor von Ψ zum Eigenwert λ g , der Gewichtsvektor<br />

b = (b 1 , ...,b q ) ⊤ berechnet sich zu<br />

b = Σ −1<br />

y Σ ⊤ xyâ .


8.5. Korrelationsanalyse 114<br />

Zur Schätzung von a, b und λ g geht man wieder von den einfachen paarweisen<br />

empirischen Korrelationskoeffizienten aus und überträgt die theoretischen Beziehungen<br />

auf die entsprechenden empirischen Größen.<br />

Das multivariate lineare Modell<br />

In Verallgemeinerung des univariaten Falles betrachtet man hier Beobachtungsgrößen<br />

(genauer: abhängige Größen), bei denen die Erklärung durch ein lineares<br />

Modell nicht unabhängig komponentenweise erfolgt, sondern bei denen unter Ausnützung<br />

der Zusammenhänge (Korrelationen) von Komponenten ein simultanes<br />

lineares Modell zur Beschreibung herangezogen wird. Die Ideen, die beispielsweise<br />

aus der univariaten Varianzanalyse oder Regressionsanalyse bekannt sind, werden<br />

aber auch im multivariaten Fall zugrundegelegt.<br />

In allgemeiner Form ist das multivariate lineare Modell für einen Satz von<br />

multivariaten Beobachtungen y 1 , ...,y n , die zu einer (n ×p)–Beobachtungsmatrix<br />

Y zusammengefasst sind, gegeben durch<br />

wobei<br />

X =<br />

⎜<br />

⎝<br />

die (n × m)–Designmatrix darstellt,<br />

Y = XΨ + E , (8.14)<br />

⎛<br />

Ψ = (ψ (1) , ...,ψ (p) ) =<br />

⎜<br />

⎝<br />

⎞<br />

x 11 x 12 · · · x 1m<br />

x 21 x 22 · · · x 2m<br />

⎟<br />

. . . . ⎠<br />

x n1 x n2 · · · x nm<br />

⎛<br />

⎞<br />

ψ 11 ψ 12 · · · ψ 1p<br />

ψ 21 ψ 22 · · · ψ 2p<br />

⎟<br />

. . . . ⎠<br />

ψ m1 ψ m2 · · · ψ mp<br />

die Modellparameter zur Parametermatrix Ψ zusammenfasst und E = (e 1 , ...,e n ) ⊤<br />

als (n × p)–Fehlermatrix mit<br />

e i ∼ N(0,Σ)<br />

i = 1, ...,n<br />

und<br />

E(e ⊤ i e j ) = O<br />

für i ≠ j<br />

aufgefasst wird. Dabei lassen sich als Restriktion von Parametern lineare Nebenbedingungen<br />

der Form<br />

ZΨ = O (8.15)<br />

für eine passend gewählte Restriktionsmatrix Z vorschreiben.


8.5. Korrelationsanalyse 115<br />

Die Schätzung von Ψ und Σ erfolgt meist über verallgemeinerte Kleinste–<br />

Quadrat–Ansätze. Daneben ist das Testen linearer Hypothesen der Form<br />

H 0 : KΨ = O (8.16)<br />

mit einer geeigneten Testmatrix K von Interesse, wobei auch im multivariaten Fall<br />

dazu eine verallgemeinerte Quadratsumme, welche die durch das Modell erklärte<br />

Variabilität erklärt, in Bezug auf die nicht erklärbare Restvariabilität beurteilt<br />

wird. Einzelheiten und Methoden findet man bei Hartung und Elpelt (1986).


<strong>Kapitel</strong> 9<br />

Simulation, Erzeugung von<br />

Zufallszahlen<br />

9.1 Erzeugung von Zufallszahlen diskreter Verteilungen<br />

In diesem Abschnitt wird angenommen, dass Zufallszahlen x i mit der Verteilung<br />

p i = P(X = x i ) i=1,...,s erzeugt werden sollen. Ausgangspunkt für jedes Verfahren<br />

sind stetig in (0,1) gleichverteilte Zufallszahlen u. Es wird vorausgesetzt, dass<br />

solch ein Zufallszahlengenerator vorhanden ist. Algorithmen werden in einer C-<br />

ähnlichen Notation niedergeschrieben, die möglichst selbsterklärend ist. Häufig gebraucht<br />

wird dabei die Funktion floor, wobei floor(x) die größte ganze Zahl bezeichnet,<br />

die kleiner oder gleich x ist. Indizes von Vektorelementen beginnen wie<br />

in C bei 0.<br />

9.1.1 Intervalltestverfahren<br />

Bei diesem Verfahren setzt man das Intervall (0,1) aus den einzelnen p i zusammen,<br />

erzeugt eine stetig in (0,1) gleichverteilte Zufallszahl u und schaut, in welchem p i der<br />

rechte Endpunkt des Intervalls (0,u] zu liegen kommt. Das diesem p i zugeordnete<br />

x i ist die erzeugte Zahl. Mit den Vorbesetzungen q i = ∑ i<br />

j=1 p j für i = 1, ...,s − 1<br />

und q s = 1 lautet der Algorithmus:<br />

i=1;<br />

while (u > q i ) i++;<br />

return(x i )<br />

Der Nachteil dieses Verfahrens liegt darin, dass bei großem s im Mittel viele Vergleiche<br />

notwendig sein können. Dies gilt besonders dann, wenn die p i ungefähr gleich<br />

groß sind. Eine Beschleunigung des Verfahrens kann durch eine fallende Anordnung<br />

der p i erzielt werden.<br />

116


9.1. Erzeugung von Zufallszahlen diskreter Verteilungen 117<br />

9.1.2 Ziehung aus einem Speicher<br />

Sind die p i auf maximal d Dezimalstellen gegeben, kann man einen Vektor h der<br />

Länge 10 d erzeugen, der aus p 1 10 d Elementen x 1 , p 2 10 d Elementen x 2 , usw. besteht.<br />

Die Zufallszahl wird durch<br />

return(h[floor(10 d u)])<br />

erzeugt. Dieses Verfahren hat für jede Zufallszahl den gleichen Erzeugungsaufwand,<br />

ist wegen des hohen Speicherplatzbedarfs jedoch nur bei kleinem d sinnvoll einzusetzen.<br />

9.1.3 Marsaglia Tabellen<br />

Dieses Verfahren kombiniert die Vorteile des Intervalltestverfahrens und der Ziehung<br />

aus einem Speicher. Wieder wird vorausgesetzt, dass die p i auf höchstens<br />

d Dezimalstellen gegeben sind. Die p i haben dann die Form p i = ∑ d<br />

j=1 p ij 10 j für<br />

i = 1, ...,s. Man erzeugt Hilfsvektoren h i der Länge n i = ∑ s<br />

j=1 p ji die aus p 1i<br />

Elementen x 1 , p 2i Elementen x 2 ,...,p si Elementen x s bestehen und trifft die Vorbesetzungen<br />

q i = ∑ i<br />

j=1 n j 10 −j für i = 1, ...,s − 1 und q s = 1. Mit zwei stetig in<br />

(0,1) gleichverteilten unabhängigen Zufallszahlen u 1 und u 2 erzeugt der Algorithmus<br />

i=1;<br />

while (u 1 > q i ) i++;<br />

return(h i [floor(u 2 n i )])<br />

Zufallszahlen der vorgegebenen Verteilung. Da die q i sehr rasch gegen 1 steigen,<br />

hat man im Mittel sehr wenig Vergleiche bei den Intervalltests und dazu verhältnismäßig<br />

kleine Hilfsvektoren für die Ziehung aus den Speichern.<br />

9.1.4 Verfahren von A.J. Walker<br />

Es handelt sich hier ebenfalls um ein zweistufiges Verfahren, das Walker (1977) vorgestellt<br />

hat. Im ersten Schritt wird ein Index i nach einer diskreten Gleichverteilung<br />

auf 1,...,s berechnet, im zweiten Schritt erfolgt eine ”<br />

Korrektur“ auf den ”<br />

richtigen“<br />

Index, um die vorgegebene Verteilung zu erhalten. Dazu werden Hilfsindizes<br />

h i und Wahrscheinlichkeiten q i benötigt, die für eine vorgegebene Verteilung fest<br />

sind und vor Aufruf des Algorithmus vorbesetzt werden müssen. Die Zufallszahlen<br />

werden dann einfach durch<br />

i=floor(su 1 )+1;<br />

if (u 2 < q i ) return(x i ) else return(x hi );<br />

erzeugt. Die Berechnung der h i und q i ist etwas komplizierter, muss jedoch nur<br />

einmal durchgeführt werden. Die Abbruchschranke ε muss die Stellenanzahl d, auf<br />

die die p i gegeben sind, berücksichtigen.


9.1. Erzeugung von Zufallszahlen diskreter Verteilungen 118<br />

for (i = 1;i ≤ s; i + +) {<br />

h i = i;<br />

q i = 0;<br />

d i = p i − 1 s ; /* Differenz zwischen vorgegebener Verteilung und diskreter Gleichverteilung<br />

*/<br />

};<br />

while ( ∑ s<br />

j=1 abs(d j ) > ε) {<br />

imin=Index des kleinsten d i ;<br />

imax=Index des größten d i ;<br />

h imin = imax;<br />

q imin = 1 + d imin s; /* d imin ist kleiner als 0 */<br />

d imax = d imax + d imin ;<br />

d imin = 0;<br />

};<br />

Die bisher angeführten Verfahren zur Erzeugung von Zufallszahlen setzen einen<br />

endlichen Wertebereich der Zufallsvariablen voraus. Für die häufig benötigten Verteilungen<br />

mit unendlichem Wertebereich wie z.B. die Poissonverteilung oder die<br />

geometrische Verteilung, gibt es eine Reihe von speziell für diese Verteilungen entwickelten<br />

Verfahren. Stellvertretend wird jeweils nur 1 Verfahren angeführt, wobei<br />

mehr auf Kürze des Algorithmus als auf optimales Rechenzeitverhalten des Generators<br />

Wert gelegt wird.<br />

9.1.5 Geometrische Verteilung<br />

Ist u stetig in (0,1) gleichverteilt, so erzeugt<br />

return(floor(lnu/ ln(1 − p))+1);<br />

Zufallszahlen der Verteilung P(X = i) = p(1 − p) i−1 i = 1, 2, ....<br />

9.1.6 Poissionverteilung<br />

Man erzeugt so lange Zufallszahlen y i mit Y i verteilt Ex 1/ξ (d.h. exponential verteilt),<br />

bis y 1 +y 2 + · · ·+y i ≤ 1 und y 1 +y 2 + · · ·+y i +y i+1 > 1 gilt. Dann ist i nach<br />

P ξ verteilt. Um den mehrmaligen Aufruf der Logarithmusfunktion zur Berechnung<br />

exponential verteilter Zufallszahlen zu vermeiden, bekommt obiger Algorithmus<br />

folgende Gestalt (u i unabhängig stetig in (0,1) gleichverteilt):<br />

i = 0;<br />

while ( ∏ u i ≥ e −ξ ) i++;<br />

return(i);


9.2. Erzeugung von Zufallszahlen stetiger Verteilungen 119<br />

9.2 Erzeugung von Zufallszahlen stetiger Verteilungen<br />

Wie bei den diskreten Zufallszahlengeneratoren gibt es auch bei den stetigen Verteilungen<br />

Verfahren, die allgemein eingesetzt werden können. Viele Algorithmen<br />

für spezielle Verteilungen verwenden Elemente dieser allgemeinen Verfahren.<br />

9.2.1 Inversionsverfahren<br />

Ist die Verteilungsfunktion F(x) der Verteilung, von der die Zufallszahlen erzeugt<br />

werden sollen, in geschlossener Form darstellbar, liefert der Algorithmus<br />

return(F −1 (u))<br />

auf sehr einfache Weise die gewünschte Zufallszahl. Da jedoch viele Verteilungen<br />

nicht in geschlossener Weise darstellbar sind und es oft schnellere Verfahren gibt,<br />

findet das Inversionsverfahren eher wenig Anwendung.<br />

9.2.2 Verwerfungsverfahren<br />

Sollen Zufallszahlen, die nach der Dichtefunktion f(x) verteilt sind, erzeugt werden<br />

und gibt es eine weitere Dichtefunktion h(x), sodass g(x) = αh(x) ≥ f(x), so liefert<br />

der Algorithmus<br />

while (u i > f(y i)<br />

g(y i ) ) i++;<br />

return(y i );<br />

das gewünschte Ergebnis. u i sind in diesem Fall wieder stetig in (0,1) gleichverteilte<br />

Zufallszahlen und y i nach h(x) verteilte Zufallszahlen. Für eine Zufallszahl, die nach<br />

f(x) verteilt ist, werden im Mittel α Paare (u i , y i ) benötigt. Dieses Verfahren ist<br />

dann vorteilhaft einzusetzen, wenn der Aufwand zur Erzeugung von y i gering ist im<br />

Verhältnis zur direkten Erzeugung von Zufallszahlen, die nach f(x) verteilt sind.<br />

9.2.3 Transformationsverfahren<br />

Ist X stetig verteilt mit der Dichtefunktion f(x), Y = g(X) und g(x) umkehrbar,<br />

stetig differenzierbar, g ′ (x) ≠ 0, so ist Y stetig verteilt mit der Dichtefunktion<br />

h(y) = f(g −1 (y))| dg−1 (y)<br />

|. Sollen Zufallszahlen, die nach der Dichtefunktion h(y)<br />

dy<br />

verteilt sind, erzeugt werden, kann dieses Verfahren herangezogen werden.<br />

9.2.4 Vergleichsverfahren<br />

Für Verteilungen mit endlichem Wertebereich, die eine Dichtefunktion der Gestalt<br />

f(x) = αe −h(x) a ≤ x ≤ b und 0 ≤ h(x) ≤ 1 mit α = ( ∫ b<br />

a e−h(x) dx) −1 haben, kann<br />

man folgendes Verfahren verwenden:


9.2. Erzeugung von Zufallszahlen stetiger Verteilungen 120<br />

start: x = a + (b − a)u j++ ;<br />

v = h(x);<br />

i=1;<br />

while (u j ≤ v) { v=u j++ ; i++};<br />

if (i ungerade) return(x) else goto start;<br />

Im Mittel werden (b−a)+∫ b<br />

a eh(x) dx<br />

∫ b stetig in (0,1) gleichverteilte Zufallszahlen u j zur<br />

a e−h(x) dx<br />

Erzeugung einer Zufallszahl x benötigt.<br />

9.2.5 Kompositionsverfahren<br />

Sollen Zufallszahlen x nach der Verteilung F(x) = ∑ s<br />

i=1 p i F i (x) erzeugt werden mit<br />

∑ si=1<br />

p i = 1, p i > 0 und F i (x) Verteilungsfunktion für i = 1, ...,s, so liefert der<br />

Algorithmus<br />

erzeuge i verteilt nach P(Y = i) = p i ;<br />

erzeuge x verteilt nach F i ;<br />

return(x);<br />

die gewünschten Zufallszahlen. Dieses Verfahren ist dann sinnvoll einzusetzen, wenn<br />

sich die Zufallszahlen der Verteilungen F i , für die die p i groß sind, leicht erzeugen<br />

lassen.<br />

9.2.6 Normalverteilung<br />

Es gibt eine große Zahl von Algorithmen zur Erzeugung von N(0,1) verteilten Zufallszahlen.<br />

Der folgende Algorithmus erzeugt ausgehend von 2 unabhängigen stetig<br />

in (0,1) gleichverteilten Zufallszahlen u 1 und u 2 zwei unabhängig N(0,1)-verteilte<br />

Zufallszahlen. Der Algorithmus ist sehr kurz, hat jedoch relativ hohe Rechenzeiten<br />

wegen der Verwendung transzendenter Funktionen.<br />

x 1 = √ −2 lnu 1 cos(2πu 2 )<br />

x 2 = √ −2 lnu 1 sin(2πu 2 )<br />

return(x 1 , x 2 )<br />

9.2.7 Andere häufig verwendete Verteilungen<br />

Exponential verteilte Zufallszahlen (mit dem Mittelwert 1) können nach dem Inversionsverfahren<br />

aus stetig (0,1) gleichverteilten Zufallszahlen u i durch x i = lnu i<br />

erzeugt werden.<br />

Da das Quadrat einer N(0,1)-verteilten Zufallsvariablen χ 2 1-verteilt ist, lässt sich<br />

eine χ 2 s-verteilte Zufallszahl x einfach durch x = ∑ s<br />

i=1 x 2 i erzeugen, mit x i N(0,1)-<br />

verteilt. Die Rechenzeit lässt sich verringern, wenn man beachtet, dass eine χ 2 2


9.3. Simulation - Bootstrap Verfahren 121<br />

Verteilung eine Exponentialverteilung mit dem Mittelwert 2 ist. Dadurch benötigt<br />

man für χ 2 -verteilte Zufallszahlen neben exponential verteilten Zufallszahlen<br />

höchstens eine N(0,1)-verteilte Zufallszahl (bei ungeradem Freiheitsgrad!).<br />

Da der Quotient von χ 2 -verteilten Zufallsvariablen F-verteilt ist, lassen sich<br />

Zufallszahlen dieser Verteilung ebenfalls sehr leicht erzeugen. Sind x 1 und x 2 Zufallszahlen<br />

einer χ 2 n bzw. einer χ 2 m Verteilung und unabhängig, so ist x = m n<br />

F n,m verteilt.<br />

Auf ähnliche Weise kann man t-verteilte Zufallszahlen erzeugen. Ist x 1 eine nach<br />

N(0,1) und x 2 eine nach χ 2 n verteilte Zufallszahl und sind beide unabhängig, so ist<br />

√ x2<br />

n<br />

x = x 1<br />

nach t n verteilt.<br />

9.3 Simulation - Bootstrap Verfahren<br />

x 1<br />

x 2<br />

nach<br />

Der Einsatz von Zufallszahlen ist vielfältig und reicht von der Ziehung zufälliger<br />

Stichproben, über Monte-Carlo Integration und stochastischer Simulation bis zu<br />

ihrer Verwendung in ganz speziellen Analyseverfahren. Ein Beispiel dafür ist das<br />

Bootstrap Verfahren. Im Rest dieses Abschnittes wird die parameterfreie Schätzung<br />

der Varianz des Stichprobenmittels einer Zufallsvariablen durch die Bootstrap Methode<br />

vorgestellt.<br />

Ausgangspunkt für die Schätzung ist eine Stichprobe x 1 , x 2 , ...,x n vom Umfang<br />

n der betrachteten Zufallsvariablen. Mit Hilfe dieser Stichprobe wird die Verteilung<br />

der Zufallsvariablen parameterfrei durch die empirische Verteilungsfunktion (Masse<br />

1 n an den Sprungstellen x i) geschätzt und m (m entsprechend groß) Stichproben<br />

vom Umfang n von dieser empirischen Verteilung simuliert. Für jede der erzeugten<br />

Stichproben wird das Mittel berechnet. Der übliche Schätzwert für die Streuung<br />

dieser Mittelwerte ist der Bootstrap Schätzer ˆσ n für die Streuung des Stichprobenmittels.<br />

Der eben vorgestellte Algorithmus hat somit folgende Form:<br />

for (i = 1;i


9.3. Simulation - Bootstrap Verfahren 122<br />

Einführende Literatur zum Thema Erzeugung von Zufallszahlen findet man in<br />

den Büchern von Fishman (1978) und Knuth (1981), neuere Details mit guten<br />

Literaturzitaten in Stadlober (1989), eine Behandlung der Bootstrap Methode in<br />

Efron (1982).


Literaturverzeichnis<br />

A.A. Afifi and S.P. Azen. Statistical Analysis. A Computer Oriented Approach.<br />

Acad. Press, New York, 1979.<br />

F. Anscombe. Computing in Statistical Science through APL. Springer Verlag,<br />

Berlin, 1981.<br />

A.C. Atkinson. Plots, Transformations, and Regression. Clarendon Press, Oxford,<br />

1985.<br />

P. Beutel, H. Küffner, and W. Schubö. SPSS8: Statistik-Programm-System für die<br />

Sozialwissenschaften. G. Fischer Verlag, Stuttgart, 1980.<br />

J.A. Brown, S. Pakin and R.P. Polivka. APL-2 at a Glance. Prentice-Hall Inc.,<br />

New Jersey, 1988.<br />

K.A. Brownlee. Statistical Theory and Methodology in Science and Engineering.<br />

Wiley & Sons, New York, 1965.<br />

J.L. Bruning and B.L. Kintz. Computational Handbook of Statistics. Scott, Foresman<br />

& Co., Glenview, 1977.<br />

H. Büning und G. Trenkler. Nichtparametrische statistische Methoden. Walter de<br />

Gruyter, New York, 1978.<br />

J.M. Chambers. Computational Methods for Data Analysis. Wiley & Sons, New<br />

York, 1977.<br />

J.M. Chambers, W.S. Cleveland, B. Kleiner, and P.A. Tukey. Graphical Methods<br />

for Data Analysis. Duxbury Press, Boston, 1983.<br />

J.H. Cissik, R.E. Johnson, and D.K. Rokosch. Production of gaseous nitrogen in<br />

human steady-state conditions. J. Appl. Physiology, 32:155–159, 1972.<br />

D.B. Clarkson and R.I. Jennrich. Quartic rotation criteria and algorithms. Psychometrika,<br />

53(2):251–259, 1988.<br />

W.G. Cochran and G.M. Cox. Experimental Designs. Wiley & Sons, New York,<br />

second edition, 1957.<br />

123


LITERATURVERZEICHNIS 124<br />

H. Cramér. Mathematical Methods of Statistics. Princeton University Press, 1966.<br />

P. Dalgaard. Introductory Statistics with R. Springer, New York, Berlin, 2002.<br />

C. Daniel and F.S. Wood. Fitting Equations to Data. Wiley & Sons, New York,<br />

1981.<br />

W.J. Dixon. BMDP Statistical Software. Univ. of Calif. Press, Berkeley, 1985.<br />

N.R. Draper and H. Smith. Applied Regression Analysis. Wiley & Sons, New York,<br />

1981.<br />

R. Dutter. DASplusR. 2008. URLhttp://www.statistik.tuwien.ac.at/StatDA/DASplusR.<br />

R. Dutter. <strong>Geostatistik</strong>. Eine Einführung mit Anwendungen. B.G. Teubner, Stuttgart,<br />

1985.<br />

R. Dutter. Analysis of Spatial Data Using GEOSAN: Program System for Geostatistical<br />

Analysis. Handbook. Vienna University of Technology, Austria, 1996.<br />

B. Efron. The Jackknife, the Bootstrap and Other Resampling Plans. J.W. Arrowsmith<br />

Ltd., Bristol, 1982.<br />

K. Enslein, A. Ralston and H.S. Wilf. Statistical Methods for Digital Computers.<br />

Wiley & Sons, New York, 1977.<br />

F. Faulbaum, U. Hanning, A. Merkel, R. Schuemer und M. Senger. Statistik Analyse<br />

System. Eine anwendungsorientierte Beschreibung des Statistikprogrammsystems<br />

SAS, Band 1. G. Fischer Verlag, Stuttgart, 1983.<br />

L. Firester and J. Farley. P-STAT8 Guide: A Concise Reference. P-STAT, Inc.,<br />

P.O. Box AH, Princeton, New Jersey, 08542, USA, 1984.<br />

G.S. Fishman. Principles of Discrete Event Simulation. Wiley & Sons, New York,<br />

1978.<br />

I. Francis, editor. A Comparative Review of Statistical Software. North Holland,<br />

New York, 1981.<br />

W. Freiberger and U. Grenander. A Short Course in Computational Probability<br />

and Statistics. Springer Verlag, Berlin, 1971.<br />

F.R. Hampel, E.M. Ronchetti, P.J. Rousseeuw, and W. Stahel. Robust Statistics.<br />

The Approach Based on Influence Functions. Wiley & Sons, New York, 1986.<br />

H.H. Harman. Modern factor analysis. University of Chicago Press, Chicago, 3rd<br />

edition, 1976.


LITERATURVERZEICHNIS 125<br />

J. Hartung, B. Elpelt und H.-K. Klösener. Statistik. Lehr- und Handbuch der<br />

angewandten Statistik. Oldenbourg Verlag, München, 1984.<br />

J. Hartung und B. Elpelt. Multivariate Statistik. Lehr- und Handbuch der angewandten<br />

Statistik. Oldenbourg Verlag, München, 2. edition, 1986.<br />

J.L. Hintze. SOLO Statistical System, Version 100, User’s Guide. Statistical<br />

Sofware Ltd., Cork Technology Park, Model Farm Road, Cork, Ireland, 1987.<br />

P.J. Huber. Robust Statistics. Wiley & Sons, New York, 1981.<br />

P.J. Huber and D.L. Donoho. PC-ISP Interactive Scientific Processor, User’s<br />

Guide and Command Descriptions. Chapman and Hall Software, New York,<br />

and also directly from Europe: Datadivision AG, P.O. Box 471, 7250 Klosters,<br />

Switzerland, 1986.<br />

A.G. Journel and Ch.J. Huijbregts. Mining Geostatistics. Acad. Press, New York,<br />

1978.<br />

W.J. Kennedy, Jr. and J.E. Gentle. Statistical Computing. Marcel Dekker, Inc.,<br />

New York, 1980.<br />

D.E. Knuth. The Art of Computer Programming, volume 2. Addison-Wesley,<br />

Amsterdam, 1981.<br />

C.F. Kossack and C.I. Henschke. Introduction to Statistics and Computer Programming.<br />

Holden-Day Inc., San Francisco, 1975.<br />

H. Küffner und R. Wittenberg. <strong>Daten</strong>analysesystem für statistische Auswertungen.<br />

Eine Einführung in SPSS, BMDP und SAS. G. Fischer Verlag, Stuttgart, 1985.<br />

E. Lehmann. Fallstudien mit dem Computer. B.G. Teubner, Stuttgart, 1986.<br />

H. Levene. Robust tests for equality of variance. In I. Olkin, editor, Contribution<br />

to Probability and Statistics, pages 278–292. Stanford Univ. Press, 1960.<br />

P.R. Lohnes and W.W. Cooley. Introduction to Statistical Procedures: with Computer<br />

Exercises. Wiley & Sons, New York, 1986.<br />

K.V. Mardia, J.T. Kent, and J.M. Bibby. Multivariate Analysis. Academic Press,<br />

London, 1979.<br />

D.R. McNeil. Interactive Data Analysis, A Practical Primer. Wiley & Sons, New<br />

York, 1977.<br />

R.C. Milton and J.A. Nelder. Statistical Computation. Acad. Press, New York,<br />

1969.


LITERATURVERZEICHNIS 126<br />

N.H. Nie, C.H. Hull, J.G. Jenkins, K. Steinberger, and D.H. Bent. SPSS: Statistical<br />

Package for the Social Sciences. McGraw-Hill Comp., New York, 1975.<br />

M.J. Norusis. SPSS/PC for the IBM PC/XT. User’s Manual, 1984.<br />

A. Ralston und H.S. Wilf. Mathematische Methoden für Digitalrechner. Oldenbourg<br />

Verlag, München, 1960.<br />

V.K. Rohatgi. Statistical Inference. Wiley & Sons, New York, 1984.<br />

P.J. Rousseeuw and A.M. Leroy. Robust Regression and Outlier Detection. Wiley<br />

& Sons, New York, 1987.<br />

H. Scheffé. The Analysis of Variance. Wiley & Sons, New York, 1959.<br />

W. Schubö und H.-M. Uehlinger. SPSSX. Handbuch der Programmversion 2.2. G.<br />

Fischer Verlag, Stuttgart, 1986.<br />

S.R. Searle. Linear Models. Wiley & Sons, New York, 1971.<br />

S.R. Searle. Linear Models for Unbalanced Data. Wiley & Sons, New York, 1987.<br />

G.A.F. Seber. Linear Regression Analysis. Wiley & Sons, New York, 1977.<br />

S.S. Shapiro and M.B. Wilk. An analysis of variance test for normality. Biometrika,<br />

52(3):591–611, 1965.<br />

J.B. Siegel. Statistical Software for Microcomputers. A Guide to 40 Programs.<br />

North Holland, New York, 1985.<br />

E.J. Snell. Applied Statistics. A Handbook of BMDP Analysis. Chapman and Hall,<br />

London, 1987.<br />

E. Stadlober. Sampling from poisson, binomial and hypergeometric distributions:<br />

Ratio of uniforms as a simple and fast alternative. Ber. Nr. 303 der Mathem.<br />

Statist. Sektion in der Forschungsgesellschaft Joanneum, Graz, Austria, 1989.<br />

(Habilitationsschrift).<br />

J.W. Tukey. Exploratory Data Analysis. Addison-Wesley, Reading, Mass., 1977.<br />

J.W. Tukey and F. Mosteller. Data Analysis and Regression, a second Course in<br />

Statistics. Addison-Wesley, Reading, Mass., 1977.<br />

H.-M. Uehlinger. <strong>Daten</strong>verarbeitung und <strong>Daten</strong>analyse mit SAS. Eine problemorientierte<br />

Einführung. G. Fischer Verlag, Stuttgart, 1983.<br />

B. Venables and D.M. Smith. An Introduction to R. 2008. URL http://cran.rproject.org/doc/manuals/Rintro.


LITERATURVERZEICHNIS 127<br />

W.N. Venables and B.D. Ripley. Modern Applied Statistics with S. Springer, New<br />

York, Berlin, 2002.<br />

A.J. Walker. An efficient method for generating discrete random variables with<br />

general distributions. ACM Trans. Soft., 3:353–356, 1977.<br />

B.J. Winer. Statistical Principles in Experimental Design. McGraw-Hill Comp.,<br />

New York, 1971.<br />

S.J. Yakowitz. Computational Probability and Simulation. Addison-Wesley, Reading,<br />

Mass., 1977.


Index<br />

C p -Statistik, 79<br />

Ähnlichkeit, 104<br />

Anisotropie, 90<br />

geometrische –, 91<br />

zonale –, 91<br />

Ausreißer, 81<br />

– im Faktorraum, 82<br />

Average–Linkage–Methode, 104<br />

Bartlett-Test, 65<br />

Bestimmtheitsmaß, 76<br />

multiples –, 110<br />

Bias, 79<br />

Blockplan,<br />

randomisierter –, mit Wechselwirkungen,<br />

60<br />

randomisierter –, 44<br />

BLUE–Schätzer, 35<br />

BMDP,<br />

Beschreibende Statistik, 11<br />

Bootstrap, 118<br />

Box-Plot, 16, 17<br />

Bruchpunkt, 83<br />

Clusteranalyse, 100, 102<br />

Cochran-Test, 66<br />

Complete–Linkage–Methode, 104<br />

Computerprogramme,<br />

verschiedene –, 3<br />

<strong>Daten</strong>,<br />

–matrix, 99<br />

<strong>Daten</strong>,<br />

<strong>ortsabhängige</strong> –, 84<br />

<strong>Daten</strong>,<br />

prinzipiell, 1<br />

128<br />

<strong>Daten</strong>analyse,<br />

statistische –, 2<br />

Dendrogramm, 103<br />

Designmatrix, 33, 111<br />

Diskriminanzanalyse, 100<br />

Distanz,<br />

Cook –, 81<br />

Distanz,<br />

Mahalanobis –, 81<br />

Distanzmatrix, 101<br />

Effekte,<br />

gemischte –, 60<br />

Einfluss,<br />

beschränkter –, 83<br />

F-Test, 24<br />

sequentieller –, 78<br />

Faktor,<br />

Einfluss–, 105<br />

Faktorenanalyse, 100, 104<br />

Fälle, 2<br />

Fehlerterme, 75<br />

Gauß-Markoff,<br />

Satz von –, 35<br />

<strong>Geostatistik</strong>, 84<br />

geschachtelte Struktur, 88<br />

gestutztes Mittel, 14<br />

grafische Darstellungen, 15<br />

griechisch-lateinisches Quadrat, 50<br />

Grundsätzliches, 1<br />

Gruppierungsmethode, 103<br />

Hartley-Test, 66<br />

Hauptkoordinatenmethode, 102<br />

hierarchische Verfahren, 103


INDEX 129<br />

Homoskedastizitat, 29, 64, 75<br />

Hotelling’s T 2 , 26<br />

Hypothese,<br />

intrinsische –, 86<br />

lineare –, 112<br />

wesentliche –, 86<br />

Hypothesen im linearen Modell, 37<br />

interquartiler Bereich, 12<br />

Intraklaßkorrelationskoeffizient, 54<br />

Kenngrößen, 11<br />

KMEANS–Algorithmus, 103<br />

Konfidenzellipsoid, 36<br />

Konfidenzintervall, 12, 75<br />

Kontingenztafel, 100<br />

Kontraste, 37<br />

lineare, 35<br />

Korrelation,<br />

kanonische –, 110<br />

Korrelationsanalyse, 100, 109<br />

Korrelationskoeffizient,<br />

multipler –, 76, 109<br />

Korrelationsmatrix,<br />

empirische –, 109<br />

Korrelogramm, 86<br />

Kovarianzmatrix, 75<br />

Krige-System, 96<br />

Krige-Varianz, 96<br />

Kruskal–Methode, 102<br />

Kurtosis, 11<br />

Lancaster–Methode, 101<br />

lateinisches Quadrat, 48<br />

orthogonales –, 50<br />

vollständiges, orthogonales –, 51<br />

Levene’s Test, 24<br />

Likelihood–Quotienten–Statistik, 38<br />

lineares Modell,<br />

geschachtelte Hypothesen im –, 39<br />

Hypothesen im –, 37<br />

multivariates –, 100, 111<br />

M-Schätzer, 14<br />

M-Schätzung, 82<br />

MAD, 14<br />

Mahalanobis-Distanz, 26<br />

Mann-Whitney Test, 25<br />

marginale Normalisierung, 100<br />

Median, 12<br />

Median,<br />

Standardfehler, 12<br />

Merkmale, 1<br />

Merkmalsträger, 2<br />

Methode der kleinsten Quadrate, 31<br />

Methode des ‘beitragenden’ Mittels, 15<br />

Mischverteilung, 100<br />

Mittel, 12<br />

Mittel,<br />

Standardfehler, 12<br />

Modalwert, 12<br />

Modell,<br />

allgemeines lineares –, 32<br />

lineares –, 77<br />

nichtlineares –, 77<br />

reduziertes –, 78<br />

Multikollinearitat, 79<br />

Nonlinear Mapping, 101<br />

Normalgleichungen, 75<br />

p-Wert, 13<br />

Parameterfunktion, 35<br />

Parametermatrix, 111<br />

Parametervektor, 75<br />

Plot, 62<br />

Proportional-Effekt, 92<br />

Q-Q-Plot, 17<br />

Quadratsumme, 30<br />

Extra –, 78<br />

Fehler –, 31<br />

mittlere –, 31<br />

Quartimax–Methode, 107<br />

Quasi-Stationaritat, 87<br />

Regression,<br />

gewichtete –, 76


INDEX 130<br />

Regressionanalyse,<br />

multivariate –, 100<br />

Reparametrisierung, 34<br />

Residuenvektor, 34<br />

Restriktionsmatrix, 111<br />

robust, 82<br />

S–Methode, 37<br />

schätzbare Funktion, 35<br />

simultanes Konfidenzintervall, 37<br />

Vertrauensbereich, 36<br />

Schätzvarianz, 95<br />

Schiefe, 11<br />

Semi-Variogramm, 85<br />

Shapiro-Wilk, 12<br />

Single–Linkage–Methode, 104<br />

Skalierung,<br />

kategorielle –, 100<br />

mehrdimensionale –, 100, 101<br />

Stamm-und-Blatt-Darstellung, 13<br />

Standardquadrat, 50<br />

Stationaritat 2. Ordnung, 86<br />

Statistik,<br />

grafische –, 100<br />

multivariate –, 99<br />

Streuungsdiagramm, 16<br />

Subplot, 62<br />

T–Methode, 37<br />

t-Test,<br />

Einstichproben –, 23<br />

Zweistichproben –,<br />

pooled, 23<br />

Zweistichproben –,<br />

separate, 23<br />

Test auf Normalität, 12<br />

Testmatrix, 112<br />

Transformation, 77<br />

Transformationsklasse, 50<br />

Unfold–Technik, 102<br />

uniqueness, 106<br />

Variable, 2<br />

abhängige –, 73<br />

regionalisierte –, 84<br />

unabhängige –, 73<br />

Varianzanalyse,<br />

dreifache –, 45<br />

einfache –, 29<br />

Grundsätzliches, 27<br />

im engeren Sinn, 54<br />

Modell III, 59<br />

Modell III,<br />

Beispiel, 69<br />

Modell II, 53<br />

Modell II,<br />

Beispiel, 69<br />

multivariate –, 100<br />

Varianztests, 64<br />

zweif.–, mit W.w.,<br />

Beispiel, 67<br />

Varianzanalyse,<br />

zweifache –, mit Wechselwirkungen,<br />

41<br />

zweifache –, ohne Wechselwirkungen,<br />

40<br />

einfache –, 53<br />

zweifache –, mit Wechselwirkungen,<br />

57<br />

zweifache –, ohne Wechselwirkungen,<br />

56<br />

Varianzkomponentenanalyse, 54<br />

Varianzkriterium, 103<br />

Varimax–Methode, 107<br />

Variogramm, 85<br />

Einflussbereich, 88<br />

exponentielles –, 93<br />

Gauß’sches Modell, 93<br />

logarithmisches Modell, 93<br />

Potenzmodell, 93<br />

Reichweite, 88<br />

Schwellenwert, 88<br />

sphärisches –, 93<br />

Verhalten beim Ursprung, 89<br />

verallgemeinerte Matrixinverse, 35<br />

Vergleich von Gruppen, 22


INDEX 131<br />

mehrdimensionale Vergleiche, 25<br />

paarweise Vergleiche, 26<br />

univariate Tests, 22<br />

Versuchsplan,<br />

balancierter –, 39<br />

geschachtelter –,<br />

Beispiel, 68<br />

geschachtelter –, 47<br />

griechisch-lateinisches Quadrat, 50<br />

lateinisches Quadrat, 48<br />

randomisierter –, mit Wechselwirkungen,<br />

60<br />

randomisierter –,<br />

Beispiel, 69<br />

randomisierter –, 44, 60<br />

Split-Plot-Plan,<br />

Beispiel, 70<br />

Split-Plot-Plan, 62<br />

unbalancierter –, 39<br />

unbalancierter, vollständiger –, 46<br />

unvollständiger –, 47<br />

vollständiger –, 39<br />

geschachtelter –, 58<br />

Vorlesung,<br />

Situation, 4<br />

Normalverteilung, 117<br />

Poissonverteilung, 115<br />

stetige Verteilungen, 116<br />

t-Verteilung, 118<br />

Transformationsverfahren, 116<br />

Verfahren von Walker, 114<br />

Vergleichsverfahren, 116<br />

Verwerfungsverfahren, 116<br />

Ziehung aus einem Speicher, 114<br />

Wahrscheinlichkeitspapier, 80<br />

Werte,<br />

fehlende –, 2<br />

Wilcoxon’s Rangsummentest, 25<br />

Zentralwert, 12<br />

ZSCORE, 11<br />

Zufallsfunktion, 85<br />

Zufallszahlen,<br />

Chiquadratverteilung, 117<br />

diskrete Verteilungen, 113<br />

Exponentialverteilung, 117<br />

F-Verteilung, 118<br />

geometrische Verteilung, 115<br />

Intervalltestverfahren, 113<br />

Inversionsverfahren, 116<br />

Kompositionsverfahren, 117<br />

Marsaglia Tabellen, 114

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!