Dokument_1.pdf (3044 KB) - OPUS Augsburg - Universität Augsburg

Dokument_1.pdf (3044 KB) - OPUS Augsburg - Universität Augsburg Dokument_1.pdf (3044 KB) - OPUS Augsburg - Universität Augsburg

opus.bibliothek.uni.augsburg.de
von opus.bibliothek.uni.augsburg.de Mehr von diesem Publisher
14.03.2013 Aufrufe

3. Schritt: Extraktion der Dimensionen Die Korrespondenztabelle der standardisierten Werte wird einer „Singulärwertzerlegung“ unterzogen. Dazu werden folgende Komponenten miteinander multipliziert: 1. Matrix der Zeilenelemente (U), 2. transponierte Matrix der Spaltenelemente (V’), 3. Diagonalmatrix mit Singularwerten (S). Die standardisierte Z-Matrix ergibt sich dann mit: Z= U . S . V’. Der Singulärwert liefert ein Maß für die Streuung (Information), die eine Dimension repräsentiert. Die Summe der quadrierten Singulärwerte (S²K) ergibt wiederum die totale Inertia. Daraus lassen sich dann die Eigenwertanteile (EAK) berechnen mit: EAK = S²K/T. Die Eigenwertanteile geben an, welchen Anteil der gesamten Streuung der Daten eine Dimension erklären kann (vgl. Backhaus et al. 2003, S. 695f.). 4. Schritt: Normalisierung der Daten (Reskalierung) Hier gilt es, aus den Matrizen U und V die endgültigen Koordinaten, die im Korrespondenzraum abgebildet werden, zu gewinnen. Dabei werden die Singulärwerte (S²K) als Gewichte für die Dimensionen und die jeweiligen Massen als Gewichte der Zeilen und Spalten herangezogen. Dazu werden die Matrizen U und V transformiert. Die Koordinatenpunkte sind Repräsentationen der Zeilen- und Spaltenprofile. Die Distanz zwischen den Punkten und dem Koordinatenursprung (Zentroid) gibt an, inwieweit sich das betreffende Profil vom Durchschnittsprofil unterscheidet (vgl. ebd., S. 698f., 709). Eine Dimension wird in der Grafik als Koordinatenachse dargestellt. Für die Extraktion gilt allgemein, dass die erste Dimension einen maximalen Anteil der in den Daten vorhandenen Streuung aufweist. Die zweite Dimension nimmt einen maximalen Anteil der restlichen Streuung auf usw. Das heißt, dass die Relevanz der Dimensionen schrittweise abnimmt (vgl. Backhaus et al. 2003, S. 697). Die maximale Anzahl der zu extrahierenden Dimensionen (K) einer (I x J)-Matrix wird nach folgenden zwei Varianten entschieden: K = Min {I, J} – 1 oder K = Zahl der Merkmalsausprägungen über alle Variablen abzüglich der Zahl der Variablen. Grundsätzlich sollen nur so viele ausgewählt werden, wie zum Erklären des größten Teils der Streuung notwendig ist (vgl. Meulman/Heiser 2004, S. 70). Grundsätzlich existieren mehrere Arten der Normalisierung der Koordinaten. In der Literatur wird von zwei Formen gesprochen: der symmetrischen und der asymmetrischen. Die Wahl der Form hat Auswirkungen auf die Darstellung des Korrespondenzraums und auf die Interpretation (siehe S. 47). Greenacre (1994) weist darauf hin, dass sich bei einer symmetrischen 45

Normalisierung die Koordinatenpunkte im Gegensatz zur asymmetrischen gleichmäßig über den Korrespondenzraum ausbreiten. Die symmetrische Form bietet sich im Hinblick auf eine optimale Darstellung im Korrespondenzraum vor allem dann an, wenn die Totale Inertia relativ klein ist. Die asymmetrische Normalisierung bildet besser bei einer großen Totalen Inertia ab (vgl. Greenacre 1994, S. 19). Multiple Korrespondenzanalyse und kategoriale Hauptkomponentenanalyse Die multiple Korrespondenzanalyse (MCA) unterscheidet sich von der einfachen in folgenden Punkten: Mit Hilfe der MCA können mehrere Gruppen von qualitativen Merkmalen beschrieben und grafisch dargestellt werden. Das Verfahren ist eine Anwendung des CA- Algorithmus auf eine Zusammenhangs-Matrix, die aus den paarweisen Kreuztabellen aller einbezogenen Variablen zusammengesetzt ist. Dadurch werden alle zugrunde liegenden Kreuztabellen simultan analysiert (vgl. Greenacre 1994, S. ixf.). Im Gegensatz zur CA werden bei der MCA nicht die Kategorien der verschiedenen Variablen, sondern die Objekte und die Variablen miteinander im Korrespondenzraum abgebildet. Die MCA und die kategoriale Hauptkomponentenanalyse quantifizieren kategoriale Daten durch Zuweisung numerischer Werte zu den Fällen (Objekten) und Kategorien. Dadurch werden Objekte in derselben Kategorie im Korrespondenzraum eng beieinander und Objekte in verschiedenen Kategorien weit voneinander entfernt abgebildet. Jedes Objekt liegt so nah wie möglich an den Kategoriepunkten der Kategorien, die für diese gelten. Die Objekte werden durch die Kategorien in homogene Untergruppen unterteilt (vgl. Meulman/Heiser 2004, S. 77). Die kategoriale Hauptkomponentenanalyse eignet sich insbesondere zur Analyse von Variablen mit ordinalem Skalenniveau. Darüber hinaus können mit diesem Verfahren nominale und ordinale Variablen gleichzeitig ausgewertet, sowie die Komponentenladungen in einer Grafik ausgegeben werden. 3.1.4.2 Anwendung der Analysemethoden in dieser Arbeit In dieser Arbeit werden die einfache und die multiple Korrespondenzanalyse und in einigen Fällen die kategoriale Hauptkomponentenanalyse eingesetzt. Die CA soll beim Vergleich zweier Variablen, die MCA bei der Auswertung von mindestens drei Variablen mit hauptsächlich nominalem Skalenniveau angewendet werden („Die Variablen sind mehrfach nominal“). Die kategoriale Hauptkomponentenanalyse wird hingegen bei der Analyse von Variablen mit vornehmlich ordinalem Niveau zum Einsatz kommen („Einige Variablen sind nicht 46

3. Schritt: Extraktion der Dimensionen<br />

Die Korrespondenztabelle der standardisierten Werte wird einer „Singulärwertzerlegung“<br />

unterzogen. Dazu werden folgende Komponenten miteinander multipliziert: 1. Matrix der<br />

Zeilenelemente (U), 2. transponierte Matrix der Spaltenelemente (V’), 3. Diagonalmatrix mit<br />

Singularwerten (S). Die standardisierte Z-Matrix ergibt sich dann mit: Z= U . S . V’.<br />

Der Singulärwert liefert ein Maß für die Streuung (Information), die eine Dimension repräsentiert.<br />

Die Summe der quadrierten Singulärwerte (S²K) ergibt wiederum die totale Inertia.<br />

Daraus lassen sich dann die Eigenwertanteile (EAK) berechnen mit: EAK = S²K/T. Die Eigenwertanteile<br />

geben an, welchen Anteil der gesamten Streuung der Daten eine Dimension erklären<br />

kann (vgl. Backhaus et al. 2003, S. 695f.).<br />

4. Schritt: Normalisierung der Daten (Reskalierung)<br />

Hier gilt es, aus den Matrizen U und V die endgültigen Koordinaten, die im Korrespondenzraum<br />

abgebildet werden, zu gewinnen. Dabei werden die Singulärwerte (S²K) als Gewichte<br />

für die Dimensionen und die jeweiligen Massen als Gewichte der Zeilen und Spalten<br />

herangezogen. Dazu werden die Matrizen U und V transformiert. Die Koordinatenpunkte sind<br />

Repräsentationen der Zeilen- und Spaltenprofile. Die Distanz zwischen den Punkten und dem<br />

Koordinatenursprung (Zentroid) gibt an, inwieweit sich das betreffende Profil vom Durchschnittsprofil<br />

unterscheidet (vgl. ebd., S. 698f., 709).<br />

Eine Dimension wird in der Grafik als Koordinatenachse dargestellt. Für die Extraktion gilt<br />

allgemein, dass die erste Dimension einen maximalen Anteil der in den Daten vorhandenen<br />

Streuung aufweist. Die zweite Dimension nimmt einen maximalen Anteil der restlichen<br />

Streuung auf usw. Das heißt, dass die Relevanz der Dimensionen schrittweise abnimmt (vgl.<br />

Backhaus et al. 2003, S. 697). Die maximale Anzahl der zu extrahierenden Dimensionen (K)<br />

einer (I x J)-Matrix wird nach folgenden zwei Varianten entschieden:<br />

K = Min {I, J} – 1 oder K = Zahl der Merkmalsausprägungen über alle Variablen abzüglich<br />

der Zahl der Variablen.<br />

Grundsätzlich sollen nur so viele ausgewählt werden, wie zum Erklären des größten Teils der<br />

Streuung notwendig ist (vgl. Meulman/Heiser 2004, S. 70).<br />

Grundsätzlich existieren mehrere Arten der Normalisierung der Koordinaten. In der Literatur<br />

wird von zwei Formen gesprochen: der symmetrischen und der asymmetrischen. Die Wahl<br />

der Form hat Auswirkungen auf die Darstellung des Korrespondenzraums und auf die Interpretation<br />

(siehe S. 47). Greenacre (1994) weist darauf hin, dass sich bei einer symmetrischen<br />

45

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!