28.02.2014 Aufrufe

Faktorenanalyse

Faktorenanalyse

Faktorenanalyse

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Dimensionsreduzierende Verfahren<br />

Liegen Datensätze mit vielen Merkmalen (Variablen) – also<br />

hochdimensionale Datensätze – vor, so stellt sich die<br />

Frage, ob die wesentlichen Informationen, die diese Daten<br />

enthalten, auch mit Hilfe von Datensätzen mit wenigen<br />

Merkmalen – also niedrigdimensionalen Datensätzen –<br />

dargestellt werden können.<br />

Ein anderer Aspekt der Dimensionsreduktion ist die Suche<br />

nach latenten Variablen/Merkmalen, die selbst nicht<br />

direkt erhoben/beobachtet werden können und die in der<br />

Lage sind, die wesentlichen in den Daten vorliegenden<br />

Strukturen (Abhängigkeiten!) möglichst einfach zu erklären.<br />

1


Beispiele:<br />

– ALLBUS–Umfrage: Es liegt eine Vielzahl von Merkmalen<br />

vor und die Daten weisen Strukturen auf, die sich u.a. in<br />

Abhängigkeiten zwischen Gruppen von Merkmalen<br />

widerspiegeln.<br />

Frage: Kann das Antwortverhalten auf gewisse<br />

Fragekomplexe auf wenige, evtl. nicht direkt beobachtbare<br />

Merkmale (z.B. Feindlichkeit gegenüber AusländerInnen,<br />

Politikverdrossenheit, Bildungsniveau) zurückgeführt<br />

werden?<br />

2


– Im Zusammenhang mit Intelligenztests (z.B. Eignungstests)<br />

werden viele verschiedene Einzeltests durchgeführt,<br />

die untereinander stark korrelieren.<br />

Frage: Ist das Leistungsvermögen der Testpersonen auf<br />

wenige, nicht direkt messbare (latente), evtl.<br />

untereinander weitgehend unabhängige Merkmale wie z.B.<br />

mathematische, sprachliche Intelligenz, Merkfähigkeit oder<br />

räumliches Vorstellungsvermögen rückführbar?<br />

3


– Beim Zehnkampf der Olympischen Spielen in Seoul 1988<br />

mit 34 Startern, wurden deren Leistungen<br />

(=Variablen/Merkmale) in den jeweiligen Disziplinen<br />

erhoben.<br />

Frage: Ist eine Charakterisierung des Leistungsvermögens<br />

durch wenige, latente Variablen wie z.B. Schnellkraft,<br />

Ausdauer oder Koordinationsvermögen möglich?<br />

4


In Abhängigkeit vom Skalenniveau der einbezogenen<br />

Merkmale und der Art, wie Strukturen (z.B. Ähnlichkeit,<br />

Abhängigkeit) definiert werden, kommen verschiedene<br />

dimensionsreduzierende Verfahren zum Einsatz, wie z.B.:<br />

– <strong>Faktorenanalyse</strong>,<br />

– Korrespondenzanalyse oder<br />

– multidimensionale Skalierung.<br />

5


<strong>Faktorenanalyse</strong><br />

Die <strong>Faktorenanalyse</strong> ist ein Verfahren zur Datenreduktion<br />

und zur Ermittlung erklärender latenter Variablen für<br />

hochdimensionale Datensätze mit beobachtbaren metrischen<br />

Variablen, die untereinander hinreichend stark korreliert<br />

(linear abhängig) sind.<br />

6


Ausgangspunkt: Vielzahl von (untereinander korrelierten)<br />

metrischen Variablen X 1 , . . . , X k<br />

Korrelationsmatrix (Tabelle der Korrelationskoeffizienten<br />

nach Pearson):<br />

⎛<br />

⎞<br />

r(X 1 , X 1 ) . . . r(X 1 , X j ) . . . r(X 1 , X k )<br />

.<br />

.<br />

.<br />

r(X i , X 1 ) . . . r(X i , X j ) . . . r(X i , X k )<br />

⎜ .<br />

.<br />

. ⎟<br />

⎝<br />

⎠<br />

r(X k , X 1 ) . . . r(X k , X j ) . . . r(X k , X k )<br />

7


Es gilt:<br />

– r(X i , X i ) = 1 (d.h., auf der Diagonalen stehen Einsen)<br />

– r(X i , X j ) = r(X j , X i ) (d.h., die Matrix ist symmetrisch)<br />

– Sind X i und X j linear unabhängig, dann gilt<br />

r(X i , X j ) = 0.<br />

Bemerkung:<br />

Die symmetrische Matrix der Korrelationskoeffizienten oder<br />

die entsprechende Kovarianzmatrix beschreibt bei der<br />

<strong>Faktorenanalyse</strong> die Ähnlichkeit/Unähnlichkeit von Variablen<br />

(Merkmalen). Grundlage der Analyse sind also die linearen<br />

Abhängigkeiten zwischen den erhobenen Variablen<br />

(Merkmalen).<br />

8


Mögliche Ursachen für Korrelationen zwischen zwei Variablen<br />

X 1 und X 2 :<br />

– Die Variable X 1 ist von der Variablen X 2 abhängig, oder<br />

umgekehrt.<br />

– Beide Variablen X 1 und X 2 hängen von einer dritten<br />

Variablen F (Faktor, Komponente, latente Variable) ab<br />

(→ <strong>Faktorenanalyse</strong>).<br />

Modellvorstellung der <strong>Faktorenanalyse</strong>:<br />

Wenige, nicht direkt beobachtbare (latente) Faktoren<br />

beeinflussen die vielen beobachteten Variablen und erzeugen<br />

dabei die registrierten Abhängigkeiten zwischen diesen<br />

beobachtbaren Variablen.<br />

9


Beispiel: Zehnkampf<br />

Durch Inspektion der Korrelationsmatrix oder der Matrix<br />

von Streudiagrammen ist eine Gruppenbildung (Bündelung<br />

von Variablen) ablesbar:<br />

– Lauf/Sprint und Weitsprung<br />

– Wurf und Stoß<br />

– Hochsprung (isoliert)<br />

– Stabhochsprung (komplexe Abhängigkeiten)<br />

10


Ziel:<br />

Zurückführen der registrierten Abhängigkeiten auf einige<br />

wenige, fiktive Variablen (Faktoren, latente gemeinsame<br />

Ursachenkomplexe), die<br />

– untereinander unkorreliert sein sollen,<br />

– einen möglichst großen Teil der Varianz aller beobachteten<br />

Variablen erklären können (wenig Informationsverlust).<br />

11


Problem: Bei unterschiedlichen Maßstäben ergeben sich sehr<br />

unterschiedliche Größenordnungen bei den Varianzen der<br />

einbezogenen Variablen, daher ggf. Standardisieren<br />

x i − ¯x<br />

s<br />

der Variablen (Daten) auf Mittelwert Null, Varianz Eins und<br />

Verwenden dieser transformierten Variablen in der<br />

<strong>Faktorenanalyse</strong>.<br />

Hinweis: Die Verwendung standardisierter Variablen<br />

entspricht der Verwendung der Korrelationsmatrix (und nicht<br />

der Kovarianzmatrix) zur Beschreibung der Ähnlichkeit<br />

zwischen Variablen.<br />

12


Modell der <strong>Faktorenanalyse</strong>:<br />

X 1 = a 11 F 1 + a 12 F 2 + . . . + a 1m F m + E 1<br />

X 2 = a 21 F 1 + a 22 F 2 + . . . + a 2m F m + E 2<br />

.<br />

.<br />

.<br />

.<br />

.<br />

X k = a k1 F 1 + a k2 F 2 + . . . + a km F m + E k<br />

X 1 ,. . . ,X k : beobachtbare (standardisierte) Variablen<br />

F 1 ,. . . ,F m : fiktive, unkorrelierte Merkmale (Faktoren,<br />

Komponenten) mit unbekannter Anzahl m < k<br />

a 11 ,. . . ,a nm : reelle Koeffizienten (Faktorladungen)<br />

E 1 ,. . . ,E k : variablenspezifische Reste (einschließlich<br />

Messfehler)<br />

13


Zwischen den vielen“ beobachteten (evtl. standardisierten)<br />

”<br />

Variablen und den wenigen“ nicht beobachtbaren<br />

”<br />

unkorrelierten Faktoren bestehen also lineare Beziehungen,<br />

die die Abhängigkeiten (Korrelationen) zwischen den<br />

beobachteten Variablen im wesentlichen erklären können.<br />

Als mathematisches Verfahren zur Schätzung dieses Modells<br />

aus den Daten verwenden wir die Hauptkomponentenanalyse<br />

(PCA – principal component analysis).<br />

14


Bei der PCA werden zunächst bis zu k unkorrelierte Faktoren<br />

(Hauptkomponenten) aus den Daten bestimmt<br />

(Extraktion der Faktoren; zunächst ohne<br />

Dimensionsreduktion).<br />

Geometrisch entspricht dies der Wahl eines neuen<br />

Koordinatensystems, dessen Basis die Faktoren sind.<br />

Neben den Faktoren werden die Koeffizienten a ij des Modells<br />

der <strong>Faktorenanalyse</strong> geschätzt.<br />

15


Die Hauptkomponenten liegen in geordneter Form vor. Die<br />

erste Hauptkomponente hat die größte Bedeutung für die<br />

Erklärung der Gesamtvarianz (Summe der Varianzen der<br />

beobachteten Variablen), die zweite die zweitgrößte usw.<br />

(siehe Eigenwerte).<br />

Man entscheidet sich daher in Abhängigkeit von der durch<br />

das Modell erklärten Gesamtvarianz für die Verwendung der<br />

ersten m (m < k) Hauptkomponenten.<br />

Die nicht erklärbare Varianz wird dann durch die<br />

variablenspezifischen Reste (das sind Linearkombinationen<br />

der nicht für das Modell berücksichtigten<br />

Hauptkomponenten) beschrieben.<br />

16


Hinweis:<br />

Ist die Anzahl der ermittelbaren Hauptkomponenten kleiner<br />

als k, dann liegen die beobachteten Daten nicht in einem<br />

k–dimensionalen Raum, sondern in einem Raum kleinerer<br />

Dimension. Dessen Dimension ˜k entspricht der Zahl der<br />

maximal ermittelbaren Hauptkomponenten. In diesem Fall<br />

bestehen zwischen den k beobachteten Variablen und den ˜k<br />

ermittelten Hauptkomponenten k lineare Gleichungen, wobei<br />

die variablenspezifischen Reste entfallen (siehe Modell der<br />

<strong>Faktorenanalyse</strong>). D.h., (einzelne) beobachtbare Variablen<br />

(im Datensatz) lassen sich exakt durch andere (linear)<br />

erklären. Es liegt also strenge Redundanz in den Daten vor.<br />

17


Bemerkung: Es gibt weitere Methoden zur Extraktion von<br />

Faktoren bzw. zur Schätzung der Koeffizienten a ij und auch<br />

andere Modelle der <strong>Faktorenanalyse</strong> (→ Literatur: z.B.<br />

Maximum–Likelihood–Schätzungen bei<br />

Normalverteilungsannahmen).<br />

18


Bedeutung der Größen und Bezeichnungen<br />

Faktorladungen:<br />

r(X i , F j ) = a ij − 1 ≤ a ij ≤ 1<br />

|a ij | groß heißt: ”Faktor F j erklärt viel von X i ”.<br />

Eigenwert:<br />

Zu jeder Hauptkomponente (Faktor) beschreibt der<br />

zugehörige Eigenwert, wie viel von der Gesamtvarianz im<br />

Datensatz durch die entsprechende Hauptkomponente erklärt<br />

wird.<br />

19


Extraktion:<br />

Auswahl der Hauptkomponenten (Faktoren) mit den größten<br />

Eigenwerten (z.B. > 1) so,<br />

– dass die Anzahl der Hauptkomponenten möglichst klein<br />

ist,<br />

– und damit die Summe der zugehörigen Eigenwerte<br />

möglichst groß wird.<br />

Das entspricht einer Projektion der Daten in einen Raum<br />

kleinerer Dimension.<br />

Beispiel (Zehnkampf): ̂m = 2, Summe der ersten beiden<br />

Eigenwerte entspricht einem erklärten Anteil an der<br />

Gesamtvarianz von 71.034%.<br />

20


Kommunalitäten:<br />

Anteile der Varianz jeder einzelnen Variablen X i , die durch<br />

die (extrahierten) Faktoren und damit das gewählte Modell<br />

erklärt werden (multiples Bestimmtheitsmaß)<br />

Kommunalität von X i :<br />

Rotation:<br />

̂m∑<br />

a 2 ij<br />

j=1<br />

Aus den ̂m ermittelten Faktoren kann man ̂m neue Faktoren<br />

bilden, die<br />

– ebenfalls unkorreliert sind und<br />

– den gleichen Anteil an der Gesamtvarianz erklären.<br />

Das entspricht einer Drehung (Rotation) des<br />

Koordinatensystems des ̂m–dimensionalen Unterraums.<br />

21


Ziel der Rotation: Einfachstruktur<br />

Die Variablen bilden Gruppen, derart dass die Variablen in<br />

jeder Gruppe mit einigen Faktoren stark und mit den<br />

anderen schwach korreliert sind (Bündel von Variablen<br />

”gehören” zu entsprechenden Faktoren).<br />

Dies bietet die Möglichkeit der Interpretation der Faktoren<br />

durch Gemeinsamkeiten der Variablen/Merkmale in den<br />

entsprechenden Gruppen. Diese Interpretation ist im<br />

allgemeinen ein schwieriges inhaltliches Problem der<br />

Fachwissenschaft.<br />

Die bekannteste Methode zur Rotation ist Varimax.<br />

Es existieren auch andere Methoden, die zum Teil zu nicht<br />

mehr orthogonalen Faktoren führen.<br />

22


Bemerkung:<br />

Hauptkomponenten werden z.B. auch an Stelle von<br />

korrelierten Einflussgrößen in multiplen linearen<br />

Regressionsmodellen verwendet. Die Koeffizienten derartiger<br />

Regressionsmodelle lassen sich dann wesentlich einfacher<br />

interpretieren, da diese neuen Einflussgrößen unkorreliert<br />

sind.<br />

23

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!