Faktorenanalyse
Faktorenanalyse
Faktorenanalyse
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Dimensionsreduzierende Verfahren<br />
Liegen Datensätze mit vielen Merkmalen (Variablen) – also<br />
hochdimensionale Datensätze – vor, so stellt sich die<br />
Frage, ob die wesentlichen Informationen, die diese Daten<br />
enthalten, auch mit Hilfe von Datensätzen mit wenigen<br />
Merkmalen – also niedrigdimensionalen Datensätzen –<br />
dargestellt werden können.<br />
Ein anderer Aspekt der Dimensionsreduktion ist die Suche<br />
nach latenten Variablen/Merkmalen, die selbst nicht<br />
direkt erhoben/beobachtet werden können und die in der<br />
Lage sind, die wesentlichen in den Daten vorliegenden<br />
Strukturen (Abhängigkeiten!) möglichst einfach zu erklären.<br />
1
Beispiele:<br />
– ALLBUS–Umfrage: Es liegt eine Vielzahl von Merkmalen<br />
vor und die Daten weisen Strukturen auf, die sich u.a. in<br />
Abhängigkeiten zwischen Gruppen von Merkmalen<br />
widerspiegeln.<br />
Frage: Kann das Antwortverhalten auf gewisse<br />
Fragekomplexe auf wenige, evtl. nicht direkt beobachtbare<br />
Merkmale (z.B. Feindlichkeit gegenüber AusländerInnen,<br />
Politikverdrossenheit, Bildungsniveau) zurückgeführt<br />
werden?<br />
2
– Im Zusammenhang mit Intelligenztests (z.B. Eignungstests)<br />
werden viele verschiedene Einzeltests durchgeführt,<br />
die untereinander stark korrelieren.<br />
Frage: Ist das Leistungsvermögen der Testpersonen auf<br />
wenige, nicht direkt messbare (latente), evtl.<br />
untereinander weitgehend unabhängige Merkmale wie z.B.<br />
mathematische, sprachliche Intelligenz, Merkfähigkeit oder<br />
räumliches Vorstellungsvermögen rückführbar?<br />
3
– Beim Zehnkampf der Olympischen Spielen in Seoul 1988<br />
mit 34 Startern, wurden deren Leistungen<br />
(=Variablen/Merkmale) in den jeweiligen Disziplinen<br />
erhoben.<br />
Frage: Ist eine Charakterisierung des Leistungsvermögens<br />
durch wenige, latente Variablen wie z.B. Schnellkraft,<br />
Ausdauer oder Koordinationsvermögen möglich?<br />
4
In Abhängigkeit vom Skalenniveau der einbezogenen<br />
Merkmale und der Art, wie Strukturen (z.B. Ähnlichkeit,<br />
Abhängigkeit) definiert werden, kommen verschiedene<br />
dimensionsreduzierende Verfahren zum Einsatz, wie z.B.:<br />
– <strong>Faktorenanalyse</strong>,<br />
– Korrespondenzanalyse oder<br />
– multidimensionale Skalierung.<br />
5
<strong>Faktorenanalyse</strong><br />
Die <strong>Faktorenanalyse</strong> ist ein Verfahren zur Datenreduktion<br />
und zur Ermittlung erklärender latenter Variablen für<br />
hochdimensionale Datensätze mit beobachtbaren metrischen<br />
Variablen, die untereinander hinreichend stark korreliert<br />
(linear abhängig) sind.<br />
6
Ausgangspunkt: Vielzahl von (untereinander korrelierten)<br />
metrischen Variablen X 1 , . . . , X k<br />
Korrelationsmatrix (Tabelle der Korrelationskoeffizienten<br />
nach Pearson):<br />
⎛<br />
⎞<br />
r(X 1 , X 1 ) . . . r(X 1 , X j ) . . . r(X 1 , X k )<br />
.<br />
.<br />
.<br />
r(X i , X 1 ) . . . r(X i , X j ) . . . r(X i , X k )<br />
⎜ .<br />
.<br />
. ⎟<br />
⎝<br />
⎠<br />
r(X k , X 1 ) . . . r(X k , X j ) . . . r(X k , X k )<br />
7
Es gilt:<br />
– r(X i , X i ) = 1 (d.h., auf der Diagonalen stehen Einsen)<br />
– r(X i , X j ) = r(X j , X i ) (d.h., die Matrix ist symmetrisch)<br />
– Sind X i und X j linear unabhängig, dann gilt<br />
r(X i , X j ) = 0.<br />
Bemerkung:<br />
Die symmetrische Matrix der Korrelationskoeffizienten oder<br />
die entsprechende Kovarianzmatrix beschreibt bei der<br />
<strong>Faktorenanalyse</strong> die Ähnlichkeit/Unähnlichkeit von Variablen<br />
(Merkmalen). Grundlage der Analyse sind also die linearen<br />
Abhängigkeiten zwischen den erhobenen Variablen<br />
(Merkmalen).<br />
8
Mögliche Ursachen für Korrelationen zwischen zwei Variablen<br />
X 1 und X 2 :<br />
– Die Variable X 1 ist von der Variablen X 2 abhängig, oder<br />
umgekehrt.<br />
– Beide Variablen X 1 und X 2 hängen von einer dritten<br />
Variablen F (Faktor, Komponente, latente Variable) ab<br />
(→ <strong>Faktorenanalyse</strong>).<br />
Modellvorstellung der <strong>Faktorenanalyse</strong>:<br />
Wenige, nicht direkt beobachtbare (latente) Faktoren<br />
beeinflussen die vielen beobachteten Variablen und erzeugen<br />
dabei die registrierten Abhängigkeiten zwischen diesen<br />
beobachtbaren Variablen.<br />
9
Beispiel: Zehnkampf<br />
Durch Inspektion der Korrelationsmatrix oder der Matrix<br />
von Streudiagrammen ist eine Gruppenbildung (Bündelung<br />
von Variablen) ablesbar:<br />
– Lauf/Sprint und Weitsprung<br />
– Wurf und Stoß<br />
– Hochsprung (isoliert)<br />
– Stabhochsprung (komplexe Abhängigkeiten)<br />
10
Ziel:<br />
Zurückführen der registrierten Abhängigkeiten auf einige<br />
wenige, fiktive Variablen (Faktoren, latente gemeinsame<br />
Ursachenkomplexe), die<br />
– untereinander unkorreliert sein sollen,<br />
– einen möglichst großen Teil der Varianz aller beobachteten<br />
Variablen erklären können (wenig Informationsverlust).<br />
11
Problem: Bei unterschiedlichen Maßstäben ergeben sich sehr<br />
unterschiedliche Größenordnungen bei den Varianzen der<br />
einbezogenen Variablen, daher ggf. Standardisieren<br />
x i − ¯x<br />
s<br />
der Variablen (Daten) auf Mittelwert Null, Varianz Eins und<br />
Verwenden dieser transformierten Variablen in der<br />
<strong>Faktorenanalyse</strong>.<br />
Hinweis: Die Verwendung standardisierter Variablen<br />
entspricht der Verwendung der Korrelationsmatrix (und nicht<br />
der Kovarianzmatrix) zur Beschreibung der Ähnlichkeit<br />
zwischen Variablen.<br />
12
Modell der <strong>Faktorenanalyse</strong>:<br />
X 1 = a 11 F 1 + a 12 F 2 + . . . + a 1m F m + E 1<br />
X 2 = a 21 F 1 + a 22 F 2 + . . . + a 2m F m + E 2<br />
.<br />
.<br />
.<br />
.<br />
.<br />
X k = a k1 F 1 + a k2 F 2 + . . . + a km F m + E k<br />
X 1 ,. . . ,X k : beobachtbare (standardisierte) Variablen<br />
F 1 ,. . . ,F m : fiktive, unkorrelierte Merkmale (Faktoren,<br />
Komponenten) mit unbekannter Anzahl m < k<br />
a 11 ,. . . ,a nm : reelle Koeffizienten (Faktorladungen)<br />
E 1 ,. . . ,E k : variablenspezifische Reste (einschließlich<br />
Messfehler)<br />
13
Zwischen den vielen“ beobachteten (evtl. standardisierten)<br />
”<br />
Variablen und den wenigen“ nicht beobachtbaren<br />
”<br />
unkorrelierten Faktoren bestehen also lineare Beziehungen,<br />
die die Abhängigkeiten (Korrelationen) zwischen den<br />
beobachteten Variablen im wesentlichen erklären können.<br />
Als mathematisches Verfahren zur Schätzung dieses Modells<br />
aus den Daten verwenden wir die Hauptkomponentenanalyse<br />
(PCA – principal component analysis).<br />
14
Bei der PCA werden zunächst bis zu k unkorrelierte Faktoren<br />
(Hauptkomponenten) aus den Daten bestimmt<br />
(Extraktion der Faktoren; zunächst ohne<br />
Dimensionsreduktion).<br />
Geometrisch entspricht dies der Wahl eines neuen<br />
Koordinatensystems, dessen Basis die Faktoren sind.<br />
Neben den Faktoren werden die Koeffizienten a ij des Modells<br />
der <strong>Faktorenanalyse</strong> geschätzt.<br />
15
Die Hauptkomponenten liegen in geordneter Form vor. Die<br />
erste Hauptkomponente hat die größte Bedeutung für die<br />
Erklärung der Gesamtvarianz (Summe der Varianzen der<br />
beobachteten Variablen), die zweite die zweitgrößte usw.<br />
(siehe Eigenwerte).<br />
Man entscheidet sich daher in Abhängigkeit von der durch<br />
das Modell erklärten Gesamtvarianz für die Verwendung der<br />
ersten m (m < k) Hauptkomponenten.<br />
Die nicht erklärbare Varianz wird dann durch die<br />
variablenspezifischen Reste (das sind Linearkombinationen<br />
der nicht für das Modell berücksichtigten<br />
Hauptkomponenten) beschrieben.<br />
16
Hinweis:<br />
Ist die Anzahl der ermittelbaren Hauptkomponenten kleiner<br />
als k, dann liegen die beobachteten Daten nicht in einem<br />
k–dimensionalen Raum, sondern in einem Raum kleinerer<br />
Dimension. Dessen Dimension ˜k entspricht der Zahl der<br />
maximal ermittelbaren Hauptkomponenten. In diesem Fall<br />
bestehen zwischen den k beobachteten Variablen und den ˜k<br />
ermittelten Hauptkomponenten k lineare Gleichungen, wobei<br />
die variablenspezifischen Reste entfallen (siehe Modell der<br />
<strong>Faktorenanalyse</strong>). D.h., (einzelne) beobachtbare Variablen<br />
(im Datensatz) lassen sich exakt durch andere (linear)<br />
erklären. Es liegt also strenge Redundanz in den Daten vor.<br />
17
Bemerkung: Es gibt weitere Methoden zur Extraktion von<br />
Faktoren bzw. zur Schätzung der Koeffizienten a ij und auch<br />
andere Modelle der <strong>Faktorenanalyse</strong> (→ Literatur: z.B.<br />
Maximum–Likelihood–Schätzungen bei<br />
Normalverteilungsannahmen).<br />
18
Bedeutung der Größen und Bezeichnungen<br />
Faktorladungen:<br />
r(X i , F j ) = a ij − 1 ≤ a ij ≤ 1<br />
|a ij | groß heißt: ”Faktor F j erklärt viel von X i ”.<br />
Eigenwert:<br />
Zu jeder Hauptkomponente (Faktor) beschreibt der<br />
zugehörige Eigenwert, wie viel von der Gesamtvarianz im<br />
Datensatz durch die entsprechende Hauptkomponente erklärt<br />
wird.<br />
19
Extraktion:<br />
Auswahl der Hauptkomponenten (Faktoren) mit den größten<br />
Eigenwerten (z.B. > 1) so,<br />
– dass die Anzahl der Hauptkomponenten möglichst klein<br />
ist,<br />
– und damit die Summe der zugehörigen Eigenwerte<br />
möglichst groß wird.<br />
Das entspricht einer Projektion der Daten in einen Raum<br />
kleinerer Dimension.<br />
Beispiel (Zehnkampf): ̂m = 2, Summe der ersten beiden<br />
Eigenwerte entspricht einem erklärten Anteil an der<br />
Gesamtvarianz von 71.034%.<br />
20
Kommunalitäten:<br />
Anteile der Varianz jeder einzelnen Variablen X i , die durch<br />
die (extrahierten) Faktoren und damit das gewählte Modell<br />
erklärt werden (multiples Bestimmtheitsmaß)<br />
Kommunalität von X i :<br />
Rotation:<br />
̂m∑<br />
a 2 ij<br />
j=1<br />
Aus den ̂m ermittelten Faktoren kann man ̂m neue Faktoren<br />
bilden, die<br />
– ebenfalls unkorreliert sind und<br />
– den gleichen Anteil an der Gesamtvarianz erklären.<br />
Das entspricht einer Drehung (Rotation) des<br />
Koordinatensystems des ̂m–dimensionalen Unterraums.<br />
21
Ziel der Rotation: Einfachstruktur<br />
Die Variablen bilden Gruppen, derart dass die Variablen in<br />
jeder Gruppe mit einigen Faktoren stark und mit den<br />
anderen schwach korreliert sind (Bündel von Variablen<br />
”gehören” zu entsprechenden Faktoren).<br />
Dies bietet die Möglichkeit der Interpretation der Faktoren<br />
durch Gemeinsamkeiten der Variablen/Merkmale in den<br />
entsprechenden Gruppen. Diese Interpretation ist im<br />
allgemeinen ein schwieriges inhaltliches Problem der<br />
Fachwissenschaft.<br />
Die bekannteste Methode zur Rotation ist Varimax.<br />
Es existieren auch andere Methoden, die zum Teil zu nicht<br />
mehr orthogonalen Faktoren führen.<br />
22
Bemerkung:<br />
Hauptkomponenten werden z.B. auch an Stelle von<br />
korrelierten Einflussgrößen in multiplen linearen<br />
Regressionsmodellen verwendet. Die Koeffizienten derartiger<br />
Regressionsmodelle lassen sich dann wesentlich einfacher<br />
interpretieren, da diese neuen Einflussgrößen unkorreliert<br />
sind.<br />
23