03.06.2014 Aufrufe

Psychologische Diagnostik, Klassifikation - Universität Regensburg

Psychologische Diagnostik, Klassifikation - Universität Regensburg

Psychologische Diagnostik, Klassifikation - Universität Regensburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

<strong>Psychologische</strong> <strong>Diagnostik</strong>, <strong>Klassifikation</strong><br />

Wintersemester 2010/20011<br />

Prof. Dr. Jan Drösler,<br />

Universität <strong>Regensburg</strong><br />

Übersicht<br />

1. Entscheidung bei Unsicherheit<br />

2. <strong>Klassifikation</strong> bei bekannten Wahrscheinlichkeitsdichten<br />

(a) Quadratische Separierung<br />

(b) Lineare Separierung<br />

(c) Abstandsklassifikation<br />

Beispiel<br />

Mittels eines Intelligenztests sollen hochbegabte<br />

Schüler klassifiziert werden. (rechte<br />

Verteilungsdichte der Ergebnisse).<br />

Jeder Schnitt bei irgendeinem c erzeugt<br />

vier Gruppen: true negative, true positive,<br />

false negative und false positive. Zu untersuchen<br />

ist eine in bestimmter Hinsicht optimale<br />

Entscheidung.<br />

.<br />

Aufgabenstellung<br />

Optimale <strong>Klassifikation</strong> setzt Validierung<br />

sämtlicher eingesetzter Verfahren voraus.<br />

.<br />

Die eingesetzten Begriffe entstammen der<br />

statistischen Entscheidungstheorie. Die<br />

verwendeten Abkürzungen variieren von<br />

Autor zu Autor. Schürmann (1977) benutzt<br />

anstelle der sonst in der entscheidungstheoretisch<br />

begründeten <strong>Diagnostik</strong> verwendete<br />

Bezeichnungen für die Naturzustände, die<br />

Entscheidungen, die Konsequenzen, die<br />

Befunde, die Optimalitätskriterien und die<br />

Entscheidungsregeln<br />

< W, A, S, X, K, D >,<br />

mit a = d(x) die Abkürzungen<br />

< W, W^, C, V, O, D >,<br />

mit W^ = d( v).<br />

Signaldetektion<br />

Die Erkennung schwacher Reize in einem<br />

gestörten Umfeld wird sonst gern als Beispiel<br />

psychologischer Experimentierkunst<br />

vorgeführt. Ist es den Experimentatoren<br />

ddort doch gelungen, den Einfluß von<br />

Reaktionsneigungen zu neutralisieren und<br />

dadurch besser die Sinnesleistungen zu<br />

studieren. Hier wird die Signalentdeckung<br />

kurz wegen des den Versuchspersonen<br />

unterstellten Entscheidungsprinzips kurz<br />

besprochen. Es ist der statistischen Entscheidungstheorie<br />

entlehnt und soll in der<br />

geschilderten Lage bei jedem von und<br />

wirksam sein.<br />

Der Wahrnehmungspsychologe studiert<br />

hier eigentlich eine Umkehrung des <strong>Klassifikation</strong>sproblems:<br />

Die Mittelwertsdifferenz<br />

α soll bestimmt werden.<br />

Neu war an diesem Ansatz, daß die Reaktion<br />

der Versuchsperson als Entscheidung<br />

aufgefasst wurde, deren Richtigkeit bzw.<br />

Falschheit mit unterschiedlichen Konsequenzen<br />

belegt wurde. Im Laborjargon<br />

spricht man zunächst von outcomes:


„Outcomes“<br />

ROC- Kurve<br />

Yes<br />

No<br />

Signal hit miss<br />

Noise false alarm correct<br />

rejection<br />

Diese sind mit monetären Konsequenzen<br />

verbunden, die man pay-off nennt.<br />

Pay-off<br />

Yes<br />

Signal C C<br />

SY<br />

N oise C C<br />

N Y<br />

No<br />

Nach der Theorie bestimmen die pay-offs<br />

zusammen mit den Auftretenswahrscheinlichkeiten<br />

von Signal und Noise das cut-off<br />

Kriterium, das die Versuchsperson gerade<br />

einsetzt. Von Interesse für den Wahrnehmungspsychologen<br />

ist nur die Mittelwertsdifferenz<br />

der beiden Verteilungen von<br />

Sinnesempfindungen, der ohne Signal<br />

(nois) und der anderen. Diese Mittelwertsdifferenz<br />

lässt sich aus den hit-Raten und<br />

den false alarm-Raten für jedes durch eine<br />

spezielle pay-off Matrix bestimmte Teilexperiment<br />

ermitteln.<br />

SN<br />

N N<br />

Sie enthält für alle Teilexperimente die hit-<br />

Raten gegen die false-alarm-Rate abgetrage.<br />

Der Grad ihrer Krümung ist ein Maß<br />

für die Mittelwersdifferenz der beiden Verteilungen<br />

von Sinnesempfindungen.<br />

Optimalität<br />

Die eigentliche Theorie der Signalentdeckung<br />

besteht darin, dem Organismus ein<br />

Optimierungsprinzip zu unterstellen. Es ist<br />

die Minimierung des Risikos: Die Versuchsperson<br />

wählt Alternative Yes bzw.<br />

No, deren Kostenerwartung am geringsten<br />

ist.<br />

Seien P( x | S ) bzw P( x | N ) die Flächen<br />

unter den Verteilungsdichten, die rechts<br />

von x liegen, dann soll gelten, die Versuchsperson<br />

reagiert entsprechend der folgenden<br />

Ungleichung::<br />

C (1 P ( x | N )) C (1 P ( x | S ))<br />

N N<br />

C P ( x | S ) C P ( x | N )<br />

SY<br />

N Y<br />

SN<br />

Sie verkörpert das Entscheidungsprinzip<br />

der Erwartungswertmaximierung, da in ihr<br />

Erwartungswerte (Risiken) verglichen<br />

werden.<br />

Das Scharlatanieproblem<br />

Scharlatane, die in Medizin oder Psychologie<br />

ihr Unwesen treiben werden oft erst<br />

überraschend spät enttarnt. Das kann daran<br />

liegen, daß sie sich bei diagnostischen<br />

Äußerungen intuitiv nach den a priori


Wahrscheinlichkeiten der Fallgruppen<br />

richten. Dieser Effekt läßt sich auch professionell,<br />

also unter Berücksichtigung von<br />

Symptomen ausnutzen, wie noch gezeigt<br />

werden wird..<br />

Neyman-Pearson-Statistik<br />

Die uns von der Hypothesenprüfung her<br />

geläufige Neyman-Pearson-Statistik gewichtet<br />

die Wahrscheinlichkeiten nicht. Sie<br />

berücksichtigt nur „Fälle“. Eine Gewichtung<br />

wirkt sich aus als ob bestimmte Fälle<br />

häufiger (bzw. seltener) auftreten als andere.<br />

Dieser Umstand erklärt die o. g. Tatsache,<br />

daß sowohl in der Psychologie wie<br />

auch in der Medizin diagnostische Scharlatane<br />

oft erstaunlich lange nicht als solche<br />

auffallen, sofern sie die tatsächlichen Häufigkeiten<br />

der Fallgruppen auch nur intuitiv<br />

berücksichtigen.<br />

Ein dreidimensionales Beispiel stammt von<br />

Rulon et al.(1973). Es handelt sich um<br />

Bewerber bei einer Fluggesellschaft die<br />

als Mechaniker (grün) bzw. als Schalterpersonal<br />

(rot) klassifiziert werden sollen,<br />

nachdem für jeden drei Testwerte erhoben<br />

worden sind.<br />

Ein zweidimensionales Beispiel bietet Eysencks<br />

Maudsley Personality Inventory<br />

(MPI) ,Eysenck, 1959, das den Versuchspersonen<br />

Werte in „Extraversion“ und<br />

„Neurotizismus“ zuweist. Die Graphik<br />

zeigt die Ergebnisse von zwei Fallgruppen,<br />

die mit Hilfe von <strong>Klassifikation</strong>sverfahren<br />

möglichst optimal zu trennen sind.<br />

Diese Trennung der Fallgruppen wird<br />

durch Konstruktion einer Trennlinie in der<br />

Ebene, im folgenden Diagramm als Ebene<br />

eingezeichnet, bewerkstelligt.<br />

Für ein Durchdenken des diagnostischen<br />

Vorgangs kann es von Vorteil sein, sich<br />

daran zu erinnern, daß dabei Information<br />

übertragen wird. Sofern diese Überlegungen<br />

nicht im oberflächlichen schematischen<br />

Darstellungen stecken geblieben<br />

sind, haben sie zu praktikablen <strong>Klassifikation</strong>sverfahren<br />

geführt (vgl. etwa Schürmann,<br />

1977),


Um hier exakte Schlüsse zu ziehen , muß<br />

zunächst das Verteilungsgesetz der Symptome,<br />

bezogen auf die Fallgruppen untersucht<br />

werden.<br />

Die Fallgruppenzugehörigkeit wird als<br />

zufällige Veränderliche angesetzt. Die<br />

Symptome bilden einen diskreten Merkmalsvektor<br />

v,<br />

Schürmann sieht <strong>Diagnostik</strong> als Dekodierung<br />

von Signalen an.<br />

p ( ) p ( , v)<br />

V<br />

p ( v) p ( , v)<br />

Man spricht von einer diskrete vektoriellen<br />

Zufallsvariable und hat damit Anschluß an<br />

das große einschlägige Repertoir der<br />

Wahrscheinlichkeittheorie und Statistik<br />

gefunden.<br />

Die Validierungsuntersuchung erzeugt<br />

Paare (, v).<br />

p(,v) = p(v, )<br />

das Verteilungsgesetz des Untersuchungs-<br />

Prozesses.<br />

Randverteilungen<br />

Der Untersuchungsprozeß ist ebenso zu<br />

entschlüsseln, wie eine technische Signalübertragung<br />

in Anwesenhet von Übertragungsstörungen<br />

Der Fallgruppenzugehörigkeiten bzw. der<br />

Symptome Bedingte Verteilungen<br />

Wahrscheinlichkeit der Fallgruppen bei<br />

gegebenem Symptom v, bzw. Wahrscheinlichkeit<br />

des Symptoms bei gegebener Fallgruppe<br />

ω :<br />

p( | v)<br />

p( v | )<br />

p( , v)<br />

p( v)<br />

p( , v)<br />

p ( )<br />

Beispiel: Taylor & Russel, 1939<br />

Fallgruppen bestehen hier aus Personen,<br />

für die gilt:„bewährt sich“ bzw.„bewährt<br />

sich nicht“. Auch ohne psychologische<br />

Eignungsuntersuchung bewährt sich ein<br />

bestimmter Anteil der Bewerber. Dieser


Anteil wird allein durch die Anforderungen<br />

des Arbeitgebers bestimmt.<br />

Validität ausgedrückt durch bedingte<br />

Wahrscheinlichkeit: Eine psychologische<br />

Eignungsuntersuchung taugt nur dann,<br />

wenn der Anteil der Bewährten unter den<br />

Zugelassenen größer ist als „von Natur<br />

aus“. Die Zusammenhänge lassen sich bei<br />

Betrachtung einer Isodensite der zweidimensionalen<br />

Verteilungsdichte von Testund<br />

Kriteriumswerten erläutern.<br />

f ( x, y )<br />

f ( y | x)<br />

f ( x)<br />

1 y<br />

m it f ( y ) exp( )<br />

2 2<br />

Eingesetzt ergibt sich<br />

1 1<br />

f ( y | x) exp(<br />

2<br />

2<br />

2 1<br />

2 (1 )<br />

2 2 2<br />

[ y x ] ) m it der Streuung<br />

2<br />

y|<br />

x<br />

1<br />

2<br />

xy<br />

Ungewissheitsreduktion und Validität<br />

Die diagnostisch interessanten Wahrscheinlichkeiten<br />

lassen sich in Abhängigkeit<br />

vom Validitätskoeffizienten, der natürlichen<br />

Bewährungsquote und dem Schnitt<br />

beim Test berechnen. Ausgangspunkt ist<br />

die bivariate Standardnormalverteilungsdichte<br />

von Test x und Kriterium y.<br />

Die bivariate Wahrscheinlichkeitsdichte<br />

Der Normalverteilung ist<br />

f ( x, y)<br />

1<br />

2 1<br />

2<br />

1<br />

2 2<br />

exp( [ x 2 x y y ])<br />

2<br />

2 (1 )<br />

Mit ihrer Hilfe lässt sich die bedingte Verteilungsdichte<br />

des Kriteriums bestimmen.<br />

Der Informationsgewinn durch psychologische<br />

Eignungsuntersuchung ist aus dem<br />

Vergleich von bedingter und unbedingter<br />

Verteilungsdichten der Kriteriumswerte<br />

ersichtlich.<br />

Bezeichnet man das Verhältnis der Fehlervarianz<br />

zur true-Varianz im Sinne der<br />

klassischen Testtheorie als verbleibende<br />

Unsicherheit nach der psychologischen<br />

Untersuchung, dann ergibt sich eine quadratische<br />

Abhängigkeit diese Größe vom<br />

Validitätskoeffizienten.<br />

. Die Bewährungsquote<br />

Aus diesen Beziehungen kann bei gegebener<br />

natürlicher Bewährungsquote, dem<br />

Validitätskoeffizienten und dem Schnitt<br />

beim Test die Bewährungsquote berechnet<br />

werden. (z. B. mittels Maple Skript „Taylor-Russel“).


Taylor- Russel Nomogramm<br />

Das Risiko der diagnostischen Entscheidung<br />

e<br />

Im Nomogramm liest man ab, wie sich bei<br />

gegebner Validität – hier 0.60 – der Anteil<br />

der Bewährten unter den Zugelassenen mit<br />

größer werdender Zulassungsquote verändert.<br />

Läßt man sämtliche Bewerber zu, so<br />

erreicht man den rechten Rand des Nomogramms<br />

und damit die „natürliche“<br />

Bewährungsquote.<br />

Zuordnung der Diagnose K zur Fallgruppe<br />

ω:<br />

Der Erwartungswert E der Kosten C über<br />

die Symptome v und die Diagnosen e und<br />

die Fallgruppen k , mit eo der Rückweisung<br />

„weiß nicht“ :<br />

e<br />

{0,1, 2, ..., " k "}<br />

R E ( C ) C p ( C )<br />

R C ( k , e( v)) p ( v, k )<br />

v<br />

k<br />

p ( v, k ) p ( k | v) p ( v)<br />

Einsetzen zeigt, daß das Gesamtrisiko der<br />

Entscheidung der Erwartungswert der Einzelrisiken<br />

über die Symptome ist:<br />

R C ( k , e( v)) p ( k | v) p( v)<br />

v<br />

v k<br />

R<br />

( e, v) p( v)<br />

Bedingtes Risiko<br />

v<br />

Für die Berechnungen ist eine zweite Art<br />

der Zuordnung vorteilhafter, die den einzelnen<br />

Befunden eigene Dimensionen zuschreibt:<br />

R C ( k , e( v)) p ( k | v)<br />

v ( e , v )<br />

k<br />

0 C ( k , e)<br />

Gesucht ist das Minimum von R im Hinblick<br />

auf die Entscheidungsregel e(v).<br />

Minimum einer Summe<br />

Das bedingte Risiko wird betrachtet, da<br />

eine Summe dann minimal wird, wenn<br />

sämtliche Summanden minimal sind.


Optimale Entscheidungsfunktion<br />

Erwartungswertminimierung als Optimalitätskriterium<br />

bedeutet: Berechne für alle<br />

k+1 möglichen Entscheidungen e<br />

K<br />

R ( e) C ( k , e) p( k | v)<br />

k<br />

1<br />

und suche unter allen R(e) den kleinsten<br />

Wert.<br />

Test: gut mittel schlecht<br />

1.16 1.04 0.88<br />

R( e) 0.20 0.80 1.60<br />

3.78 2.52 0.84<br />

Die Berechnung im einzelnen<br />

Seien<br />

Gang der Berechnung<br />

A = [a1, a2, ...,ak]<br />

B = [b1,b2,...,bk]<br />

und<br />

Benötigt wird dazu die Kostenmatrix der<br />

diagnostischen Aufgabe (Zeilen: Diagnosen,<br />

Spalten: Fallgruppemzugehörigkeit, z.<br />

B.:<br />

P (k | v)<br />

Außerdem eine Berechnung der bedingten<br />

Wahrscheinlichkeiten der Fallgruppe, gegeben<br />

das Symptom aus den beobachteten<br />

„anderen“ bedingten Wahrscheinlichkeiten<br />

des Symptoms (Zeile), gegeben die Fallgruppe<br />

(Spalte), z. B.:<br />

Die Risikomatrix<br />

2 2<br />

C ( e, k ) 0 5<br />

7 0<br />

0.36 0.04<br />

P ( k | v) 0.18 0.12<br />

0.06 0.24<br />

Befund (Spalten) und Diagnosen (Zeilen:<br />

„weiß nicht“, „geeignet“, „nicht geeignet“)<br />

bestimmen die Risiken. Für einen gegebenen<br />

Befund wird die Diagnose mit dem<br />

geringsten Kostenrisiko verwendet.<br />

Vektoren gleicher Länge k, Dann ist<br />

T<br />

A B B A a b a b a b ... a b<br />

das Skalarprodukt derVektoren, nämlich<br />

die Summe der Elemente des einen Vektors,<br />

vor der Summierung gewichtet mit<br />

den entsprechenden Elementen des anderen<br />

Vektors.<br />

Beispiel Korrelationskoeffizient<br />

Der Schätzer r für den Produkt-Moment<br />

Korrelatonskoeffizienten r ist eine Funktion<br />

von fünf Skalarprodukten. Dabei ist 1<br />

= [1,1,...,1] eine Liste der Länge k von<br />

Einsen und X bzw. Y die k Meßwerte.<br />

r<br />

xy<br />

Optimierung<br />

T<br />

k<br />

i 1<br />

i i 1 1 2 2<br />

k k<br />

T T T<br />

k X Y X 1 Y 1<br />

T T 2 T T 2<br />

( k X X ( X 1) )( k Y Y ( Y 1) )<br />

Optimierung erfordert eine mit den Rückschlußwahrscheinlichkeiten<br />

p (k | v) gewichtete<br />

Summation über die Spalten der<br />

Kostenmatrix C.<br />

p ( v) [ p (1 | v), p (2 | v),..., p ( k | v)]<br />

R [ R (0), R (1),..., R ( k )]<br />

T<br />

R C p ( v)<br />

T<br />

T<br />

R ist der Risikovektor.


Optimales Diagnosesystem<br />

.<br />

Einfache symmetrische Kostenmatrix<br />

Bei einer größeren Anzahl von zu klassifizierenden<br />

Fallgruppen und damit einer<br />

ebensogroßen Zahl von möglichen Entscheidungen<br />

führt der Ansatz einer einfachen<br />

Symmetrischen Kostenmatrix zu erheblichen<br />

Vereinfachungen im Ver-fahren.<br />

Das Verteilungsgesetz<br />

Über den merkmalserzeugenden Prozeß<br />

{v,k} ist nicht mehr als Kenntnis der rückschlußwahrscheinlichkeiten<br />

erforderlich,<br />

nicht das vollständige Verteilungsgesetz p<br />

(v,k ). Ist dies jedoch gegeben, können<br />

daraus Rückschlußwahrscheinlich-keiten<br />

abgeleitet werden:<br />

p( v, k)<br />

p ( k | v) , m it<br />

p( v)<br />

K<br />

p ( v) p ( v, k )<br />

k<br />

Minimum und isotone Abbildung<br />

1<br />

Die Minimumsuche wird nicht beeinflußt,<br />

wenn man alle Werte der gleichen isotonen<br />

Transformation unterwirft, etwa mit p(v)<br />

multipliziert. Man betrachtet anstelle des<br />

Risikovektors R den Ausdruck<br />

'<br />

T<br />

R p( v) * C p( v) C p ( v)<br />

Dabei ist p‘(v) ein Vektor, der entsteht,<br />

wenn man die Komponenten von p(v)<br />

sämtlich mit p(v) multipliziert, der Auftretenswahrscheinlichkeit<br />

von v. Während<br />

p(v) die Rückschlußwahrscheinlichkeiten<br />

von v auf k enthält, gibt p´(v) die entsprechenden<br />

Verbundwahrscheinlichkeiten an.<br />

Für die Bestimmung des Risikovektors<br />

spielt der Unterschied keine Rolle.<br />

T<br />

'<br />

C ( k , kˆ) C für kˆ<br />

0,<br />

r<br />

0 für kˆ<br />

0,<br />

C für kˆ<br />

0, kˆ<br />

k .<br />

f<br />

Dabei sind Cr die Kosten für die Rückweisungsentscheidung.<br />

Deshalb ist die<br />

Matrix, genau betrachtet, nicht symmetrisch.<br />

Das Risiko bei gegebener Entscheidung<br />

lässt sich ausdrücken als<br />

R ( e 0)<br />

k<br />

K<br />

1<br />

e 1<br />

C<br />

r<br />

R ( e 0) C p ( k | v) C p ( k | v)<br />

f<br />

k 1 k e 1<br />

Eine Vereinfachung ist möglich:<br />

W egen p ( k | v ) 1 gilt<br />

k<br />

R ( e 0) C und<br />

K<br />

1<br />

r<br />

R ( e 0) C (1 p ( e | v))<br />

f<br />

Die Rückweisungsentscheidung<br />

Praktisch wird zuerst die größte Rückschlußwahrscheinlichkeit<br />

herausgesucht<br />

K<br />

f


und diese dann mit dem Schwellenwert b<br />

verglichen.<br />

1<br />

C<br />

C<br />

Die Kosten für eine Zurückweisung müsen<br />

daher > 0 sein und nicht größer als Cf.<br />

Bayessche Regel<br />

Die Bayessche Regel<br />

p( k | v)<br />

ist nichts anderes als die hier abgeleitete<br />

Entscheidungsregel, nur um den die Entscheidung<br />

nicht beeinflussenden Faktor<br />

1/p(v) erweitert. Dadurch wird deutlich,<br />

daß Risikominimierung als Erwartungsweertminimierung<br />

auf die Anwendung der<br />

Bayesschen Regel hinausläuft.<br />

Entscheidungsregel<br />

r<br />

f<br />

C<br />

Die Entscheidungsregel lautet:<br />

f<br />

C<br />

f<br />

C<br />

p( v | k ) p( k )<br />

p( v)<br />

p ( v | e) p ( e) k { p ( v | k ) p ( k )} und<br />

m ax<br />

p ( v | e) p ( e) p ( v)<br />

r<br />

Umgekehrt proportionale Kostenfunktion<br />

Einheitliche Kostenfestsetzung führt dazu,<br />

daß häufig eintretende Fälle sicherer klassifiziert<br />

werden, als seltene Fälle. Beispiel:<br />

p (1) = 0,01, p (2) = 0,99. Die Entscheidungsregel,<br />

alle Fälle der Klasse 2 zuzuordnen,<br />

garantiert eine Fehlerrate von<br />

nur 1 %. Andererseits sollen, etwa bei Vorsorgeuntersuchungen,<br />

gerade die seltenen<br />

Fälle gefunden werden! Man setzt unter<br />

solchen Umständen die Kosten der Fehlentscheidung<br />

umgekehrt proportional zur<br />

Auftretenswahrscheinlichkeit.<br />

Berechnung des bedingten Risikos<br />

R ( e 0) C p ( k | v)<br />

Dieser Ausdruck läßt sich durch Einfügen<br />

des fehlenden Terms k = e und anschließendem<br />

Wiederabzuges rechnerisch vereinfachen:<br />

Vereinfachung<br />

Die Entscheidung bleibt dieselbe, wenn<br />

man die bedingten Risiken R ausdrückt<br />

durch<br />

Das führt zum Minimumvergleich:<br />

Gebiete<br />

k<br />

K<br />

1<br />

e 1<br />

r<br />

R ( e 0) C ( k ) p ( k | v) C ( k ) p ( k | v)<br />

k<br />

k 1 k e 1<br />

K<br />

R ( e 0) C ( k ) p( k | v) C ( e) p( e | v)<br />

k<br />

D C ( k ) p ( k | v)<br />

R<br />

k<br />

K<br />

1<br />

k<br />

w egen p ( k | v ) 1<br />

k<br />

K<br />

1<br />

1<br />

k<br />

D ( e 0) C ( k ) p ( k | v)<br />

C<br />

k<br />

D ( e 0) C ( e) p ( e | v)<br />

K<br />

1<br />

k<br />

k<br />

Bereits im Eindimensionalen, d. h. bei Berücksichtigung<br />

nur eines einzigen Tests als<br />

Symptom führt die entscheidungsregel zu<br />

einer Zerlegung der Testergebnisse in<br />

„Gebiete“ der Testwerte.<br />

k<br />

K<br />

r<br />

k<br />

C ( k)<br />

k<br />

C<br />

K p ( k )<br />

f<br />

Die Rückweisungskosten bleiben wie<br />

sonst.


Das Gebiet Gk einer Klasse ist dadurch<br />

definiert, daß die Unterscheidungsfunktion<br />

Dk(v) alle anderen Unterscheidungsfunktionen<br />

überragt.<br />

f ( x, y )<br />

Isodensiten<br />

1<br />

2 1<br />

1 ( x )<br />

x<br />

exp{ [<br />

2<br />

2(1 )<br />

x<br />

y<br />

x<br />

2<br />

2<br />

2 ( x )( y )<br />

x<br />

1 2<br />

( y )<br />

y<br />

y<br />

2<br />

]}<br />

y<br />

Der gesamte Merkmalsraum ist auf diese<br />

Weise erfaßt. Es gibt keine natürlichen<br />

Zurückweisungsgebiete.<br />

Merkmalsverteilungen bekannt<br />

Linien gleicher Wahrscheinlichkeitsdichte<br />

heißen Isodensiten. Sie sind beim Vergleich<br />

mehrerer Dichten zur Einteilung des<br />

Symptombereichs in Gebiete ausschlaggebend.<br />

Im Mehrdimensionalen, also bei der Verwendung<br />

mehrerer Tests als Entscheidungsgrundlage,<br />

gestalten sich die Verhältnisse<br />

besonders übersichtlich, wenn die<br />

Merkmalsverteilungen als bekannt vorausgesetzt<br />

werden. Da viele Test-ergebnisse<br />

stets sich unimodal und symmetrisch verteilen,<br />

werden häufig normalverteilte<br />

Merkmale vorausgesetzt. Wegen der Anschaulichkeit<br />

sei die Darstellung hier zunächst<br />

auf zwei zunächst standardnormalverteilte<br />

Merk-male beschränkt,<br />

1 1<br />

2 2<br />

f ( x, y ) exp{ [ x 2 x y y ]}<br />

2<br />

2<br />

2 1<br />

2(1 )<br />

N-dimensionale Normalverteilung<br />

Sind die Streuungen s ≠ 1, verändert sich<br />

der Ausdruck zu<br />

f ( x, y )<br />

1<br />

2 1<br />

x<br />

y<br />

Nehmen schließlich die Erwartungswerte<br />

Ausprägungen µ ≠ 0 an, so schlägt auch<br />

dies sich in dem Ausdruck nieder:<br />

2<br />

2 2<br />

1 x 2 xy y<br />

exp{ [ ]}<br />

2<br />

2(1 )<br />

x<br />

1 2<br />

y<br />

Bei der Verwendung von mehr als zwei<br />

Tests zur diagnostischen Entscheidungsfindung<br />

ist unsere viuelle Anschauung<br />

überfordert. Um dennoch die Übersicht zu<br />

behalten, führt man Matrixschreibweise an.<br />

Die fettgedruckten Buchstaben kennzeichnen<br />

nun ganze Listen von Testergebnissen<br />

mehrere Tests für alle in der<br />

Validierungsstudie untersuchten Personen.<br />

1 (v - μ) K (v - μ )<br />

p ( v ) exp( )<br />

N<br />

(2 ) | K |<br />

2<br />

μ = E (v), K E{( v - μ) (v - μ )}<br />

T<br />

T -1


K ist die Kovarianzmatrix,. Sie ist quadratisch<br />

und symmetrisch<br />

Quadratische Formen<br />

Quadratische Formen kommen in der Formel<br />

der mehrdimensionalen Normalverteilung<br />

vor. Sie sind es, die die Intensität (im<br />

Ein- und Zweidimensionalen die Höhe) der<br />

Dichte bestimmen. Der geometrische Ort<br />

ihrer gleichen Ausprägung kennzeichnet<br />

die Isodensiten, die für die Gebietsaufteilung<br />

benötigt werden.<br />

Q<br />

T<br />

a K a<br />

Q wird nicht negativ, man sagt,<br />

Q ist nicht-negativ definit.<br />

Q definiert den Ort konstanter<br />

Wahrscheinlichkeitsdichte<br />

Matrizenrechnung<br />

Matrizenrechnung behandelt die Arithmetik<br />

ganzer Listen von Untersuchungsdaten<br />

so, als ob es sich um einzelne Zahlen handeln<br />

würde. Die praktischen Implikationen<br />

des Verfahrens versteht besser, wer über<br />

etwas Einsicht in die Struktur von Vektorräumen<br />

verfügt.<br />

Ein Vektorraum V = < , , > liegt vor,<br />

wenn eine für eine Menge von Vektoren <br />

(Listen von reellwertigen Eintragungen)<br />

eine kommutative Addition definiert ist.<br />

Weil die Untersuchungsergebnisse einzelner<br />

Personen als solche Listen angesehne<br />

werden können, die etwa bei der Mittelwertbildung<br />

über die Personen addiert<br />

werden, ist der Begriff des Vektorraumes<br />

in der psychologischen <strong>Diagnostik</strong> leicht<br />

anwendbar.<br />

M : V V<br />

M()<br />

Varianz-Kovarianz-Matrizen<br />

Von besonderem psychodiagnostischen<br />

Interesse sind Varianz-Kovarianz-<br />

Matrizen. Sie enthalten die Information<br />

über den statistischen Zusammenhang von<br />

Listen von Untersuchungsergebnissen, z.<br />

B. von Tests.<br />

Varianz-Kovarianzmatrizen sind Symmetrisch,<br />

weil die Kovarianz von Test A und<br />

Test B die gleiche ist, wie die von Test B<br />

und Test A. Außerdem sind die auf der<br />

Hauptdiagonalen eingetrageenen Varianzen<br />

stets positiv. Dadurch sind diese Matrizen<br />

spezielle Vektorraum-Homomorphismen.<br />

Sie sind diagonalähnlich. Das<br />

bedeutet, ihre Wirkung auf einen Vektor<br />

kann – in einem geeigneten Koordinatensystem<br />

- durch eine Diagonalmatrix beschrieben<br />

werden, Diagonalmatrizen<br />

enthalten nur auf der Hauptdiagonalen von<br />

Null verschiedene Eintragungen. Ihre statistische<br />

Interpretation ist die Varianz-<br />

Kovarianz-Matrix von Untersuchungsergebnissen,<br />

die paarweise nicht korrelieren,<br />

weil sämtliche Kovarianzen verschwinden.<br />

Paarweise unkorrelierte Größen<br />

Für Varianz-Kovarianzmatrizen kann man<br />

wegen ihrer Diagonalähnlichkeit deshalb<br />

ein Bezugssystem finden in dem sämtliche<br />

mittels der Ausgangsvariablen neu definierte<br />

Größen unkorreliert sind. Ein einfaches<br />

Beispiel ist die 2 x 2 Matrix der Korrelation<br />

von Zeit und Fehlern in einem<br />

Geschicklichkeitstest, z. B. Springreiten.<br />

Wirklich zum Tragen kommt diese Theorie,<br />

wen es um Matrizen M geht, das sind<br />

Listen von Listen Sie werden als Vektorraum-Homomorphismen<br />

angesehen, weil<br />

sie auf Vektoren operieren und aus ihnen<br />

neue Vektoren erzeugen:


Merkmale. Wie Zeit und Fehler ausgedrückt<br />

sind, lassen sich nicht in eine mit<br />

irgendeiner arithmetischen Operation verträglichen<br />

Rangreihe bilden. Rangreihen<br />

von Personen sind aber ein Hauptziel der<br />

psychologischen <strong>Diagnostik</strong>. Deshalb ordnet<br />

man nun die neue Variable Zeit + Fehler<br />

und bezeichnet sie als Geschicklichkeit.<br />

Die andere davon unabhängige Variable<br />

Zeit – Fehler vernachlässigt man als irrelevant.<br />

Faktorenanalyse<br />

Abb.: Zeit (Abszisse) und Fehler (Ordinate)<br />

korrelieren negativ. Durch Drehung der<br />

Achsen mit Winkel 45° um das Zentroid<br />

entstehen Linearkombinationen Zeit + Fehler<br />

und Zeit – Fehler als neue, nun stochastisch<br />

unabhängige Bezugsgrößen. Approximiert<br />

man die Informationen nur durch<br />

eine von ihnen (Zeit + Fehler) so lassen<br />

sich die Probanden sinnvoll, nämlich nach<br />

Geschicklichkeit rangordnen.<br />

Eine Beschreibung der in der Varianz-<br />

Kovarianz-Matrix enthaltenen Information<br />

durch eine Diagonalmatrix erhält man graphisch<br />

auf einfache Weise: Man verlegt<br />

den Ursprung des Korrelationsdiagramms<br />

in den Ort der Mittelwerte von Zeit und<br />

Fehlern (das Zentroid). Dann dreht man<br />

das neue Koordinatensystem um 45° gegen<br />

den Uhrzeiger. Nun staucht man in diesen<br />

neuen Koordinaten die Achsenmaßstäbe<br />

auf die Länge Eins (dividiert durch die<br />

Länge der Halbachsen der isodensen Ellipse).<br />

Die Ellipse wird dadurch zum Kreis.<br />

Kreisförmige Isodensiten stehen für das<br />

Fehlen einer Korrelation. In dem neuen<br />

(gedrehten) Koordinatensystem korrelieren<br />

die (neuen) Variablen also nicht. Die Information<br />

die sie vermitteln ist nicht mehr<br />

redundant.<br />

Ermöglichung von Rangordnung<br />

Der Zweck der Umformung besteht darin,<br />

die Untersuchungsergebnisse brauchbarer<br />

zu machen. Leistungen, die durch zwei<br />

Daß die neuen Variablen Linearkombinationen<br />

der alten sind, ist kennzeichnend für<br />

das Verfahren. Es ist Ausdruck des Umstandes,<br />

daß das gesuchte Koordinatensystem<br />

für statistisch unabhängige Größen aus<br />

dem gegebenen allein durch Drehung hervorgeht.<br />

Nur unter dieser Einschränkung<br />

ist das Problem auch rechnerisch als so<br />

genannte Eigenwertlösung zu bewältigen.<br />

In der Psychologie heißt die Annäherung<br />

der Information einer bestimmten Anzahl<br />

von Untersuchungsergebnissen durch eine<br />

geringere Anzahl Faktorenanalyse.<br />

Quadratische Formen<br />

Q<br />

T<br />

a K a<br />

Die Größe Q im Exponenten der multivariaten<br />

Normalverteilung wird nicht negativ,<br />

man sagt, Q ist nicht-negativ definit. Q<br />

definiert den Ort konstanter Wahrscheinlichkeitsdichte.<br />

Im Zweidimensionalen ist<br />

das eine Ellipse, im Dreidimensionalen<br />

eine Ellipsoid und in –nicht mehr anschaulich<br />

darstellbaren – höheren Dimensionen<br />

ein Hyperellipsoid.<br />

Orientierung der Ellipsen<br />

Die Lösung des Gleichungssystems<br />

[ K - I] b = 0<br />

ergibt die Längen der Halbachsen und<br />

die Matrix der b, der Tansformation auf<br />

diese „Hauptachsen“. Man nennt die


„Eigenwerte“ und die b die „Eigenvektoren“<br />

der Korrelationsmatrix K. I ist eine<br />

DiagonalMatrix mit lauter Einsen auf der<br />

Hauptdiagonalen.<br />

Eigenwertproblem algebraisch<br />

Die Gleichung<br />

[ K - I]<br />

b = 0<br />

hat für b nur dann eine nichttriviale Lösung,<br />

wenn die Matrix in der Klammer<br />

singulär ist, d. h. eine Determinante von<br />

Null besitzt. Dadurch sind die bestimmt.<br />

Nun können die b berechnet werden.<br />

Eigenwertproblem geometrisch<br />

Testwerte und Kovarianzmatrizen<br />

Der Zusammenhang wird besonders deutlich,<br />

wenn man auf Erwartungswert Null<br />

umgerechnete Testwerte betrachtet: In der<br />

Definition der Kovarianz<br />

cov(x,y) = E(X*Y) - E(X)*E(Y)<br />

wird nun der hintere Term gleich Null.<br />

Testwerte und Korrelationsmatrizen<br />

Normiert man die Testwerte außerdem auf<br />

Varianzen von Eins, so sind bereits die<br />

Kovarianzen identisch mit den Korrelationskoeffizienten.<br />

Das ist zulässig, weil die<br />

Varianz in der Normalverteilung nichts<br />

anderes als ein Maßstabsfaktor ist. Ist X<br />

die n x k Matrix der Testwerte, so ist unter<br />

diesen Umständen die Schätzung der Kovarianzmatrix<br />

S = X‘ X gegeben, also<br />

durch ein einziges Matrixprodukt. Die<br />

Matrix S ist symmetrisch.<br />

Diagonalähnlichkeit<br />

Faktorenanalyse<br />

Die Information, die in einer Varianz-<br />

Kovarianzmatrix bzw. einer Korrelationsmatrix<br />

steckt, ist direkt nur schwer zu entnehmen.<br />

Wegen der ‚positive manifold‘<br />

hängen normalerweise alle psychologischen<br />

Größen untereinander zusammen.<br />

Geometrisch betrachtet hat man stets<br />

schiefwinklige Koordinatensysteme vor<br />

sich, die eine Orientierung erschweren.<br />

Faktoranalyse findet ein passendes rechtwinkliges<br />

Koordinatensystem und zeigt,<br />

wie man dessen Achsen interpretieren<br />

kann.<br />

Eine symmetrische Matrix ist diagonalähnlich,<br />

wenn eine Koordinatentransformation<br />

für die Größen, z. B. Tests ausführbar<br />

ist, nach deren Anwendung nur<br />

unkorrelierte Werte auftreten. Für je zwei<br />

korrelierende Zufallsgrößen lassen sich<br />

Linearkombinationen der beiden finden,<br />

die unkorreliert sind. Geometrisch wird die<br />

gegebene elliptische Isodensite dadurch in<br />

dem neuen Koordinatensystem zum Kreis.<br />

Begriffserklärung<br />

Der Begriff „diagonalähnlich“ rührt daher,<br />

daß für sämtlich paarweise unkorrelierte<br />

Größen die Kovarianzmatrix eine Diagonalmatrix<br />

ist. Die Algebra lehrt, daß für<br />

symmetrische reellwertige Matrizen mit<br />

posotiven Eintragungen auf der Hauptdiagonalen<br />

die gesuchte Transformation der<br />

Kovarianzmatrix auf Diagonalform stets<br />

existiert. Die Eintragungen in der Diagonalmatrix<br />

heißen Eigenwerte der Kovarianzmatrix,<br />

die Transformationen des


Koordinatensystems heißen Eigenvektoren.<br />

Die gewünschte Rangreihe lässt sich jetzt<br />

(eindimensional) nach Zeit + Fehler erstel-<br />

1 .7 .5 .644 .751 -.142 2.01 len 0 und 0 als „Geschicklichkeit“ .664 .587 .490 interpretie<br />

.7 1 .3 .587 -.605 -.537 0 .261 0 .751 .605 .263<br />

.5 .3 1 .490 -.263 .831 0 0 .721 .142 .537 .831<br />

Praktische Durchführung<br />

Die Berechnung der Matrix der Eigenvektoren<br />

E und der Eigenwerte Λ ist recht<br />

aufwendig. Seit uns Expertensysteme wie<br />

Maple oder Mathematica zur Verfügung<br />

stehen, erfordert die Berechnung nur die<br />

Eingabe eines einzigen Befehls „Eigenvalues(Σ)“Er<br />

zerlegt die Kovarianzmatrix Σ<br />

Σ = E . Λ . E´<br />

Das einfachste Beispiel<br />

Im universellen psychologischen Beispiel<br />

einer Testleistung, die nach „Zeit“ und<br />

„Fehler“ bewertet wird, lässt sich zunächst<br />

wegen der Mehrdimensionalität des Ergebnisses<br />

keine Rangreihe der Leistungen<br />

der Versuchspersonen herstellen. Eine Eigenwertanalyse<br />

ergibt bei gegebener Korrelationsnmatrix<br />

von Zeit und Fehlern Σ :<br />

G egeben<br />

1<br />

1<br />

1 1 1 1<br />

1 0<br />

2 2 2 2<br />

1 1 0 1 1 1<br />

2 2 2 2<br />

Die Transformation mittels E<br />

1 1<br />

2 2 1<br />

x y x y x y<br />

1 1 2<br />

2 2<br />

ren. Die andere neue Dimension Zeit –<br />

Fehler wird vernachlässigt, weil sie als<br />

irrelevant angesehen wird.<br />

Drei Dimensionen<br />

Auch hier bewirkt die Transformationsmatrix<br />

Drehungen, diesmal aber solche um<br />

die drei Achsen im Raum.<br />

Räumliche Interpretation<br />

Man kann die Transformationsmatrix nach<br />

den drei Winkeln auflösen und erhält 42°,<br />

17° und 29°. Nach der Formel für die multivariate<br />

Normalverteilung (Folie 65) kann<br />

man eine räumliche Darstellung zeichnen:<br />

Klassenweise normalverteilte Merkmale<br />

besitzen fallgruppenspezifische Erwartungswertvektoren<br />

und ebenso fallgruppenspezifische<br />

Kovarianzmatrizen. Bei<br />

einfacher symmetrischer Kostenfunktion<br />

wird nun die Unterscheidungsfunktion<br />

Dk(v)=p(k)p(v|k)<br />

für jede Ort und jede Fallgruppe berechnet<br />

und von diesen das Maximum gesucht.<br />

Dadurch ergibt sich eine Gebietseinteilung.<br />

Gebietsgrenzen<br />

sind dort gegeben, wo gilt Dk (v)=Dj(v).<br />

läuft hier auf eine Drehung des Bezugssystems<br />

um 45° hinaus, denn die neuen Achsen<br />

sind y – x = const. bzw. x+y = const.


Quadratischer Klassifikator<br />

Im Zweidimensionalen sind die Trennlinien<br />

Kurven zweiten Grades, also Parabeln,<br />

Ellipsen oder Hyperbeln. Im Grenzfalle<br />

können auch Geraden auftreten.<br />

g<br />

Der Maximumvergleich wird durch monotone<br />

Transformationen nicht gestört. Deshalb<br />

logarithmiert man die Formel der n-<br />

dimensionalen Normalverteilung und erhält<br />

eine einfachere Entscheidungsfunktion:<br />

1 1<br />

T -1<br />

D ( v ) ln( p ) ln | K | [( v - μ ) K (v - μ )]<br />

k<br />

k<br />

k k k k<br />

2 2<br />

Bestimmung der Grenzen<br />

Setzt man in die Gleichung Dk(v)=Dj(v)<br />

ein und erweitert mit dem Faktor 2, so<br />

erhält man die Gleichung der Grenzfläche<br />

gjk(v)=0:<br />

| K | p<br />

k<br />

k<br />

T -1<br />

ln 2 ln ( v μ ) K (v μ )<br />

| K | p<br />

kj k k k<br />

T -1<br />

)<br />

j j j ).<br />

( v-μ K (v - μ<br />

j<br />

Diese Differenz von quadratischen Formen<br />

läßt sich selbst als quadratische Form<br />

schreiben:<br />

T 1<br />

0 0 0<br />

g g ( v v ) M ( v v )<br />

kj<br />

Dabei bedeuten g0, v0 und M<br />

j<br />

Zuordnung der Fälle zu den Fallgruppen<br />

Die Zuordnung geschieht durch Berechnung<br />

der Wahrscheinlichkeitsdichten am<br />

Ort des zu klassifizierenden Falles für alle<br />

Fallgruppen und Auswahl der Fallgruppe,<br />

bei der diese Dichte am größten ist. Dabei<br />

vereinfachen sich die Berechnungen, wenn<br />

die Varianz-Kovarianzmatrizen für alle<br />

Fallgruppen gleich sind.<br />

Validität<br />

Die Bestimmung der Verschiedenheit von<br />

Fallgruppen. <strong>Klassifikation</strong> setzt voraus,<br />

daß sich die anfallenden Fälle tatsächlich<br />

nachweislich verschiedenen Fallgruppen<br />

zuordnen lassen. Diese Unterscheidung ist<br />

uns im eindimensionalen Falle, d. h. bei<br />

Verwendung eines einzigen Tests oder<br />

sonstigen Merkmals als Varianzanalyse<br />

geläufig.<br />

Abhängige und unabhängige Zufallsgrößen<br />

Die für Korrelationsmatrizen Σ stets mögliche<br />

Umformung T auf eine Diagonalmatrix<br />

Λ<br />

Läßt sich umkehren<br />

T´ Σ T = Λ<br />

Σ = T Λ T´<br />

wenn man von einer Korrelationsmatrix Λ<br />

unkorrelierter Zufallsgrößen ausgeht, wie<br />

sie Zufallszahlengenaratoren benutzen.<br />

Durch geeignte Wahl von T können Zufallsgrößen<br />

mit vorgegebener Interkorrelation<br />

erzeugt werden.


Erzeugung von korrelierten (Pseudo-<br />

)Daten<br />

Man zieht zunächst mittels eines Zufallsgenerators<br />

unabhängige Reihen von Zufallszahlen<br />

und transformiert sie dann mit<br />

der auf der vorigen Folie beschriebenen<br />

Transformation T auf Zufallszahlenreihen<br />

mit den gewünschten korrelativen Zusammenhängen.<br />

Die Trennlinie der beiden Verteilungen ist<br />

durch die Linie gleicher Dichte definiert.<br />

Beispiel, Eysenck, 1959<br />

Varianzanalyse<br />

Dysthymiker- und Psychosomatiker-<br />

Pseudodaten, auf Grund der Stichprobenparameter<br />

erzeugt.<br />

Verteilungsdichten<br />

Validitätsfragen im Zusammenhang der<br />

<strong>Klassifikation</strong> werden meist varianzanalytiscvh<br />

behandelt. Geprüft wird die Nullhypothese,<br />

nach der sämtliche Stichproben<br />

aus einer einzigen Fallgruppe stammen.<br />

R.A. Fisher hat gezeigt, daß unter diesen<br />

Umständen zwei unabhängige Schätzungen<br />

der gleichen Varianz existieren. Eine<br />

Schätzung die Varianz greift auf die Varianzen<br />

der verschiedenen Stichproben<br />

zurück, die andere auf die Varianz der<br />

Stichprobenmittelwerte.<br />

Voraussetzungen<br />

Der Zusammenhang zwischen Varianz und<br />

Standardfehler des Stichprobenmittels besteht<br />

nur bei Normalverteilung des Merkmals.<br />

Daher die Voraussetzung der Normalität.<br />

Diese Voraussetzung wird außerdem<br />

bemüht, wenn die Prüfgrößen der Quadratsummen<br />

„zwischen“ und „innerhalb“<br />

(beide Chi-Quadrat) in das F-Verhältnis<br />

gesetzt werden, weil nur Summen standardnormalverteilter<br />

Quadrierte Zufallsgrößen<br />

chiquadrat-verteilt sind.


Die Mächtigkeit (Power) eines statistischen<br />

Tests<br />

Vier Größen hängen bei statistischen Tests<br />

zusammen: Effektgröße , Wahrscheinlichkeit<br />

des Fehlers der ersten Art ,<br />

Wahrscheinlichkeit des Fehlers der zweiten<br />

Art und Stichprobengröße N.<br />

Ein Beispiel aus der <strong>Klassifikation</strong> kann<br />

diesen Zusammenhang veranschaulichen<br />

(vgl. Maple-Skript).<br />

Statistische Weiterungen<br />

Falls die Varianz-Kovarianzmatrizen nicht<br />

gleich sind, müssen weiterreichende statistische<br />

Prüfungen der Differenz der Mittelwerts-Vektoren<br />

angestellt werden, die z.<br />

B. in Tatsuoka, beschrieben sind.<br />

Signifikanz der Abweichung einer einzigen<br />

Fallgruppe von μ0<br />

ei bei bekannter Varianz-Kovarianz-Matrix<br />

Σ ist für p Merkmale und N Versuchspersonen<br />

die Prüfgröße<br />

T 1<br />

0 0<br />

N ( X ) ( X ) verteilt<br />

2<br />

p<br />

w ie (1 )<br />

Bei zu schätzender Varianz-<br />

Kovarianzmatrix S<br />

Hier ist die Prüfgröße<br />

T 1<br />

S X - μ<br />

0 0<br />

N ( N 1)( X-μ ) ( )<br />

verteilt wie<br />

p( N 1)<br />

F<br />

( N p)<br />

p<br />

N p<br />

Vergleich von zwei Stichproben<br />

Vergleich von mehreren Stichproben<br />

Wilks Kriterium<br />

Die Prüfgröße ist Λ . Bartlett(1947) hat<br />

gezeigt, daß<br />

V = [ N – 1 - ( p + K ) / 2 ] log (Λ)<br />

angenähert Chi-Quadrat-verteilt ist, mit p *<br />

(K-1) Freiheitsgraden. Dabei ist N die Anzahl<br />

der Versuchspersonen, p die Anzahl<br />

der Tests und K die Anzahl der (mutmaßlichen)<br />

Fallgruppen.<br />

(Wird fortgesetzt).<br />

Literatur<br />

Anderson, T. W.,1958 : An Introduction to<br />

Multivariate Statistical Analysis, New<br />

York, Wiley<br />

Schürmann, J., 1977. Polynom Klassifikatoren<br />

für Zeichenerkennung, Ansatz Adaption,<br />

Anwendung. München: Oldenbourg<br />

Tatsuoka, M.,M.,1971, Multivaariate<br />

Analysis, Techniques for Educational and<br />

Psychological Research, New York,<br />

Wiley.<br />

ist mit W der „within“ Schätzung der Varianz-Kovarianz-Matrix<br />

die Prüfgröße<br />

n n ( n n 2) (1) (2) (1) (2)<br />

1 2 1 2<br />

T -1<br />

( X - X ) W ( X - X )<br />

n n<br />

1 2<br />

1 2<br />

verteilt w ie<br />

(n n 2) p<br />

1 2 F<br />

n n p 1<br />

p<br />

n1 n2<br />

p 1

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!