2. Veranstaltung Methoden - TU Berlin
2. Veranstaltung Methoden - TU Berlin
2. Veranstaltung Methoden - TU Berlin
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Diagnostik und Evaluation<br />
Seminar Nr.: 3134 L 305<br />
Raum FR 1063<br />
Dozentin: Rebecca Lazarides<br />
Adresse: Franklinstraße 28/29<br />
Tel.: 030/ 314-73206<br />
Pädagogische Psychologie<br />
FR 4-3<br />
Sprechzeiten: Di 10-12 Uhr (oder nach Vereinbarung)<br />
Mail: rebecca.lazarides@tu-berlin.de
Thema 2: <strong>Methoden</strong>fragen pädagogischer Diagnostik<br />
• Wie kann man Wissen und Können von Schülerinnen und<br />
Schülern angemessen untersuchen?<br />
• Wie kann man dabei zu einem einigermaßen objektiven<br />
Urteil kommen?<br />
• Woher nimmt man den Maßstab für Bestanden oder<br />
Durchgefallen?
Grundlage der heutigen Sitzung<br />
KMK-Standards zur Lehrerbildung:<br />
„Kompetenzbereich: Beurteilen – Lehrerinnen und Lehrer üben ihre<br />
Beurteilungsaufgabe gerecht und verantwortungsbewusst aus.<br />
Kompetenzbereich:<br />
Lehrerinnen und Lehrer diagnostizieren Lernvoraussetzungen und<br />
Lernprozesse von Schülerinnen und Schülern; sie fördern Schülerinnen<br />
und Schüler gezielt und beraten Lernende und deren Eltern“
Aspekte diagnostischen Handelns<br />
Vergleich - dient Verhaltensbeschreibung<br />
- Basis: Informationen zu Art, Häufigkeit, Dauer, Intensität …<br />
zu beurteilenden Verhaltens<br />
- in päd. Diagnostik wird verglichen:<br />
mit früherem Verhalten des gleichen Menschen<br />
mit dem Verhalten anderer Menschen<br />
mit Verhaltens“standards“<br />
Analyse<br />
- als Vergleichsmaßstäbe dienen in der pädagogischen Diagnostik<br />
individuelle, soziale und sachliche Bezugsnormen<br />
- fragt, warum Verhalten vom Standard abweicht<br />
- nicht Gesamtleistung, sondern Stärken und Schwächen der<br />
Leistung im Fokus
. Prognose - Pädagogische Diagnostik: Lehrer muss Schülerverhalten in<br />
andere Situationen oder in Zukunft extrapolieren<br />
Interpretation - Sammlung, Ordnung, Beurteilung & Gewichtung von<br />
Informationen<br />
- Zusammenfassung zu wertender Stellungnahme<br />
Mitteilung & - Mitteilung der Verhaltensbeurteilung an Lernende,<br />
Wirkungskontrolle Erziehungsberechtigte …<br />
- Kontrolle der Wirkung der Mitteilung
Zusammenfassung - Schritte des Diagnostizierens<br />
1. Informationen sammeln<br />
<strong>2.</strong> Gewichten und Kombinieren<br />
-> Ziel: objektive, zuverlässige & gültige Prognose über zukünftiges<br />
Verhalten<br />
3. Empfehlung<br />
„Diagnostizieren ist ein Urteilsprozess, der unter Einsatz wissenschaftlicher<br />
<strong>Methoden</strong> erfolgen sollte, die gewährleisten, dass andere Personen beim<br />
Einsatz derselben <strong>Methoden</strong> zu denselben Empfehlungen hinsichtlich der<br />
Auswahl der geeigneten pädagogischen Interventionen kommen.“<br />
(Leutner 2001 in Rost)
Standardisierte Forschungsinstrumente im Lehrerberuf?<br />
• Aktuelle Studien (Spinath 2005) zu diagnostischer Kompetenz von<br />
Lehrern: Lehrereinschätzungen von Schüllerleistungen sind<br />
unterschiedlich akkurat<br />
Diagnostische Kompetenz von Lehrern: gering, sofern Lehrer<br />
dafür nicht entsprechende Messinstrumente nutzen (z.B.<br />
standardisierte Tests)<br />
-> Notwendigkeit Lehrer bei der Auswahl und fachgerechten Anwendung<br />
geeigneter Testverfahren zu schulen
GRUNDFRAGEN DES MESSENS UND SKALIERENS<br />
IN DEN SOZIALWISSENSCHAFTEN<br />
• Welche Messinstrumente werden im pädagogisch - diagnostizierenden<br />
Handeln unterschieden?<br />
• Wie konstruiert man pädagogisch-diagnostische Messinstrumente?<br />
• Welche Qualitätskriterien sollten solche Messinstrumente erfüllen?
„Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines<br />
(Mess-) Objektes (Gegenstand, Ereignis, Person, Situation,<br />
Beurteilungssachverhalt) und erfolgt durch eine Zuordnung von Zahlen zu<br />
Messobjekten.“<br />
Orth 1995<br />
Messwerte sind immer eine Vergröberung und Vereinfachung einer<br />
differenzierten Beobachtung, die eine Vergleichbarkeit von Beobachtungen erst<br />
ermöglicht<br />
<strong>Methoden</strong> des Messens: - Tests<br />
- Verhaltensbeobachtung<br />
- Gespräch und Interview
Pädagogische Tests<br />
• Erhebung diagnostischer Informationen über den Einsatz von Tests<br />
und Fragebögen<br />
• besonders standardisierte Form der Informationsgewinnung, bei der der<br />
Proband Fragen oder Aufgaben schriftlich bearbeitet<br />
• Standardisierung: Erhöhung der Objektivität eines Leistungstests &<br />
Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen<br />
Leistungsstandes
„Ein Test ist ein systematisches und routinemäßig einsetzbares<br />
Verfahren zur Messung definierter Ausschnitte menschlichen<br />
Verhaltens. Die Messung wird verwendet, um den Grad der<br />
Ausprägung einer sogenannten Eigenschaft, Fähigkeit oder<br />
Fertigkeit festzustellen oder/und um zukünftiges Verhalten<br />
vorherzusagen.“ (Hasselhorn & Gold 2006)<br />
Übersicht standardisierter pädagogischer Tests:<br />
u.a. „Brickenkamp Handbuch psychologischer und pädagogischer Tests“<br />
(Brähler,Holling,Leutner & Petermann 2002) sowie in der Reihe<br />
„Tests und Trends der pädagogisch-psychologischen Diagnostik“
Was bedeutet Standardisierung ?<br />
• Einhaltung spezieller Standards bei Entwicklung & Anwendung der Tests,<br />
um Gefahr eines Messfehlers möglichst gering zu halten<br />
• minimalste Voraussetzung von Standardisierung:<br />
formelle Festlegung der Art der Testdurchführung<br />
• Festlegung von Bewertungsnormen, auf deren Basis die individuellen<br />
Leistungen eingeordnet werden können (Hasselhorn & Gold 2006)<br />
Was sind Bezugs-/Bewertungsnormen ?<br />
• Bezugsnorm ( engl. reference norm): Standard, mit dem Resultat verglichen<br />
wird, wenn man es als Leistung wahrnehmen und bewerten will<br />
(Heckhausen 1974)<br />
• Soziale Bezugsnorm, Individuelle Bezugsnorm, kriteriale Bezugsnorm
Um Standardisierung im engeren Sinne zu gewährleisten:<br />
LUKESCH 1998: 5 Schritte der Testkonstruktion<br />
Vorerprobung<br />
Ist der Test durchführbar?<br />
Sind die Aufgaben verständlich & eindeutig formuliert?<br />
Testdurchführung an einer kleinen Stichprobe<br />
Sind die Aufgaben angemessen?<br />
Ist der Schwierigkeitsgrad realistisch?<br />
Aufgaben- und Testanalyse<br />
Wie streuen sich die Aufgabenschwierigkeiten?<br />
(-> empfehlenswert sind Tests, bei denen die Aufgabenschwierigkeit<br />
zwischen 0,2 –jeder 5. kennt die richtige Lösung- und 0,8 -4 von 5<br />
Personen kennen die richtige Lösung- liegt)
Testvalidierung<br />
Misst der Test, was er messen soll? (Validität) => Stimmt das Testergebnis<br />
mit der sonstigen Leistung des Schülers im getesteten Fach überein?<br />
Bsp.: DEMAT 3+ ergab einen statistischen Zusammenhang von r= - 0.61 zwischen<br />
Testleistung in Punkten und Mathematiknote = Schüler, die hohen Punktwert im<br />
Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik<br />
Testeichung/ Normierung<br />
Wie ist die erreichte Einzelleistung in einer vergleichbaren Gruppe<br />
einzuordnen?<br />
Testdurchführung an großer & repräsentativer Stichprobe, um Vergleichsmaßstab<br />
zu generieren, der Grundlage für spätere Bewertung von Einzelleistungen<br />
bildet (Bsp.: IQ-Normierung: mittlere Leistung = Punktwert 100)
Und wie konstruiere ich als Lehrer ein formelles Testverfahren?<br />
1. Definition des Curriculums<br />
- Curriculum ist ein Entwurf, das Aussagen über die<br />
angestrebten Ziele, Inhalte sowie über die Lernbedingungen,<br />
Medien, <strong>Methoden</strong> & Evaluationsverfahren macht<br />
- Evaluationsverfahren beziehen sich dabei auf die Verfahren,<br />
mit deren Hilfe Lehr-Lern-Prozesse überprüft werden<br />
- Curricula sind zumeist von Ministerien vorgegeben
<strong>2.</strong> Operationalisierung<br />
- Wie kann eine Erfassung der Lehr-Lern-Ziele erreicht werden ?<br />
- Ausdruck-> mdl. Ausdruck; schriftl. Ausdruck; Zeichnung; Mimik; Gestik<br />
- Spiel, Gespräch, Fragebogen, Test, Beobachtung…<br />
- Soll ein Testverfahren für den gesamten Inhalt des Curriculums entwickelt<br />
werden oder sollen für Teilaspekte spezifische Verfahren entwickelt werden?<br />
Global- vs. Skalenebene<br />
- Bsp.: Ermittelt man mit nur einem Verfahren die Ausprägung eines Merkmals<br />
(Rechtschreibfähigkeit) & nicht mit einzelnen Skalen, kann man keine<br />
Rückschlüsse auf Stärken & Schwächen des Schülers ziehen
3. Ableitung einer geeigneten Aufgabenform<br />
Welches ist die geeigneteste Form der Überprüfung?<br />
-> Möglichkeiten: Multiple-Choice-Test, Ergänzungsaufgaben …<br />
4. Ableitung von Items<br />
Welche Regeln & Konstruktionsschritte werden angewendet, um aus<br />
allgemeinen Überlegungen heraus, Items abzuleiten?<br />
Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache<br />
dadurch definiert werden kann, dass eine Prozedur angegeben wird, mit<br />
deren Hilfe die Sache erfasst werden kann (Jäger 2000)<br />
- Bsp.: mit Hilfe eines Intelligenztests wird Intelligenz operationalisiert
5. Empirische Überprüfung an Analysestichprobe<br />
6. Itemrevision (wenn Items zu schwer)<br />
7. Erhebung von Vergleichsdaten<br />
(Wie viele Schüler haben eine vergleichbare Leistung erreicht?)<br />
8. Gewinnung von Daten zur Objektivität, Reliabilität & Validität<br />
Bsp.: Inhalts-Validität: Wenn z.B. bei Schüler und Schülerinnen der 7.<br />
Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst<br />
werden soll, Spiegelungen zu erfassen, muss gefragt werden, ob<br />
Spiegelungen Teil des Curriculums dieser Klassenstufe sind.
• Ausmaß der Standardisierung…<br />
Formelle Tests<br />
- basieren auf spezifischer Testtheorie<br />
- hohes Maß an Standardisierung bei Testdurchführung, Testauswertung &<br />
Interpretation<br />
- an umfangreichen Stichproben geeicht (normiert), um Vergleichbarkeit der<br />
Position eines Individuums zu sichern<br />
Informelle Tests<br />
- für aktuelle Testzwecke zusammengestellte Instrumente<br />
- nicht geeicht, können aber dennoch auf einer Testtheorie basieren<br />
- Sonderform: Lernzielorientierte Tests (Klauer 1987)
• Bezug beim Vergleich von Testergebnissen…<br />
Normorientierte Tests<br />
- verwenden eine soziale Bezugsnorm<br />
- verwenden eine soziale Bezugsnorm<br />
- dienen dem Vergleich einer getesteten Person mit einer Gruppe<br />
vergleichbarer Personen<br />
- z.B. klassische Intelligenztests
Kriteriumsorientierte Tests<br />
-verwenden kriteriale Bezugsnorm<br />
- dienen dem Vergleich einer getesteten Person mit einem zuvor & unabhängig<br />
von anderen Personen festgelegten Kriterium<br />
- zu testende Personen sollen möglichst gut in der Umgebung des Kriteriums<br />
(z.B. Lernziel) voneinander unterscheidbar sein<br />
Lerntests<br />
- verwenden individuelle Bezugsnorm<br />
- dienen dem Vergleich einer getesteten Person mit einem Testergebnis<br />
derselben Person zu einem früheren Zeitpunkt<br />
- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern<br />
ausgeblendet werden
• Art der zugrunde liegenden Testtheorie…<br />
Klassisch konstruierte Tests<br />
- basieren auf klassischer Testtheorie -> Antwort des Probanden spiegelt<br />
wahren Wert (tatsächliche Ausprägung der zu erfassenden<br />
Eigenschaft) & Messfehler wider<br />
- Ziel der Testkonstruktion ist hohe Trennschärfe/Reduzierung des<br />
Messfehlers
Wie interpretiere ich erhaltene Testwerte?<br />
Grundbegriffe:<br />
Rohwert = Anzahl richtig gelöster Aufgaben im Test<br />
- Rohwerte allein geben das Leistungsvermögen einer Person nicht<br />
wirklich wider
Prozentrangnormen<br />
- um zu Prozentrangnormen zu gelangen, fasst man die Rohwerte zu<br />
Rohwertklassen zusammen, die jeweils gleiche Prozentanteile in der<br />
Gesamtverteilung der Rohwerte ausmachen<br />
- der Prozentrang gibt an, wie viel Prozent der Eichstichprobe genau so<br />
viele oder noch weniger Testitems richtig gelöst haben<br />
- Bsp.: PR=60 60 % der Personen der Eichstichprobe haben genau<br />
so viele oder weniger Testitems richtig gelöst<br />
- Normalverteilungsannahme fehlt hier aber !
Ein Lehrer kann daran sehen, dass ein Schüler bzw. eine Schülerin mit<br />
einem Testrohwert von 75 Punkten im Prozentrangband 73-89 liegt.<br />
Das heißt, die Testleistung ist mindestens gleich gut oder besser als<br />
die von 73% der Gruppe der Zweitklässler und höchstens gleich gut<br />
oder schlechter als die von 89%.<br />
In diesem Bereich liegt der „wahre Wert“ des Schülers
• Vorteil Prozentränge: Anschaulichkeit<br />
• Nachteil Prozentränge: im Gegensatz zu Standardnormen sind<br />
Prozentränge nur ordinal-, nicht aber<br />
intervallskaliert<br />
-> Man kann also nicht sagen, dass der "Abstand„ zwischen den<br />
Prozenträngen 50 und 70 genauso groß ist wie der zwischen<br />
den Prozenträngen 70 und 90
• Warum nicht normalverteilt?<br />
-> weil in Stichproben fast immer Verzerrungen auftreten<br />
• daher Umwandlung der Prozentränge in T-Werte (Standardisierung)<br />
• Bei der Interpretation der Normwerte ist darauf zu achten, dass der ermittelte<br />
• Bei der Interpretation der Normwerte ist darauf zu achten, dass der ermittelte<br />
Normwert eine Schätzung des wahren Wertes darstellt, für die das<br />
entsprechende Vertrauensintervall berücksichtigt werden muss.<br />
Dieses Vertrauensintervall gibt an, in welchem Bereich (Intervall) der wahre<br />
Wert mit einer bestimmten Wahrscheinlichkeit liegt.
• Normwert = Position einer getesteten Person im Maßstab der<br />
Eichstichprobe (T-Werte, Z-Werte und IQ-Werte)<br />
- Normwerte durch die Eichung des Tests zur Verfügung: auf<br />
Grund der mittleren Leistung & der Verteilung einer<br />
Eichstichprobe lässt sich jedem Rohwert ein Normwert<br />
zuordnen
WS 09/10:Diagnostik und Evaluation
WS 09/10:Diagnostik und Evaluation
Verhaltensbeobachtungen<br />
„Beobachtung ist das grundlegende Verfahren der empirisch forschenden<br />
Sozialwissenschaften und der Erziehungswissenschaften.“ (Roth 2001)<br />
- umfasst jegliche Form der Beobachtung einer Person in realen und simulierten<br />
Situationen (Bsp. Reale Situation- Unterricht; Bsp. Simulierte Situation-<br />
Rollenspiel)<br />
Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet.<br />
Das heißt, würde man ihn nach seinem Spaziergang nach Häufigkeit & Schwere<br />
aggressiver Handlungen, Gesprächskontakten zwischen Mädchen & Jungen der 5.<br />
& 6. Klassenstufe o.Ä. fragen, wäre er überfragt.
Qualität einer Verhaltensbeobachtung ist abhängig vom<br />
Kategoriensystem zur Protokollierung des beobachteten Verhaltens &<br />
vom Training des Beobachters, damit grundlegende<br />
Beobachtungsfehler vermieden werden können<br />
Naive Beobachtung systematische/wissenschaftliche Beobachtung<br />
Die Lehrkraft sollte in Beobachtungsbögen, Gutachten usw. nicht nur<br />
zum Verhalten des Schülers Stellung nehmen, sondern auch<br />
Rückschlüsse auf Charaktermerkmale ziehen & Prognosen über die<br />
künftige Entwicklung stellen
Dabei hat sie folgende Möglichkeiten der wissenschaftlichen<br />
Beobachtung:<br />
• unsystematische & systematische Beobachtung<br />
• nicht-teilnehmende & teilnehmende Beobachtung<br />
• Beobachtung von Ereignis- & Zeitstichproben
Gefahr von Beobachtungsfehlern<br />
- Beobachtungsfehler = Fehler, die mit begrenztem Vermögen bzw.<br />
fehlendem Willen des Beobachters zu tun haben<br />
(geringe Sorgfalt, Langeweile, Müdigkeit, Unvertrautheit mit der<br />
Situation der Leistungsbeurteilung)<br />
- Nicht alle für das Urteil relevanten Verhaltensweisen werden<br />
wahrgenommen
Gefahr von Beurteilungsfehlern<br />
Typische Beurteilungsfehler (Hasselhorn & Gold 2006):<br />
Mildeeffekt:<br />
Voreingenommenheit führt zu positiverer Beurteilung einer Person<br />
Großzügigkeitsfehler:<br />
Alle Personen werden günstiger beurteilt als angemessen-Bezug<br />
zur sachlichen Norm (kriteriale Norm) ist verlorengegangen<br />
Halo- oder Hofeffekte:<br />
Urteil wird von einer markanten Eigenschaft der zu beurteilenden<br />
Person (Aussehen, Mundart) beeinflusst. Verzerrung des Urteils<br />
kann sich zu Gunsten als auch zu Ungunsten der zu<br />
beurteilenden Person auswirken
Logischer Fehler:<br />
Fälschliche Annahme über Zusammenhang zweier Merkmale<br />
beeinflusst das Urteil Lehrer glaubt, dass viele<br />
Rechtschreibfehler die Folge geringer Intelligenz seien<br />
Tendenz zur Mitte:<br />
Manche Urteiler meiden extreme Urteile, was zur Folge hat, dass sie<br />
nur mittlere Bewertungen (z.B. nur Zensuren zwischen 2 und 4)<br />
abgeben.<br />
Tendenz zu extremen Urteilen
VIELEN DANK FÜR IHRE AUFMERKSAMKEIT !!<br />
Das nächste Mal: … hören wir REFERAT 1