2. Veranstaltung Methoden - TU Berlin

Diagnostik und Evaluation 

Seminar Nr.: 3134 L 305 

Raum FR 1063 

Dozentin: Rebecca Lazarides 

Adresse: Franklinstraße 28/29 

Tel.: 030/ 314-73206 

Pädagogische Psychologie 

FR 4-3 

Sprechzeiten: Di 10-12 Uhr (oder nach Vereinbarung) 

Mail: rebecca.lazarides@tu-berlin.de

Thema 2: Methodenfragen pädagogischer Diagnostik 

• Wie kann man Wissen und Können von Schülerinnen und 

Schülern angemessen untersuchen? 

• Wie kann man dabei zu einem einigermaßen objektiven 

Urteil kommen? 

• Woher nimmt man den Maßstab für Bestanden oder 

Durchgefallen?

Grundlage der heutigen Sitzung 

KMK-Standards zur Lehrerbildung: 

„Kompetenzbereich: Beurteilen – Lehrerinnen und Lehrer üben ihre 

Beurteilungsaufgabe gerecht und verantwortungsbewusst aus. 

Kompetenzbereich: 

Lehrerinnen und Lehrer diagnostizieren Lernvoraussetzungen und 

Lernprozesse von Schülerinnen und Schülern; sie fördern Schülerinnen 

und Schüler gezielt und beraten Lernende und deren Eltern“

Aspekte diagnostischen Handelns 

Vergleich - dient Verhaltensbeschreibung 

- Basis: Informationen zu Art, Häufigkeit, Dauer, Intensität … 

zu beurteilenden Verhaltens 

- in päd. Diagnostik wird verglichen: 

mit früherem Verhalten des gleichen Menschen 

mit dem Verhalten anderer Menschen 

mit Verhaltens“standards“ 

Analyse 

- als Vergleichsmaßstäbe dienen in der pädagogischen Diagnostik 

individuelle, soziale und sachliche Bezugsnormen 

- fragt, warum Verhalten vom Standard abweicht 

- nicht Gesamtleistung, sondern Stärken und Schwächen der 

Leistung im Fokus

. Prognose - Pädagogische Diagnostik: Lehrer muss Schülerverhalten in 

andere Situationen oder in Zukunft extrapolieren 

Interpretation - Sammlung, Ordnung, Beurteilung & Gewichtung von 

Informationen 

- Zusammenfassung zu wertender Stellungnahme 

Mitteilung & - Mitteilung der Verhaltensbeurteilung an Lernende, 

Wirkungskontrolle Erziehungsberechtigte … 

- Kontrolle der Wirkung der Mitteilung

Zusammenfassung - Schritte des Diagnostizierens 

1. Informationen sammeln 

2. Gewichten und Kombinieren 

-> Ziel: objektive, zuverlässige & gültige Prognose über zukünftiges 

Verhalten 

3. Empfehlung 

„Diagnostizieren ist ein Urteilsprozess, der unter Einsatz wissenschaftlicher 

Methoden erfolgen sollte, die gewährleisten, dass andere Personen beim 

Einsatz derselben Methoden zu denselben Empfehlungen hinsichtlich der 

Auswahl der geeigneten pädagogischen Interventionen kommen.“ 

(Leutner 2001 in Rost)

Standardisierte Forschungsinstrumente im Lehrerberuf? 

• Aktuelle Studien (Spinath 2005) zu diagnostischer Kompetenz von 

Lehrern: Lehrereinschätzungen von Schüllerleistungen sind 

unterschiedlich akkurat 

Diagnostische Kompetenz von Lehrern: gering, sofern Lehrer 

dafür nicht entsprechende Messinstrumente nutzen (z.B. 

standardisierte Tests) 

-> Notwendigkeit Lehrer bei der Auswahl und fachgerechten Anwendung 

geeigneter Testverfahren zu schulen

GRUNDFRAGEN DES MESSENS UND SKALIERENS 

IN DEN SOZIALWISSENSCHAFTEN 

• Welche Messinstrumente werden im pädagogisch - diagnostizierenden 

Handeln unterschieden? 

• Wie konstruiert man pädagogisch-diagnostische Messinstrumente? 

• Welche Qualitätskriterien sollten solche Messinstrumente erfüllen?

„Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines 

(Mess-) Objektes (Gegenstand, Ereignis, Person, Situation, 

Beurteilungssachverhalt) und erfolgt durch eine Zuordnung von Zahlen zu 

Messobjekten.“ 

Orth 1995 

Messwerte sind immer eine Vergröberung und Vereinfachung einer 

differenzierten Beobachtung, die eine Vergleichbarkeit von Beobachtungen erst 

ermöglicht 

Methoden des Messens: - Tests 

- Verhaltensbeobachtung 

- Gespräch und Interview

Pädagogische Tests 

• Erhebung diagnostischer Informationen über den Einsatz von Tests 

und Fragebögen 

• besonders standardisierte Form der Informationsgewinnung, bei der der 

Proband Fragen oder Aufgaben schriftlich bearbeitet 

• Standardisierung: Erhöhung der Objektivität eines Leistungstests & 

Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen 

Leistungsstandes

„Ein Test ist ein systematisches und routinemäßig einsetzbares 

Verfahren zur Messung definierter Ausschnitte menschlichen 

Verhaltens. Die Messung wird verwendet, um den Grad der 

Ausprägung einer sogenannten Eigenschaft, Fähigkeit oder 

Fertigkeit festzustellen oder/und um zukünftiges Verhalten 

vorherzusagen.“ (Hasselhorn & Gold 2006) 

Übersicht standardisierter pädagogischer Tests: 

u.a. „Brickenkamp Handbuch psychologischer und pädagogischer Tests“ 

(Brähler,Holling,Leutner & Petermann 2002) sowie in der Reihe 

„Tests und Trends der pädagogisch-psychologischen Diagnostik“

Was bedeutet Standardisierung ? 

• Einhaltung spezieller Standards bei Entwicklung & Anwendung der Tests, 

um Gefahr eines Messfehlers möglichst gering zu halten 

• minimalste Voraussetzung von Standardisierung: 

formelle Festlegung der Art der Testdurchführung 

• Festlegung von Bewertungsnormen, auf deren Basis die individuellen 

Leistungen eingeordnet werden können (Hasselhorn & Gold 2006) 

Was sind Bezugs-/Bewertungsnormen ? 

• Bezugsnorm ( engl. reference norm): Standard, mit dem Resultat verglichen 

wird, wenn man es als Leistung wahrnehmen und bewerten will 

(Heckhausen 1974) 

• Soziale Bezugsnorm, Individuelle Bezugsnorm, kriteriale Bezugsnorm

Um Standardisierung im engeren Sinne zu gewährleisten: 

LUKESCH 1998: 5 Schritte der Testkonstruktion 

Vorerprobung 

Ist der Test durchführbar? 

Sind die Aufgaben verständlich & eindeutig formuliert? 

Testdurchführung an einer kleinen Stichprobe 

Sind die Aufgaben angemessen? 

Ist der Schwierigkeitsgrad realistisch? 

Aufgaben- und Testanalyse 

Wie streuen sich die Aufgabenschwierigkeiten? 

(-> empfehlenswert sind Tests, bei denen die Aufgabenschwierigkeit 

zwischen 0,2 –jeder 5. kennt die richtige Lösung- und 0,8 -4 von 5 

Personen kennen die richtige Lösung- liegt)

Testvalidierung 

Misst der Test, was er messen soll? (Validität) => Stimmt das Testergebnis 

mit der sonstigen Leistung des Schülers im getesteten Fach überein? 

Bsp.: DEMAT 3+ ergab einen statistischen Zusammenhang von r= - 0.61 zwischen 

Testleistung in Punkten und Mathematiknote = Schüler, die hohen Punktwert im 

Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik 

Testeichung/ Normierung 

Wie ist die erreichte Einzelleistung in einer vergleichbaren Gruppe 

einzuordnen? 

Testdurchführung an großer & repräsentativer Stichprobe, um Vergleichsmaßstab 

zu generieren, der Grundlage für spätere Bewertung von Einzelleistungen 

bildet (Bsp.: IQ-Normierung: mittlere Leistung = Punktwert 100)

Und wie konstruiere ich als Lehrer ein formelles Testverfahren? 

1. Definition des Curriculums 

- Curriculum ist ein Entwurf, das Aussagen über die 

angestrebten Ziele, Inhalte sowie über die Lernbedingungen, 

Medien, Methoden & Evaluationsverfahren macht 

- Evaluationsverfahren beziehen sich dabei auf die Verfahren, 

mit deren Hilfe Lehr-Lern-Prozesse überprüft werden 

- Curricula sind zumeist von Ministerien vorgegeben

2. Operationalisierung 

- Wie kann eine Erfassung der Lehr-Lern-Ziele erreicht werden ? 

- Ausdruck-> mdl. Ausdruck; schriftl. Ausdruck; Zeichnung; Mimik; Gestik 

- Spiel, Gespräch, Fragebogen, Test, Beobachtung… 

- Soll ein Testverfahren für den gesamten Inhalt des Curriculums entwickelt 

werden oder sollen für Teilaspekte spezifische Verfahren entwickelt werden? 

Global- vs. Skalenebene 

- Bsp.: Ermittelt man mit nur einem Verfahren die Ausprägung eines Merkmals 

(Rechtschreibfähigkeit) & nicht mit einzelnen Skalen, kann man keine 

Rückschlüsse auf Stärken & Schwächen des Schülers ziehen

3. Ableitung einer geeigneten Aufgabenform 

Welches ist die geeigneteste Form der Überprüfung? 

-> Möglichkeiten: Multiple-Choice-Test, Ergänzungsaufgaben … 

4. Ableitung von Items 

Welche Regeln & Konstruktionsschritte werden angewendet, um aus 

allgemeinen Überlegungen heraus, Items abzuleiten? 

Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache 

dadurch definiert werden kann, dass eine Prozedur angegeben wird, mit 

deren Hilfe die Sache erfasst werden kann (Jäger 2000) 

- Bsp.: mit Hilfe eines Intelligenztests wird Intelligenz operationalisiert

5. Empirische Überprüfung an Analysestichprobe 

6. Itemrevision (wenn Items zu schwer) 

7. Erhebung von Vergleichsdaten 

(Wie viele Schüler haben eine vergleichbare Leistung erreicht?) 

8. Gewinnung von Daten zur Objektivität, Reliabilität & Validität 

Bsp.: Inhalts-Validität: Wenn z.B. bei Schüler und Schülerinnen der 7. 

Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst 

werden soll, Spiegelungen zu erfassen, muss gefragt werden, ob 

Spiegelungen Teil des Curriculums dieser Klassenstufe sind.

• Ausmaß der Standardisierung… 

Formelle Tests 

- basieren auf spezifischer Testtheorie 

- hohes Maß an Standardisierung bei Testdurchführung, Testauswertung & 

Interpretation 

- an umfangreichen Stichproben geeicht (normiert), um Vergleichbarkeit der 

Position eines Individuums zu sichern 

Informelle Tests 

- für aktuelle Testzwecke zusammengestellte Instrumente 

- nicht geeicht, können aber dennoch auf einer Testtheorie basieren 

- Sonderform: Lernzielorientierte Tests (Klauer 1987)

• Bezug beim Vergleich von Testergebnissen… 

Normorientierte Tests 

- verwenden eine soziale Bezugsnorm 

- verwenden eine soziale Bezugsnorm 

- dienen dem Vergleich einer getesteten Person mit einer Gruppe 

vergleichbarer Personen 

- z.B. klassische Intelligenztests

Kriteriumsorientierte Tests 

-verwenden kriteriale Bezugsnorm 

- dienen dem Vergleich einer getesteten Person mit einem zuvor & unabhängig 

von anderen Personen festgelegten Kriterium 

- zu testende Personen sollen möglichst gut in der Umgebung des Kriteriums 

(z.B. Lernziel) voneinander unterscheidbar sein 

Lerntests 

- verwenden individuelle Bezugsnorm 

- dienen dem Vergleich einer getesteten Person mit einem Testergebnis 

derselben Person zu einem früheren Zeitpunkt 

- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern 

ausgeblendet werden

• Art der zugrunde liegenden Testtheorie… 

Klassisch konstruierte Tests 

- basieren auf klassischer Testtheorie -> Antwort des Probanden spiegelt 

wahren Wert (tatsächliche Ausprägung der zu erfassenden 

Eigenschaft) & Messfehler wider 

- Ziel der Testkonstruktion ist hohe Trennschärfe/Reduzierung des 

Messfehlers

Wie interpretiere ich erhaltene Testwerte? 

Grundbegriffe: 

Rohwert = Anzahl richtig gelöster Aufgaben im Test 

- Rohwerte allein geben das Leistungsvermögen einer Person nicht 

wirklich wider

Prozentrangnormen 

- um zu Prozentrangnormen zu gelangen, fasst man die Rohwerte zu 

Rohwertklassen zusammen, die jeweils gleiche Prozentanteile in der 

Gesamtverteilung der Rohwerte ausmachen 

- der Prozentrang gibt an, wie viel Prozent der Eichstichprobe genau so 

viele oder noch weniger Testitems richtig gelöst haben 

- Bsp.: PR=60 60 % der Personen der Eichstichprobe haben genau 

so viele oder weniger Testitems richtig gelöst 

- Normalverteilungsannahme fehlt hier aber !

Ein Lehrer kann daran sehen, dass ein Schüler bzw. eine Schülerin mit 

einem Testrohwert von 75 Punkten im Prozentrangband 73-89 liegt. 

Das heißt, die Testleistung ist mindestens gleich gut oder besser als 

die von 73% der Gruppe der Zweitklässler und höchstens gleich gut 

oder schlechter als die von 89%. 

In diesem Bereich liegt der „wahre Wert“ des Schülers

• Vorteil Prozentränge: Anschaulichkeit 

• Nachteil Prozentränge: im Gegensatz zu Standardnormen sind 

Prozentränge nur ordinal-, nicht aber 

intervallskaliert 

-> Man kann also nicht sagen, dass der "Abstand„ zwischen den 

Prozenträngen 50 und 70 genauso groß ist wie der zwischen 

den Prozenträngen 70 und 90

• Warum nicht normalverteilt? 

-> weil in Stichproben fast immer Verzerrungen auftreten 

• daher Umwandlung der Prozentränge in T-Werte (Standardisierung) 

• Bei der Interpretation der Normwerte ist darauf zu achten, dass der ermittelte 

• Bei der Interpretation der Normwerte ist darauf zu achten, dass der ermittelte 

Normwert eine Schätzung des wahren Wertes darstellt, für die das 

entsprechende Vertrauensintervall berücksichtigt werden muss. 

Dieses Vertrauensintervall gibt an, in welchem Bereich (Intervall) der wahre 

Wert mit einer bestimmten Wahrscheinlichkeit liegt.

• Normwert = Position einer getesteten Person im Maßstab der 

Eichstichprobe (T-Werte, Z-Werte und IQ-Werte) 

- Normwerte durch die Eichung des Tests zur Verfügung: auf 

Grund der mittleren Leistung & der Verteilung einer 

Eichstichprobe lässt sich jedem Rohwert ein Normwert 

zuordnen

WS 09/10:Diagnostik und Evaluation

WS 09/10:Diagnostik und Evaluation

Verhaltensbeobachtungen 

„Beobachtung ist das grundlegende Verfahren der empirisch forschenden 

Sozialwissenschaften und der Erziehungswissenschaften.“ (Roth 2001) 

- umfasst jegliche Form der Beobachtung einer Person in realen und simulierten 

Situationen (Bsp. Reale Situation- Unterricht; Bsp. Simulierte Situation- 

Rollenspiel) 

Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet. 

Das heißt, würde man ihn nach seinem Spaziergang nach Häufigkeit & Schwere 

aggressiver Handlungen, Gesprächskontakten zwischen Mädchen & Jungen der 5. 

& 6. Klassenstufe o.Ä. fragen, wäre er überfragt.

Qualität einer Verhaltensbeobachtung ist abhängig vom 

Kategoriensystem zur Protokollierung des beobachteten Verhaltens & 

vom Training des Beobachters, damit grundlegende 

Beobachtungsfehler vermieden werden können 

Naive Beobachtung systematische/wissenschaftliche Beobachtung 

Die Lehrkraft sollte in Beobachtungsbögen, Gutachten usw. nicht nur 

zum Verhalten des Schülers Stellung nehmen, sondern auch 

Rückschlüsse auf Charaktermerkmale ziehen & Prognosen über die 

künftige Entwicklung stellen

Dabei hat sie folgende Möglichkeiten der wissenschaftlichen 

Beobachtung: 

• unsystematische & systematische Beobachtung 

• nicht-teilnehmende & teilnehmende Beobachtung 

• Beobachtung von Ereignis- & Zeitstichproben

Gefahr von Beobachtungsfehlern 

- Beobachtungsfehler = Fehler, die mit begrenztem Vermögen bzw. 

fehlendem Willen des Beobachters zu tun haben 

(geringe Sorgfalt, Langeweile, Müdigkeit, Unvertrautheit mit der 

Situation der Leistungsbeurteilung) 

- Nicht alle für das Urteil relevanten Verhaltensweisen werden 

wahrgenommen

Gefahr von Beurteilungsfehlern 

Typische Beurteilungsfehler (Hasselhorn & Gold 2006): 

Mildeeffekt: 

Voreingenommenheit führt zu positiverer Beurteilung einer Person 

Großzügigkeitsfehler: 

Alle Personen werden günstiger beurteilt als angemessen-Bezug 

zur sachlichen Norm (kriteriale Norm) ist verlorengegangen 

Halo- oder Hofeffekte: 

Urteil wird von einer markanten Eigenschaft der zu beurteilenden 

Person (Aussehen, Mundart) beeinflusst. Verzerrung des Urteils 

kann sich zu Gunsten als auch zu Ungunsten der zu 

beurteilenden Person auswirken

Logischer Fehler: 

Fälschliche Annahme über Zusammenhang zweier Merkmale 

beeinflusst das Urteil Lehrer glaubt, dass viele 

Rechtschreibfehler die Folge geringer Intelligenz seien 

Tendenz zur Mitte: 

Manche Urteiler meiden extreme Urteile, was zur Folge hat, dass sie 

nur mittlere Bewertungen (z.B. nur Zensuren zwischen 2 und 4) 

abgeben. 

Tendenz zu extremen Urteilen

VIELEN DANK FÜR IHRE AUFMERKSAMKEIT !! 

Das nächste Mal: … hören wir REFERAT 1

2. Veranstaltung Methoden - TU Berlin

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?