27.08.2013 Aufrufe

2. Veranstaltung Methoden - TU Berlin

2. Veranstaltung Methoden - TU Berlin

2. Veranstaltung Methoden - TU Berlin

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Diagnostik und Evaluation<br />

Seminar Nr.: 3134 L 305<br />

Raum FR 1063<br />

Dozentin: Rebecca Lazarides<br />

Adresse: Franklinstraße 28/29<br />

Tel.: 030/ 314-73206<br />

Pädagogische Psychologie<br />

FR 4-3<br />

Sprechzeiten: Di 10-12 Uhr (oder nach Vereinbarung)<br />

Mail: rebecca.lazarides@tu-berlin.de


Thema 2: <strong>Methoden</strong>fragen pädagogischer Diagnostik<br />

• Wie kann man Wissen und Können von Schülerinnen und<br />

Schülern angemessen untersuchen?<br />

• Wie kann man dabei zu einem einigermaßen objektiven<br />

Urteil kommen?<br />

• Woher nimmt man den Maßstab für Bestanden oder<br />

Durchgefallen?


Grundlage der heutigen Sitzung<br />

KMK-Standards zur Lehrerbildung:<br />

„Kompetenzbereich: Beurteilen – Lehrerinnen und Lehrer üben ihre<br />

Beurteilungsaufgabe gerecht und verantwortungsbewusst aus.<br />

Kompetenzbereich:<br />

Lehrerinnen und Lehrer diagnostizieren Lernvoraussetzungen und<br />

Lernprozesse von Schülerinnen und Schülern; sie fördern Schülerinnen<br />

und Schüler gezielt und beraten Lernende und deren Eltern“


Aspekte diagnostischen Handelns<br />

Vergleich - dient Verhaltensbeschreibung<br />

- Basis: Informationen zu Art, Häufigkeit, Dauer, Intensität …<br />

zu beurteilenden Verhaltens<br />

- in päd. Diagnostik wird verglichen:<br />

mit früherem Verhalten des gleichen Menschen<br />

mit dem Verhalten anderer Menschen<br />

mit Verhaltens“standards“<br />

Analyse<br />

- als Vergleichsmaßstäbe dienen in der pädagogischen Diagnostik<br />

individuelle, soziale und sachliche Bezugsnormen<br />

- fragt, warum Verhalten vom Standard abweicht<br />

- nicht Gesamtleistung, sondern Stärken und Schwächen der<br />

Leistung im Fokus


. Prognose - Pädagogische Diagnostik: Lehrer muss Schülerverhalten in<br />

andere Situationen oder in Zukunft extrapolieren<br />

Interpretation - Sammlung, Ordnung, Beurteilung & Gewichtung von<br />

Informationen<br />

- Zusammenfassung zu wertender Stellungnahme<br />

Mitteilung & - Mitteilung der Verhaltensbeurteilung an Lernende,<br />

Wirkungskontrolle Erziehungsberechtigte …<br />

- Kontrolle der Wirkung der Mitteilung


Zusammenfassung - Schritte des Diagnostizierens<br />

1. Informationen sammeln<br />

<strong>2.</strong> Gewichten und Kombinieren<br />

-> Ziel: objektive, zuverlässige & gültige Prognose über zukünftiges<br />

Verhalten<br />

3. Empfehlung<br />

„Diagnostizieren ist ein Urteilsprozess, der unter Einsatz wissenschaftlicher<br />

<strong>Methoden</strong> erfolgen sollte, die gewährleisten, dass andere Personen beim<br />

Einsatz derselben <strong>Methoden</strong> zu denselben Empfehlungen hinsichtlich der<br />

Auswahl der geeigneten pädagogischen Interventionen kommen.“<br />

(Leutner 2001 in Rost)


Standardisierte Forschungsinstrumente im Lehrerberuf?<br />

• Aktuelle Studien (Spinath 2005) zu diagnostischer Kompetenz von<br />

Lehrern: Lehrereinschätzungen von Schüllerleistungen sind<br />

unterschiedlich akkurat<br />

Diagnostische Kompetenz von Lehrern: gering, sofern Lehrer<br />

dafür nicht entsprechende Messinstrumente nutzen (z.B.<br />

standardisierte Tests)<br />

-> Notwendigkeit Lehrer bei der Auswahl und fachgerechten Anwendung<br />

geeigneter Testverfahren zu schulen


GRUNDFRAGEN DES MESSENS UND SKALIERENS<br />

IN DEN SOZIALWISSENSCHAFTEN<br />

• Welche Messinstrumente werden im pädagogisch - diagnostizierenden<br />

Handeln unterschieden?<br />

• Wie konstruiert man pädagogisch-diagnostische Messinstrumente?<br />

• Welche Qualitätskriterien sollten solche Messinstrumente erfüllen?


„Messen ist die Bestimmung der Ausprägung einer Eigenschaft eines<br />

(Mess-) Objektes (Gegenstand, Ereignis, Person, Situation,<br />

Beurteilungssachverhalt) und erfolgt durch eine Zuordnung von Zahlen zu<br />

Messobjekten.“<br />

Orth 1995<br />

Messwerte sind immer eine Vergröberung und Vereinfachung einer<br />

differenzierten Beobachtung, die eine Vergleichbarkeit von Beobachtungen erst<br />

ermöglicht<br />

<strong>Methoden</strong> des Messens: - Tests<br />

- Verhaltensbeobachtung<br />

- Gespräch und Interview


Pädagogische Tests<br />

• Erhebung diagnostischer Informationen über den Einsatz von Tests<br />

und Fragebögen<br />

• besonders standardisierte Form der Informationsgewinnung, bei der der<br />

Proband Fragen oder Aufgaben schriftlich bearbeitet<br />

• Standardisierung: Erhöhung der Objektivität eines Leistungstests &<br />

Minimierung der Fehleranfälligkeit beim Feststellen eines individuellen<br />

Leistungsstandes


„Ein Test ist ein systematisches und routinemäßig einsetzbares<br />

Verfahren zur Messung definierter Ausschnitte menschlichen<br />

Verhaltens. Die Messung wird verwendet, um den Grad der<br />

Ausprägung einer sogenannten Eigenschaft, Fähigkeit oder<br />

Fertigkeit festzustellen oder/und um zukünftiges Verhalten<br />

vorherzusagen.“ (Hasselhorn & Gold 2006)<br />

Übersicht standardisierter pädagogischer Tests:<br />

u.a. „Brickenkamp Handbuch psychologischer und pädagogischer Tests“<br />

(Brähler,Holling,Leutner & Petermann 2002) sowie in der Reihe<br />

„Tests und Trends der pädagogisch-psychologischen Diagnostik“


Was bedeutet Standardisierung ?<br />

• Einhaltung spezieller Standards bei Entwicklung & Anwendung der Tests,<br />

um Gefahr eines Messfehlers möglichst gering zu halten<br />

• minimalste Voraussetzung von Standardisierung:<br />

formelle Festlegung der Art der Testdurchführung<br />

• Festlegung von Bewertungsnormen, auf deren Basis die individuellen<br />

Leistungen eingeordnet werden können (Hasselhorn & Gold 2006)<br />

Was sind Bezugs-/Bewertungsnormen ?<br />

• Bezugsnorm ( engl. reference norm): Standard, mit dem Resultat verglichen<br />

wird, wenn man es als Leistung wahrnehmen und bewerten will<br />

(Heckhausen 1974)<br />

• Soziale Bezugsnorm, Individuelle Bezugsnorm, kriteriale Bezugsnorm


Um Standardisierung im engeren Sinne zu gewährleisten:<br />

LUKESCH 1998: 5 Schritte der Testkonstruktion<br />

Vorerprobung<br />

Ist der Test durchführbar?<br />

Sind die Aufgaben verständlich & eindeutig formuliert?<br />

Testdurchführung an einer kleinen Stichprobe<br />

Sind die Aufgaben angemessen?<br />

Ist der Schwierigkeitsgrad realistisch?<br />

Aufgaben- und Testanalyse<br />

Wie streuen sich die Aufgabenschwierigkeiten?<br />

(-> empfehlenswert sind Tests, bei denen die Aufgabenschwierigkeit<br />

zwischen 0,2 –jeder 5. kennt die richtige Lösung- und 0,8 -4 von 5<br />

Personen kennen die richtige Lösung- liegt)


Testvalidierung<br />

Misst der Test, was er messen soll? (Validität) => Stimmt das Testergebnis<br />

mit der sonstigen Leistung des Schülers im getesteten Fach überein?<br />

Bsp.: DEMAT 3+ ergab einen statistischen Zusammenhang von r= - 0.61 zwischen<br />

Testleistung in Punkten und Mathematiknote = Schüler, die hohen Punktwert im<br />

Test erreichen (gut abschneiden), haben numerisch kleinere Noten in Mathematik<br />

Testeichung/ Normierung<br />

Wie ist die erreichte Einzelleistung in einer vergleichbaren Gruppe<br />

einzuordnen?<br />

Testdurchführung an großer & repräsentativer Stichprobe, um Vergleichsmaßstab<br />

zu generieren, der Grundlage für spätere Bewertung von Einzelleistungen<br />

bildet (Bsp.: IQ-Normierung: mittlere Leistung = Punktwert 100)


Und wie konstruiere ich als Lehrer ein formelles Testverfahren?<br />

1. Definition des Curriculums<br />

- Curriculum ist ein Entwurf, das Aussagen über die<br />

angestrebten Ziele, Inhalte sowie über die Lernbedingungen,<br />

Medien, <strong>Methoden</strong> & Evaluationsverfahren macht<br />

- Evaluationsverfahren beziehen sich dabei auf die Verfahren,<br />

mit deren Hilfe Lehr-Lern-Prozesse überprüft werden<br />

- Curricula sind zumeist von Ministerien vorgegeben


<strong>2.</strong> Operationalisierung<br />

- Wie kann eine Erfassung der Lehr-Lern-Ziele erreicht werden ?<br />

- Ausdruck-> mdl. Ausdruck; schriftl. Ausdruck; Zeichnung; Mimik; Gestik<br />

- Spiel, Gespräch, Fragebogen, Test, Beobachtung…<br />

- Soll ein Testverfahren für den gesamten Inhalt des Curriculums entwickelt<br />

werden oder sollen für Teilaspekte spezifische Verfahren entwickelt werden?<br />

Global- vs. Skalenebene<br />

- Bsp.: Ermittelt man mit nur einem Verfahren die Ausprägung eines Merkmals<br />

(Rechtschreibfähigkeit) & nicht mit einzelnen Skalen, kann man keine<br />

Rückschlüsse auf Stärken & Schwächen des Schülers ziehen


3. Ableitung einer geeigneten Aufgabenform<br />

Welches ist die geeigneteste Form der Überprüfung?<br />

-> Möglichkeiten: Multiple-Choice-Test, Ergänzungsaufgaben …<br />

4. Ableitung von Items<br />

Welche Regeln & Konstruktionsschritte werden angewendet, um aus<br />

allgemeinen Überlegungen heraus, Items abzuleiten?<br />

Operationale Definition: bezieht sich auf den Vorgang, dass eine Sache<br />

dadurch definiert werden kann, dass eine Prozedur angegeben wird, mit<br />

deren Hilfe die Sache erfasst werden kann (Jäger 2000)<br />

- Bsp.: mit Hilfe eines Intelligenztests wird Intelligenz operationalisiert


5. Empirische Überprüfung an Analysestichprobe<br />

6. Itemrevision (wenn Items zu schwer)<br />

7. Erhebung von Vergleichsdaten<br />

(Wie viele Schüler haben eine vergleichbare Leistung erreicht?)<br />

8. Gewinnung von Daten zur Objektivität, Reliabilität & Validität<br />

Bsp.: Inhalts-Validität: Wenn z.B. bei Schüler und Schülerinnen der 7.<br />

Klassenstufe mit Hilfe eines Geometrietests die Fähigkeit erfasst<br />

werden soll, Spiegelungen zu erfassen, muss gefragt werden, ob<br />

Spiegelungen Teil des Curriculums dieser Klassenstufe sind.


• Ausmaß der Standardisierung…<br />

Formelle Tests<br />

- basieren auf spezifischer Testtheorie<br />

- hohes Maß an Standardisierung bei Testdurchführung, Testauswertung &<br />

Interpretation<br />

- an umfangreichen Stichproben geeicht (normiert), um Vergleichbarkeit der<br />

Position eines Individuums zu sichern<br />

Informelle Tests<br />

- für aktuelle Testzwecke zusammengestellte Instrumente<br />

- nicht geeicht, können aber dennoch auf einer Testtheorie basieren<br />

- Sonderform: Lernzielorientierte Tests (Klauer 1987)


• Bezug beim Vergleich von Testergebnissen…<br />

Normorientierte Tests<br />

- verwenden eine soziale Bezugsnorm<br />

- verwenden eine soziale Bezugsnorm<br />

- dienen dem Vergleich einer getesteten Person mit einer Gruppe<br />

vergleichbarer Personen<br />

- z.B. klassische Intelligenztests


Kriteriumsorientierte Tests<br />

-verwenden kriteriale Bezugsnorm<br />

- dienen dem Vergleich einer getesteten Person mit einem zuvor & unabhängig<br />

von anderen Personen festgelegten Kriterium<br />

- zu testende Personen sollen möglichst gut in der Umgebung des Kriteriums<br />

(z.B. Lernziel) voneinander unterscheidbar sein<br />

Lerntests<br />

- verwenden individuelle Bezugsnorm<br />

- dienen dem Vergleich einer getesteten Person mit einem Testergebnis<br />

derselben Person zu einem früheren Zeitpunkt<br />

- bergen die Gefahr, dass stabile Leistungsunterschiede zwischen Schülern<br />

ausgeblendet werden


• Art der zugrunde liegenden Testtheorie…<br />

Klassisch konstruierte Tests<br />

- basieren auf klassischer Testtheorie -> Antwort des Probanden spiegelt<br />

wahren Wert (tatsächliche Ausprägung der zu erfassenden<br />

Eigenschaft) & Messfehler wider<br />

- Ziel der Testkonstruktion ist hohe Trennschärfe/Reduzierung des<br />

Messfehlers


Wie interpretiere ich erhaltene Testwerte?<br />

Grundbegriffe:<br />

Rohwert = Anzahl richtig gelöster Aufgaben im Test<br />

- Rohwerte allein geben das Leistungsvermögen einer Person nicht<br />

wirklich wider


Prozentrangnormen<br />

- um zu Prozentrangnormen zu gelangen, fasst man die Rohwerte zu<br />

Rohwertklassen zusammen, die jeweils gleiche Prozentanteile in der<br />

Gesamtverteilung der Rohwerte ausmachen<br />

- der Prozentrang gibt an, wie viel Prozent der Eichstichprobe genau so<br />

viele oder noch weniger Testitems richtig gelöst haben<br />

- Bsp.: PR=60 60 % der Personen der Eichstichprobe haben genau<br />

so viele oder weniger Testitems richtig gelöst<br />

- Normalverteilungsannahme fehlt hier aber !


Ein Lehrer kann daran sehen, dass ein Schüler bzw. eine Schülerin mit<br />

einem Testrohwert von 75 Punkten im Prozentrangband 73-89 liegt.<br />

Das heißt, die Testleistung ist mindestens gleich gut oder besser als<br />

die von 73% der Gruppe der Zweitklässler und höchstens gleich gut<br />

oder schlechter als die von 89%.<br />

In diesem Bereich liegt der „wahre Wert“ des Schülers


• Vorteil Prozentränge: Anschaulichkeit<br />

• Nachteil Prozentränge: im Gegensatz zu Standardnormen sind<br />

Prozentränge nur ordinal-, nicht aber<br />

intervallskaliert<br />

-> Man kann also nicht sagen, dass der "Abstand„ zwischen den<br />

Prozenträngen 50 und 70 genauso groß ist wie der zwischen<br />

den Prozenträngen 70 und 90


• Warum nicht normalverteilt?<br />

-> weil in Stichproben fast immer Verzerrungen auftreten<br />

• daher Umwandlung der Prozentränge in T-Werte (Standardisierung)<br />

• Bei der Interpretation der Normwerte ist darauf zu achten, dass der ermittelte<br />

• Bei der Interpretation der Normwerte ist darauf zu achten, dass der ermittelte<br />

Normwert eine Schätzung des wahren Wertes darstellt, für die das<br />

entsprechende Vertrauensintervall berücksichtigt werden muss.<br />

Dieses Vertrauensintervall gibt an, in welchem Bereich (Intervall) der wahre<br />

Wert mit einer bestimmten Wahrscheinlichkeit liegt.


• Normwert = Position einer getesteten Person im Maßstab der<br />

Eichstichprobe (T-Werte, Z-Werte und IQ-Werte)<br />

- Normwerte durch die Eichung des Tests zur Verfügung: auf<br />

Grund der mittleren Leistung & der Verteilung einer<br />

Eichstichprobe lässt sich jedem Rohwert ein Normwert<br />

zuordnen


WS 09/10:Diagnostik und Evaluation


WS 09/10:Diagnostik und Evaluation


Verhaltensbeobachtungen<br />

„Beobachtung ist das grundlegende Verfahren der empirisch forschenden<br />

Sozialwissenschaften und der Erziehungswissenschaften.“ (Roth 2001)<br />

- umfasst jegliche Form der Beobachtung einer Person in realen und simulierten<br />

Situationen (Bsp. Reale Situation- Unterricht; Bsp. Simulierte Situation-<br />

Rollenspiel)<br />

Bsp.: Ein Lehrer geht über den Schulhof. Er schaut eher zu, als das er beobachtet.<br />

Das heißt, würde man ihn nach seinem Spaziergang nach Häufigkeit & Schwere<br />

aggressiver Handlungen, Gesprächskontakten zwischen Mädchen & Jungen der 5.<br />

& 6. Klassenstufe o.Ä. fragen, wäre er überfragt.


Qualität einer Verhaltensbeobachtung ist abhängig vom<br />

Kategoriensystem zur Protokollierung des beobachteten Verhaltens &<br />

vom Training des Beobachters, damit grundlegende<br />

Beobachtungsfehler vermieden werden können<br />

Naive Beobachtung systematische/wissenschaftliche Beobachtung<br />

Die Lehrkraft sollte in Beobachtungsbögen, Gutachten usw. nicht nur<br />

zum Verhalten des Schülers Stellung nehmen, sondern auch<br />

Rückschlüsse auf Charaktermerkmale ziehen & Prognosen über die<br />

künftige Entwicklung stellen


Dabei hat sie folgende Möglichkeiten der wissenschaftlichen<br />

Beobachtung:<br />

• unsystematische & systematische Beobachtung<br />

• nicht-teilnehmende & teilnehmende Beobachtung<br />

• Beobachtung von Ereignis- & Zeitstichproben


Gefahr von Beobachtungsfehlern<br />

- Beobachtungsfehler = Fehler, die mit begrenztem Vermögen bzw.<br />

fehlendem Willen des Beobachters zu tun haben<br />

(geringe Sorgfalt, Langeweile, Müdigkeit, Unvertrautheit mit der<br />

Situation der Leistungsbeurteilung)<br />

- Nicht alle für das Urteil relevanten Verhaltensweisen werden<br />

wahrgenommen


Gefahr von Beurteilungsfehlern<br />

Typische Beurteilungsfehler (Hasselhorn & Gold 2006):<br />

Mildeeffekt:<br />

Voreingenommenheit führt zu positiverer Beurteilung einer Person<br />

Großzügigkeitsfehler:<br />

Alle Personen werden günstiger beurteilt als angemessen-Bezug<br />

zur sachlichen Norm (kriteriale Norm) ist verlorengegangen<br />

Halo- oder Hofeffekte:<br />

Urteil wird von einer markanten Eigenschaft der zu beurteilenden<br />

Person (Aussehen, Mundart) beeinflusst. Verzerrung des Urteils<br />

kann sich zu Gunsten als auch zu Ungunsten der zu<br />

beurteilenden Person auswirken


Logischer Fehler:<br />

Fälschliche Annahme über Zusammenhang zweier Merkmale<br />

beeinflusst das Urteil Lehrer glaubt, dass viele<br />

Rechtschreibfehler die Folge geringer Intelligenz seien<br />

Tendenz zur Mitte:<br />

Manche Urteiler meiden extreme Urteile, was zur Folge hat, dass sie<br />

nur mittlere Bewertungen (z.B. nur Zensuren zwischen 2 und 4)<br />

abgeben.<br />

Tendenz zu extremen Urteilen


VIELEN DANK FÜR IHRE AUFMERKSAMKEIT !!<br />

Das nächste Mal: … hören wir REFERAT 1

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!