Teil I - Universität Witten/Herdecke
Teil I - Universität Witten/Herdecke
Teil I - Universität Witten/Herdecke
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Querschnittsfach Q 1<br />
„Medizinische Biometrie<br />
und Epidemiologie“<br />
(<strong>Witten</strong>, Sommersemester 2011)<br />
Institut für Medizinische Biometrie und Epidemiologie (IMBE)<br />
Fakultät für Gesundheit der <strong>Universität</strong> <strong>Witten</strong>/<strong>Herdecke</strong><br />
Alfred Herrhausen-Straße 50<br />
D-58453 <strong>Witten</strong><br />
Tel. (02302) 926 760 Fax: (02302) 926 701<br />
Frank.Krummenauer@uni-wh.de<br />
IMBE
Vorlesung am 01. April<br />
1. Beschreibende Statistik<br />
Exkurs: Umsetzung in SPSS ®<br />
2. p-Werte: Signifikanz und Relevanz<br />
3. Übersicht: Signifikanztests<br />
Exkurs: Umsetzung in SPSS ®<br />
4. Anwendungen – Methodenwahl<br />
5. Konfidenzintervalle<br />
6. Fallzahlplanung<br />
7. Übungen: Alte Klausuren<br />
8. Gliederung einer Doktorarbeit<br />
9. Kriterien bei Suche nach derselben
Praktikum (Raum 1.156):<br />
1. Technische Einführung in SPSS ®<br />
Projekt 1: Promotion Isabel Körner<br />
2. Projekt 2: Promotion Marco Roden<br />
3. Projekt 3: Promotion Isabelle Warlo<br />
drei Praktikumsgruppen:<br />
A 03.05. 13.00 – 14.30<br />
04.05. 09.00 – 12.00<br />
B 24.05. 13.00 – 14.30<br />
25.05. 09.00 – 12.00<br />
C 15.06. 13.00 – 14.30<br />
16.06. 09.00 – 12.00<br />
Einteilung: Dr. Kirsten Gehlhar<br />
(Studiendekanat)
Leistungsnachweis:<br />
a) schriftliches Testat am 12.07.2011<br />
b) <strong>Teil</strong>nahme am SPSS-Praktikum<br />
Bestehen:<br />
15 von 25 Punkten im Testat<br />
Note des Leistungsnachweises:<br />
„sehr gut“ 22.5 – 25.0<br />
„gut“ 20.0 – 22.0<br />
„befriedigend“ 17.5 – 19.5<br />
„ausreichend“ 15.0 – 17.0<br />
„see you again“ < 15.0
Seminar am 12.07.2011:<br />
1. Testat<br />
2. Projektmanagement<br />
3. Dissertationen parametrisieren<br />
4. Training: Datensatz aufbauen<br />
Abend-Seminar am 22./23.02.2011:<br />
Medizinische Informatik<br />
Referent: Prof. Dr. Thomas Ostermann<br />
(Lehrstuhl Komplementärmedizin)
Seminar am 23.02.2011:<br />
1. Studiendesigns<br />
2. Erstellen eines Ethik-Antrags<br />
3. Evidenzbasierte Medizin<br />
4. Leitlinien<br />
5. Meta-Analysen<br />
Referent: PD Dr. Stefan Sauerland<br />
Institut für Qualität und<br />
Wirtschaftlichkeit in Gesundheitswesen<br />
(IQWiG)
Mögliche Literatur<br />
(subjektive Auswahl)<br />
M Stapff: Arzneimittelstudien. Zuckerschwerdt<br />
Verlag<br />
M Schumacher, G Schulgen: Methodik<br />
Klinischer Studien. Springer Verlag<br />
F Krummenauer: Grundlagen der Medizinischen<br />
Biometrie – eine Anleitung zur Auswertung<br />
und Publikation Klinischer Daten. Shaker<br />
Verlag<br />
RH Fletcher, SW Fletcher, EH Wagner: Klinische<br />
Epidemiologie (Übersetzung von Härting und<br />
Rink). Ullstein Medical Verlag<br />
DG Altman. Practical Statistics for Medical<br />
Research. Chapman & Hall Verlag
Tabellen und Graphiken<br />
in Manuskripten<br />
Wann was anwenden???
Beschreibende Statistik<br />
Zentrale Frage:<br />
Wie wurden die klinischen Größen erhoben?<br />
(Skalenniveau)<br />
a) kategorial: wenige Ausprägungen<br />
Beispiele:<br />
TEP-Lockerungszeichen ? „ja / nein“<br />
Schmerzstärke ? „stark / mittel / schwach“<br />
Arthrosegrad ? „I / II / III / IV“<br />
b) kontinuierlich (stetig): mit Einheit<br />
Beispiele:<br />
Blutdruck [mmHg]<br />
Kosten [€]<br />
Schmerzstärke in visueller Skala [0-10 P.]<br />
Anzahl vorheriger OPs [ ]
Lagemaße für stetige Daten<br />
2, 3, 7, 9, 14 85<br />
Mittelwert: Summe / Anzahl<br />
x = 35 / 5 = 7 x = 120 / 6 = 20<br />
Median: Zentrum der sortierten Messreihe<br />
x ˜ = 7 x ˜ = (7 + 9) / 2 = 8<br />
Mittelwert reagiert „empfindlich“ auf Ausreißer!<br />
Mittelwert� Median Median Mittelwert
Mögliche Konsequenz beim Gruppenvergleich:<br />
Mittelwertabstand<br />
Placebo Verum<br />
Mittelwertabstand<br />
Placebo Verum<br />
Medianabstand<br />
Im Zweifelsfall über Mediane argumentieren!!!
Grundidee der Standardabweichung:<br />
x<br />
x<br />
x<br />
�<br />
�<br />
�<br />
x<br />
x<br />
s umfasst 68% der Messwerte<br />
2s 95%<br />
3s 99%<br />
x-s x x+s<br />
s x groß<br />
s x klein<br />
Aber: Nur bei gaußverteilten Zielgrößen!!!<br />
-s +s<br />
x<br />
x-s x+s
Median: teilt Beobachtungen 50% : 50% auf<br />
Quartile: teilen Beobachtungen 25%,...,25% auf<br />
_______________________________________<br />
| | | | |<br />
Min Median<br />
Max<br />
Q 1<br />
Minimum: 0 %<br />
Quartil Q 1 : 25 %<br />
Median: 50 %<br />
Quartil Q 3 : 75 %<br />
Maximum: 100 %<br />
1, 2, 3, 4, 5, 6, 7, 8, 9, 10<br />
Median: 5.5<br />
Q 1 : 3<br />
Q 3 : 8<br />
Quartile<br />
Interquartilspanne: (3 ; 8)<br />
Q 3
Boxplots<br />
Maximum<br />
Q 3<br />
x~<br />
Q 1<br />
Minimum<br />
Lesenanleitung:<br />
Boxplot<br />
50%<br />
Zentrale<br />
Messwerte
Forcierte Vitalkapazität [l]<br />
5,0<br />
4,5<br />
4,0<br />
3,5<br />
3,0<br />
2,5<br />
2,0<br />
1,5<br />
1,0<br />
,5<br />
0,0<br />
7<br />
Datenbasis: 2769 Schulkinder<br />
8<br />
9<br />
10<br />
11<br />
Alter [Jahre]<br />
12<br />
13<br />
14<br />
Jungen<br />
Mädchen
Forcierte Vitalkapazität [l]<br />
Fluoridkonzentration im Urin [mg/l]<br />
5,0<br />
4,5<br />
4,0<br />
3,5<br />
3,0<br />
2,5<br />
2,0<br />
1,5<br />
1,0<br />
,5<br />
0,0<br />
2,5<br />
2,0<br />
1,5<br />
1,0<br />
,5<br />
0,0<br />
-,5<br />
7<br />
7<br />
Datenbasis: 2769 Schulkinder<br />
8<br />
9<br />
10<br />
11<br />
Alter [Jahre]<br />
12<br />
13<br />
(Datenbasis: 2769 Schulkinder)<br />
8<br />
9<br />
10<br />
11<br />
Alter [Jahre]<br />
12<br />
13<br />
14<br />
14<br />
Jungen<br />
Mädchen<br />
Jungen<br />
Mädchen
Gesamtkosten beidseitiger LASIK<br />
6000<br />
5000<br />
4000<br />
3000<br />
2000<br />
1000<br />
0<br />
N =<br />
34<br />
Mainz<br />
LASIK-Zentrum<br />
120<br />
Mannheim<br />
Boxplot: Wunderwaffe zum Vergleich<br />
mehrerer Messreihen<br />
Sondereinstellungen (SPSS 16.0):<br />
Ausreisser: Abstand vom Median<br />
> 2 x Interquartilabstand<br />
Extremwerte: Abstand vom Median<br />
> 3 x Interquartilabstand
Tonometrie (Dissertation Kathrin Specht):<br />
Frage:<br />
Abweichung des TGDc-01 von der Goldmann-<br />
Tonometrie als Goldstandard?<br />
Klinischer Endpunkt:<br />
Abweichung im Augeninnendruck [mmHg]<br />
Patientengut:<br />
68 rechte Augen von Glaukompatienten
IOD [mmHg]<br />
55<br />
50<br />
45<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
N =<br />
68<br />
TGDc-01<br />
68<br />
Goldmann
pro Auge: intraindividuelle Abweichung<br />
Abweichung TGDc - Goldmann [mmHg]<br />
D = 24 mm – 19 mm = 5 mmHg<br />
D = 31 mm – 39 mm = –8 mmHg<br />
....<br />
4<br />
2<br />
0<br />
-2<br />
-4<br />
-6<br />
-8<br />
-10<br />
N =<br />
68
IOD [mmHg]<br />
Tabellarische Darstellung (Vorschlag):<br />
Median (Q 1 –Q 3 ) min – max<br />
TGDc-01 22 (13 ; 30) 2 ; 42<br />
Goldmann 23 (14 ; 31) 2 ; 52<br />
Abweichung -1 (-3 ; 0) -9; +4<br />
55<br />
50<br />
45<br />
40<br />
35<br />
30<br />
25<br />
20<br />
15<br />
10<br />
5<br />
0<br />
N =<br />
68<br />
TGDc-01<br />
68<br />
Goldmann<br />
Abweichung TGDc - Goldmann [mmHg]<br />
4<br />
2<br />
0<br />
-2<br />
-4<br />
-6<br />
-8<br />
-10<br />
N =<br />
68
a) numerisch<br />
x~<br />
Zusammenfassung:<br />
Deskription stetiger Daten<br />
immer<br />
Q1 ,Q3 immer<br />
min., max. immer<br />
x<br />
s x<br />
Gaußglocke<br />
Gaußglocke<br />
Persönliche Empfehlung:<br />
• Alles angeben<br />
• Inferenzen über Quartile und Mediane<br />
b) graphisch<br />
-s +s<br />
• Boxplots bei interindividuellen Vergleichen<br />
• Differenzen zur Baseline abtragen bei<br />
intraindividuellen Vergleichen<br />
x<br />
-s +s<br />
x
Keine Antennenbildchen !!!<br />
Mittelwert +/- Standardabweichung<br />
10<br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
10<br />
9<br />
8<br />
7<br />
6<br />
5<br />
4<br />
3<br />
2<br />
1<br />
0<br />
Messreihle 1 Messreihle 2<br />
Messreihe 1 Messreihe 2
time to event-Daten<br />
Zielgröße: Zeitspanne bis zum Eintritt eines<br />
klinisch relevanten Ereignisses.<br />
Beispiele:<br />
• Vergleich zweier TEP-Design<br />
(Zeitspanne bis Wechsel der TEP)<br />
• Vergleich der Nachstarneigung zweier IOLs<br />
(Zeitspanne seit OP bis Kapsulotomie)<br />
• Vergleich der Wirksamkeitsdauer antiretrovir. Th.<br />
(Zeitspanne seit Medikationstart bis Resistenz)<br />
Idee: Abtragen der Zeitspanne unter<br />
Beobachtung in der Studie<br />
Kaplan / Meier:<br />
Anteil Patienten (%), die nach einer Zeitspanne<br />
unter Beobachtung kein Ereignis gezeigt haben<br />
(„Überlebenswahrscheinlichkeit“)
100 %<br />
50 %<br />
•<br />
•<br />
•<br />
• • ••<br />
•<br />
1 Jahr 2 Jahre<br />
Zeitspanne<br />
Faustregel: Je höher die Kurve, desto<br />
besser die Prognose.
100 %<br />
50 %<br />
•<br />
•<br />
•<br />
• • ••<br />
•<br />
1 Jahr 2 Jahre<br />
Zeitspanne<br />
Faustregel: Je höher die Kurve, desto<br />
besser die Prognose.<br />
Nachstar-Freiheitsrate<br />
1,0<br />
,9<br />
,8<br />
,7<br />
,6<br />
,5<br />
,4<br />
,3<br />
,2<br />
,1<br />
0,0<br />
0<br />
5<br />
10<br />
15<br />
20<br />
25<br />
30<br />
Zeitspanne seit Implantation [Monate]<br />
35<br />
40<br />
rund<br />
scharfkantig
Lagemaße für kategoriale Zielgrößen<br />
- absolute Häufigkeiten (n)<br />
- sinnvolle relative Häufigkeiten (%)<br />
Komp ?<br />
Des. 1<br />
Des. 2<br />
Kompl. ?<br />
Design 1<br />
Design 2<br />
ja<br />
27<br />
16<br />
nein<br />
95<br />
58<br />
ja<br />
14 %<br />
8 %<br />
nein<br />
48 %<br />
30 %<br />
Komp ?<br />
Des. 1<br />
Des. 2<br />
22 %<br />
22 %<br />
falsch!<br />
nein<br />
78 %<br />
78 %<br />
Empfehlung:<br />
- Zeilenvariable = kausale Einflussgröße<br />
- Zeilenprozente angeben<br />
- n < 300 => Prozente ganzzahlig angeben<br />
- graphische Darstellung: Balkendiagramm<br />
ja
Absolutes und Relatives Risiko<br />
Komplik. ? ja nein<br />
Design 1 40 % 60 %<br />
Design 2 20 % 80 %<br />
Absolutes Risiko = 40 % – 20 % = 20%<br />
40%<br />
Relatives Risiko = = 2.00<br />
20%<br />
= 1 + 100 %<br />
� ������ "Risikoerhöhung"<br />
Bei Versorgung mit Design 1 ist das Risiko<br />
einer Komplikation um 100 % erhöht<br />
(„verdoppelt“) gegenüber einer<br />
Versorgung mit Design 2.
Absolutes und Relatives Risiko<br />
Komplik. ? ja nein<br />
Design 1 40 % 60 %<br />
Design 2 20 % 80 %<br />
Was bedeutet ein RR < 1 ???<br />
20%<br />
Relatives Risiko = = 0.50<br />
40%<br />
= 1 –50%<br />
� ������ "Risikosenkung"<br />
Bei Versorgung mit Design 2 ist das Risiko<br />
einer Komplikation um 50 % gesenkt<br />
(„halbiert“) gegenüber einer Versorgung<br />
mit Design 1.
Vorsicht vor dem relativen Risiko!!!<br />
Thrombose? ja nein<br />
Verum 0.9 % 99.1 %<br />
Placebo 1.5 % 98.5 %<br />
0.9 %<br />
Relatives Risiko = = 0.60 = 1 – 0.40<br />
1.5 %<br />
= 1 – 40%<br />
� ������ "Risikosenkung"<br />
Unter Verum ist das relative Risiko einer<br />
Thrombose um 40 % gesenkt gegenüber<br />
Placebo.
Zusammenfassung: Deskription<br />
Tabellen Graphiken<br />
kategorial Zeilenprozente Balkendiag.<br />
stetig Mediane<br />
Quartile<br />
time to event Mediane<br />
Quartile<br />
Boxplots<br />
KM-Kurven
Statistik versus Klinik<br />
Ein Widerspruch ???
p-Werte<br />
Wie sicher kann ein Studienergebnis auf<br />
andere Patienten übertragen werden?<br />
Realität<br />
Studie<br />
α-Fehler:fälschlicherweises Übertragen eines Studienergebnisses<br />
auf die Realität<br />
p-Wert: Wahrscheinlichkeit des α -Fehlers aufgrund der<br />
eigenen Studiendaten<br />
Signifikanzniveau α: maximal tolerable Schranke für die<br />
Wahrscheinlichkeit eines α-Fehlers<br />
zu fordern: p � α
� �<br />
Grundidee:<br />
p-Wert sehr klein<br />
� α-Fehler sehr unwahrscheinlich<br />
� „statistisch gesicherte“ Folgerungen aus<br />
der Studie<br />
Frage:<br />
Regel:<br />
Ab wann ist ein p-Wert „sehr klein“?<br />
p α � hinreichend klein<br />
p α � zu groß<br />
MERKE:<br />
"statistisch signifikant“<br />
=<br />
abgesichert gegen falsche Rückschlüsse
Tonometrie (Dissertation Kathrin Specht):<br />
Vergleich Goldmann-Tonometer mit Tono-Pen<br />
p-Wert (Vorzeichentest): p < 0.001<br />
Entscheidung: p < α = 0.05<br />
also: statistisch signifikanter Unterschied
Median (Q 1 –Q 3 ) min – max<br />
TGDc-01 21 (13 ; 30) 2 ; 42<br />
Goldmann 23 (14 ; 31) 2 ; 52<br />
Abweichung -1 (-3 ; 0) -9; +4<br />
Abweichung TGDc - Goldmann [mmHg]<br />
4<br />
2<br />
0<br />
-2<br />
-4<br />
-6<br />
-8<br />
-10<br />
N =<br />
68
Tonometrie (Dissertation Kathrin Specht):<br />
mediane Abweichung: – 1 mmHg<br />
(TGDc-01 – Goldmann)<br />
p-Wert (Vorzeichentest): p < 0.001<br />
Entscheidung: p < α = 0.05<br />
also: statistisch signifikanter Unterschied<br />
aber: kein klinisch relevanter Unterschied<br />
Conclusio:<br />
Es gibt einen zum 5%-Niveau signifikanten<br />
Unterschied zwischen den Tonometern bei der<br />
Messung des IOD (p
Thrombose? ja nein<br />
Placebo 1.5 % 98.5 %<br />
Verum 0.9 % 99.1 %<br />
• jeweils 800 Patienten pro Studienarm<br />
• Fisher-Test: p = 0.033 < 0.05<br />
Conclusio:<br />
Es gibt eine zum 5%-Niveau signifikant<br />
geringere Thromboserate unter Verum<br />
gegenüber Placebo (p=0.033); konkret<br />
hat sich die Rate unter Verum auf 0.9%<br />
gegenüber 1.5% unter Placebo gesenkt.
Zusammenfassung: p-Wert<br />
p-Wert = Wahrscheinlichkeit, fälschlich<br />
Studienergebnisse zu übertragen<br />
p � α � „signifikante“ Studienergebnisse<br />
Beachte dabei:<br />
statistische Signifikanz � klinische Relevanz<br />
Ergebnisteil in Manuskripten etc:<br />
statistische Signifikanz: p-Wert<br />
klinische Relevanz: Mediane / Prozentzahlen
Problem des β-Fehlers<br />
α-Fehler = fälschliches Übertragen von<br />
Unterschied aus der Studie<br />
β-Fehler = fälschliches Übersehen von<br />
Unterschieden in der Studie<br />
CAVE:<br />
Der p-Wert sichert nur gegen den α-Fehler ab!!!<br />
Nicht-Signifikanz<br />
bedeutet keine Gleichwertigkeit !!!<br />
„… zeigte sich kein zum 5%-Niveau statistisch<br />
signifikanter Unterschied (p=0.096).“
Problem des multiplen Testens<br />
�<br />
�<br />
�<br />
p � 3monatiger Recall<br />
p � 6monatiger Recall<br />
p � 12monatiger Recall<br />
3 �<br />
Problem:<br />
Bei jedem Einzeltest ist ein α-Fehler möglich!<br />
Einfachste Lösung:<br />
Nur einen sogenannten „primären Endpunkt“!<br />
Keine unnötigen Zielparameter !!!
Ausweg: �-Korrektur (z.B. nach Bonferroni)<br />
�<br />
�<br />
p � /3<br />
p � /3<br />
�<br />
p � /3<br />
�<br />
Korrektur nach Bonferroni:<br />
�<br />
p �<br />
Anzahl p-Werte<br />
lokale Signifikanz: Einzeltests mit p < �<br />
multiple Signifikanz: Gesamtaussage<br />
multiple Signifikanz >> lokale Signifikanz !!!<br />
„… zeigten sich jeweils zum multiplen 5%-Niveau<br />
signifikante Unterschiede (p=0.023 und p
Beispiel 1<br />
• paarweiser Vergleich von 4 Therapien<br />
• Gesamtniveau 5%, insgesamt 6 p-Werte<br />
• Einzelvergleich mit p < 5% / 6 = 0.8 %<br />
also: lokale Signifikanz bei p < 5%<br />
multiple Signifikanz bei p < 0.8%
Beispiel 1<br />
• paarweiser Vergleich von 4 Therapien<br />
• Gesamtniveau 5%, insgesamt 6 p-Werte<br />
• Einzelvergleich mit p < 5% / 6 = 0.8 %<br />
also: lokale Signifikanz bei p < 5%<br />
multiple Signifikanz bei p < 0.8%<br />
Beispiel 2<br />
Risikofaktoren eines Bronchialcarcinoms<br />
Rauchen p=0.015 < 0.05<br />
Alter > 40 p=0.092 > 0.05<br />
Stadium III p=0.002 < 0.05<br />
Anamnese p=0.144 > 0.05<br />
Rauchen p=0.015 > 0.0125<br />
Alter > 40 p=0.092 > 0.0125<br />
Stadium III p=0.002 < 0.0125<br />
Anamnese p=0.144 > 0.0125<br />
Also: Nur das Stadium ist auch zum<br />
„multiplen Niveau“ 5% signifikant.
Zusammenfassung: p-Wert<br />
p-Wert = Wahrscheinlichkeit, fälschlich<br />
Studienergebnisse zu übertragen<br />
p � α � „signifikante“ Studienergebnisse<br />
Beachte dabei:<br />
statistische Signifikanz � klinische Relevanz<br />
nicht-Signifikanz � Äquivalenz<br />
primärer Endpunkt: es kann nur einen geben…<br />
Ergebnisteil in Manuskripten etc:<br />
statistische Signifikanz: p-Wert<br />
klinische Relevanz: Mediane / Prozentzahlen
Von Wilcoxon bis<br />
McNemar<br />
Irgendein Test passt immer …
Signifikanztests<br />
2 prinzipielle Unterscheidungskriterien:<br />
a) Wie ist die Zielgröße erfasst?<br />
stetig time to event binär<br />
b) Wie ist das Design der Studie?<br />
verbunden unverbunden<br />
(intraindividuell) (interindividuell)
stetig, verbunden<br />
Abweichung TGDc - Goldmann [mmHg]<br />
4<br />
2<br />
0<br />
-2<br />
-4<br />
-6<br />
-8<br />
-10<br />
N =<br />
Vorzeichentest (sign test):<br />
testet, ob viele intraindividuellen Differenzen<br />
gleiche Richtung (=gleiches Vorzeichen) zeigen<br />
68
stetig, verbunden<br />
Abweichung TGDc - Goldmann [mmHg]<br />
4<br />
2<br />
0<br />
-2<br />
-4<br />
-6<br />
-8<br />
-10<br />
N =<br />
Vorzeichentest (sign test):<br />
testet, ob viele intraindividuellen Differenzen<br />
gleiche Richtung (=gleiches Vorzeichen) zeigen<br />
68
stetig, unverbunden<br />
Gesamtkosten beidseitiger LASIK<br />
6000<br />
5000<br />
4000<br />
3000<br />
2000<br />
1000<br />
0<br />
N =<br />
34<br />
Mainz<br />
LASIK-Zentrum<br />
Wilcoxon-Test (Mann/Whithney test):<br />
vergleicht Lage zweier unverbundene Boxplots<br />
120<br />
Mannheim
time to event, unverbunden<br />
Nachstar-Freiheitsrate<br />
1,0<br />
,9<br />
,8<br />
,7<br />
,6<br />
,5<br />
,4<br />
,3<br />
,2<br />
,1<br />
0,0<br />
0<br />
5<br />
10<br />
15<br />
20<br />
Zeitspanne seit Implantation [Monate]<br />
Logrank-Test:<br />
vergleicht Lage zweier unverbund. KM-Kurven<br />
25<br />
30<br />
35<br />
40<br />
rund<br />
scharfkantig
inär, unverbunden<br />
Nachstar?<br />
ja nein<br />
Linse I 10 % 90 %<br />
Linse II 30 % 70 %<br />
Fisher-Test (Fisher‘s exact test):<br />
vergleicht zwei unverbundene Prozentzahlen
inär, verbunden<br />
Meniskus-<br />
Ruptur<br />
Radiologe II:<br />
ja<br />
McNemar-Test (test for symmetry):<br />
vergleicht zwei verbundene Häufigkeiten<br />
Radiologe II:<br />
nein<br />
Radiol. I: ja 37 % 24 %<br />
Radiol. I: nein 8 % 31 %<br />
• betrachtet „Asymmetrien“ auf Nebendiagonale<br />
• testet auf Tendenz in diskordanten Befunden
Zusammenfassung: Signifikanztests<br />
unverbunden verbunden<br />
stetig Wilcoxon Vorzeichen<br />
time to event Logrank<br />
binär Fisher McNemar
t-Test für unverbundene Stichproben<br />
vergleicht zwei unverbundene Mittelwerte<br />
t-Test für verbundene Stichproben<br />
vergleicht Mittelwert der Differenzen aus<br />
zwei verbundenen Messreihen mit „0“<br />
Differenzen<br />
Warnung vor dem t-Test<br />
nur anwendbar, wenn Mittelwerte sinnvoll !!!<br />
0
Zusammenfassung:<br />
Wann was verwenden?<br />
Tabelle Graphik<br />
Signif.-Test<br />
(p-Wert)<br />
kategorial Zeilenprozente Balkendiag Fisher<br />
McNemar*<br />
stetig Mediane*<br />
Quartile<br />
Zeitspanne Mediane<br />
Quartile<br />
Boxplots* Wilcoxon<br />
Vorzeichen*<br />
KM-<br />
Kurven<br />
Logrank<br />
*: bei intraindividuellen Vergleichen<br />
Mediane, Quartile und Boxplots der Differenzen!
Anwendungen<br />
Wann ist welche Methode sinnvoll ???<br />
Um die Effizienz der Hüft-TEP-Chirurgie<br />
beurteilen zu können, soll die Schnitt-<br />
Naht-Zeit als ein Maß der Kosten des<br />
Eingriffes (human ressources) für eine<br />
Orthopädische Klinik gemessen werden.<br />
Dazu werden die Schnitt-Naht-Zeiten<br />
[min] für alle Eingriffe des Jahres 2008 in<br />
den Orthopädien der <strong>Universität</strong>sklinika<br />
Dresden und Leipzig erhoben. Bei einer<br />
ersten deskriptiven Analyse zeigt sich, dass<br />
aufgrund von Komplikationen während<br />
einzelner Eingriffe merkliche Ausreißer in<br />
den Schnitt-Naht-Zeiten beider Kliniken<br />
auftreten.<br />
Konkret soll getestet werden, ob sich die<br />
beiden Kliniken hinsichtlich der Schnitt-<br />
Naht-Zeiten signifikant unterscheiden.
Im internen Qualitätsmanagement werden für<br />
das erste Quartal des Jahres 2009 an der<br />
Dresdner Orthopädie die Schnitt-Naht-<br />
Zeiten aller Hüft-TEP-Eingriffe bestimmt.<br />
Konkret soll getestet werden, ob sich<br />
diese gegenüber den Dresdner Schnitt-<br />
Naht-Zeiten des Jahres 2008 signifikant<br />
verändert haben.
In einem weiteren Schritt sollen die Schnitt-<br />
Naht-Zeiten der Dresdner Orthopädie mit<br />
entsprechenden Gesamtangaben einer<br />
privaten Klinik-Kette verglichen werden.<br />
Diese stellt jedoch keine Fall-basierten<br />
Daten zur Verfügung, sondern nur die<br />
mediane Dauer aller Eingriffe in den von<br />
ihr betriebenen Häusern aus dem Jahr<br />
2009.<br />
Nun soll getestet werden, ob die Dresdner<br />
Schnitt-Naht-Zeiten signifikant von dieser<br />
Sachsen-weiten benchmark abweichen.
Die Verbesserung der maximalen Gehstrecke [m]<br />
ist ein Surrogatmaß für die Wirksamkeit einer<br />
Rehabilitation nach Hüft-Totalendoprothetik. Für<br />
jeweils 40 Patienten wird eine vierwöchige<br />
Rehabilitation vorgenommen, wobei randomisiert<br />
eine Patientengruppe einer physiotherapeutischen,<br />
eine weitere einer kombiniert physio- und<br />
schmerztherapeutischen Intervention unterzogen<br />
wird. Eingeschlossen werden nur Patienten mit<br />
einer prä-interventionellen maximalen Gehstrecke<br />
unter 1000 m.<br />
Primärer Endpunkt dieser randomisierten Studie<br />
ist die post/prä-Änderung der maximalen<br />
Gangstrecke zum Zeitpunkt drei Monate nach<br />
Ende der Rehabilitation.<br />
Es soll nun geprüft werden, ob kombiniert physioschmerz-therapierte<br />
Patienten einen signifikant<br />
höheren Zuwachs in ihrer maximalen Gehstrecke<br />
haben als alleinig physiotherapierte Patienten.
Die Auswertung dieser jeweils 40 randomisierten<br />
Patienten wird im Rahmen von Zusatzanalysen<br />
noch erweitert: Es interessiert, ob durch die<br />
Rehabilitation die maximale Gehstrecke eines<br />
Patienten auf mindestens 1000 m angehoben<br />
werden konnte (Messung drei Monate nach Ende<br />
der Rehabilitation). In diesem Fall kann von<br />
einem klinisch relevanten Effekt der Intervention<br />
ausgegangen werden.<br />
Konkret soll geprüft werden, ob kombiniert<br />
therapierte Patienten signifikant häufiger einen<br />
klinisch relevanten Nutzen aus der Rehabilitation<br />
ziehen konnten als alleinig physiotherapierte<br />
Patienten.
Die jeweils 40 randomisierten Patienten werden<br />
einer maximal fünfjährigen Nachbeobachtung<br />
unterzogen mit jeweils halbjährlichem Recall. Es<br />
interessiert, ob bei einem der Recalls die<br />
maximale Gehstrecke eines Patienten wieder auf<br />
oder unter das Niveau vor Beginn der<br />
Rehabilitation gesunken ist.<br />
Konkret soll geprüft werden, ob kombiniert<br />
therapierte Patienten einen signifikant<br />
längerfristigen Nutzen hinsichtlich der maximalen<br />
Gehstrecke haben als alleinig physiotherapierte<br />
Patienten.
Im Rahmen der kieferorthopädischen Diagnostik<br />
und Therapiesteuerung wird oft die Strecke „Sella<br />
– Gonion“ [mm] als prognostisch relevanter<br />
Endpunkt verwendet. Deren Bestimmung erfolgt<br />
durch Ausmessung einer lateralen Fernröntgen-<br />
Aufnahme und ist sicher vom auswertenden<br />
Operateur bzw. dessen Erfahrungsgrad abhängig.<br />
Um das Ausmaß dieses möglichen „observer<br />
bias“ bewerten zu können, wird diese Strecke für<br />
jeden von 250 Patienten sowohl von einer<br />
Fachärztin als auch einer Assistenzärztin der<br />
Klinik für Kieferorthopädie vermessen.<br />
Nun soll geprüft werden, ob die Messergebnisse<br />
der Assistenzärztin signifikant von denen der<br />
Fachärztin abweichen („significant observerbias“).
Zähne und Augen<br />
Die Studien-Datensätze …
Dissertation Isabel Körner:<br />
„Klinische und ökonomische Evaluation<br />
der Inanspruchnahme zahnärztlicher<br />
Versorgung im Ausland“<br />
Datenbasis:<br />
57 Gutachten des MDK Rheinland-Pfalz<br />
(32 Versorgungen Türkei, 25 Osteuropa)<br />
klinische und ökonomische Zielgrößen:<br />
• Versorgungen mängelfrei [ja/nein]?<br />
• Kostenbilanz Ausland versus Inland [€]<br />
• Kostenbilanz incl. Mängelkorrektur [€]<br />
jeweils aus Patientenperspektive
Dissertation Marco Roden:<br />
„Prospektive benchmark-Studie zu klinischem<br />
Ergebnis und Kosteneffektivität der LASIK<br />
bei moderater Myopie“<br />
Datenbasis:<br />
33 Eingriffe in 2001 (Mainz)<br />
114 Eingriffe in 2001 (Mannheim)<br />
klinische und ökonomische Zielgrößen:<br />
• Komplikationsraten [%]<br />
• refraktiver Gewinn [D]<br />
• inkrementelle Kosten<br />
pro Dioptrie [€ / D]<br />
• visuelle Lebensqualität vor / nach LASIK<br />
[„gut“ / „schlecht“]
Dissertation Isabelle Warlo:<br />
„Vergleich der Rotationsstabilität von<br />
Intraokularlinsen mit C- und Z-Haptik bei<br />
Kataraktpatienten“<br />
primäre klinische Zielgröße:<br />
Rotation 3 Monate nach Implantation [Grad]<br />
Vermutung klinisch:<br />
C-Haptik: mediane Rotation 20 Grad<br />
Z-Haptik: mediane Rotation 10 Grad<br />
Quartilspanne jeweils 10 Grad<br />
klinisch relevanter Unterschied: 10 Grad
Zusammenfassende Empfehlung:<br />
Statistik in Manuskripten<br />
A) Methodenteil<br />
Bewertung von<br />
• statistischer Signifikanz<br />
• klinischer Relevanz<br />
Die Deskription kategorialer Endpunkte erfolgte<br />
mittels Zeilenprozenten sowie absolutem und<br />
relativem Risiko, die stetiger Endpunkte mittels<br />
Medianen und Quartilen (graphisch Boxplots).<br />
Zum Signifikanzvergleich von unverbundenen<br />
Messreihen wurden Wilcoxon- und Fisher-Tests<br />
(stetige bzw. kategoriale Endpunkte) verwendet,<br />
von verbundenen Messreihen Vorzeichentest-<br />
Tests.<br />
Ergebnisse der Tests werden mittels p-Werten<br />
zusammengefaßt, p≤0.05 wird als Indikator<br />
statistischer Signifikanz interpretiert.
Zusammenfassende Empfehlung:<br />
Statistik in Manuskripten<br />
B) Ergebnisteil<br />
Bewertung von<br />
• statistischer Signifikanz<br />
(p-Wert mit drei Nachkommastellen)<br />
• klinischer Relevanz<br />
(medianer / prozentualer Unterschied)<br />
„Unter Verum zeigte sich eine statistisch<br />
signifikante (p=0.013) Senkung des Blutdrucks<br />
um im Median 8 mmHg (Interquartilspanne 5 –<br />
12 mmHg).“<br />
„Das Risisko einer Komplikation ist ohne<br />
antibiotische Prophylaxe statistisch nicht<br />
signifikant (p=0.094) um 23% erhöht.“