Teil I - Universität Witten/Herdecke

Querschnittsfach Q 1 

„Medizinische Biometrie 

und Epidemiologie“ 

(Witten, Sommersemester 2011) 

Institut für Medizinische Biometrie und Epidemiologie (IMBE) 

Fakultät für Gesundheit der Universität Witten/Herdecke 

Alfred Herrhausen-Straße 50 

D-58453 Witten 

Tel. (02302) 926 760 Fax: (02302) 926 701 

Frank.Krummenauer@uni-wh.de 

IMBE

Vorlesung am 01. April 

1. Beschreibende Statistik 

Exkurs: Umsetzung in SPSS ® 

2. p-Werte: Signifikanz und Relevanz 

3. Übersicht: Signifikanztests 

Exkurs: Umsetzung in SPSS ® 

4. Anwendungen – Methodenwahl 

5. Konfidenzintervalle 

6. Fallzahlplanung 

7. Übungen: Alte Klausuren 

8. Gliederung einer Doktorarbeit 

9. Kriterien bei Suche nach derselben

Praktikum (Raum 1.156): 

1. Technische Einführung in SPSS ® 

Projekt 1: Promotion Isabel Körner 

2. Projekt 2: Promotion Marco Roden 

3. Projekt 3: Promotion Isabelle Warlo 

drei Praktikumsgruppen: 

A 03.05. 13.00 – 14.30 

04.05. 09.00 – 12.00 

B 24.05. 13.00 – 14.30 

25.05. 09.00 – 12.00 

C 15.06. 13.00 – 14.30 

16.06. 09.00 – 12.00 

Einteilung: Dr. Kirsten Gehlhar 

(Studiendekanat)

Leistungsnachweis: 

a) schriftliches Testat am 12.07.2011 

b) Teilnahme am SPSS-Praktikum 

Bestehen: 

15 von 25 Punkten im Testat 

Note des Leistungsnachweises: 

„sehr gut“ 22.5 – 25.0 

„gut“ 20.0 – 22.0 

„befriedigend“ 17.5 – 19.5 

„ausreichend“ 15.0 – 17.0 

„see you again“ < 15.0

Seminar am 12.07.2011: 

1. Testat 

2. Projektmanagement 

3. Dissertationen parametrisieren 

4. Training: Datensatz aufbauen 

Abend-Seminar am 22./23.02.2011: 

Medizinische Informatik 

Referent: Prof. Dr. Thomas Ostermann 

(Lehrstuhl Komplementärmedizin)

Seminar am 23.02.2011: 

1. Studiendesigns 

2. Erstellen eines Ethik-Antrags 

3. Evidenzbasierte Medizin 

4. Leitlinien 

5. Meta-Analysen 

Referent: PD Dr. Stefan Sauerland 

Institut für Qualität und 

Wirtschaftlichkeit in Gesundheitswesen 

(IQWiG)

Mögliche Literatur 

(subjektive Auswahl) 

M Stapff: Arzneimittelstudien. Zuckerschwerdt 

Verlag 

M Schumacher, G Schulgen: Methodik 

Klinischer Studien. Springer Verlag 

F Krummenauer: Grundlagen der Medizinischen 

Biometrie – eine Anleitung zur Auswertung 

und Publikation Klinischer Daten. Shaker 

Verlag 

RH Fletcher, SW Fletcher, EH Wagner: Klinische 

Epidemiologie (Übersetzung von Härting und 

Rink). Ullstein Medical Verlag 

DG Altman. Practical Statistics for Medical 

Research. Chapman & Hall Verlag

Tabellen und Graphiken 

in Manuskripten 

Wann was anwenden???

Beschreibende Statistik 

Zentrale Frage: 

Wie wurden die klinischen Größen erhoben? 

(Skalenniveau) 

a) kategorial: wenige Ausprägungen 

Beispiele: 

TEP-Lockerungszeichen ? „ja / nein“ 

Schmerzstärke ? „stark / mittel / schwach“ 

Arthrosegrad ? „I / II / III / IV“ 

b) kontinuierlich (stetig): mit Einheit 

Beispiele: 

Blutdruck [mmHg] 

Kosten [€] 

Schmerzstärke in visueller Skala [0-10 P.] 

Anzahl vorheriger OPs [ ]

Lagemaße für stetige Daten 

2, 3, 7, 9, 14 85 

Mittelwert: Summe / Anzahl 

x = 35 / 5 = 7 x = 120 / 6 = 20 

Median: Zentrum der sortierten Messreihe 

x ˜ = 7 x ˜ = (7 + 9) / 2 = 8 

Mittelwert reagiert „empfindlich“ auf Ausreißer! 

Mittelwert� Median Median Mittelwert

Mögliche Konsequenz beim Gruppenvergleich: 

Mittelwertabstand 

Placebo Verum 

Mittelwertabstand 

Placebo Verum 

Medianabstand 

Im Zweifelsfall über Mediane argumentieren!!!

Grundidee der Standardabweichung: 

x 

x 

x 

� 

� 

� 

x 

x 

s umfasst 68% der Messwerte 

2s 95% 

3s 99% 

x-s x x+s 

s x groß 

s x klein 

Aber: Nur bei gaußverteilten Zielgrößen!!! 

-s +s 

x 

x-s x+s

Median: teilt Beobachtungen 50% : 50% auf 

Quartile: teilen Beobachtungen 25%,...,25% auf 

_______________________________________ 

| | | | | 

Min Median 

Max 

Q 1 

Minimum: 0 % 

Quartil Q 1 : 25 % 

Median: 50 % 

Quartil Q 3 : 75 % 

Maximum: 100 % 

1, 2, 3, 4, 5, 6, 7, 8, 9, 10 

Median: 5.5 

Q 1 : 3 

Q 3 : 8 

Quartile 

Interquartilspanne: (3 ; 8) 

Q 3

Boxplots 

Maximum 

Q 3 

x~ 

Q 1 

Minimum 

Lesenanleitung: 

Boxplot 

50% 

Zentrale 

Messwerte

Forcierte Vitalkapazität [l] 

5,0 

4,5 

4,0 

3,5 

3,0 

2,5 

2,0 

1,5 

1,0 

,5 

0,0 

7 

Datenbasis: 2769 Schulkinder 

8 

9 

10 

11 

Alter [Jahre] 

12 

13 

14 

Jungen 

Mädchen

Forcierte Vitalkapazität [l] 

Fluoridkonzentration im Urin [mg/l] 

5,0 

4,5 

4,0 

3,5 

3,0 

2,5 

2,0 

1,5 

1,0 

,5 

0,0 

2,5 

2,0 

1,5 

1,0 

,5 

0,0 

-,5 

7 

7 

Datenbasis: 2769 Schulkinder 

8 

9 

10 

11 

Alter [Jahre] 

12 

13 

(Datenbasis: 2769 Schulkinder) 

8 

9 

10 

11 

Alter [Jahre] 

12 

13 

14 

14 

Jungen 

Mädchen 

Jungen 

Mädchen

Gesamtkosten beidseitiger LASIK 

6000 

5000 

4000 

3000 

2000 

1000 

0 

N = 

34 

Mainz 

LASIK-Zentrum 

120 

Mannheim 

Boxplot: Wunderwaffe zum Vergleich 

mehrerer Messreihen 

Sondereinstellungen (SPSS 16.0): 

Ausreisser: Abstand vom Median 

> 2 x Interquartilabstand 

Extremwerte: Abstand vom Median 

> 3 x Interquartilabstand

Tonometrie (Dissertation Kathrin Specht): 

Frage: 

Abweichung des TGDc-01 von der Goldmann- 

Tonometrie als Goldstandard? 

Klinischer Endpunkt: 

Abweichung im Augeninnendruck [mmHg] 

Patientengut: 

68 rechte Augen von Glaukompatienten

IOD [mmHg] 

55 

50 

45 

40 

35 

30 

25 

20 

15 

10 

5 

0 

N = 

68 

TGDc-01 

68 

Goldmann

pro Auge: intraindividuelle Abweichung 

Abweichung TGDc - Goldmann [mmHg] 

D = 24 mm – 19 mm = 5 mmHg 

D = 31 mm – 39 mm = –8 mmHg 

.... 

4 

2 

0 

-2 

-4 

-6 

-8 

-10 

N = 

68

IOD [mmHg] 

Tabellarische Darstellung (Vorschlag): 

Median (Q 1 –Q 3 ) min – max 

TGDc-01 22 (13 ; 30) 2 ; 42 

Goldmann 23 (14 ; 31) 2 ; 52 

Abweichung -1 (-3 ; 0) -9; +4 

55 

50 

45 

40 

35 

30 

25 

20 

15 

10 

5 

0 

N = 

68 

TGDc-01 

68 

Goldmann 


4 

2 

0 

-2 

-4 

-6 

-8 

-10 

N = 

68

a) numerisch 

x~ 

Zusammenfassung: 

Deskription stetiger Daten 

immer 

Q1 ,Q3 immer 

min., max. immer 

x 

s x 

Gaußglocke 

Gaußglocke 

Persönliche Empfehlung: 

• Alles angeben 

• Inferenzen über Quartile und Mediane 

b) graphisch 

-s +s 

• Boxplots bei interindividuellen Vergleichen 

• Differenzen zur Baseline abtragen bei 

intraindividuellen Vergleichen 

x 

-s +s 

x

Keine Antennenbildchen !!! 

Mittelwert +/- Standardabweichung 

10 

9 

8 

7 

6 

5 

4 

3 

2 

1 

10 

9 

8 

7 

6 

5 

4 

3 

2 

1 

0 

Messreihle 1 Messreihle 2 

Messreihe 1 Messreihe 2

time to event-Daten 

Zielgröße: Zeitspanne bis zum Eintritt eines 

klinisch relevanten Ereignisses. 

Beispiele: 

• Vergleich zweier TEP-Design 

(Zeitspanne bis Wechsel der TEP) 

• Vergleich der Nachstarneigung zweier IOLs 

(Zeitspanne seit OP bis Kapsulotomie) 

• Vergleich der Wirksamkeitsdauer antiretrovir. Th. 

(Zeitspanne seit Medikationstart bis Resistenz) 

Idee: Abtragen der Zeitspanne unter 

Beobachtung in der Studie 

Kaplan / Meier: 

Anteil Patienten (%), die nach einer Zeitspanne 

unter Beobachtung kein Ereignis gezeigt haben 

(„Überlebenswahrscheinlichkeit“)

100 % 

50 % 

• 

• 

• 

• • •• 

• 

1 Jahr 2 Jahre 

Zeitspanne 

Faustregel: Je höher die Kurve, desto 

besser die Prognose.

100 % 

50 % 

• 

• 

• 

• • •• 

• 

1 Jahr 2 Jahre 

Zeitspanne 

Faustregel: Je höher die Kurve, desto 

besser die Prognose. 

Nachstar-Freiheitsrate 

1,0 

,9 

,8 

,7 

,6 

,5 

,4 

,3 

,2 

,1 

0,0 

0 

5 

10 

15 

20 

25 

30 

Zeitspanne seit Implantation [Monate] 

35 

40 

rund 

scharfkantig

Lagemaße für kategoriale Zielgrößen 

- absolute Häufigkeiten (n) 

- sinnvolle relative Häufigkeiten (%) 

Komp ? 

Des. 1 

Des. 2 

Kompl. ? 

Design 1 

Design 2 

ja 

27 

16 

nein 

95 

58 

ja 

14 % 

8 % 

nein 

48 % 

30 % 

Komp ? 

Des. 1 

Des. 2 

22 % 

22 % 

falsch! 

nein 

78 % 

78 % 

Empfehlung: 

- Zeilenvariable = kausale Einflussgröße 

- Zeilenprozente angeben 

- n < 300 => Prozente ganzzahlig angeben 

- graphische Darstellung: Balkendiagramm 

ja

Absolutes und Relatives Risiko 

Komplik. ? ja nein 

Design 1 40 % 60 % 

Design 2 20 % 80 % 

Absolutes Risiko = 40 % – 20 % = 20% 

40% 

Relatives Risiko = = 2.00 

20% 

= 1 + 100 % 

� �� "Risikoerhöhung" 

Bei Versorgung mit Design 1 ist das Risiko 

einer Komplikation um 100 % erhöht 

(„verdoppelt“) gegenüber einer 

Versorgung mit Design 2.

Absolutes und Relatives Risiko 

Komplik. ? ja nein 

Design 1 40 % 60 % 

Design 2 20 % 80 % 

Was bedeutet ein RR < 1 ??? 

20% 

Relatives Risiko = = 0.50 

40% 

= 1 –50% 

� �� "Risikosenkung" 

Bei Versorgung mit Design 2 ist das Risiko 

einer Komplikation um 50 % gesenkt 

(„halbiert“) gegenüber einer Versorgung 

mit Design 1.

Vorsicht vor dem relativen Risiko!!! 

Thrombose? ja nein 

Verum 0.9 % 99.1 % 

Placebo 1.5 % 98.5 % 

0.9 % 

Relatives Risiko = = 0.60 = 1 – 0.40 

1.5 % 

= 1 – 40% 

� �� "Risikosenkung" 

Unter Verum ist das relative Risiko einer 

Thrombose um 40 % gesenkt gegenüber 

Placebo.

Zusammenfassung: Deskription 

Tabellen Graphiken 

kategorial Zeilenprozente Balkendiag. 

stetig Mediane 

Quartile 

time to event Mediane 

Quartile 

Boxplots 

KM-Kurven

Statistik versus Klinik 

Ein Widerspruch ???

p-Werte 

Wie sicher kann ein Studienergebnis auf 

andere Patienten übertragen werden? 

Realität 

Studie 

α-Fehler:fälschlicherweises Übertragen eines Studienergebnisses 

auf die Realität 

p-Wert: Wahrscheinlichkeit des α -Fehlers aufgrund der 

eigenen Studiendaten 

Signifikanzniveau α: maximal tolerable Schranke für die 

Wahrscheinlichkeit eines α-Fehlers 

zu fordern: p � α

� � 

Grundidee: 

p-Wert sehr klein 

� α-Fehler sehr unwahrscheinlich 

� „statistisch gesicherte“ Folgerungen aus 

der Studie 

Frage: 

Regel: 

Ab wann ist ein p-Wert „sehr klein“? 

p α � hinreichend klein 

p α � zu groß 

MERKE: 

"statistisch signifikant“ 

= 

abgesichert gegen falsche Rückschlüsse


Vergleich Goldmann-Tonometer mit Tono-Pen 

p-Wert (Vorzeichentest): p < 0.001 

Entscheidung: p < α = 0.05 

also: statistisch signifikanter Unterschied

Median (Q 1 –Q 3 ) min – max 

TGDc-01 21 (13 ; 30) 2 ; 42 

Goldmann 23 (14 ; 31) 2 ; 52 

Abweichung -1 (-3 ; 0) -9; +4 


4 

2 

0 

-2 

-4 

-6 

-8 

-10 

N = 

68


mediane Abweichung: – 1 mmHg 

(TGDc-01 – Goldmann) 

p-Wert (Vorzeichentest): p < 0.001 

Entscheidung: p < α = 0.05 

also: statistisch signifikanter Unterschied 

aber: kein klinisch relevanter Unterschied 

Conclusio: 

Es gibt einen zum 5%-Niveau signifikanten 

Unterschied zwischen den Tonometern bei der 

Messung des IOD (p

Thrombose? ja nein 

Placebo 1.5 % 98.5 % 

Verum 0.9 % 99.1 % 

• jeweils 800 Patienten pro Studienarm 

• Fisher-Test: p = 0.033 < 0.05 

Conclusio: 

Es gibt eine zum 5%-Niveau signifikant 

geringere Thromboserate unter Verum 

gegenüber Placebo (p=0.033); konkret 

hat sich die Rate unter Verum auf 0.9% 

gegenüber 1.5% unter Placebo gesenkt.

Zusammenfassung: p-Wert 

p-Wert = Wahrscheinlichkeit, fälschlich 

Studienergebnisse zu übertragen 

p � α � „signifikante“ Studienergebnisse 

Beachte dabei: 

statistische Signifikanz � klinische Relevanz 

Ergebnisteil in Manuskripten etc: 

statistische Signifikanz: p-Wert 

klinische Relevanz: Mediane / Prozentzahlen

Problem des β-Fehlers 

α-Fehler = fälschliches Übertragen von 

Unterschied aus der Studie 

β-Fehler = fälschliches Übersehen von 

Unterschieden in der Studie 

CAVE: 

Der p-Wert sichert nur gegen den α-Fehler ab!!! 

Nicht-Signifikanz 

bedeutet keine Gleichwertigkeit !!! 

„… zeigte sich kein zum 5%-Niveau statistisch 

signifikanter Unterschied (p=0.096).“

Problem des multiplen Testens 

� 

� 

� 

p � 3monatiger Recall 



3 � 

Problem: 

Bei jedem Einzeltest ist ein α-Fehler möglich! 

Einfachste Lösung: 

Nur einen sogenannten „primären Endpunkt“! 

Keine unnötigen Zielparameter !!!

Ausweg: �-Korrektur (z.B. nach Bonferroni) 

� 

� 

p � /3 

p � /3 

� 

p � /3 

� 

Korrektur nach Bonferroni: 

� 

p � 

Anzahl p-Werte 

lokale Signifikanz: Einzeltests mit p < � 

multiple Signifikanz: Gesamtaussage 

multiple Signifikanz >> lokale Signifikanz !!! 

„… zeigten sich jeweils zum multiplen 5%-Niveau 

signifikante Unterschiede (p=0.023 und p

Beispiel 1 

• paarweiser Vergleich von 4 Therapien 

• Gesamtniveau 5%, insgesamt 6 p-Werte 

• Einzelvergleich mit p < 5% / 6 = 0.8 % 

also: lokale Signifikanz bei p < 5% 

multiple Signifikanz bei p < 0.8%

Beispiel 1 

• paarweiser Vergleich von 4 Therapien 

• Gesamtniveau 5%, insgesamt 6 p-Werte 

• Einzelvergleich mit p < 5% / 6 = 0.8 % 

also: lokale Signifikanz bei p < 5% 

multiple Signifikanz bei p < 0.8% 

Beispiel 2 

Risikofaktoren eines Bronchialcarcinoms 

Rauchen p=0.015 < 0.05 

Alter > 40 p=0.092 > 0.05 

Stadium III p=0.002 < 0.05 

Anamnese p=0.144 > 0.05 

Rauchen p=0.015 > 0.0125 

Alter > 40 p=0.092 > 0.0125 

Stadium III p=0.002 < 0.0125 

Anamnese p=0.144 > 0.0125 

Also: Nur das Stadium ist auch zum 

„multiplen Niveau“ 5% signifikant.

Zusammenfassung: p-Wert 

p-Wert = Wahrscheinlichkeit, fälschlich 

Studienergebnisse zu übertragen 

p � α � „signifikante“ Studienergebnisse 

Beachte dabei: 

statistische Signifikanz � klinische Relevanz 

nicht-Signifikanz � Äquivalenz 

primärer Endpunkt: es kann nur einen geben… 

Ergebnisteil in Manuskripten etc: 

statistische Signifikanz: p-Wert 

klinische Relevanz: Mediane / Prozentzahlen

Von Wilcoxon bis 

McNemar 

Irgendein Test passt immer …

Signifikanztests 

2 prinzipielle Unterscheidungskriterien: 

a) Wie ist die Zielgröße erfasst? 

stetig time to event binär 

b) Wie ist das Design der Studie? 

verbunden unverbunden 

(intraindividuell) (interindividuell)

stetig, verbunden 


4 

2 

0 

-2 

-4 

-6 

-8 

-10 

N = 

Vorzeichentest (sign test): 

testet, ob viele intraindividuellen Differenzen 

gleiche Richtung (=gleiches Vorzeichen) zeigen 

68

stetig, verbunden 


4 

2 

0 

-2 

-4 

-6 

-8 

-10 

N = 

Vorzeichentest (sign test): 

testet, ob viele intraindividuellen Differenzen 

gleiche Richtung (=gleiches Vorzeichen) zeigen 

68

stetig, unverbunden 

Gesamtkosten beidseitiger LASIK 

6000 

5000 

4000 

3000 

2000 

1000 

0 

N = 

34 

Mainz 

LASIK-Zentrum 

Wilcoxon-Test (Mann/Whithney test): 

vergleicht Lage zweier unverbundene Boxplots 

120 

Mannheim

time to event, unverbunden 

Nachstar-Freiheitsrate 

1,0 

,9 

,8 

,7 

,6 

,5 

,4 

,3 

,2 

,1 

0,0 

0 

5 

10 

15 

20 

Zeitspanne seit Implantation [Monate] 

Logrank-Test: 

vergleicht Lage zweier unverbund. KM-Kurven 

25 

30 

35 

40 

rund 

scharfkantig

inär, unverbunden 

Nachstar? 

ja nein 

Linse I 10 % 90 % 

Linse II 30 % 70 % 

Fisher-Test (Fisher‘s exact test): 

vergleicht zwei unverbundene Prozentzahlen

inär, verbunden 

Meniskus- 

Ruptur 

Radiologe II: 

ja 

McNemar-Test (test for symmetry): 

vergleicht zwei verbundene Häufigkeiten 

Radiologe II: 

nein 

Radiol. I: ja 37 % 24 % 

Radiol. I: nein 8 % 31 % 

• betrachtet „Asymmetrien“ auf Nebendiagonale 

• testet auf Tendenz in diskordanten Befunden

Zusammenfassung: Signifikanztests 

unverbunden verbunden 

stetig Wilcoxon Vorzeichen 

time to event Logrank 

binär Fisher McNemar

t-Test für unverbundene Stichproben 

vergleicht zwei unverbundene Mittelwerte 

t-Test für verbundene Stichproben 

vergleicht Mittelwert der Differenzen aus 

zwei verbundenen Messreihen mit „0“ 

Differenzen 

Warnung vor dem t-Test 

nur anwendbar, wenn Mittelwerte sinnvoll !!! 

0

Zusammenfassung: 

Wann was verwenden? 

Tabelle Graphik 

Signif.-Test 

(p-Wert) 

kategorial Zeilenprozente Balkendiag Fisher 

McNemar* 

stetig Mediane* 

Quartile 

Zeitspanne Mediane 

Quartile 

Boxplots* Wilcoxon 

Vorzeichen* 

KM- 

Kurven 

Logrank 

*: bei intraindividuellen Vergleichen 

Mediane, Quartile und Boxplots der Differenzen!

Anwendungen 

Wann ist welche Methode sinnvoll ??? 

Um die Effizienz der Hüft-TEP-Chirurgie 

beurteilen zu können, soll die Schnitt- 

Naht-Zeit als ein Maß der Kosten des 

Eingriffes (human ressources) für eine 

Orthopädische Klinik gemessen werden. 

Dazu werden die Schnitt-Naht-Zeiten 

[min] für alle Eingriffe des Jahres 2008 in 

den Orthopädien der Universitätsklinika 

Dresden und Leipzig erhoben. Bei einer 

ersten deskriptiven Analyse zeigt sich, dass 

aufgrund von Komplikationen während 

einzelner Eingriffe merkliche Ausreißer in 

den Schnitt-Naht-Zeiten beider Kliniken 

auftreten. 

Konkret soll getestet werden, ob sich die 

beiden Kliniken hinsichtlich der Schnitt- 

Naht-Zeiten signifikant unterscheiden.

Im internen Qualitätsmanagement werden für 

das erste Quartal des Jahres 2009 an der 

Dresdner Orthopädie die Schnitt-Naht- 

Zeiten aller Hüft-TEP-Eingriffe bestimmt. 

Konkret soll getestet werden, ob sich 

diese gegenüber den Dresdner Schnitt- 

Naht-Zeiten des Jahres 2008 signifikant 

verändert haben.

In einem weiteren Schritt sollen die Schnitt- 

Naht-Zeiten der Dresdner Orthopädie mit 

entsprechenden Gesamtangaben einer 

privaten Klinik-Kette verglichen werden. 

Diese stellt jedoch keine Fall-basierten 

Daten zur Verfügung, sondern nur die 

mediane Dauer aller Eingriffe in den von 

ihr betriebenen Häusern aus dem Jahr 

2009. 

Nun soll getestet werden, ob die Dresdner 

Schnitt-Naht-Zeiten signifikant von dieser 

Sachsen-weiten benchmark abweichen.

Die Verbesserung der maximalen Gehstrecke [m] 

ist ein Surrogatmaß für die Wirksamkeit einer 

Rehabilitation nach Hüft-Totalendoprothetik. Für 

jeweils 40 Patienten wird eine vierwöchige 

Rehabilitation vorgenommen, wobei randomisiert 

eine Patientengruppe einer physiotherapeutischen, 

eine weitere einer kombiniert physio- und 

schmerztherapeutischen Intervention unterzogen 

wird. Eingeschlossen werden nur Patienten mit 

einer prä-interventionellen maximalen Gehstrecke 

unter 1000 m. 

Primärer Endpunkt dieser randomisierten Studie 

ist die post/prä-Änderung der maximalen 

Gangstrecke zum Zeitpunkt drei Monate nach 

Ende der Rehabilitation. 

Es soll nun geprüft werden, ob kombiniert physioschmerz-therapierte 

Patienten einen signifikant 

höheren Zuwachs in ihrer maximalen Gehstrecke 

haben als alleinig physiotherapierte Patienten.

Die Auswertung dieser jeweils 40 randomisierten 

Patienten wird im Rahmen von Zusatzanalysen 

noch erweitert: Es interessiert, ob durch die 

Rehabilitation die maximale Gehstrecke eines 

Patienten auf mindestens 1000 m angehoben 

werden konnte (Messung drei Monate nach Ende 

der Rehabilitation). In diesem Fall kann von 

einem klinisch relevanten Effekt der Intervention 

ausgegangen werden. 

Konkret soll geprüft werden, ob kombiniert 

therapierte Patienten signifikant häufiger einen 

klinisch relevanten Nutzen aus der Rehabilitation 

ziehen konnten als alleinig physiotherapierte 

Patienten.

Die jeweils 40 randomisierten Patienten werden 

einer maximal fünfjährigen Nachbeobachtung 

unterzogen mit jeweils halbjährlichem Recall. Es 

interessiert, ob bei einem der Recalls die 

maximale Gehstrecke eines Patienten wieder auf 

oder unter das Niveau vor Beginn der 

Rehabilitation gesunken ist. 

Konkret soll geprüft werden, ob kombiniert 

therapierte Patienten einen signifikant 

längerfristigen Nutzen hinsichtlich der maximalen 

Gehstrecke haben als alleinig physiotherapierte 

Patienten.

Im Rahmen der kieferorthopädischen Diagnostik 

und Therapiesteuerung wird oft die Strecke „Sella 

– Gonion“ [mm] als prognostisch relevanter 

Endpunkt verwendet. Deren Bestimmung erfolgt 

durch Ausmessung einer lateralen Fernröntgen- 

Aufnahme und ist sicher vom auswertenden 

Operateur bzw. dessen Erfahrungsgrad abhängig. 

Um das Ausmaß dieses möglichen „observer 

bias“ bewerten zu können, wird diese Strecke für 

jeden von 250 Patienten sowohl von einer 

Fachärztin als auch einer Assistenzärztin der 

Klinik für Kieferorthopädie vermessen. 

Nun soll geprüft werden, ob die Messergebnisse 

der Assistenzärztin signifikant von denen der 

Fachärztin abweichen („significant observerbias“).

Zähne und Augen 

Die Studien-Datensätze …

Dissertation Isabel Körner: 

„Klinische und ökonomische Evaluation 

der Inanspruchnahme zahnärztlicher 

Versorgung im Ausland“ 

Datenbasis: 

57 Gutachten des MDK Rheinland-Pfalz 

(32 Versorgungen Türkei, 25 Osteuropa) 

klinische und ökonomische Zielgrößen: 

• Versorgungen mängelfrei [ja/nein]? 

• Kostenbilanz Ausland versus Inland [€] 

• Kostenbilanz incl. Mängelkorrektur [€] 

jeweils aus Patientenperspektive

Dissertation Marco Roden: 

„Prospektive benchmark-Studie zu klinischem 

Ergebnis und Kosteneffektivität der LASIK 

bei moderater Myopie“ 

Datenbasis: 

33 Eingriffe in 2001 (Mainz) 

114 Eingriffe in 2001 (Mannheim) 

klinische und ökonomische Zielgrößen: 

• Komplikationsraten [%] 

• refraktiver Gewinn [D] 

• inkrementelle Kosten 

pro Dioptrie [€ / D] 

• visuelle Lebensqualität vor / nach LASIK 

[„gut“ / „schlecht“]

Dissertation Isabelle Warlo: 

„Vergleich der Rotationsstabilität von 

Intraokularlinsen mit C- und Z-Haptik bei 

Kataraktpatienten“ 

primäre klinische Zielgröße: 

Rotation 3 Monate nach Implantation [Grad] 

Vermutung klinisch: 

C-Haptik: mediane Rotation 20 Grad 

Z-Haptik: mediane Rotation 10 Grad 

Quartilspanne jeweils 10 Grad 

klinisch relevanter Unterschied: 10 Grad

Zusammenfassende Empfehlung: 

Statistik in Manuskripten 

A) Methodenteil 

Bewertung von 

• statistischer Signifikanz 

• klinischer Relevanz 

Die Deskription kategorialer Endpunkte erfolgte 

mittels Zeilenprozenten sowie absolutem und 

relativem Risiko, die stetiger Endpunkte mittels 

Medianen und Quartilen (graphisch Boxplots). 

Zum Signifikanzvergleich von unverbundenen 

Messreihen wurden Wilcoxon- und Fisher-Tests 

(stetige bzw. kategoriale Endpunkte) verwendet, 

von verbundenen Messreihen Vorzeichentest- 

Tests. 

Ergebnisse der Tests werden mittels p-Werten 

zusammengefaßt, p≤0.05 wird als Indikator 

statistischer Signifikanz interpretiert.

Zusammenfassende Empfehlung: 

Statistik in Manuskripten 

B) Ergebnisteil 

Bewertung von 

• statistischer Signifikanz 

(p-Wert mit drei Nachkommastellen) 

• klinischer Relevanz 

(medianer / prozentualer Unterschied) 

„Unter Verum zeigte sich eine statistisch 

signifikante (p=0.013) Senkung des Blutdrucks 

um im Median 8 mmHg (Interquartilspanne 5 – 

12 mmHg).“ 

„Das Risisko einer Komplikation ist ohne 

antibiotische Prophylaxe statistisch nicht 

signifikant (p=0.094) um 23% erhöht.“

Teil I - Universität Witten/Herdecke

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?