Skript: "Arbeiten mit ´TDA" - Universität Bremen

Inhaltsverzeichnis 

Universität Bremen 

Arbeiten mit TDA 

Ein Skript zur Begeleitung des Kurses „Grundlagen der Ereignisdatenanalyse“ 

Michael Windzio 

mwindzio@gsss.uni-bremen.de 

1 Einführung in TDA.............................................................................................................2 

2 Arbeiten mit der TDA-Syntax – Beispiele .........................................................................6 

3 Das Erstellen von Life-Table Grafiken mit SPSS ............................................................14 

4 Grafische Darstellung von Survivorfunktionen nach dem Kaplan-Meier Verfahren ......19 

1

1 Einführung in TDA 

TDA ist ein sehr leistungsfähiges Programm für statistische Auswertungen. Es umfasst viele 

häufig angewandten statistischen Modelle (OLS-Regression, Logit- Probit, Ereignisanalyse), 

datenreduzierende Verfahren (Faktor-, Cluster-, Korrespondenzanalyse, 

Sequenzmusteranalyse) sowie die Möglichkeit, eigene spezielle Modelle zu programmieren. 

Die Stärken von TDA liegen in der Ereignisdatenanalyse, denn dafür wurde es ursprünglich 

entwickelt, sowie in den zahlreichen Funktionen zur Aufbreitung von 

Längsschnittdatensätzen. Von Vielen wird es als Schwäche des Programms wahrgenommen, 

dass es nur über die Syntax gesteuert ist und diese Syntax teilweise ungewohnte Eigenarten 

aufweist. Zudem hat es keine Möglichkeit zur Darstellung von Grafiken, d.h. man verwendet 

dazu entweder die Postscript-Grafiken oder grafikfähige Programme wie Excel oder SPSS. 

Bei der TDA-Syntax ist zwischen Rahmenbefehlen unter Unterbefehlen zu unterscheiden. 

Jeder Rahmenbefehl endet mit einem „ ; “ . Jeder Unterbefehl oder jede Option 1 endet mit 

einem „ , “ . Der wichtigste Befehl ist nvar(); , denn nur ihm kann man Daten einlesen 

oder künstlich Daten erfinden (letzteres z.B. für Simulationsstudien). Mit dem Befehl 

rspss1(); werden SPSS- Formatierte Datensätze eingelesen und mit rstata(); für 

STATA formatierte Datensätze. Aber diese Formate werden während einer Analyse in der 

Regel nur einmal eingelesen und wenn der Datensatz in TDA eingelesen ist, arbeitet man 

während der folgenden Datenaufbereitungsschritte mit nvar(); weiter. Dieser nvar(); 

Befehl bedeutet in Verbindung mit dem Befehl dfile= 

Laufwerk:\pfad\...\Dateiname, , dass ein „data file“ im ASCII Format eingelesen 

wird, für welches alle Systeme offen sind. 

Arbeitet man mit dem nvar(); - Befehl, ist zu beachten, dass TDA alle Unterbefehle daran 

erkennt, dass sie a) syntaktisch korrekt sind, und b) dass sie in Kleinbuchstaben geschrieben 

sind, was a) bereits impliziert. 

Innerhalb eines nvar(); ist es eine der häufigsten Aufgaben, neue Variablen zu bilden. Im 

command file beginnen Variablennamen im Gegensatz zu den Unterbefehlen immer mit 

einem Großbuchstaben. Ihre Bildung wird einfach eingeleitet, indem die man den Namen der 

Variable schreibt und ein Gleichheitszeichen setzt. Dann müssen Variablen, Werte oder 

Bedingungen angegeben werden, um in jede Zelle der neuen Variablen die gewünschten 

Werte zu schreiben. Man kann z.B. eine Variable bilden, die den Umrechnungsfaktor DM in 

1 

Manche Befehle dienen nur zur Spezifikation und verdienen den Namen „Unterbefehl“ eigentlich nicht. Aber 

grundsätzlich sind diese Optionen natürlich dasselbe wie Befehle. 

2

Euro enthält. Nennt man diese Variable „Faktor“, dann schreibt man innerhalb des nvar(); 

-Befehls: Faktor=1.95583,. Bildet man eine Variable, bei der man sich auf die Werte 

einer bereits existierenden Variablen beziehen muss, setzt dies voraus, dass diese Variable 

bereits existiert. Zumeist bezieht man sich auf die Variablen, die als Spalten Teil der mit dem 

dfile=..., -Unterbefehl eingelesenen Datenmatrix sind. Angenommen, Ihre 

Datenmatrix hat eine Vielzahl von Variablen (d.h. Spalten der Matrix), Sie benötigen aber nur 

zwei Variablen/Spalten (Bildung und Einkommen z.B. aus dem ALLBUS), von denen Sie 

wissen, dass diese die Spalten 5 und 7 der Matrix bilden. Dann sprechen Sie im nvar(); 

Rahmenbefehl diese Spalten an, indem Sie einen frei wählbaren Variablennamen schreiben 

und mit einem Gleichheitszeichen die Spalte der Datenmatrix ansprechen. Das würde 

folgendermaßen aussehen: 

nvar( 

dfile=Laufwerk\pfad\...\dateiname, 

Bildung=c5, # 3=hoch, 2=mittel, 1=gering, 0=keine 

Einkommen=c7, # in DM gemessen 

Faktor=1.95583, # Umrechnungsfaktor 

Eink_eu=Einkommen/Faktor, # Umrechnung 

# oder: Eink_eu=Einkommen/1.95583, 

# Personen mit geringer oder ohne Bildung 

# in eine Gruppe zusammengefasst 

Low_educ=if lt(Bildung,2) then 1 else 0, 

# oder: Low_educ=Bildung[0,1], 

# oder: Low_educ=if le(Bildung,1) then 1 else 0, 

# oder: Low_educ=le(Bildung,1), 

# oder: Low_educ=if ge(Bildung,2) then 0 else 1, 

); 

freq1=Low_educ,Bildung; 

dstat=low_educ; 

pdata(drop=Faktor)=Laufwerk\pfad\...\dateiname_neu; 

Innerhalb des nvar(); wird mit dfile= die einzulesende Datei angegeben. Die beiden 

Variablen Bildung und Einkommen werden aus den Spalten („columns“) c5 und c7 der 

Datenmatrix gebildet. Bei der Umrechnung, dessen Ergebnis in die Variable Eink_eu 

geschrieben wird, kommt das einfach Symbol für die Division zur Anwendung, nämlich das „ 

/ “ – Zeichen. Andere mathematische Operatoren gelten wie üblich: * für Multiplikation, ^ 

für das Potenzieren, + für Addition, – für Subtraktion. 

In dem oben angeführten command file wird eine Variable Low_educ gebildet, die 

Personen mit geringer Bildung durch den Wert 1 identifiziert, allen anderen eine 0 zuweist – 

eine sogenannte Dummyvariable. Dabei handelt sich um eine Variable, die mit einem 

bedingten Bezug auf andere Variablen ihre Werte erhält. Hier führen mehrere Varianten zum 

Ziel. Zunächst steht dort: Low_educ=if lt(Bildung,2) then 1 else 0, . Die 

3

neue Variable Low_educ, die als neue Spalte der Datenmatrix angefügt wird, erhält immer 

dann den Wert 1 (also für jede Zeile der neuen Spalte), wenn die Bedingung erfüllt ist, dass 

der Wert der Variablen Bildung kleiner als 2 ist. Dabei bedeutet lt „lower than“. Es gibt 

noch eine Reihe weiter logischer Operatoren: gt greater than, eq equal, le bzw. ge 

lower bzw. greater or equal. In der TDA Syntax wird immer zuerst der Operator genannt, 

dann innerhalb der Klammer die zu vergleichenden Variablen oder Werte. Innerhalb der 

Klammer könnten also auch zwei Variablen stehen, die gemäß dem gewählten Operator 

verglichen werden. Das ist hier aber nicht der Fall. Mit dem than können natürlich auch 

andere Werte als 0 oder 2 zugewiesen werden. 

Eine kürzere Schreibweise ist die auskommentierte 2 Variante 

Low_educ=le(Bildung,1),. Diese kürzere Variante ist möglich, weil TDA einer 

Variablen pauschal den Wert 1 zuweist, wenn die Bedingung wahr, also erfüllt ist, und den 

Wert 0, wenn die Bedingung nicht erfüllt ist. Man kann sie also nur bei 0/1 Kodierungen 

einsetzen. In unserem Fall ist eine noch kürzere Variante praktikabel nämlich: 

Low_educ=Bildung[0,1],. Auch hier werden wieder die Werte 0 und 1 pauschal 

zugewiesen. Es wird aber kein logischer Operator (wie z.B. le) benötigt, da in den eckigen 

Klammern der Wertebereich angegeben ist, innerhalb dessen der Wert der Variable Bildung 

liegen muss, damit die Bedingung erfüllt ist und der Wert 1 zugewiesen werden kann. Diese 

eckigen Klammern ermöglichen auch die Auswahl von Wertebereichen, indem man z.B. alle 

Werte angibt, die zu dem Bereich gehören. Würde die Variable Bildung die Zahl der für einen 

Abschluss mindestens notwendigen Schuljahre enthalten (mit einem Range von 0 [kein 

Abschluss] über 8[Sonderschule], 9[Hauptschule], 10[Realschule] usw. bis 18[Hochschule]), 

könnte man auch schreiben: Low_educ=Bildung[0,,10], , vorausgesetzt, man möchte 

auch Personen mit Realschulabschluss zu den gering Qualifizierten zählen. Die beiden 

Kommata teilen TDA mit, dass es sich nun um einen Bereich von Werten handelt, der von 0 

bis einschließlich 10 reicht. Sie können diese Variante jedoch nicht anwenden, wenn Sie zwei 

separate Wertebereiche zur Bedingung machen wollen, z.B. 0 bis 9 und dann wieder von 13 

bis 18, um z.B. alle Personen zu identifizieren, die entweder gering oder hoch qualifiziert 

sind. In diesem Fall muss nur eine von zwei Bedingungen erfüllt sein und es wäre zu 

schreiben: 

Low_educ=if le(Bildung,10) | ge(Bildung,13) then 1 else 0, 

Oder einfacher: 

2 Kommentarzeilen werden durch das Symbol „ # “ eingeleitet und von TDA ignoriert. 

4

Low_educ=le(Bildung,10) | ge(Bildung,13), 

Bei dem Zeichen „ | “ handelt es sich um das logische „oder“. Häufig muss man bei der 

Bildung von Variablen Bedingungen miteinander verketten, indem also eine erste, eine zweite 

und eine dritte Bedingung erfüllt sein muss [z.B. Frau=1 und Arm=1 und 

le(Bildung,10) ]. Dafür verwendet man das „ & “, das logische „und“. 

Ist der Datensatz im ersten Schritt so verändert wie gewünscht, kann der nvar(); 

Rahmenbefehl mit dem Semikolon abgeschlossen werden. Außerhalb dieses nvar(); 

können Sie deskriptive Statistiken anfordern, z.B. eine univariate Häufigkeitstabelle 

(freq=...; ) oder eine Ausgabe von min, max und mean (dstat=...; ), wobei die „ 

... “ als Platzhalter für Variablennamen stehen. Zu beachten ist, dass der Befehl 

freq=...; faktisch eine (mehrdimensionale) Kreuztabelle liefert, wenn hinter dem 

Gleichheitszeichen (jeweils durch ein Komma getrennt) mehrere Variablen aufgelistet sind. 

Für jede Variable eine separate univariate Tabelle erhält man durch freq1=...; . 

Möchten Sie eine „richtige“ Kreuztabelle mit Spalten- und Zeilenprozenten, verwenden Sie 

freq2=..; . 

Häufig ist es notwendig, eine mit nvar(); eingelesene und um einige Variablen erweiterte 

Datenmatrix als Datei auf der Festplatte abzulegen. Dafür wird der pdata(); 

Rahmenbefehl verwendet. Innerhalb von pdata(); können Datenmatrizen mit dem sort= 

... , Unterbefehl nach beliebigen Variablen sortiert werden – auch hierarchisch, wenn Sie 

mehrere Variablen hintereinander angeben (dann richtet sich die Hierarchie des Sortierens 

nach dieser Reihenfolge). Mit den Unterbefehlen keep=..., und drop=..., können 

Listen von Variablen gezielt in der Datenmatrix behalten oder gezielt ausgeschlossen werden. 

Sind nur z.B. die ersten 100 Zeilen eine sehr viele Zeilen umfassenden Datenmatrix von 

Interesse, weil Sie anhand dieser Fälle z.B. nur eine Rekodierung prüfen möchten, empfiehlt 

es sich, einen Testdatensatz herauszuschreiben, der wegen der besseren Übersicht nur die 

dafür notwendigen Variablen enthält, die Sie mit keep=..., auswählen. 

Dieser pdata(); Befehl könnte bei einer fiktiven Datenmatrix folgendermaßen aussehen: 

pdata(noc=100,keep=ID,Frau,Einkommen,Arme,Frau_arm)= 

Laufwerk\pfad\...\dateiname_neu; 

Innerhalb der Klammer des pdata(); Befehls kann auch der dtda- Unterbefehl stehen, der 

eine Datei erzeugt, die die herausgeschriebene Datenmatrix in TDA-Syntax so beschreibt, 

dass Sie die erzeugte Datei einlesen und weiter verarbeiten können. Das klingt kompliziert, ist 

aber recht einfach und wird im folgenden Abschnitt erörtert. 

5

2 Arbeiten mit der TDA-Syntax – Beispiele 

In dem folgenden Beispiel wird mit TDA zunächst ein kleiner Datensatz mit dem Namen 

episoden.dat eingelesen, der als ASCII Rohdatenmatrix vorliegt (Abb.1). Es handelt sich 

hier um Arbeitsstellenepisoden. Das Einlesen von Daten geschieht über den Befehl 

nvar();. 3 Die Datei stellt einen Episodendatensatz dar, wie wir ihn zumeist in der 

Ereignisanalyse verwenden. Aber auch alle möglichen anderen Datensätze (synonym: 

Datenmatrizen) können über den nvar(); Befehl eingelesen und nach den jeweiligen 

Erfordernissen bearbeitet werden. Später werden wir z.B. Ergebnistabellen einer Life-Table- 

oder Kaplan-Meier- Prozedur mit nvar(); einlesen. Auffällig an der Datenmatrix 

episoden.dat ist, dass sie nicht richtig nach den Kriterien „Id“ (Identifikationsnummer 

der Person) und „Job_nr“ (laufende Nummer der Arbeitstelle) sortiert ist. Man beachte nur 

Id Nr. 4! Das holen wir gleich nach... 

Abb. 1: Datenmatrix „Episoden.dat“ 

# Id Job TS TF Tint Frau Schund 

1 1 978 996 1176 1 99 

1 2 1021 1130 1176 1 99 

4 3 1104 1170 1176 0 99 

1 3 1134 1154 1176 1 99 

2 1 921 983 1176 0 99 

2 2 1098 1176 1176 0 99 

4 2 1100 1104 1176 0 99 

4 1 1000 1056 1176 0 99 

3 1 1052 1132 1176 1 99 

3 2 1132 1170 1176 1 99 

3 3 1170 1176 1176 1 99 

Mit TDA kommuniziert man über die sogenannten command files. Bei diesen files handelt es 

sich um Dateien, in die alle Befehle geschrieben werden. Im command file wird festgelegt, 

wo, d.h. unter welchem MS-DOS-Pfad die Datenmatrix zu finden ist. 

TDA muss zudem mitgeteilt werden, welche Variable in welcher Spalte dieser Datenmatrix 

steht. Dafür benötigt man das sogenannte „setup“ im Rahmen des nvar();- Befehls. 

Beachten Sie bitte die „ ; “ und die „ , “. 

3 Es können auch Daten im SPSS-, SAS- oder STATA-Format eingelesen werden. 

6

Abb. 2: Einlesen der Datenmatrix 

# episoden.cf 

nvar( 

dfile=c:\prog_dos\wintda\bsp_buch\episoden.dat, 

noc=20, 

Id =c1,# ID der Person 

Job_nr =c2,# laufende Nummer der Arbeitstelle 

TS =c3,# Startzeitpunkt 

TF =c4,# Endzeitpunkt 

Tint =c5,# Interviewzeitpunkt 

Frau =c6,# Frau=1, sonst 0 

Schund =c7,# Sonstiges => wird nicht benoetigt 

); 

pdata(sort=Id,Job_nr,drop=Schund, 

dtda=c:\prog_dos\wintda\bsp_buch\des.cf) 

=c:\prog_dos\wintda\bsp_buch\epi1.dat; 

In Abb. 2 ist zu sehen, wie die Datenmatrix eingelesen wird. Innerhalb des nvar(); 

geschieht hier nichts Anderes als die Zuweisung von Variablennamen zu den Spalten der 

Datenmatrix. Die Datenmatrix wird selbst nicht verändert, d.h. es werden keine neuen 

Variablen gebastelt. Man hätte dies aber durchaus tun können. Interessant ist der pdata(); 

Befehl, der dem nvar(); Befehl folgt. Eine Datenmatrix mit dem Namen epi1.dat wird 

herausgeschrieben, die der episoden.dat sehr ähnlich ist, aber zwei wichtige 

Unterschiede aufweist: erstens ist die epi1.dat nun korrekt sortiert nach den Kriterien Id 

und Job_nr (sort=...), zweitens wird die Variable „Schund“, die wir nicht 

benötigen, durch den drop-Befehl weggelassen. Denselben Effekt hätte anstelle von drop 

auch keep= Id,,Frau, wobei „ Id,,Frau “ eine Liste von in der Matrix 

nebeneinanderstehenden Variablen bezeichnet, die von der Variable Id bis zu der Variable 

Frau reicht. Man hätte auch jede Variable einzeln auflisten können, von den anderen jeweils 

durch ein Komma separiert. 

Nun wollen wir mit dem sortierten Datensatz weiter arbeiten. Weil wir dafür den sogenannten 

Block-Modus verwenden werden, war das Sortieren der Datenmatrix im ersten Schritt 

unbedingt notwendig. 

hier wird über den MS-DOS- 

Pfad die Datei eingelesen 

setup 

Hier wird die Datei mit neuem Namen 

(epi1.dat) herausgeschrieben, d.h. 

sie wird permanent auf der Festplatte 

gespeichert, dabei sortiert nach Id und 

Job_nr und zudem das description file 

„des.cf“ an die angegebene Stelle 

geschrieben. 

Womit sich TDA-Neueinsteiger (zu Recht) häufig schwer tun, ist die Bedeutung des 

description files “des.cf“. Damit hat es Folgendes auf sich: Wenn wir die erzeugte und auf 

der Festplatte gespeicherte Datenmatrix „epi1.dat“ weiter verarbeiten wollen, müssen wir 

auch sie in TDA einlesen. Dafür benötigt TDA wieder ein setup, welches wir 

glücklicherweise nicht selber schreiben müssen, sondern uns durch die dtda-Option als 

7

ASCII-Datei auf der Festplatte ablegen lassen. Und dieser Datei hatten wir in Abbildung 2 – 

völlig willkürlich – in pdata(dtda=...,); den Namen „des.cf“ gegeben. Wie sieht 

diese Datei „des.cf“ aus? Siehe Abb. 3: 

Abb. 3: Das description file „des.cf“ 

nvar( 

dfile = c:\prog_dos\wintda\bsp_buch\epi1.dat, 

noc = 11, 

Id [0.0] = c1, 

Job_nr [0.0] = c2, 

TS [0.0] = c3, 

TF [0.0] = c4, 

Tint [0.0] = c5, 

Frau [0.0] = c6, 

); 

Diese Datei hätten wir auch selbst schreiben können. Aber nicht auszudenken, was dies bei 

vielen Variablen bedeuten würde! Wir können diese Datei nun in einen beliebigen Editor 

einladen (editpad.exe hat einige Vorzüge, man kann auch direkt den win-TDA Editor 

verwenden), dann den gesamten Text markieren und in die Zwischenablage kopieren (mit der 

Maus: Bearbeiten => kopieren) und anschließend im TDA – command editor „unter“ die dort 

bereits befindlichen Befehle einfügen (edit => paste). Vor diesen neuen nvar();- Befehl 

schreiben wir aber noch den Befehl clear; , damit der alte Datensatz aus dem 

Arbeitsspeicher des PC entfernt wird. Auf diese Weise erhalten wir Abb. 4: 

8

Abb. 4: Das erweiterte command file: 

# episoden.cf 

nvar( 

dfile=c:\prog_dos\wintda\bsp_buch\episoden.dat, 

noc=20, 

Id =c1,# ID der Person 

Job_nr =c2,# laufende Nummer der Arbeitstelle 

TS =c3,# Startzeitpunkt 

TF =c4,# Endezeitpunkt 

Tint =c5,# Interviewzeitpunkt 

Frau =c5,# Frau=1, sonst 0 

Schund =c6,# Sonstiges => wird nicht benoetigt 

); 

pdata(sort=Id,Job_nr,drop=Schund, 

dtda=c:\prog_dos\wintda\bsp_buch\des.cf) 


clear; 

Löscht die mit dem ersten nvar(); gebildete Datenmatrix aus dem 

Arbeitsspeicher. Sie liegt ja nun Dank pdata(); auf der Festplatte 

nvar( 


noc = 11, 

Id [0.0] = c1, 

Job_nr [0.0] = c2, 

TS [0.0] = c3, 

TF [0.0] = c4, 

Tint [0.0] = c5, 

Frau [0.0] = c6, 

); 

Im zweiten Schritt möchten wir den Datensatz um einige Variablen erweitern. Wir möchten 

z.B. wissen, wie lange jede Person am Ende ihrer letzten Episode beschäftigt war. 

Anzumerken ist, das jene Personen, deren letzte Episode zum Zeitpunkt 1176 

(Jahrhundertmonate seit Januar 1998) endet, zum Interviewzeitpunkt noch beschäftigt sind. Es 

handelt sich also um rechtszensierte Fälle. Im Augenblick ist dies jedoch nicht von 

Bedeutung. Wie geht man vor? Es ist notwendig, über Zeilen hinweg zu arbeiten. In 

Querschnittsanalysen ist dies nicht üblich, kommt jedoch in Längsschnittanalysen häufig vor. 

Außerdem möchten wir einige Berechnungen spezifisch für jede Person durchführen und es 

wäre fatal, wenn irrtümlicherweise Informationen einer Person mit den Informationen anderer 

Personen (die beide nichts miteinander zu tun haben) vermischt werden. 

Inhalt des description files 

des.cf wird mit copy + 

paste angefügt 

Wir verwenden darum den dblock- Befehl. Mit diesem Befehl kann man anhand der Werte 

einer als nominal skaliert betrachteten 4 Variablen Datenblöcke bilden. Alle Zeilen der 

Datenmatrix mit demselben Wert dieser Variablen gehören demselben Datenblock an. 

4 

Auch metrische Variablen lassen sich als nominalskaliert ansehen. Für die Bildung von Blöcken ist aber die 

Metrik nicht von Bedeutung, sondern es geht ja nur darum, gemäß den Werten einer Variablen Gruppen 

voneinander abzugrenzen. 

9

Abb. 5: Der dblock-Befehl 

# episoden.cf 

nvar( 

.... 

); 

pdata(...)...; 

clear; 

nvar( 


noc = 11, 

Id [0.0] = c1, 

Job_nr [0.0] = c2, 

TS [0.0] = c3, 

TF [0.0] = c4, 

Tint [0.0] = c5, 

Frau [0.0] = c6, 

dblock=Id, 

E=bfirst, 

L=blast, 

TF_neu=if eq(L,1) then Tint else suc(TS), 

Dur = TF-TS + 1, 

D_gesamt=cum(Dur), # kumuliert Dur innerhalb der Bloecke 

N_spell=brec, 

TS_min=bmin(TS), 

); 

pdata(dtda=c:\prog_dos\wintda\bsp_buch\des1.cf) 


Bestimmte Operatoren, zu denen wir gleich kommen, arbeiten bei gesetzten dblock-Befehl 

nur innerhalb der Blöcke, nicht aber über die gesamte Datenmatrix hinweg. 5 Eine 

Voraussetzung für die sinnvolle Bildung dieser Blöcke ist aber, dass die Datenmatrix nach 

den Werten dieser Variable sortiert ist, dass also alle Zeilen mit demselben Wert dieser 

Variablen direkt untereinander stehen. Korrekt sortiert haben wir ja bereits durch den 

pdata(sort=...);-Befehl im ersten Schritt. In Abbildung 5 bilden wir Blöcke für 

Personen (dblock=Id,). 

Interessant ist, wie die Datenmatrix epi2.dat aussieht. Die Variable TF_neu (Abb. 5) ist 

ein neuer Endzeitpunkt, der nicht mehr das Ende der Beschäftigungsepisode anzeigt, sondern 

den Beginn der folgenden Episode für den Fall, dass eine folgende Episode existiert. Wenn 

man berufliche Auf- oder Abstiege untersucht und Erwerbsunterbrechungen vorkommen (z.B. 

bei Id 1 zwischen Job_nr 1 und 2, vgl. Abb. 6), ist nämlich die Zeit bis zum Beginn der 

neuen Stelle entscheidend und nicht bis zum Ende der aktuellen Stelle. Mit suc(TS) wird 

der Wert von TS aus der folgenden (unteren) Zeile geholt. Existiert keine folgende Episode 

5 Die meisten dieser praktischen Operatoren (wahrscheinlich sogar alle) arbeiten über die gesamte Datenmatrix 

hinweg, wenn kein dblock-Befehl angegeben ist. 

10

und handelt es sich darum um die letzte aller von einer Person registrierten Episoden, dann 

wird der Interviewzeitpunkt als Endzeitpunkt eingesetzt (if L[1] then Tint...). 

Durch bfirst und blast wird in die jeweiligen Variablen („E“ und „L“) eine 1 

geschrieben, wenn es sich um die erste (letzte) in einem Block handelt, sonst eine Null. 

Abb. 6: Die Datenmatrix epi2.dat 

Id Job TS TF Tint Frau E L TF_neu Dur D_gesamt N_spell TS_min 

1 1 978 996 1176 1 1 0 1021 19 19 1 978 

1 2 1021 1130 1176 1 0 0 1134 110 129 2 978 

1 3 1134 1154 1176 1 0 1 1176 21 150 3 978 

2 1 921 983 1176 0 1 0 1098 63 63 1 921 

2 2 1098 1176 1176 0 0 1 1176 79 142 2 921 

3 1 1052 1132 1176 1 1 0 1132 81 81 1 1052 

3 2 1132 1170 1176 1 0 0 1170 39 120 2 1052 

3 3 1170 1176 1176 1 0 1 1176 7 127 3 1052 

4 1 1000 1056 1176 0 1 0 1100 57 57 1 1000 

4 2 1100 1104 1176 0 0 0 1104 5 62 2 1000 

4 3 1104 1170 1176 0 0 1 1176 67 129 3 1000 

Der Operator brec , mit dem die Variable N_spell gebildet wurde, nummeriert alle Zeilen 

innerhalb eines Blocks chronologisch durch. Dagegen schreibt der Operator bnrec in jede 

einzelne Zeile eines Blocks die Gesamtzahl der Zeilen (hier nicht durchgeführt). Bei einer mit 

bnrec gebildeten Variablen hätte z.B. jede der drei Episoden von ID Nr. 1 den Wert 3, weil 

in dem „Datenblock“, der durch die ID Nr. 1 identifiziert ist, drei Episoden existieren. 

Rekonstruiert man die Werte der neu gebildeten Variablen in Abb. 6 anhand der Befehle in 

Abb. 5, müsste noch einmal deutlich werden, wie die Befehle funktionieren. Natürlich ist es 

immer wieder sehr erkenntnisfördernd, diese Befehle selbst auszuprobieren. Man kann auch 

z.B. nach Geschlecht sortieren und Blöcke bilden, und dann geschlechtsspezifische 

Berechungen durchführen. Mit cum(Dur) wird die Dauer über alle Episoden einer Person 

kumuliert. 

Nehmen wir nun an, wir hätten ein anderes Problem zu lösen und die vorangegangenen 

Variablen wären nicht notwendig gewesen. Unsere Aufgabe besteht nun darin, die 

Zielzustände für die Arbeitsmarktprozesse zu definieren. Weil wir zwei unterschiedliche 

Fragestellungen verfolgen wollen, benötigen wir auch zwei unterschiedliche Zielzustände. 

Erstens geht es um das Ereignis „Ende einer Arbeitsstelle“ (Des). Zweitens geht es um das 

Ereignis „Beginn eines anderen Jobs“ (Des_mob). Abb. 7 zeigt, wie diese Zielzustände 

gebildet werden. Allerdings ist es möglich, dass Sie bei der Verwendung anderer Datensätze 

auch andere Bedingungen für Ereignis und Zensierung formulieren müssen. 

11

Abb. 7: Definition von Zielzuständen 

# episoden.cf 

nvar( 

.... 

); 

pdata(...)...; 

clear; 

nvar( 


noc = 11, 

Id [0.0] = c1, 

Job_nr [0.0] = c2, 

TS [0.0] = c3, 

TF [0.0] = c4, 

Tint [0.0] = c5, 

Frau [0.0] = c6, 

dblock=Id, 

E=bfirst, 

L=blast, 

TF_neu=if eq(L,1) then Tint else suc(TS), 

Dur = TF-TS + 1, 

Dur_mob=TF_neu-TS + 1, 

Des=if eq(TF,Tint) then 0 else 1, 

Des_mob=if eq(TF,Tint)|L[1] then 0 else 1, 

); 

pdata(dtda=c:\prog_dos\wintda\bsp_buch\des2.cf) 


In Tabelle 7 wird wieder die zuerst erzeugte sortierte Datei epi1.dat eingelesen. Und 

wieder wird im Block-Modus gearbeitet (dblock=Id,). Den neuen Endzeitpunkt erstellen 

wir wieder durch den Startzeitpunkt der Folgeepisode, es sei denn, es handelt sich um die 

letzte Episode einer Person. Dann finden wir ja keinen Folge-Job für diese Person und weisen 

ihr darum den Interviewzeitpunkt als Endzeitpunkt zu (if eq(L,1) then Tint else 

suc(TS),). Des Weiteren bilden wir für jede unserer beiden Untersuchungsfragen 

spezifische Verweildauervariablen sowie Zielzustandsvariablen. Dur misst einfach die Dauer 

des Jobs, indem der Startzeitpunkt vom Endzeitpunkt abgezogen wird, wobei der definierte 

Zielzustand Des auch bedeuten kann, dass mit dem Ende des Jobs eine Phase der 

Nichterwerbstätigkeit beginnt. Dur_mob misst die Dauer bis zum Beginn eines neuen Jobs 

und schließt auch die Wartezeit während einer Phase der Nichterwerbstätigkeit ein. 

Die Befehle in Abb. 7 führen zu der Datenmatrix in Abb. 8: 

12

Abb. 8: Datenmatrix epi3.dat 

Id Job TS TF Tint Frau E L TF_neu Dur Dur_mob Des Des_mob 

1 1 978 996 1176 1 1 0 1021 19 44 1 1 

1 2 1021 1130 1176 1 0 0 1134 110 114 1 1 

1 3 1134 1154 1176 1 0 1 1176 21 43 1 0 

2 1 921 983 1176 0 1 0 1098 63 178 1 1 

2 2 1098 1176 1176 0 0 1 1176 79 79 0 0 

3 1 1052 1132 1176 1 1 0 1132 81 81 1 1 

3 2 1132 1170 1176 1 0 0 1170 39 39 1 1 

3 3 1170 1176 1176 1 0 1 1176 7 7 0 0 

4 1 1000 1056 1176 0 1 0 1100 57 101 1 1 

4 2 1100 1104 1176 0 0 0 1104 5 5 1 1 

4 3 1104 1170 1176 0 0 1 1176 67 73 1 0 

Beim zweiten Job der Person mit der ID 1 ergeben die Befehle aus Abb. 7 für die Variablen 

Dur und Dur_mob Dur=1130 – 1021 + 1=110, Dur_mob=1134 – 1021 + 1=114. Bei ihrem 

dritten Job von (fett gedruckt): Dur=1154 – 1134 + 1=21, Dur_mob=1176 – 1134 + 1=43. Zu 

sehen ist zum einen, dass sich Dur und Dur_mob bei jenen Episoden unterscheiden, die in 

Erwerbslücken einmünden, bei denen also der Endzeitpunkt nicht identisch ist mit dem 

Startzeitpunkt der Folgeepisode. Zudem unterscheiden sich die Zielzustände bei den Episoden 

Nr. 3 der Personen 1 und 4. Beide Episoden enden vor dem Interviewzeitpunkt und sind daher 

bei der Variable Des nicht zensiert, sondern weisen das Ereignis „Verlassen der 

Arbeitsstelle“ auf (Des hat den Wert 1). Allerdings waren beide Personen nach Ende ihrer 

letzten Stelle bis zum Interviewzeitpunkt offensichtlich nicht wieder in Beschäftigung. Man 

kann daher auch nichts darüber aussagen, ob und wann eine eventuelle Folgebeschäftigung 

begann. Sie sind darum in der Analyse der Jobwechsel rechtszensiert (Des_mob hat hier den 

Wert 0). Ein weitere Unterschied besteht darin, dass diese Episoden bis zum 

Interviewzeitpunkt ihre Verweildauer zum risk set beitragen, wenn wir anhand von Des_mob 

und Dur_mob Jobwechsel untersuchen, während bei der Untersuchung der Beendigung der 

Arbeitsstellen auch nur die Verweildauern im Job zum risk set beitragen. Auf den ersten Blick 

sieht man, dass die Rate einen Job zu verlassen höher ist, als die Rate einen neuen Job zu 

finden. Das ist bei dieser Fragestellung inhaltlich trivial, weil man seinen Job beenden muss, 

um einen neuen antreten zu können (in der Regel). Das Inhaltliche interessiert uns hier nicht, 

sondern nur Ereignisse und Dauern. Die Anzahl der Ereignisse ist bei den Beendigungen der 

Jobs höher und zudem ist die kumulierte Verweildauer at risk geringer. Mehr Ereignisse bei 

weniger Zeit ergeben eine höhere Rate. 

13

3 Das Erstellen von Life-Table Grafiken mit SPSS 

Zu beachten ist bei der Sterbetafel ein manueller Zwischenschritt, der bei den Kaplan-Meier- 

Survivorfunktionen (vgl. den anschließenden Abschnitt) nicht erforderlich ist. Für die 

Grafiken beider Prozeduren können vorgefertigte SPSS Syntax-Files verwendet werden, bei 

denen man nichts anderes ändern muss als die Namen (und evtl. auch die Pfade, aber nicht in 

diesem Kurs) der Datenmatrizen, die in SPSS eingelesen werden. 

Das Erstellen der Life-Table Grafiken gliedert sich in folgende Schritte, die näher erläutert 

werden: 

a) Sterbetafeln mit TDA erstellen, mit dem ltb(); - Befehl. Stimmen Sie die Dateinamen 

der gespeicherten Sterbetafeln mit den Dateinamen ab, die in das SPSS Syntax-File 

eingelesen werden (command file end_job.cf). 

b) Sterbetafeln manuell im Editor verändern (editpad.exe!), indem nur der die 

Survivorfunktion und die Ratenfunktion enthaltende Teil der Tafel im Edior verbleibt. Der 

Rest wird gelöscht. 

c) Mit dem SPSS Syntax-File die Datenmatrizen einlesen. Grafiken werden erstellt und 

wollen schön formatiert sein (Syntax-File ltb1.sps). 

a) Um mit SPSS die Grafiken der Sterbetafeln zu erstellen, muss man zunächst mit TDA aus 

dem Episodendatensatz die „Tafel“ erzeugen. Wir tun dies mit dem command file 

end_job.cf, welches in Abb. 9 dargestellt ist. Hier wird nun mit echten Daten gearbeitet. 

14

Abb. 9: command file end_job.cf 

# end_job.cf 

# Sterbetafeln: Maenner + Frauen verlassen Arbeitsstellen 

# im Editor aufbereiten und in SPSS grafisch darstellen 

nvar( 

dfile = c:\prog_dos\wintda\bsp_buch\rrdat.1,# data file 

ID [3.0] = c1, # identification number 

SN [2.0] = c2, # spell number 

TS [3.0] = c3, # starting time 

TF [3.0] = c4, # ending time 

SEX [2.0] = c5, # sex (1 men, 2 women) 

TI [3.0] = c6, # interview date 

TB [3.0] = c7, # birth date 

TE [3.0] = c8, # entry into labor market 

TMAR [3.0] = c9, # marriage date (0 if no marriage) 

PRES [3.0] = c10, # prestige of current job 

PRESN [3.0] = c11, # prestige of next job 

EDU [2.0] = c12, # highest educational attainment 

# Vergleichsgruppen 

Frau=SEX[2], 

Mann=SEX[1], 

# Definition der Zielzustaende des Prozesses 

# DES = Verlassen der Arbeitsstelle 

DES [1.0] = if eq(TF,TI) then 0 else 1, 

# Definition der Verweildauer 

Dur=TF-TS+1, # einen Monat hinzu 

); 

edef( # define single episode data 

ts = 0, # starting time 

tf = Dur, # ending time 

org = 0, # origin state 

des = DES, # destination state 

); 

ltb( 

tp=0 (30) 500, 

) = c:\prog_dos\wintda\bsp_buch\ltb_mf.ltb; 

tsel=Mann[1]; 






); 

ltb( 

tp=0 (30) 500, 

) = c:\prog_dos\wintda\bsp_buch\ltb_m.ltb; 

tsel=Frau[1]; 






); 

ltb( 

tp=0 (30) 500, 

) = c:\prog_dos\wintda\bsp_buch\ltb_f.ltb; 

Setup: 

Beschreibung der 

Datenmatrix 

Braucht man nur, wenn beide Gruppen in einer Sterbetafel stehen 

sollen 

Zielzustände und Dauer. 

Vgl. den 

vorangegangenen 

Abschnitt 

Definition: es handelt sich um 

eine Episodendatei. Die 

mindestens notwendigen 

Merkmale einer Episodendatei 

müssen hier angebeben werden 

Tafel nur für Männer. Nach 

jedem tsel muss die 

Episodendatei neu definiert 

werden. Die life-Table wird mit 

dem ltb(); -Befehl erzeugt. 

Sie müssen mindestens die time 

periods definieren, hier von 0 

bis 500 in 30er Schritten. 

Alternativ, aber umständlich: 

tp=0,30,60,90,usw. ..500, 

möglich wäre auch: 

tp=0,30,60,240,500, 

Sterbetafel wird als Datei 

auf die Festplatte 

geschrieben. Die 

benötigen wir noch... 

15

Wenn Sie das command file laufen lassen, sehen Sie im output-Fenster von Win-TDA das 

übliche Protokoll der ausgeführten Befehle. Die einzige „soziologisch“ brauchbare 

Information ist hier nur die Median-Verweildauer. Aus dieser Median-Verweildauer lassen 

sich aber schon die grundlegenden Aussagen ableiten: bei welcher Gruppe dauert es länger, 

bis die Hälfte ein Ereignis aufweist (wenn denn überhaupt bis zum Ende des 

Beobachtungsfensters in beiden Gruppen ein Abstrom von 50% zu beobachten ist...)? 

b) Wir wollen uns nun die Sterbetafel genauer ansehen. Für die grafische Darstellung 

benötigen wir nur jenen Teil der Tabelle, der die Funktionen G(t) und r(t) enthält. 

Abb. 10: Sterbetafel des gesamten Samples (etwas gestutzt): ltb_mf.ltb 

# Life table. SN 1. Origin state 0. 

# Cases: 600 weighted: 600 

# Start of Number Number Exposed D-State 1 

# Interval Midpoint Entering Censored to Risk Events Prob 

0.00 15.00 600 28 586.0 223 0.38055 

30.00 45.00 349 23 337.5 113 0.33481 

60.00 75.00 213 15 205.5 51 0.24818 

. 

330.00 345.00 11 1 10.5 2 0.19048 

360.00 375.00 8 3 6.5 0 0.00000 

390.00 405.00 5 4 3.0 0 0.00000 

420.00 435.00 1 1 0.5 0 0.00000 

# Start of Survivor D-State 1 D-State 1 

# Interval Midpoint Function Error Density Error Rate Error 

0.00 15.00 1.00000 0.00000 0.01268 0.00067 0.01567 0.00102 

30.00 45.00 0.61945 0.02006 0.00691 0.00058 0.01340 0.00124 

60.00 75.00 0.41205 0.02077 0.00341 0.00045 0.00944 0.00131 

. 

330.00 345.00 0.11122 0.01900 0.00071 0.00047 0.00702 0.00493 

360.00 375.00 0.09004 0.02045 0.00000 * 0.00000 * 

390.00 405.00 0.09004 0.02045 0.00000 * 0.00000 * 

420.00 435.00 0.09004 0.02045 0.00000 * 0.00000 * 

# Median duration: 47.28 

Haben wir die Sterbetafel ltb_mf.ltb in den Editor „editpad.exe“ eingelesen, dann 

markieren und löschen wir jene Bereiche der Tabelle, die wir für die Grafik nicht benötigen. 

In Abbildung 10, die eine etwas reduzierte Version der Sterbetafel zeigt, sind diese Bereiche 

eingeklammert. Es bleibt also nur der (nur in diesem Skript) fett und kursiv gedruckte Bereich 

übrig. Haben Sie im editpad das Überflüssige gelöscht, speichern Sie die Datei unter dem 

alten Namen ab, d.h. drücken Sie einfach das Diskettensymbol in der Menüleiste. 

löschen! 

löschen! 

In derselben Weise verfahren Sie nun mit den anderen beiden Dateien ltb_m.ltb und 

ltb_f.ltb. Jetzt haben wir aus dem Ergebnis der TDA-Sterbetafelschätzung – nämlich der 

16

Sterbetafel selbst – eine für SPSS lesbare Datenmatrix erstellt (die nun natürlich keine 

personenbezogenen Individualdaten mehr enthält), aus der wir bequem unsere Grafiken 

erstellen können. 

c) Sind die Sterbetafeln aufbereitet, wie in b) beschrieben, lesen wir sie in SPSS ein und 

erstellen mit dem SPSS Syntax-File ltb1.sps die Grafiken. Dieses SPSS Syntax-File zeigt 

Abb. 11. Das Einlesen der Dateien erfolgt über den data list Befehl. Es werden drei 

Dateien mit data list eingelesen – zuerst die ltb_mf.ltb, die die für Männer und 

Frauen gemeinsam erstellte Sterbetafel enthält. Wie man sieht, wenn man sich die Sterbetafel 

anschaut, befinden sich die für uns wichtigen Informationen in den Spalten v1 

(t=Prozesszeit), v3 (g=Survivorfunktion) und v7 (r=Ratenfunktion). Mit dem graph – 

Befehl werden die Grafiken erstellt. Weiter unten wird zunächst die Sterbetafel der Männer 

ltb_m.ltb eingelesen und den wichtigen Variablen wieder Namen zugewiesen. Aber 

anstelle von g und r heißen die Funktionen/Variablen 6 jetzt gm und rm (m steht für 

Männer). Dies ist notwendig, weil die Datei, nachdem sie wieder auf der Festplatte 

abgespeichert wurde, über den MATCH FILES Befehl mit der Datei ltb_f.ltb, also der 

Sterbetafel der Frauen, zusammengeführt wird. Und wenn die Daten zusammengeführt sind, 

dürfen keine gleichen Variablennamen innerhalb einer Datei existieren. Die ltb_f.ltb 

wird eingelesen, die wichtigen Variablen werden nun aber gf und rf (f steht für Frauen) 

genannt. Nach dem MATCH FILES Befehl werden wieder mit dem graph Befehl die 

Grafiken erstellt, nun aber die Funktionen für Männer und Frauen jeweils simultan in einer 

Grafik über t abgetragen. Der sel if Befehl bedeutet, dass die Sterbetafeln oberhalb des 

Intervalls t=300 abgeschnitten sind. 

6 Es handelt sich hier natürlich um Variablen, um Spalten einer Datenmatrix. Inhalt dieser Variablen sind die 

Funktionen G(t) und r(t). 

17

Abb. 11: SPSS Syntax-File ltb1.sps zur Erstellung der Grafiken 

**** ltb1.sps **. 

*************************************************************. 

** Frauen und Manner, Blossfeld/Rohwer 1995: 56 ***. 

set decimals=dot. 

DATA LIST free FILE = 'c:\prog_dos\wintda\bsp_buch\ltb_mf.ltb' 

/v1 v2 v3 v4 v5 v6 v7 v8 . 

exe. 

compute t=v1. 

compute g=v3. 

compute r=v7. 

execute. 

format t (F3.1). 

format g (F5.4). 

format r (F5.4). 

exe. 

temporary. 

sel if (t le 300). 

GRAPH 

/LINE(multiple)=VALUE(g) BY t . 

temporary. 


GRAPH 

/LINE(multiple)=VALUE(r) BY t . 

*************************************************************. 

*********************** getrennt nach Geschlecht********. 


DATA LIST free FILE = 'c:\prog_dos\wintda\bsp_buch\ltb_m.ltb' 

/v1 v2 v3 v4 v5 v6 v7 v8 . 

exe. 

compute t=v1. 

compute gm=v3. 

compute rm=v7. 

exe. 

format gm (F5.4). 

format rm (F5.4). 

format t (F3.1). 

save outfile= 'c:\prog_dos\wintda\bsp_buch\ltb_m.sav' 

/keep t gm rm. 


DATA LIST free FILE = 'c:\prog_dos\wintda\bsp_buch\ltb_f.ltb' 

/v1 v2 v3 v4 v5 v6 v7 v8 . 

exe. 

compute gf=v3. 

compute rf=v7. 

execute. 

format gf (F5.4). 

format rf (F5.4). 

exe. 

save outfile= 'c:\prog_dos\wintda\bsp_buch\ltb_f.sav' 

/keep gf rf. 

get file= 'c:\prog_dos\wintda\bsp_buch\ltb_f.sav'. 

MATCH FILES /FILE=* 

Den drei wichtigen Spalten 

der Matrix werden die 

Namen der Funktion 

zugewiesen: t, G(t), r(t) 

„format“ ist nicht so 

wichtig, nur wegen der 

Ästhetik.. 

/FILE='C:\prog_dos\wintda\bsp_buch\ltb_m.sav'. 

EXECUTE. 

temporary. 


GRAPH 

/LINE(multiple)=VALUE(gm gf ) BY t . 

temporary. 


GRAPH 

/LINE(multiple)=VALUE(rm rf) BY t . 

Hier werden bis zum Intervall 300 

Monate die Funktionen G(t) und r(t) 

über t abgetragen grafisch dargestellt. 

Männer- 

Sterbetafel 

Frauen- 

Sterbetafel 

Die Sterbetafeldatenmatrix 

ltb_mf.ltb wird 

eingelesen. SPSS muss aber 

wissen, dass Dezimalstellen 

als Punkt (dot) dargestellt 

sind. 

Hier erfolgt der Vorgang für beide Dateien, die nur 

mit Männern bzw. nur mit Frauen erzeugt worden 

sind. Diese Dateien werden mit MATCH FILES 

zusammengeführt und dann G(t) und r(t) von 

Frauen und Männern gemeinsam in einer Grafik 

dargestellt. 

Zusammenführen der beiden bislang 

getrennten Sterbetafeln. 

Hier werden bis zum Intervall 300 

Monate die Funktionen G(t) und r(t) 

über t abgetragen und grafisch 

dargestellt. Männer und Frauen in einer 

Grafik 

18

Haben wir die Grafiken erstellt, sollten wir überprüfen, ob die angezeigten Verläufe mit den 

Original-Sterbetafeln übereinstimmen. 

Das Formatieren der Grafiken geschieht dadurch, dass Sie zunächst „doppelt“ auf die Grafik 

klicken, die dann in ein sog. CHART-Window geladen wird. Hier haben Sie alle 

Möglichkeiten: Überschrift, Legende, Fußnoten usw. Sie können auch die 

Achsenbeschriftungen ändern. Z.B. könnte die Ordinate mit „Anteil noch im Job“ beschriftet 

werden (denn nichts Anderes drückt die Survivorfunktion in diesem Fall aus), die Abszisse 

mit „Prozesszeit in Monaten“. Zudem sollte die Ordinate einen Maximalwert von 1 

annehmen. Klicken Sie (immer doppelt) auf die verschiedenen Stellen der Graphen und 

probieren Sie es selbst aus. Das Ergebnis könnte wie Abb. 12 aussehen. 

Abb. 12: Beendigung von Arbeitsstellen, Vergleich 

von Frauen und Männern, Sterbetafeln 

Anteil noch im Job 

1,0 

,8 

,6 

,4 

,2 

0,0 

.0 

30 

60 

90 

120 150 180 

Prozesszeit in Monaten 

210 240 270 300 

Quelle: MPI-Lebensverlaufsstudie, eigene Berechungen 

Männer 

Frauen 

4 Grafische Darstellung von Survivorfunktionen nach dem Kaplan-Meier Verfahren 

Im Gegensatz zur Sterbetafel wird die Prozesszeitachse beim Kaplan-Meier Verfahren 

(Synonym: Product-Limit-Schätzer) nicht a priori in Intervalle untergliedert. Sondern die 

Episodendatenmatrix rrdat.1 wird aufsteigend nach der Dauer sortiert. Zu jedem 

Zeitpunkt, an dem ein oder mehrere Ereignisse oder Zensierungen auftreten, wird die 

Survivorfunktion berechnet. Das hat den Nachteil, dass in der Ergebnisdatei, die wie auch die 

Sterbetafel als eigene Datei auf die Festplatte geschrieben wird, für jene Zeitpunkte, an denen 

„nichts passiert“, auch keine Einträge in der Ergebnisdatei existieren. Folglich kann man sie 

nicht so einfach grafisch darstellen. Wir können uns aber mit einem „Werkzeug“ behelfen. 

19

Der Ablauf gliedert sich wie folgt: 

a) mit dem command file end_job1_pres.cf die Episodendaten einlesen. Mit dem 

ple(); Befehl die Ausgabedatei pres.ple erstellen und speichern. Diese Datei enthält 

unter anderem die Survivorfunktion und deren Standardfehler, den wir für die Berechnung der 

Konfidenzintervalle benötigen. Diese Datei wird mit einem neuen nvar(); eingelesen, dort 

die Konfidenzintervalle gebildet und drei neue Dateien unter „abstrakten Namen“, nämlich 

einfach gruppe1.dat, gruppe2.dat, gruppe3.dat ... für jede Prestige-Gruppe 

herausgeschrieben. 

b) Das SPSS-Syntax-File ple_n.sps, wird ausgeführt. Damit werden die Grafiken erstellt. 

Das Vorgehen im Detail: 

a) Im ersten Schritt wird mit Hilfe des command files end_job1_pres.cf in Abb. 13 die 

Kaplan-Meier-Schätzung durchgeführt und das Ergebnis, nämlich eine umfangreiche Tabelle, 

in die Datei pres.ple geschrieben. Diese Datei ist in Abb. 14 dargestellt. Diese 

Datenmatrix wird in den folgenden nvar(); Befehlen in Abb. 13 eingelesen, dabei jedoch 

immer nur jener Teil der Datenmatrix (also der Ausgabetabelle) verwendet, der zu der 

jeweiligen Gruppe gehört und das Ergebnis als Datenmatrix auf der Festplatte gespeichert. 

Aber gehen wir auch dieses command file wieder von vorne bis hinten durch: 

Das command file beginnt wieder mit einem nvar();-Befehl. Neu ist innerhalb dieses 

ersten nvar();-Befehls nur die Bildung einer Klassifikation von Prestigegruppen: Anhand 

der Magnitude-Prestige-Skala von Wegener werden drei eher willkürliche Gruppen gebildet, 

die durch die drei Dummyvariablen P_low (0 bis 32 Punkte), P_mid (33 bis 41 Punkte) 

und P_high (42 bis 100 Punkte) identifiziert werden. 

20

Abb. 13: command file end_job1_pres.cf 

# end_job1_pres.cf 

# product limit estimation: Jobwechsel von Maennern und Frauen 

nvar( 

dfile = c:\prog_dos\wintda\bsp_buch\rrdat.1, # data file 

ID [3.0] = c1, # identification number 

SN [2.0] = c2, # spell number 

TS [3.0] = c3, # starting time 

TF [3.0] = c4, # ending time 

SEX [2.0] = c5, # sex (1 men, 2 women) 

TI [3.0] = c6, # interview date 

TB [3.0] = c7, # birth date 

TE [3.0] = c8, # entry into labor market 

TMAR [3.0] = c9, # marriage date (0 if no marriage) 

PRES [3.0] = c10, # prestige of current job 

PRESN [3.0] = c11, # prestige of next job 

EDU [2.0] = c12, # highest educational attainment 

# Definition der Zielzustaende des Prozesses 

# DES = Verlassen der Arbeitsstelle 

DES [1.0] = if eq(TF,TI) then 0 else 1, 

# Definition der Verweildauer 

Dur=TF-TS+1, # einen Monat hinzu 

# Prestigegruppen 

P_low=PRES[0,,32], 

P_mid=PRES[33,,41], 

P_high=PRES[42,,100], 

); 

freq1=P_low,P_mid,P_high; 


); 

ple( 





3 Dummies identifizieren drei Gruppen, die 

anhand von Prestigeintervallen gebildet 

werden 

grp=P_low,P_mid,P_high, 

csf, 

)=c:\prog_dos\wintda\bsp_buch\pres.ple; 

########## vorbereiten der PLE-Grafiken ###### 

#### ple-Tabelle wird in TDA eingelesen, 

#### die Konfidenzintervalle werden gebildet, 

#### der Datensatz herausgeschrieben und in SPSS 

#### eingelesen => Grafiken werden erstellt 

clear; 

nvar( 

dfile=c:\prog_dos\wintda\bsp_buch\pres.ple, 

ID=c1, 

I=c2, 

T=c3, 

G=c7, 

SE_G=c8, 

Auch hier wird wieder der edef- 

Befehl benötigt. 

Der eigentliche Befehl, der 

zur product-limit estimation 

führt: ple(); 

Mit dieser Ausgabedatei (Abb. 14) 

pres.ple arbeiten wir weiter. 

Sie wird hier wieder mit nvar(); 

eingelesen, 

G_unten=G-1.96*SE_G,# Konfidenzintervalle werden berechnet 

G_oben=G+1.96*SE_G, 

); 

tsel=ID[0];# Gruppe 1: Prestige gering 

pdata(drop=ID,SE_G)=c:\prog_dos\wintda\bsp_buch\gruppe1.dat; 

tsel=ID[1];# Gruppe 2: Prestige mittel 


tsel=ID[2];# Gruppe 2: Prestige hoch 


für SPSS 

lesbare ASCII- 

Dateien 

21

Man sollte sich natürlich mit dem freq und dem dstat-Befehl vorher einen Überblick 

über den Range und die Verteilung der Variablen PRES verschaffen. Bevor die Kaplan-Meier 

Schätzung mit dem Befehl ple(); (product limit estimator) durchgeführt werden kann, ist 

TDA wieder durch den edef(); Befehl mitzuteilen, dass es sich im eine Episodendatei 

handelt. Hier werden wieder die notwendigen Informationen über den Ausgangs- und den 

Zielzustand sowie über die Dauer des Prozesses gemacht. Im Rahmen des ple-Befehls wird 

mit der grp=..., Option festgelegt, welche Gruppen hinsichtlich ihrer Survivorfunktionen 

verglichen werden sollen. Für diese Gruppen müssen Dummyvariablen existieren, die den 

Wert 1 annehmen, wenn eine Episode zur jeweiligen Prestigegruppe gehört und eine 0, wenn 

dies nicht der Fall ist. Darüber hinaus wird mit der Option csf der statistische Vergleich der 

Survivorfunktionen durch den log-rank-Text und die Wilcoxon-Tests angefordert. Wie auch 

bei der Sterbetafel wird eine Ergebnisdatei auf die Festplatte geschrieben, und dieser Datei 

wird hier der Name pres.ple gegeben. Um die folgenden Befehle des command files in 

Abb. 13 zu verstehen, muss man wissen, welche Information diese Datei enthält (Abb. 14). 

b) Für die grafische Darstellung der Survivorfunktionen ist wichtig, dass auch diese Datei, 

wenn man sie etwas verändert, als Datenmatrix in SPSS eingelesen wird und sich Grafiken 

erstellen lassen. 

22

Abb. 14: (kleiner Ausschnitt aus der) Ausgabedatei pres.ple 

# SN 1. Transition: 0,1 - Product-Limit Estimation 

# Group: P_low 

# Number Number Exposed Survivor Std. Cum. 

# ID Index Time Events Censored to Risk Function Error Rate 

0 0 0.00 0 0 213 1.00000 0.00000 0.00000 

0 1 2.00 2 0 213 0.99061 0.00661 0.00943 

. . . . . 

0 38 39.00 1 0 85 0.41643 0.03451 0.87604 

0 39 40.00 1 1 83 0.41141 0.03446 0.88816 

0 40 44.00 1 0 82 0.40640 0.03440 0.90043 

0 41 46.00 1 1 80 0.40132 0.03434 0.91301 

. . . 

0 78 275.00 1 1 8 0.08746 0.02487 2.43661 

0 79 326.00 1 2 5 0.06997 0.02531 2.65976 

# 0 80 414.00 0 4 

# Median Duration: 32.07 

# Duration times limited to: 326 



# Group: P_mid 



1 0 0.00 0 0 181 1.00000 0.00000 0.00000 

1 1 3.00 1 1 180 0.99444 0.00554 0.00557 

1 2 4.00 2 0 179 0.98333 0.00954 0.01681 

. . . 

1 15 20.00 5 0 146 0.78823 0.03051 0.23797 

1 16 24.00 10 2 139 0.73152 0.03317 0.31263 

1 17 25.00 5 0 129 0.70317 0.03422 0.35216 

. . . 

1 74 350.00 1 1 4 0.08687 0.03561 2.44335 

# 1 75 428.00 0 3 





# Group: P_high 



2 0 0.00 0 0 206 1.00000 0.00000 0.00000 

2 1 3.00 2 0 206 0.99029 0.00683 0.00976 

. 

2 41 48.00 1 0 91 0.52164 0.03640 0.65078 

2 42 50.00 1 1 89 0.51578 0.03646 0.66208 

2 43 54.00 5 0 88 0.48647 0.03667 0.72058 

. 

2 68 127.00 1 1 30 0.25689 0.03525 1.35913 

2 69 133.00 1 2 27 0.24737 0.03521 1.39687 

. 

2 75 220.00 1 0 11 0.17131 0.03665 1.76431 

2 76 293.00 1 5 5 0.13704 0.04241 1.98745 

# 2 77 397.00 0 4 




Nur diese beiden Spalten, c7 und 

c8, sind bei allen drei Gruppen 

von Interesse (und natürlich die 

Spalte c3, die Prozesszeit). 

23

Die Ausgabedatei besteht aus drei Teilen. Jeder Teil steht für die Survivorfunktion einer der 

drei Gruppen. Die erste mit „ID“ überschriebene Spalte stellt eine Identifikationsvariable dar, 

mit der aber nicht individuelle Episoden identifiziert werden (die ja in dieser Datei nicht mehr 

existieren), sondern die jeweilige Gruppe, für die die Aggregatinformation (wie zum Beispiel 

die Survivorfunktion als Anteilswert) berechnet wurden. Bei dem Befehl ple(); wurden in 

Abb. 13 durch die Option grp=P_low,P_mid,P_high, die drei Gruppen benannt, deren 

die Survivorfunktionen verglichen werden sollen. Die erste Gruppe hat bei der ID – Spalte in 

Abb. 14 immer den Wert 0, die zweite den Wert 1, die dritte den Wert 2 und die nte Gruppe 

hätte den Wert n – 1. Wie man in Abb. 14 sieht, sind alle Zeilen, die nicht Teil der 

Datenmatrix sind, die also irgendwelchen Text oder Erläuterungen enthalten, durch das 

Symbol „ # “ auskommentiert. Wenn wir die in Abb. 14 gezeigte Datei als Datenmatrix in 

TDA (noch nicht in SPSS!) einlesen wollen, was wir gleich tun werden, müssen wir also diese 

Zeilen nicht „von Hand löschen“, wie es bei der Life-Table erforderlich war. 7 Noch ein Blick 

auf Abbildung 14: wir interessieren uns nun für die Spalten „SURVIVOR FUNCTION“ und 

„Std. Error“, die wir grafisch darstellen wollen. Zu diesem Zweck lesen wir im 

command file in Abb. 13 die Datei pres.ple wieder in TDA ein. Unser Ziel besteht darin, 

die Survivorfunktion um zwei Linien zu ergänzen, nämlich eine Linie, die das untere 

Konfidenzintervall von G(t) zeigt und eine Linie, die das obere Konfidenzintervall von G(t) 

zeigt (G_unten = G - 1.96 * SE_G, G_oben = G + 1.96 * SE_G,). Damit 

haben wir einen grafischen Signifikanztest für Differenzen zwischen Survivorfunktionen. Vor 

dem Einlesen mit dem neuen nvar(); - Befehl müssen wir aber mit dem clear; -Befehl 

die Episodendatenmatrix rrdat.1 aus dem Arbeitsspeicher löschen (denn damit haben wir 

ja den Kaplan-Meier-Schätzer berechnet und diese befindet sich noch im Arbeitsspeicher). Ist 

das geschehen, kann z.B. die Survivorfunktion der ersten Gruppe (die mit geringem Prestige, 

P_low=1) mit pdata(); im Anschluss an den zweiten nvar(); Befehl 

herausgeschrieben werden. Doch woher weis TDA eigentlich, dass es nur die Funktion dieser 

Gruppe herausschreiben soll? Weil im Anschluss des nvar(); Befehls und vor jedem 

pdata(); Befehl ein tsel steht. Dieser tsel=Befehl führt zur Selektion von Zeilen der 

Datenmatrix, die durch die ID Variable gesteuert ist. Bei tsel werden die Zeilen nach Ende, 

also nach Abschluss des nvar(); Befehls ausgeschlossen, z.B. vor dem Herausschreiben 

7 

Bei der Life-Table haben wir die *.ltb - Dateien direkt in SPSS eingelesen. SPSS erkennt das „ # “ nicht als 

Kommentar-Symbol, unter anderem deshalb darum mussten wir einige Teile der *.ltb- Tafeln löschen. TDA 

erkennt das „ # “ sowohl innerhalb der command files als auch innerhalb einer Rohdatenmatrix als 

Kommentarzeile. 

24

einer Datenmatrix mit pdata(); oder vor einem Statistikbefehl wie ltb(); . Betrachten 

wir jetzt Abb. 14. Dort hat nur der Teil der ple();- Ausgabedatei pres.ple den Wert 0 

in der ersten Spalte (c1) , welcher zur Gruppe mit dem geringem Prestige gehört. Die Gruppe 

mit dem mittleren Prestige hat in der c1 (ID) den Wert 1. Sie wird in dem darauffolgenden 

pdata(); Befehl herausgeschrieben ( tsel=ID[1] ), nachdem die Datei genau wie die 

der anderen Gruppe verändert wurde. Dasselbe geschieht schließlich mit der dritten Gruppe ( 

tsel=ID[2] ) 8 . Jeder tsel- Befehl löst die Selektionsbedingung eines vorangegangenen 

tsel- Befehl wieder auf und macht die von ihm formulierte Selektionsbedingung wirksam. 

Es ist ratsam, weder die Pfadangabe noch die Dateinamen zu ändern, denn ansonsten kann 

später dass SPSS-Syntax-File ple_n.sps nicht einfach ausgeführt werden. Weil die 

Dateinamen wie oben angemerkt „abstrakt“ sind, also gruppe1.dat bis gruppe3.dat 

heißen, können Sie dieses SPSS-Syntax-File für jede Kaplan-Meier Schätzung verwenden – 

sie dürfen eben nur die Namen der Ausgabedatenmatrizen nicht verändern und sollten sich 

vorher gut notieren, welche konkrete soziale Gruppe (z.B. hohes/geringes Prestige, 

Frau/Mann etc.) sich hinter gruppe1.dat bzw. gruppe2.dat usw. verbirgt (oder noch 

mal kurz in das TDA command file schauen). 

Abb. 15 zeigt das SPSS-Syntax-File ple_n.sps. Es ermöglicht die simultane grafische 

Darstellung von bis zu drei Survivorfunktionen samt ihrer Konfidenzintervalle, sieht recht 

kompliziert aus und ist das auch. Sie brauchen es eigentlich nicht zu verstehen, denn dies ist 

nur ein Werkzeug. Das File könnte man noch erweitern, aber mehr als drei Funktionen sind 

fast immer unübersichtlich. Man muss dann zur Modellbildung übergehen – die ja genau dies 

lösen soll, nämlich die Modellierung der Übergangsprozesse unter komplexeren 

Einflusskonstellationen in Form der multiplen Regression. 

Wenn Sie sich an die Pfadangaben und die Dateinamen halten (z.B. gruppe1.dat), braucht 

der Inhalt dieser Syntax-Datei also nicht weiter zu interessieren sondern Sie können die Datei 

einfach laufen lassen. Trotzdem sind vielleicht einige Anmerkungen sinnvoll. Schauen wir 

noch einmal in Abbildung 14. Im oberen Teil ist bei der Gruppe P_low zu sehen, dass nicht 

zu jedem Monat Ereignisse oder Zensierungen auftreten. Z.B. gibt es im Monat 39 ein 

Ereignis, ein weiteres im Monat 40, dann aber erst wieder eins im Monat 44, danach erst 

wieder im Monat 46. Für die ereignislosen Monate existieren keine Zeilen in der Tabelle. 

8 Übrigens gilt beim tsel Befehl die übliche Syntax zur Formulierung von Bedingungen, allerdings ohne den if- 

Befehl. Man kann also Selektionen nach verknüpften Merkmalen durchführen, z.B. 

tsel=eq(Frau,1)&eq(Arm,1); wenn nur arme Frauen im Sample bleiben sollen. Dasselbe: 

tsel=Frau[1]&Arm[1]; 

25

Wollten wir diese Tabelle ohne Modifikation grafisch darstellen, hätten wir keine 

kontinuierliche Zeitachse und die Grafik wäre aufgrund der Lücken „gestaucht“. Tatsächlich 

liefert das Kaplan-Meier-Verfahren eine „Treppenfunktion“, die solange über die 

ereignislosen Monate hinweg parallel zur Abszisse verläuft, bis wieder ein Ereignis oder eine 

Zensierung eintritt. In dem SPSS-Syntax-File wird durch den loop...end loop Befehl 

genau dieses Problem behoben und immer dann, wenn eine ereignislose Lücke auftritt, so 

viele neue Zeilen in die Datenmatrix hinzugeschrieben, so lange die Lücke gemessen in 

Monaten dauert. Außerdem werden auch hier wieder mit dem MATCH FILES Befehl 

Dateien zusammengeführt. 

Abb. 15: SPSS-Syntax-File ple_n.sps 

**** ple_n.sps **. 

**** plot der Grafiken nach der PLE Tabelle. 

**** Tabelle erzeigt mit ple_n.cf. 

**** fuer n Gruppen. 

**************************************************. 

***** Gruppe 1 *******. 

*** Dateiname ***. 


DATA LIST free FILE = 'C:\prog_dos\wintda\bsp_buch\gruppe1.dat' 

/i1 t1 g1 gu1 go1 . 

exe. 

compute i_1=i1*(-1). 

execute. 

sort cases by i_1. 

compute n=2. 

if (i1 gt 0) n=lag(t1) - t1. 

if (i1 eq 0 & lag(t1) - t1 gt 1) n=lag(t1) - t1 +1. 

recode n (sysmis=1). 

execute. 

sort cases by i1. 

format t1 (F3.0). 

*** als ASCII Datei herausschreiben, um dann wieder mit data list einzulesen. 

save translate out='C:\prog_dos\wintda\bsp_buch\ple.asc' 

/type= tab 

/map/ replace/ 

keep=n t1 i1 g1 gu1 go1 . 

execute. 

input program. 

data list file='C:\prog_dos\wintda\bsp_buch\ple.asc' free/ N. 

loop #i=1 to N. 

reread. 

data list free/n t1 i1 g1 gu1 go1 . 

compute n_sub = #i. 

end case. 

end loop. 

end input program. 

execute. 

compute time= t1 + n_sub - 1 -1. 

sort cases by time. 

exe. 

format time (F3.0). 

compute tdiff= time - lag(time). 

exe. 

**********Grafik fuer eine Gruppe *****. 

sel if (time ge 0 & tdiff gt 0). 

GRAPH 

/LINE(multiple)=VALUE(go1 g1 gu1) BY time . 

save outfile='C:\prog_dos\wintda\bsp_buch\g1.dat' 

26

keep time g1 gu1 go1 . 

**************************************************. 

**** Gruppe 2*****. 




/ i2 t2 g2 gu2 go2 . 

exe. 


execute. 


compute n=2. 

if (i2 gt 0) n=lag(t2) - t2. 


recode n (sysmis=1). 

execute. 





/type= tab 


keep=n t2 i2 g2 gu2 go2. 

execute. 




reread. 

data list free/n t2 i2 g2 gu2 go2 . 


end case. 

end loop. 


execute. 



exe. 


exe. 


**********Grafik fuer eine Gruppe *****. 

sel if ( time ge 0 & tdiff gt 0 ). 

GRAPH 


*** matching von Gruppe 1 und Gruppe2***. 

match files /file=* 

/file='C:\prog_dos\wintda\bsp_buch\g1.dat' 

/by time. 

exe. 


/keep time g1 gu1 go1 g2 gu2 go2 . 

**********Grafik fuer zwei Gruppen *****. 

temporary. 

sel if (time le 180). 

GRAPH 

/LINE(multiple)=VALUE( go1 g1 gu1 go2 g2 gu2 ) BY time . 

**************************************************. 

**** Gruppe 3*****. 




/ i3 t3 g3 gu3 go3. 

exe. 


execute. 


compute n=2. 

if (i3 gt 0) n=lag(t3) - t3. 


27

ecode n (sysmis=1). 

execute. 





/type= tab 


keep=n t3 i3 g3 gu3 go3 . 

execute. 




reread. 

data list free/n t3 i3 g3 gu3 go3. 


end case. 

end loop. 


execute. 



exe. 


exe. 


sel if (time ge 0 & tdiff gt 0). 

GRAPH 


*** matching von Gruppe 1_2 und Gruppe3***. 

match files /file=* 

/file='C:\prog_dos\wintda\bsp_buch\g12.dat' 

/by time. 

exe. 


/keep time g1 gu1 go1 g2 gu2 go2 g3 gu3 go3 . 

temporary. 

sel if (time le 180). 

GRAPH 

/LINE(multiple)=VALUE( go1 g1 gu1 go2 g2 gu2 go3 g3 gu3 ) BY time . 

28

Abb. 16: Beendigung von Arbeitsstellen, 

Vergleich von Prestigegruppen, Kaplan- 

Meier-Schätzer 

Anteil noch im Job 

1,0 

,8 

,6 

,4 

,2 

0,0 

0 

20 

40 

Abb. 16: Beendigung von Arbeitsstellen, 

Vergleich von Prestigegruppen, Kaplan-Meier- 

Schätzer 

Quelle: MPI-Lebensverlaufsstudie, eigene Berechungen Quelle: MPI-Lebensverlaufsstudie, eigene Berechungen 

Diese Zusammenführung erfolgt nach dem Verknüpfungskriterium der Prozesszeit (by 

time). Falls Sie die Survivorfunktionen ohne Konfidenzintervalle plotten möchten, sollten 

Sie wissen, dass innerhalb der graph Befehle aus der Klammer hinter value= einfach nur 

die go1 und gu1 bzw. go2 und gu2 usw. herausnehmen müssen. Dort bedeutet go (gu) 

„G(t) oberes Konfidenzintervall“ („G(t) unteres Konfidenzintervall“), die Nummer bezeichnet 

die Nummer der Gruppe. 

Beschränken wir uns auf den Vergleich der Gruppen „geringes Prestige“ und „mittleres 

Prestige“ (gruppe1 und gruppe2), erhalten wird das Ergebnis aus Abb. 16. Auf die Legende 

wurde hier verzichtet. Die Beschriftung der Funktionen erfolgte mit Word-Textfeldern und 

Zeichenelementen. 

Gruppe 1: mittleres Prestige 

60 

Gruppe 2: geringes Prestige 

80 

100 

120 


140 

160 

180 

Anteil noch Job 

1,0 

,8 

,6 

,4 

,2 

0,0 

0 

20 

40 

60 

80 

100 

120 


140 

160 

29 

180

In den Abbildungen 16 und 17 sind die Ergebnisse der Kaplan-Meier Schätzungen in Form 

der Survivorfunktionen samt der sogenannten „Signifikanzbänder“ dargestellt. Trotz der 

geringen Zahl der Episoden sind in Abb. 16 per Augenschein signifikante Unterschiede in den 

Abstromprozessen zwischen der Gruppe mit dem geringen Prestige und der mit mittlerem 

Prestige festzustellen. Personen mit geringem Prestige verlassen ihre Arbeitsstellen schneller. 

Woran das liegt, spielt an dieser Stelle keine Rolle. Die eigentlichen Survivorfunktionen sind 

die dickeren Linien, während die dünnen gestrichelten Linien die oberen bzw. unteren 

Grenzen der Konfidenzintervalle abbilden. Abbildung 17 ist sehr unübersichtlich, was aber 

auch an der Breite der Konfidenzintervalle und das wiederum unter anderem an den geringen 

Fallzahlen liegt. Gut, dass wir in einem Fall wie in Abb. 17 nicht auf die Grafiken angewiesen 

sind, sondern auf unsere statistischen Test (log-rank und Wilcoxon) zurückgreifen können! 

Und später ohnehin zur Modellbildung übergehen. 

30

Skript: "Arbeiten mit ´TDA" - Universität Bremen

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

Template löschen?

Als Template speichern?