31.10.2015 Views

Handbuch Digital Humanities

DH-Handbuch

DH-Handbuch

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

tern, wie "und", "der" und "die". Ordnet man alle Wörter, die<br />

in einem Text, oder in einem ganzen Textkorpus vorkommen<br />

nach ihrer Häufigkeit, so reicht oft schon die Berücksichtigung<br />

der Häufigkeiten der ersten 100 Wörter in dieser Liste,<br />

um stilistische Unterschiede zwischen Autoren herauszuarbeiten<br />

zu erkennen.<br />

Je nach Fragestellung kann aber auch die Berücksichtigung<br />

anderer Eigenschaften der zu untersuchenden Texte sinnvoll<br />

sein, z.B. Satzlängen, die Häufigkeiten von Wortgruppen, von<br />

bestimmten grammatischen Konstruktionen oder von seltenen<br />

Inhaltswörtern. Diese Eigenschaften eines Textes, die<br />

einer Analyse zu Grunde liegen, bezeichnet man als Features.<br />

Grundsätzlich kann fast jede Eigenschaft eines Textes als Feature<br />

in der Stilometrie zum Einsatz kommen – vorausgesetzt<br />

sie ist messbar und erlaubt es, jedem Text einen eindeutigen<br />

Wert zuzuordnen. In der Praxis, gerade bei der Autorenschaftsattribution,<br />

haben sich als die gängigsten Features<br />

tatsächlich die Häufigkeiten der häufigsten Wörter etabliert.<br />

Aber wie erkennt man nun relevante Unterschiede in einer<br />

Vielzahl von Features, z.B. in zwei Reihen von jeweils 100<br />

Worthäufigkeiten? Der, auch in der Stilometrie übliche Weg,<br />

in einer Menge von Informationen relevante Muster zu finden<br />

ist die Reduktion auf ein vereinfachendes Modell. Für die<br />

Stilanalyse werden einzelne Texte als Datenpunkte in einem<br />

mehrdimensionalen Raum modelliert. Die Dimensionen bzw.<br />

die Achsen des Koordinatensystems sind in diesem Modell<br />

die Features, die Position eines Punktes, d.h. eines Textes<br />

auf einer bestimmten Achse entspricht dem Wert, den der<br />

Text für dieses Feature hat, also z.B. der Häufigkeit, mit der<br />

das entsprechende Wort in diesem Text vorkommt. Das heißt<br />

aber nun, dass ein Textkorpus, wenn nur die 100 häufigsten<br />

Wörter als Features berücksichtigt werden, als Wolke von<br />

Punkten in einem Koordinatensystem mit 100 Dimensionen<br />

modelliert wird! Gleichzeitig lassen sich aber nur höchstens 3<br />

Dimensionen sinnvoll graphisch abbilden. Wie soll also dieses<br />

"vereinfachende" Modell helfen, relevante Muster zu erkennen?<br />

Ein etabliertes mathematisches Verfahren, mit dieser<br />

Art von Datenmodell umzugehen ist die Principal Component<br />

Analysis. Sie ist auch eines der ersten Verfahren, die in der<br />

quantitativen Textanalyse eingesetzt wurden.<br />

91

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!