31.10.2015 Views

Handbuch Digital Humanities

DH-Handbuch

DH-Handbuch

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

Euklidische Distanz verwendet. Empirische Studien konnten<br />

allerdings nicht zeigen, dass Argamons Delta in der Praxis<br />

bei der Autorenschaftszuschreibung besser funktioniert als<br />

Burrows Delta. 16 Rybicki und Eder 17 entwickelten eine Variante,<br />

die speziell an die Bedürfnisse stark flektierter Sprachen<br />

wie Polnisch und Latein angepasst ist. Im Vergleich zu einer<br />

weitgehend unflektierten Sprache, wie dem Englischen, ist<br />

bei Sprachen mit größerer morphologischer Formenvielfalt<br />

zu erwarten, daß die relative Häufigkeit der häufigen Wörter<br />

insgesamt weniger groß ist. Beim sog. Eders Delta werden<br />

die Features nach ihrem Rang in der Liste der häufigsten Wörter<br />

gewichtet, um diesen Unterschied zu kompensieren. Die<br />

bisher beste Erfolgsquote im empirischen Vergleich erreichte<br />

eine von Smith and Adrigde 18 vorgeschlagene Variante, bei<br />

der die Cosinus-Ähnlichkeit der z-Scores berechnet wird. Vor<br />

allem liefert Cosinus Delta auch bei sehr vielen Features stabil<br />

gute Ergebnisse, während die Erfolgsquote der anderen<br />

Varianten sinkt, wenn mehr als die 2000 häufigsten Wörter in<br />

die Analyse mit eingehen. 19 Ein wesentlicher Grund dafür liegt<br />

vermutlich darin, dass in diesem Bereich der Wortliste zunehmend<br />

Worte auftreten, die nur in einzelnen Texten in hoher<br />

Frequenz vorkommen. Solche text-, und nicht autorenspezifischen<br />

Vokabeln können die Abstände zwischen Texten, die<br />

vom der gleichen Autorin/vom gleichen Autor stammen, bei<br />

anderen Delta-Verfahren sehr groß werden lassen. Sie haben<br />

aber einen geringeren Effekt auf die Cosinus-Distanz, da die<br />

Wirkung einzelner Extremwerte hier in ähnlicher Weise gedämpft<br />

wird wie nach einer Vektor-Normalisierung. 20<br />

Stilometrische Analysen in Stylo<br />

Für solche stilometrischen Analyseverfahren stehen heutzutage<br />

verschiedene, frei verfügbare Werkzeuge zur Verfügung.<br />

Eine der umfangreichsten Implementierungen stilometrischer<br />

Methoden bietet das Stylo-Paket von Maciej Eder, Jan<br />

Rybicki und Mike Kestemont. Es handelt sich dabei zwar im<br />

Prinzip um ein Packet für die Skriptsprache R, erfordert aber<br />

keinerlei Programmierkenntnisse: Der Anwender kann über<br />

die R-Konsole eine graphische Benutzeroberfläche (Graphical<br />

User Interface oder GUI) aufzurufen, über die sich die<br />

meisten Funktionen von Stylo per Mausklick bedienen lassen.<br />

97

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!