Handbuch Digital Humanities
DH-Handbuch
DH-Handbuch
Create successful ePaper yourself
Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.
Euklidische Distanz verwendet. Empirische Studien konnten<br />
allerdings nicht zeigen, dass Argamons Delta in der Praxis<br />
bei der Autorenschaftszuschreibung besser funktioniert als<br />
Burrows Delta. 16 Rybicki und Eder 17 entwickelten eine Variante,<br />
die speziell an die Bedürfnisse stark flektierter Sprachen<br />
wie Polnisch und Latein angepasst ist. Im Vergleich zu einer<br />
weitgehend unflektierten Sprache, wie dem Englischen, ist<br />
bei Sprachen mit größerer morphologischer Formenvielfalt<br />
zu erwarten, daß die relative Häufigkeit der häufigen Wörter<br />
insgesamt weniger groß ist. Beim sog. Eders Delta werden<br />
die Features nach ihrem Rang in der Liste der häufigsten Wörter<br />
gewichtet, um diesen Unterschied zu kompensieren. Die<br />
bisher beste Erfolgsquote im empirischen Vergleich erreichte<br />
eine von Smith and Adrigde 18 vorgeschlagene Variante, bei<br />
der die Cosinus-Ähnlichkeit der z-Scores berechnet wird. Vor<br />
allem liefert Cosinus Delta auch bei sehr vielen Features stabil<br />
gute Ergebnisse, während die Erfolgsquote der anderen<br />
Varianten sinkt, wenn mehr als die 2000 häufigsten Wörter in<br />
die Analyse mit eingehen. 19 Ein wesentlicher Grund dafür liegt<br />
vermutlich darin, dass in diesem Bereich der Wortliste zunehmend<br />
Worte auftreten, die nur in einzelnen Texten in hoher<br />
Frequenz vorkommen. Solche text-, und nicht autorenspezifischen<br />
Vokabeln können die Abstände zwischen Texten, die<br />
vom der gleichen Autorin/vom gleichen Autor stammen, bei<br />
anderen Delta-Verfahren sehr groß werden lassen. Sie haben<br />
aber einen geringeren Effekt auf die Cosinus-Distanz, da die<br />
Wirkung einzelner Extremwerte hier in ähnlicher Weise gedämpft<br />
wird wie nach einer Vektor-Normalisierung. 20<br />
Stilometrische Analysen in Stylo<br />
Für solche stilometrischen Analyseverfahren stehen heutzutage<br />
verschiedene, frei verfügbare Werkzeuge zur Verfügung.<br />
Eine der umfangreichsten Implementierungen stilometrischer<br />
Methoden bietet das Stylo-Paket von Maciej Eder, Jan<br />
Rybicki und Mike Kestemont. Es handelt sich dabei zwar im<br />
Prinzip um ein Packet für die Skriptsprache R, erfordert aber<br />
keinerlei Programmierkenntnisse: Der Anwender kann über<br />
die R-Konsole eine graphische Benutzeroberfläche (Graphical<br />
User Interface oder GUI) aufzurufen, über die sich die<br />
meisten Funktionen von Stylo per Mausklick bedienen lassen.<br />
97