Handbuch Digital Humanities

DH-Handbuch DH-Handbuch

31.10.2015 Views

Erfolgsquote von 95% dem richtigen Autor zuordnen lässt, und das auf Basis von nicht mehr als den Häufigkeiten der 150 meist genutzten Wörter (Abb. 5.6). Abb. 5.6: Texte zweier verschiedener AutorenInnen in einem vereinfachten, zweidimensionalen Feature-Raum. Die Texte der einen Autorin oder des einen Autors werden durch Kreise, die der/des anderen durch Dreiecke repräsentiert. Die stilistischen Abstände zwischen den Texten lassen sich in diesem Modell als Linien darstellen. Blaue Linien zeigen dabei Abstände zwischen Texten aus der gleichen Feder, rote Linien Vergleiche zwischen Texten unterschiedlicher Urheberschaft. Aus Jannidis et al. 2015. Wenngleich John Burrows ursprüngliche Variante von Delta nach wie vor erfolgreich in der Forschung eingesetzt wird existieren mittlerweile mehrere Weiterentwicklungen. Argamon 15 schlug auf Grundlage mathematischer Argumente eine Variante vor, die statt der Manhattan-Distanz die 96

Euklidische Distanz verwendet. Empirische Studien konnten allerdings nicht zeigen, dass Argamons Delta in der Praxis bei der Autorenschaftszuschreibung besser funktioniert als Burrows Delta. 16 Rybicki und Eder 17 entwickelten eine Variante, die speziell an die Bedürfnisse stark flektierter Sprachen wie Polnisch und Latein angepasst ist. Im Vergleich zu einer weitgehend unflektierten Sprache, wie dem Englischen, ist bei Sprachen mit größerer morphologischer Formenvielfalt zu erwarten, daß die relative Häufigkeit der häufigen Wörter insgesamt weniger groß ist. Beim sog. Eders Delta werden die Features nach ihrem Rang in der Liste der häufigsten Wörter gewichtet, um diesen Unterschied zu kompensieren. Die bisher beste Erfolgsquote im empirischen Vergleich erreichte eine von Smith and Adrigde 18 vorgeschlagene Variante, bei der die Cosinus-Ähnlichkeit der z-Scores berechnet wird. Vor allem liefert Cosinus Delta auch bei sehr vielen Features stabil gute Ergebnisse, während die Erfolgsquote der anderen Varianten sinkt, wenn mehr als die 2000 häufigsten Wörter in die Analyse mit eingehen. 19 Ein wesentlicher Grund dafür liegt vermutlich darin, dass in diesem Bereich der Wortliste zunehmend Worte auftreten, die nur in einzelnen Texten in hoher Frequenz vorkommen. Solche text-, und nicht autorenspezifischen Vokabeln können die Abstände zwischen Texten, die vom der gleichen Autorin/vom gleichen Autor stammen, bei anderen Delta-Verfahren sehr groß werden lassen. Sie haben aber einen geringeren Effekt auf die Cosinus-Distanz, da die Wirkung einzelner Extremwerte hier in ähnlicher Weise gedämpft wird wie nach einer Vektor-Normalisierung. 20 Stilometrische Analysen in Stylo Für solche stilometrischen Analyseverfahren stehen heutzutage verschiedene, frei verfügbare Werkzeuge zur Verfügung. Eine der umfangreichsten Implementierungen stilometrischer Methoden bietet das Stylo-Paket von Maciej Eder, Jan Rybicki und Mike Kestemont. Es handelt sich dabei zwar im Prinzip um ein Packet für die Skriptsprache R, erfordert aber keinerlei Programmierkenntnisse: Der Anwender kann über die R-Konsole eine graphische Benutzeroberfläche (Graphical User Interface oder GUI) aufzurufen, über die sich die meisten Funktionen von Stylo per Mausklick bedienen lassen. 97

Erfolgsquote von 95% dem richtigen Autor zuordnen lässt,<br />

und das auf Basis von nicht mehr als den Häufigkeiten der<br />

150 meist genutzten Wörter (Abb. 5.6).<br />

Abb. 5.6: Texte zweier verschiedener AutorenInnen in einem<br />

vereinfachten, zweidimensionalen Feature-Raum. Die Texte<br />

der einen Autorin oder des einen Autors werden durch<br />

Kreise, die der/des anderen durch Dreiecke repräsentiert. Die<br />

stilistischen Abstände zwischen den Texten lassen sich in<br />

diesem Modell als Linien darstellen. Blaue Linien zeigen dabei<br />

Abstände zwischen Texten aus der gleichen Feder, rote Linien<br />

Vergleiche zwischen Texten unterschiedlicher Urheberschaft.<br />

Aus Jannidis et al. 2015.<br />

Wenngleich John Burrows ursprüngliche Variante von Delta<br />

nach wie vor erfolgreich in der Forschung eingesetzt wird<br />

existieren mittlerweile mehrere Weiterentwicklungen. Argamon<br />

15 schlug auf Grundlage mathematischer Argumente<br />

eine Variante vor, die statt der Manhattan-Distanz die<br />

96

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!