Handbuch Digital Humanities
DH-Handbuch DH-Handbuch
Erfolgsquote von 95% dem richtigen Autor zuordnen lässt, und das auf Basis von nicht mehr als den Häufigkeiten der 150 meist genutzten Wörter (Abb. 5.6). Abb. 5.6: Texte zweier verschiedener AutorenInnen in einem vereinfachten, zweidimensionalen Feature-Raum. Die Texte der einen Autorin oder des einen Autors werden durch Kreise, die der/des anderen durch Dreiecke repräsentiert. Die stilistischen Abstände zwischen den Texten lassen sich in diesem Modell als Linien darstellen. Blaue Linien zeigen dabei Abstände zwischen Texten aus der gleichen Feder, rote Linien Vergleiche zwischen Texten unterschiedlicher Urheberschaft. Aus Jannidis et al. 2015. Wenngleich John Burrows ursprüngliche Variante von Delta nach wie vor erfolgreich in der Forschung eingesetzt wird existieren mittlerweile mehrere Weiterentwicklungen. Argamon 15 schlug auf Grundlage mathematischer Argumente eine Variante vor, die statt der Manhattan-Distanz die 96
Euklidische Distanz verwendet. Empirische Studien konnten allerdings nicht zeigen, dass Argamons Delta in der Praxis bei der Autorenschaftszuschreibung besser funktioniert als Burrows Delta. 16 Rybicki und Eder 17 entwickelten eine Variante, die speziell an die Bedürfnisse stark flektierter Sprachen wie Polnisch und Latein angepasst ist. Im Vergleich zu einer weitgehend unflektierten Sprache, wie dem Englischen, ist bei Sprachen mit größerer morphologischer Formenvielfalt zu erwarten, daß die relative Häufigkeit der häufigen Wörter insgesamt weniger groß ist. Beim sog. Eders Delta werden die Features nach ihrem Rang in der Liste der häufigsten Wörter gewichtet, um diesen Unterschied zu kompensieren. Die bisher beste Erfolgsquote im empirischen Vergleich erreichte eine von Smith and Adrigde 18 vorgeschlagene Variante, bei der die Cosinus-Ähnlichkeit der z-Scores berechnet wird. Vor allem liefert Cosinus Delta auch bei sehr vielen Features stabil gute Ergebnisse, während die Erfolgsquote der anderen Varianten sinkt, wenn mehr als die 2000 häufigsten Wörter in die Analyse mit eingehen. 19 Ein wesentlicher Grund dafür liegt vermutlich darin, dass in diesem Bereich der Wortliste zunehmend Worte auftreten, die nur in einzelnen Texten in hoher Frequenz vorkommen. Solche text-, und nicht autorenspezifischen Vokabeln können die Abstände zwischen Texten, die vom der gleichen Autorin/vom gleichen Autor stammen, bei anderen Delta-Verfahren sehr groß werden lassen. Sie haben aber einen geringeren Effekt auf die Cosinus-Distanz, da die Wirkung einzelner Extremwerte hier in ähnlicher Weise gedämpft wird wie nach einer Vektor-Normalisierung. 20 Stilometrische Analysen in Stylo Für solche stilometrischen Analyseverfahren stehen heutzutage verschiedene, frei verfügbare Werkzeuge zur Verfügung. Eine der umfangreichsten Implementierungen stilometrischer Methoden bietet das Stylo-Paket von Maciej Eder, Jan Rybicki und Mike Kestemont. Es handelt sich dabei zwar im Prinzip um ein Packet für die Skriptsprache R, erfordert aber keinerlei Programmierkenntnisse: Der Anwender kann über die R-Konsole eine graphische Benutzeroberfläche (Graphical User Interface oder GUI) aufzurufen, über die sich die meisten Funktionen von Stylo per Mausklick bedienen lassen. 97
- Page 45 and 46: Warum wurden digitale Methoden gew
- Page 47 and 48: Weitere Links: http://www.ecodicolo
- Page 49 and 50: ARIADNE „Advanced Research Infras
- Page 51 and 52: Vom Datenberg zum Wissensfluss: Wie
- Page 53 and 54: Andorfer 5 zeigt im Zuge der Auswer
- Page 55 and 56: die maßgeblich zu Standardisierung
- Page 57 and 58: Kontrollierte Vokabulare Viel Aufme
- Page 59 and 60: Dateiformate Die Welt der Dateiform
- Page 61 and 62: Eine Übersicht über relevante Dat
- Page 63 and 64: und damit auch Darstellungsfehlern
- Page 65 and 66: aktuell ist, so sollte diese Datei
- Page 67 and 68: So können Links und Verweise in ei
- Page 69 and 70: wertvolle Empfehlungen geben. 29 Du
- Page 71 and 72: http://www.europeana.eu http://www.
- Page 73 and 74: 15 Für weitere Informationen: http
- Page 75 and 76: mehr lizenzfrei. Für die Wissensch
- Page 77 and 78: Neue Möglichkeiten durch alternati
- Page 79 and 80: Creative Commons - Choose a License
- Page 81 and 82: In Deutschland und vielen anderen L
- Page 83 and 84: Rechtliche Bedingungen und Handlung
- Page 85 and 86: Methoden und Werkzeuge in den Digit
- Page 87 and 88: diese bewegt oder animiert, werden
- Page 89 and 90: gabe der Daten ist sehr einfach geh
- Page 91 and 92: tern, wie "und", "der" und "die". O
- Page 93 and 94: Die erste Achse dieses neuen Bezugs
- Page 95: Noch weiter lässt sich die Analyse
- Page 99 and 100: oder in einem Unixsystem "/home/Mei
- Page 101 and 102: im Koordinatensystem einer Gruppe z
- Page 103 and 104: ComputerlinguistInnen haben in den
- Page 105 and 106: erledigen, hier bietet sich zusätz
- Page 107 and 108: Abbildung 5.10: Baumdiagramm der St
- Page 109 and 110: S. Bock, K. Du, P. Dürholt, T. Gra
- Page 111 and 112: Forschungsinfrastrukturen nutzen Zi
- Page 113 and 114: Lösungen entwickelt und bereitgest
- Page 115 and 116: manities "on demand" und flexibel e
- Page 117 and 118: • Größe (von einigen wenigen Ki
- Page 119 and 120: festgelegt werden, die unterschiedl
- Page 121 and 122: Sichere Dienste und Daten Eine Auth
- Page 123 and 124: Das Monitoring ermöglicht die Übe
- Page 125 and 126: enannt und es wird evaluiert, ob ei
- Page 127 and 128: 12 Danah Tonne, Jedrzej Rybicki, St
- Page 129 and 130: Technische Nachhaltigkeit Auf der e
- Page 131: Was bieten die Digital Humanities?
Erfolgsquote von 95% dem richtigen Autor zuordnen lässt,<br />
und das auf Basis von nicht mehr als den Häufigkeiten der<br />
150 meist genutzten Wörter (Abb. 5.6).<br />
Abb. 5.6: Texte zweier verschiedener AutorenInnen in einem<br />
vereinfachten, zweidimensionalen Feature-Raum. Die Texte<br />
der einen Autorin oder des einen Autors werden durch<br />
Kreise, die der/des anderen durch Dreiecke repräsentiert. Die<br />
stilistischen Abstände zwischen den Texten lassen sich in<br />
diesem Modell als Linien darstellen. Blaue Linien zeigen dabei<br />
Abstände zwischen Texten aus der gleichen Feder, rote Linien<br />
Vergleiche zwischen Texten unterschiedlicher Urheberschaft.<br />
Aus Jannidis et al. 2015.<br />
Wenngleich John Burrows ursprüngliche Variante von Delta<br />
nach wie vor erfolgreich in der Forschung eingesetzt wird<br />
existieren mittlerweile mehrere Weiterentwicklungen. Argamon<br />
15 schlug auf Grundlage mathematischer Argumente<br />
eine Variante vor, die statt der Manhattan-Distanz die<br />
96