Stadtfeld, Tobias (2013) - Sprachwissenschaftliches Institut - Ruhr ...
Stadtfeld, Tobias (2013) - Sprachwissenschaftliches Institut - Ruhr ...
Stadtfeld, Tobias (2013) - Sprachwissenschaftliches Institut - Ruhr ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
36 Kapitel 3: Erste Annotationsiteration<br />
werden, beispielsweise in Form einer Liste der Sätze, in denen das Substantiv im<br />
Korpus aufgetaucht ist, wäre dennoch nicht sichergestellt, dass alle Lesarten eines<br />
ambigen Substantivs auch in Erscheinung treten.<br />
Das ambige Wort Bank ist ein gutes Beispiel für ein als homonym zu annotierendes<br />
Wort, sind doch beide Lesarten mit hoher Wahrscheinlichkeit in einer Tageszeitung<br />
zu finden. Wirklich zwingend notwendig ist die Beachtung dieser Ambiguität jedoch<br />
nicht, da beide Lesarten die gleiche Zählbarkeitsklasse erhalten sollten (zählbar). Wie<br />
verhält es sich jedoch mit Wetter, dass nicht nur die örtlichen Wetterverhältnisse<br />
bezeichnet (nicht-zählbar), sondern auch die in einem Bergwerk befindlichen Gase<br />
benennt und ausschließlich im Plural verwendet wird (nur-Plural)? Letztere Lesart<br />
dürfte verschwindend gering in einer Tageszeitung zu beobachten sein und somit<br />
nicht zwingend eine Kennzeichnung als ambig und des Weiteren eine daraus<br />
resultierende gesonderte Behandlung bei der Auswertung erfordern.<br />
Diese Problemstellung wäre unter Verwendung eines bereits bestehenden Lexikons<br />
mit detaillierten Unterscheidungen einzelner Lesarten von Substantiven in seiner<br />
Komplexität abzumildern. Es standen zum Zeitpunkt der Annotation jedoch keine<br />
entsprechenden Lexika zur Verfügung, wodurch mögliche Abweichungen in der<br />
Zählbarkeit von Substantiven, die aufgrund unterschiedlicher Lesarten auftreten<br />
können, als generell zu erwartendes Rauschen bei der Annotation hinzunehmen sind.<br />
Der erste Analyseschritt nach Abschluss der Annotationsphase, ist<br />
naheliegenderweise die Betrachtung übereinstimmender und abweichender<br />
Annotationen zwischen den Teammitgliedern bezüglich der zugewiesenen<br />
Zählbarkeitsklasse. Tabelle 3 zeigt hierzu die jeweiligen Werte für beide Teams.<br />
Übereinstimmende<br />
Annotationen<br />
Abweichende<br />
Annotationen<br />
Team 1 4183 (84%) 817 (16%)<br />
Team 2 3909 (78%) 1091 (12%)<br />
∑ 8092 (81%) 1908 (19%)<br />
Tabelle 3: Übereinstimmung der Annotationen je Annotatoren-Team<br />
Im Mittel stimmten die Annotatoren in ihrer zugewiesenen Zählbarkeitsklasse in 81%<br />
aller zu annotierenden Fälle überein, wobei eine Übereinstimmung natürlich nicht<br />
zwangsläufig auch als korrekte Annotation zu betrachten ist. Die verbleibenden 19%<br />
umfassen nicht nur Abweichungen in der zugewiesenen Zählbarkeitsklasse, sondern<br />
auch diejenigen Fälle, in denen ein Annotator das Substantiv nicht klassifizieren<br />
konnte, es als Eigenname oder fremdsprachliches Material markierte während der<br />
zweite Annotator eine reguläre Klasse festhielt.<br />
Die in Tabelle 4 dargestellten Häufigkeiten zeigen die Verteilung der zugewiesenen