27.04.2014 Aufrufe

Stadtfeld, Tobias (2013) - Sprachwissenschaftliches Institut - Ruhr ...

Stadtfeld, Tobias (2013) - Sprachwissenschaftliches Institut - Ruhr ...

Stadtfeld, Tobias (2013) - Sprachwissenschaftliches Institut - Ruhr ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

3.3: Durchführung und erste Ergebnisse der Annotation 35<br />

aller als Substantiv kategorisierter Lemmata aus dem Korpus extrahiert. Als<br />

Substantiv wurde hierbei jedes Wort gewertet, dass sowohl vom TreeTagger als auch<br />

vom Regression-forest-Tagger als reguläres Nomen identifiziert wurde und<br />

entsprechend mit dem POS-Tag NN bzw. N versehen wurde. Aus dieser Menge aller<br />

potenziellen Kandidaten für eine Annotation wurden zufällig 10.000 Substantive mit<br />

einem Mindestvorkommen in der NZZ von mehr als zehn gewählt.<br />

Zwar besitzen beide Tagger die Fähigkeit, Eigennamen zu erkennen, jedoch<br />

geschieht dies nicht fehlerfrei, sodass in der erstellten Liste eine gewisse Menge<br />

Eigennamen zu erwarten sind.<br />

Die vier für die Annotation ausgewählten Annotatoren wurden in zwei Teams je<br />

zwei Personen aufgeteilt. Jedes Teammitglied eines Teams erhielt jeweils die gleichen<br />

5.000 Substantive, d. h. Lemmata zur Annotation, um Abweichungen in der<br />

Annotation einzelner Substantive später zu identifizieren und entsprechend<br />

analysieren zu können. Die Annotatoren, allesamt Muttersprachler des Deutschen,<br />

sollten die ihnen zugeteilten 5.000 Substantive innerhalb einer einfachen Textdatei<br />

möglichst autonom annotieren. Rücksprachen bezüglich der mutmaßlichen<br />

Zählbarkeit einzelner Lemmata mit weiteren Annotatoren waren untersagt.<br />

Die Annotatoren waren nicht ausschließlich an die Verwendung der von Allan<br />

definierten Testumgebungen beziehungsweise an die jeweiligen deutschen Versionen<br />

dieser Testumgebungen gebunden. Stattdessen konnten auch<br />

konzeptuelle/semantische Kriterien in die Bestimmung der Zählbarkeit einzelner<br />

Lemmata einfließen, sofern es der Annotator im Einzelfall für angemessen erachtete.<br />

Ferner war es dem Annotator gestattet eine Internetrecherche für Substantive zu<br />

starten, um im Zweifelsfall ein besseres Sprachverständnis für diese zu erhalten.<br />

Strikte Richtlinien, an die sich die Annotatoren im Fall von widersprüchlichen<br />

Zählbarkeitsklassen hätten halten können, gab es zu diesem Zeitpunkt nicht.<br />

Annotiert wurden die bereits genannten Klassen zählbar, Dual-Life, nur-Plural<br />

und nicht-zählbar. Zusätzlich konnten die Annotatoren Eigennamen und<br />

fremdsprachliches Material als solches markieren (POS-Tags: NE, FM). Sofern ein<br />

Annotator keine Entscheidung bezüglich der Zählbarkeitsklasse treffen konnte, wurde<br />

das jeweilige Lemma mit einem entsprechenden Tag (?) versehen.<br />

Wenn möglich sollten die Annotatoren mutmaßlich polyseme und/oder homonyme<br />

Substantive zusätzlich markieren. Dies stellte sich jedoch bereits nach kurzer Zeit als<br />

nicht durchführbar heraus, da entsprechende Ambiguitäten erst in konkret gegebenen<br />

Kontexten ersichtlich werden, die aber den Annotatoren zum Zeitpunkt der<br />

Annotation nicht zur Verfügung standen. Des Weiteren stellt sich die Frage, inwieweit<br />

gewisse Lesarten eines ambigen Substantivs überhaupt im Korpus auftreten und<br />

somit die Ergebnisse beeinflussen würden. Würde ein Kontext zur Verfügung gestellt

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!