04.11.2013 Aufrufe

Zur Bestimmung der Zählbarkeit deutscher Substantive - Ruhr ...

Zur Bestimmung der Zählbarkeit deutscher Substantive - Ruhr ...

Zur Bestimmung der Zählbarkeit deutscher Substantive - Ruhr ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

236 Kapitel 7: <strong>Zur</strong> automatisierten <strong>Bestimmung</strong> <strong>der</strong> <strong>Zählbarkeit</strong><br />

„As few as 6.4% of the nouns in all three lists only occurred in the third list, i.e.<br />

only 6.4% of the inspected nouns could be unambiguously identified as mass<br />

nouns.“ (Schiehlen & Spranger, 2006)<br />

Die Behauptung <strong>der</strong> Autoren, dass diese knapp 7% aller <strong>Substantive</strong> als lexikalisch<br />

nicht-zählbar bezeichnet werden können, ist zudem ein Trugschluss. Die<br />

Problematik des Universal-Grin<strong>der</strong>s wurde zur Genüge diskutiert und es muss davon<br />

ausgegangen werden, dass in <strong>der</strong> Menge von in diesem Kontext beobachtbaren<br />

<strong>Substantive</strong>n auch lexikalisch zählbare Terme in einem automatisiert nur schwer<br />

erkennbaren Universal-Grin<strong>der</strong>-Kontext vorliegen. 85 Außerdem sind auch an<strong>der</strong>e<br />

mögliche Ursachen für die fälschliche Beobachtung eines Substantivs in Kontext<br />

einer <strong>der</strong> genannten Quantoren nicht auszuschließen, unter an<strong>der</strong>em ganz praktische<br />

Fehlerursachen, wie Rechtschreibfehler, falsch erkannte Satzgrenzen, zerstückelte<br />

Sätze etc. 86<br />

Angenommen, diese Fehlklassifizierungen werden nur als minimales<br />

hinzunehmendes Rauschen auf den Daten interpretiert, so ist <strong>der</strong> genannte Wert von<br />

6,4% dennoch weit entfernt von den händisch annotierten Werten. In <strong>der</strong> zweiten<br />

Annotationsiteration wurden immerhin 20,1% <strong>der</strong> <strong>Substantive</strong> als nicht-zählbare<br />

<strong>Substantive</strong> klassifiziert. 87 All diese sollten <strong>der</strong> Theorie nach mit<br />

singularselektierenden Quantoren auftreten können.<br />

Das Problem, auf das die Autoren bei diesem Vorgehen stoßen, ist das generelle<br />

Problem <strong>der</strong> data sparseness. Nur weil syntaktisch nicht-zählbare <strong>Substantive</strong> im<br />

Skopus eines singularselektierenden Quantors stehen können, muss dies in einem<br />

natürlichsprachlichen Korpus nicht auch zwingend <strong>der</strong> Fall sein. Der Vergleich mit<br />

einer händischen Analyse zeigt, dass etwa zwei Drittel aller nicht-zählbaren<br />

<strong>Substantive</strong> mittels dieser automatisierten Vorgehensweise nicht erfasst werden. Um<br />

die Problematik fehlen<strong>der</strong> Evidenz für eine <strong>Zählbarkeit</strong>sklasse zu umgehen, bedarf es<br />

daher in <strong>der</strong> Praxis nicht nur eines Merkmals, hier die singularselektierenden<br />

Quantoren, son<strong>der</strong>n einer ganzen Reihe von potenziell informativen Merkmalen.<br />

VORABVERSION<br />

Ein weiteres solches Merkmal wäre das Auftreten eines Substantivs im Singular in<br />

einer Numerativkonstruktion. Auch dieses weist mit einer relativ hohen<br />

Wahrscheinlichkeit auf die lexikalische Nichtzählbarkeit des Lemmas hin.<br />

85 Eine Kritik, die die Autoren auch selbst anmerken.<br />

86 Die Diskussion möglicher Fehlerquellen wird im Abschnitt 7.3.1 im Kontext überwachter<br />

Klassifikationsverfahren noch einmal aufgegriffen.<br />

87 Die Prozentzahl ergibt sich aus den Mitglie<strong>der</strong>n <strong>der</strong> Klasse III, IV und V mit jeweils beiden<br />

Untergruppen aus <strong>der</strong> zweiten Annotationsiteration (siehe Kapitel 6).

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!