18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

286 16. Verwendung von Sprachmodellen<br />

eine ähnliche Orthographie oder phonetische Umschrift haben. Darüber<br />

hinaus werden thematisch ähnlich Wörter auch betrachtet. [?] konnte durch<br />

den Einsatz von HDLA die Fehlerraten von Spracherkennern um 25% bis<br />

29% verbessern.<br />

16.7.3 Kompositabildung<br />

Im Deutschen sowie in einigen anderen Sprachen gibt es wesentlich mehr als<br />

im Englischen Probleme mit der Bildung von Komposita. Zwar können auch<br />

Komposita-Verben (zurückhalten, nachdenken) und Komposita-Adjektive<br />

(blaugrün, kleinkariert) gebildet werden, der weitaus größte Teil sind aber<br />

Komposita-Substantive. Betrachtet man die ca. 1.6 Millionen verschiedene<br />

Wörter, die im Laufe eines Jahres in einer deutschen Tageszeitung vorkommen<br />

und untersucht diejenigen, die nicht zu den häufigsten ca. 100 000<br />

gehören, so fallen darunter drei Gruppen auf: seltene Flexionsformen,<br />

Eigennamen und Komposita. Es ist relativ einfach möglich, einen Großteil<br />

der Komposita in ihre Komponenten zu zerlegen. Dazu genügt es, zu<br />

untersuchen, ob sie sich aus kürzeren Wörtern zusammensetzen lassen. Auf<br />

diese Art ist es möglich, einfach alle Texte zu zerlegen, so daß nur noch<br />

sehr wenige Komposita vorkommen. Die Menge der verschiedenen Wörter<br />

in einem zerlegten Text kann so dramatisch verkleinert werden, was dem<br />

Vokabular und der Qualität des dann berechneten Sprachmodells zugute<br />

kommt.<br />

Bei der Zerlegung ist es wichtig, einige Heuristiken anzuwenden. Die<br />

wichtigste ist, daß keine zu kleinen Komponenten betrachtet werden.<br />

Wörter mit nur drei oder weniger Buchstaben erzeugen Probleme, weil<br />

viele ” normale“ Wörter, die eigentliche keine Komposita sind sich aus ihnen<br />

zusammensetzen lassen (zum Beispiel: Bei-Spiel, ab-er, An-Ton, Stand-Art<br />

usw.). So erweist sich die Auftrennung in Wörter von mindestens vier<br />

Buchstaben als guter Kompromiß. Es entstehen dann immer noch einige<br />

falsche Zerlegungen (zum Beispiel Verein-Barte). Von diesen können aber<br />

häufigsten manuell korrigiert werden, und die seltenen fallen kaum ins<br />

Gewicht.<br />

Ein Erkenner, der nur einzelne Wörter erkennt, produziert dann Hypothesen<br />

der Art ” Der Staats Sekretär sagte ...“. Für einen deutschen<br />

Muttersprachler ist diese Getrenntschreibung (selbst nach der in dieser<br />

Beziehung sehr toleranten neuen Rechtschreibung) sofort als unkorrekt zu<br />

erkennen. Es ist daher wünschenswert, daß eine Instanz des Erkenners solche<br />

Wörter zusammenfügt, so daß ” Der Staatssekretär sagte ...“ als Hypothese<br />

heraus kommt. An der verbreiteten Diskussion zur neuen deutschen Rechtschreibung<br />

ist zu erkennen, daß in vielen Fällen selbst Muttersprachler

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!