18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

288 16. Verwendung von Sprachmodellen<br />

Wortpaar ” A B“<br />

Name?<br />

Aufzählung?<br />

zu lang?<br />

nein<br />

nein<br />

ja<br />

ja<br />

ja<br />

nein<br />

Abkürzung?<br />

ja<br />

v-Komponente?<br />

nein<br />

+ v-Komponente<br />

h-Komponente ?<br />

ja<br />

nein<br />

zusammen schreiben: ” AB“<br />

ja<br />

getrennt lassen: ” A B“<br />

nein<br />

mit Bindestrich: ” A-B“<br />

Abb. 16.5. Entscheidungsalgorithmus zur Kompositabildung<br />

Aber auch hierfür stellt sich heraus, daß solche Fälle in der Praxis nur eine<br />

unwesentliche Rolle spielen. Im nächsten Schritt des Entscheidungsverfahrens<br />

werden Komponenten, die selbst schon sehr lang sind und erst recht<br />

Komposita, die sehr lange wären als getrennt zu schreiben erkannt. Man<br />

kann leicht empirisch feststellen, daß in Zeitungstexten ab einer bestimmten<br />

Anzahl von Buchstaben kaum noch Komposita gebildet werden. Danach<br />

wird geprüft, ob das erste Wort des Wortpaares eine Abkürzung ist. In den<br />

meisten Fällen werden die Wörter dann mit Bindestrich geschrieben (zum<br />

Beispiel UNO-Mitglied, DAX-Gewinne, usw.). Erst wenn diese Heuristiken<br />

abgearbeitet worden sind, wird nachgesehen, ob wi als Vorne-Komponente<br />

und wi+1 als Hinten-Komponente möglich sind. Nur dann werden sie Zusammengelegt.<br />

Durch diesen Algorithmus zur Nachbearbeitung von Hypothesen<br />

konnten die durch Falsches Zusammenfügen zusätzlich entstehenden<br />

Fehlern minimiert werden und etwa die Hälfte aller Komposita-Fehler des<br />

Spracherkenners korrigiert werden. Mißt man die Wortfehlerrate auf den in<br />

Komponenten zerlegten Zeitungstexten im Vergleich mit den Originaltexten,<br />

so erhält man eine Fehlerrate von ca. 5%. Wird der Algorithmus von [?] auf<br />

die zerlegten Texte angewandt, haben diese danach nur noch eine Fehlerrate<br />

von ca. 1.4%, also eine Reduktion von über 70%.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!