18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

284 16. Verwendung von Sprachmodellen<br />

des aktuellen Themas ist die Erkennerhypothese (beziehungsweise die Konkatenation<br />

der letzen Hypothesen) H. Diese kann als Dokument betrachtet<br />

werden, und zu jedem Dokument Di mit vorberechnetem Sprachmodell<br />

kann δ(H, Di) berechnet werden. Im einfachsten Fall wird ein konkretes<br />

Dokument Dj = argmin Dl δ(H, Dl) ausgewählt, und als adaptiertes Model<br />

λ A = λ(Dl) beziehungsweise eine Interpolation von λ S mit λ(Dl) verwendet.<br />

Eine feinere Adaption läßt sich durchführen, indem λ S mit allen vorberechneten<br />

Sprachmodellen interpoliert wird:<br />

λ A = α · λ S + β ·<br />

n<br />

(1 − δ(H, Di)) · λ(Di) (16.31)<br />

i=1<br />

Die Faktoren α und β müssen experimentell bestimmt werden und<br />

addieren sich normalerweise nicht zu 1. Welche Werte sinnvoll sind, hängt<br />

von der Anzahl und Größe der Dokumente Di ab.<br />

Grundsätzlich ist es auch möglich, die Dokumente mit ihren themenspezifischen<br />

Sprachmodellen nicht im voraus bereitzuhalten. Statt dessen<br />

können zu Laufzeit des Erkenners Dokumente aus dem World-Wide-Web<br />

besorgt und ausgewertet werden. Mit Hilfe von Internet-Suchmaschinen<br />

lassen sich so zu den Erkennerhypothesen passende Dokumente finden,<br />

darauf Sprachmodelle berechnen und der Erkenner so adaptieren.<br />

In Experimenten [?] konnte durch Adaption des Sprachmodells an<br />

das aktuelle Thema die Perplexität des Sprachmodells um ca. 15% und<br />

Fehlerrate des Erkenners ein wenig gesenkt werden.<br />

16.7.2 Hypothesis driven lexicon adaptation<br />

Oft wird mit dem Begriff ” Sprachmodell“ nur der Teil eines Spracherkenners<br />

bezeichnet, der die Wahrscheinlichkeit von Wortfolgen berechnet. Prinzipiell<br />

gehört aber auch die Definition des Vokabulars dazu. Die größten Probleme<br />

mit dem Vokabular haben Erkenner für stark flektierende Sprachen. Dazu<br />

gehört auch die Deutsche Sprache. Selbst wenn wir alle ca. 1,6 Millionen<br />

verschiedene Vokabularwörter, die im Laufe eines Jahres in der Süddeutschen<br />

Zeitung stehen, betrachten, so werden darunter für die meisten Wörter<br />

nicht alle Flexionsformen sein. Womöglich kommt das Wort ” lichten“ vor,<br />

vielleicht sogar ” gelichtet“ aber dann fehlt vielleicht ” gelichteter“. Neue<br />

Formen können aber auch durch andere Vorsilben entstehen: ” ungelichteter“.<br />

Wird jede Buchstabenfolge zwischen zwei Leer- oder Satzzeichen als Wort<br />

betrachtet, dann ist im Deutschen aussichtslos, so viele Wörter ins Vokabular

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!