18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

282 16. Verwendung von Sprachmodellen<br />

gesenkt werden, auf jeden Fall jedoch kann auf den Aufwand des ” Ausprobierens“<br />

und Auswertens verschiedener Kombinationen auf der Kreuzvalidierungsmenge<br />

verzichtet werden.<br />

16.7 Adaption von Sprachmodellen<br />

Im Prinzip kann man Cache Sprachmodelle als sich ständig adaptierende<br />

Sprachmodelle bezeichnen. Auch Trigger-Modelle enthalten eine Art<br />

Adaptionskomponente. Grundsätzlich läßt sich ein Sprachmodell aber<br />

auch mit Daten adaptieren, die nicht direkt aus den Erkennerhypothesen<br />

kommen. Im folgenden wollen wir zwei Vorgehensweisen dazu vorstellen,<br />

die hypothesenbasierte Auswahl zuvor berechneter Modelle bzw. deren<br />

Interpolationsfaktoren, und die HDLA Methode (hypothesis driven lexicon<br />

adaptation) [?].<br />

16.7.1 Auswahl vorberechneter Modelle<br />

Wie gut ein Text zu einer Menge von Hypothesen paßt, läßt sich auf verschiedene<br />

Arten bestimmen. Zu den geeignetsten gehören wohl das Messen<br />

der Perplexität, die die Hypothesen als Testset auf einem auf dem Text<br />

geschätzten Sprachmodell haben, und das Berechnen einer tfidf-basierten<br />

Dokumentendistanz, bei der der Text und die Hypothesen als zwei verschiedene<br />

Dokumente betrachtet werden.<br />

Die Aufgabe der Themenbasierten Adaption eines Sprachmodells durch<br />

Auswahl vorbereiteter Sprachmodelle kann wie folgt definiert werden.<br />

gegeben: n Dokumente D1, D2, . . . Dn, ein Vokabular V = {w1, w2, . . .wk}<br />

und eine erkannte Wortfolge H = h1, h2, . . . hm<br />

gesucht: j so, daß das auf Dj trainierte (oder damit interpolierte)<br />

Sprachmodelle die Wortfolge H am besten modelliert<br />

Unter der Voraussetzung, daß die Dokumente sehr groß sind und so<br />

sinnvolle Sprachmodelle darauf trainiert werden können, bietet es sich in<br />

der Tat an, die Testset-Perplexität dieser Sprachmodelle auf der Testmenge<br />

H zu messen. Die meist stabilere Alternative ist die Bestimmung einer<br />

tfidf-Distanz. Das tfidf-Maß bestimmt die Wichtigkeit eines Wortes w für<br />

ein Dokument Di. Sie ist das Produkt der Faktoren tf (term frequency) und<br />

idf (inverse document frequency):

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!