18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

272 16. Verwendung von Sprachmodellen<br />

16.5.2 Discounting<br />

Beim Discounting handelt es sich prinzipiell auch um eine Art von Glättung.<br />

Dabei wird jede absolute Häufigkeit #(w) ersetzt durch # ′ (w), z.B. wie in:<br />

# ′ (w) = #(w) − d absolutes Discounting (16.14)<br />

# ′ (w) = #(w) + 1 Jeffrey Smoothing (16.15)<br />

# ′ (w) = #(w) + 1/2 uniforme Bayes Glättung (16.16)<br />

Durch das Discounting ändern sich die Unterschiede der absoluten Häufigkeiten<br />

bestimmter Wörter untereinander nicht, die relativen Häufigkeiten<br />

werden aber einander ein wenig angenähert (geglättet). Beim absoluten<br />

Discounting muß selbstverständlich eine Regelung getroffen werden, wie mit<br />

negativen Häufigkeiten umzugehen ist. Bei großen Textdatenmengen gehen<br />

wir meist davon aus, daß neben der Anwendung eines absoluten Discountings<br />

um den Wert d auch ein Cutoff-Wert c > d gesetzt wurde, so daß negative<br />

Häufigkeiten nicht auftreten können. d muß nicht unbedingt eine natürliche<br />

Zahl sein, auch kleine Discounting-Werte von 0.1 können durchaus Sinn<br />

haben. Das Discounting wird bei der Konstruktion von Sprachmodellen in<br />

der Spracherkennung allerdings weniger zum Zwecke der Glättung verwendet,<br />

sondern vielmehr zur Reduktion der ” Wahrscheinlichkeitsmasse“. Die<br />

sinnvollste Art, die entfernte Wahrscheinlichkeitsmasse einzusetzen, ist das<br />

im folgenden vorgestellte Backoff-Verfahren.<br />

16.5.3 Backoff-Verfahren<br />

Die Maximum-Likelihood Lösung zur Schätzung von n-Grammen liefert für<br />

Wortfolgen, die in den Trainingsdaten überhaupt nicht vorkommen eine<br />

Wahrscheinlichkeit von null. Solche Wortfolgen können vom Spracherkenner<br />

nicht erkannt werden. Um auch solche Wortfolgen erkennen zu können,<br />

wird die Backoff-Technik verwendet. Wenn die Wahrscheinlichkeit für das<br />

n-Gramm P(wk|wk−1, wk−2, . . .w k−(n−1) nicht geschätzt werden konnte,<br />

weil die Wortfolge w k−(n−1), . . . wk−2, wk−1, wk im Trainingstext nicht beobachtet<br />

wurde, dann bietet es sich an, statt dessen als Rückfallmethode (engl.<br />

backoff ) das n − 1-Gramm P(wk|wk−1, wk−2, . . .w k−(n−2) zu verwenden.<br />

Für ein korrektes Sprachmodell muß allerdings gelten:<br />

<br />

wq 1 ,wq 2 ,...wqn<br />

P(wqn|wqn−1, . . . wq1) = 1 (16.17)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!