18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

16.6 Verschiedene weitere Sprachmodelle 281<br />

Struktur, die sich während des Erkennungsprozesses nur sehr schwer ändern<br />

läßt. Dynamisch berechnete Übergänge und deren Wahrscheinlichkeiten<br />

(wie zum Beispiel bei Trigger-Modellen) sind hier nur sehr schwer zu<br />

implementieren.<br />

16.6.5 Gewichtung von Akustik und Linguistik<br />

Beim Betrachten der Fundamentalformel der Spracherkennung (14.2) fällt<br />

auf, daß in dieser das akustische Modell mit p(X|W) als Faktor einen Dichtewert<br />

und das Sprachmodell mit P(W) eine echte Wahrscheinlichkeit als Faktor<br />

beiträgt. Rein mathematisch ist dies nicht weiter problematisch, allerdings<br />

kann es je nachdem, auf welche Art die Emissionswahrscheinlichkeiten berechnet<br />

werden, dazu führen, daß für zwei verschiedene Hypothesen W1 und<br />

W2 der Unterschied der beiden akustischen Beiträge |p(X|W1) − p(X|W2)|<br />

um viele Größenordnungen größer sein kann als der Unterschied der beiden<br />

Sprachmodellbeiträge |P(W1)−P(W2)|. Dies kann dazu führen, daß der Einfluß<br />

des Sprachmodells auf den Erkennungsvorgang zu gering ausfällt. Daher<br />

wird in der Praxis das Produkt von akustischem Modell und Sprachmodell<br />

mit Hilfe eines Exponenten z über dem Sprachmodell gewichtet. Außerdem<br />

wird der Nichtberücksichtigung der A-priori-Wahrscheinlichkeit für die Länge<br />

einer Hypothese P(|W| = n) ein zuzsätzlicher Faktor q n in die Formel aufgenommen:<br />

ˆW = argmaxP(X|W)<br />

· P(W)<br />

W<br />

z · q |W|<br />

(16.25)<br />

Wenn - wie bei fast allen Spracherkennern üblich - die Wahrscheinlickeiten<br />

und Dichten im logarithmischen Raum betrachtet werden ergibt sich somit:<br />

ˆW = argmax(log<br />

P(X|W) + log P(W) · z + q · |W|) (16.26)<br />

W<br />

In dieser Darstellung ist leicht zu sehen, wie ein größerer Wert für z<br />

den Einfluß des Sprachmodells erhöht. Mit einer passenden Wahl von q läßt<br />

sich der Erkenner dahingehend beinflussen, mehr oder weniger Wörter in<br />

den Hypothesen unterzubringen. Die optimale Einstellung von z und q wird<br />

in der Regel anhand einer Kreuzvalidierungsmenge bestimmt, indem die<br />

Fehlerrate des Erkenners auf dieser Menge für verschiedene Kombinationen<br />

der z und q gemessen wird und schließlich die Kombination mit den besten<br />

Resultaten weiterverwendet wird.<br />

In [?] wid ein Verfahren vorgestellt, wie mit Hilfe eines Multi-Layer-<br />

Perzeptrons bei Kenntnis verschiedener Eigenschaften des Signals und einer<br />

tentativen Hypothese die für jede Aufnahme individuell optimierten Einstellung<br />

von z und q berechnet werden können. Mit einer derartigen individuellen<br />

Einstellung kann in vielen Fällen die durchschnittliche Fehlerrate etwas

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!