31.10.2012 Aufrufe

DIPLOMARBEIT

DIPLOMARBEIT

DIPLOMARBEIT

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2.3 Spracherkennung<br />

Zunächst wird ein dreidimensionales Gitter aufgespannt. Die erste Achse entspricht dabei der Zeit‐<br />

achse. Auf der zweiten Achse liegen die Zustandsketten der einzelnen Wörter und auf der dritten<br />

Achse befinden sich die zugehörigen Wortindizes. Innerhalb der Wörter sind nur die Transitionen der<br />

Hidden‐Markov‐Modelle erlaubt. An den Wortenden existieren Transitionen zu den Anfängen weite‐<br />

rer Wörter. Diese Übergänge werden mit Hilfe des Sprachmodells bewertet.<br />

Die Aufgabe der Suche liegt nun darin, den 'besten' Pfad durch das Gitter zu finden und somit über<br />

Wortgrenzen und Wörter zu optimieren. Für die Reduzierung des Aufwandes ist es wichtig, dass un‐<br />

wahrscheinliche Pfade relativ früh verworfen werden.<br />

Abbildung 10: Worthypothesengraph<br />

Der wahrscheinlichste Pfad, der bei der Suche ermittelt worden ist, entspricht dem erkannten Satz.<br />

2.3.5 Schwierigkeiten<br />

Obwohl im Bereich der Spracherkennung etliche Fortschritte gemacht wurden, ist eine komplett<br />

fehlerfreie Erkennung bisher noch nicht möglich. Folgende Umstände wirken sich erschwerend auf<br />

die Erkennung aus [Hab98]:<br />

• Die Aussprache eines Lautes kann von einer Äußerung zur anderen stark variieren, selbst<br />

beim gleichen Wort und Sprecher.<br />

• In der Sprechgeschwindigkeit treten starke Schwankungen auf.<br />

• Die akustische Realisierung eines Lautes hängt im Allgemeinen von den vorangegangenen<br />

und den nachfolgenden Lauten ab. Dieser Effekt wird auch als Koartikulation bezeichnet.<br />

• Im kontinuierlichen Redefluss gibt es keine deutlichen Laut‐ und Wortgrenzen.<br />

• In der praktischen Anwendung treten häufig Störungen auf, wie z.B. Hintergrundgeräusche<br />

(Bürolärm, Fahrgeräusche) oder Rauschen (Telefonleitung).<br />

• Gesprochene Äußerungen sind nicht immer grammatikalisch korrekt, d. h. Satzhypothesen,<br />

die grammatikalisch keinen Sinn ergeben, können nicht ausgeschlossen werden.<br />

27

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!