31.10.2012 Aufrufe

DIPLOMARBEIT

DIPLOMARBEIT

DIPLOMARBEIT

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

2.3 Spracherkennung<br />

Ein Phonem‐Modell besteht aus mehreren Zuständen. Jeder Zustand ist verknüpft mit einer soge‐<br />

nannten Emissionsverteilung für die Merkmalsvektoren und mit Transitionswahrscheinlichkeiten für<br />

die drei möglichen Übergänge. Mit den Emissionsverteilungen wird einem Merkmalsvektor eine<br />

Wahrscheinlichkeit zugeordnet, mit der er im zugehörigen Zustand beobachtet wird. Die Parameter<br />

der Emissionsverteilungen werden in einer Trainingsphase anhand von umfangreichen Trainingsda‐<br />

ten geschätzt.<br />

Durch die drei möglichen Übergänge zwischen den Zuständen lässt sich die Variation der Sprechge‐<br />

schwindigkeit modellieren. Der direkte Übergang zum Nachfolgezustand entspricht einer normalen<br />

Sprechgeschwindigkeit, das Wiederholen eines Zustandes drückt eine langsamere Geschwindigkeit<br />

aus und das Überspringen von Zuständen eine schnellere.<br />

Abbildung 9: Variation der Sprechgeschwindigkeit bei Hidden Markov Modellen<br />

Die Übergänge der Hidden Markov Modelle und die Abfolge der Merkmalsvektoren werden schließ‐<br />

lich zu einer Gitterstruktur kombiniert. Es ist derjenige Pfad durch das Gitter zu finden, der das Pro‐<br />

dukt aus den zugehörigen Emissions‐ und Transitionswahrscheinlichkeiten maximiert. Das erhaltene<br />

Produkt entspricht dann der akustischen Wahrscheinlichkeit des Wortes.<br />

25

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!