DIPLOMARBEIT
DIPLOMARBEIT
DIPLOMARBEIT
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
2.3 Spracherkennung<br />
Ein Phonem‐Modell besteht aus mehreren Zuständen. Jeder Zustand ist verknüpft mit einer soge‐<br />
nannten Emissionsverteilung für die Merkmalsvektoren und mit Transitionswahrscheinlichkeiten für<br />
die drei möglichen Übergänge. Mit den Emissionsverteilungen wird einem Merkmalsvektor eine<br />
Wahrscheinlichkeit zugeordnet, mit der er im zugehörigen Zustand beobachtet wird. Die Parameter<br />
der Emissionsverteilungen werden in einer Trainingsphase anhand von umfangreichen Trainingsda‐<br />
ten geschätzt.<br />
Durch die drei möglichen Übergänge zwischen den Zuständen lässt sich die Variation der Sprechge‐<br />
schwindigkeit modellieren. Der direkte Übergang zum Nachfolgezustand entspricht einer normalen<br />
Sprechgeschwindigkeit, das Wiederholen eines Zustandes drückt eine langsamere Geschwindigkeit<br />
aus und das Überspringen von Zuständen eine schnellere.<br />
Abbildung 9: Variation der Sprechgeschwindigkeit bei Hidden Markov Modellen<br />
Die Übergänge der Hidden Markov Modelle und die Abfolge der Merkmalsvektoren werden schließ‐<br />
lich zu einer Gitterstruktur kombiniert. Es ist derjenige Pfad durch das Gitter zu finden, der das Pro‐<br />
dukt aus den zugehörigen Emissions‐ und Transitionswahrscheinlichkeiten maximiert. Das erhaltene<br />
Produkt entspricht dann der akustischen Wahrscheinlichkeit des Wortes.<br />
25