DIPLOMARBEIT
DIPLOMARBEIT
DIPLOMARBEIT
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2.3 Spracherkennung<br />
2.3.4.3 Akustische Modellierung<br />
Mit Hilfe der akustischen Modellierung kann einer Folge von Merkmalsvektoren ein bestimmtes<br />
Wort aus dem Vokabular zugeordnet werden. Dies geschieht in zwei Schritten.<br />
Der erste Schritt ist, die Wörter des Vokabulars als eine Abfolge von Phonemen zu beschreiben. Un‐<br />
ter Phonemen versteht man dabei die kleinsten bedeutungsunterscheidenden Lautelemente einer<br />
Sprache. Im Deutschen sind etwa die Laute, die in Lautschrift mit [d] und [t] notiert werden und zwi‐<br />
schen der Bedeutung von `Dorf´ und `Torf´ unterscheiden, Phoneme. Ein Spracherkennungssystem<br />
für die deutsche Sprache benutzt in der Regel zirka 40 derartiger Phoneme. Für diesen Zweck kommt<br />
ein Aussprachelexikon zum Einsatz. Dort ist jedem Wort eine Phonem‐Folge zugeordnet, die der<br />
Standardaussprache entspricht (vergleichbar mit der Lautschrift im Duden).<br />
Da bei einem großen Vokabular der Suchvorgang nach einer passenden Phonem‐Folge sehr aufwän‐<br />
dig sein kann, wird dort das Aussprachelexikon als Baum organisiert. Dabei werden Wörter, die mit<br />
der gleichen Phonem‐Kette beginnen, zu Gruppen zusammengefasst. An den Blättern des Baumes<br />
stehen die Wörter des Lexikons und der Pfad vom Stamm zu einem Blatt entspricht der Phonem‐<br />
Kette eines Wortes. Durch die Anordnung als Baum wird der Aufwand für den Suchvorgang gegenü‐<br />
ber der linearen Anordnung etwa um den Faktor 1,5 bis 6 reduziert.<br />
24<br />
Abbildung 8: Beispiel für ein Aussprachelexikon mit Baumstruktur<br />
Der zweite Schritt besteht darin, die Wahrscheinlichkeitsverteilungen der Merkmalsvektoren für die<br />
einzelnen Phoneme zu modellieren. Die Sprechgeschwindigkeit kann mitunter sehr stark schwanken,<br />
deshalb wird ein Modell benötigt, das diese Schwankungen berücksichtigt. Hier kommen die soge‐<br />
nannten Hidden Markov Modelle zum Einsatz.<br />
„Das Verborgene Markow‐Modell (VMM, engl. Hidden Markov Model, HMM), benannt nach dem<br />
russischen Mathematiker Andrei Andrejewitsch Markow, ist ein stochastisches Modell, das sich durch<br />
zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow‐Kette,<br />
die durch Zustände und Übergangswahrscheinlichkeiten gekennzeichnet ist. Die Zustände der Kette<br />
sind von außen jedoch nicht direkt sichtbar (sie sind verborgen, hidden). Stattdessen erzeugt ein<br />
zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsab‐<br />
hängigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht häufig darin, aus der Sequenz der Aus‐<br />
gabesymbole auf die Sequenz der verborgenen Zustände zu schließen.“ [Wik081]<br />
Jedes Phonem wird dabei durch ein Hidden‐Markov‐Modell repräsentiert, wodurch sich der zeitliche<br />
Ablauf des Auftretens bestimmter Merkmale selbst innerhalb einzelner Phoneme optimal modellie‐<br />
ren lässt.