31.10.2012 Aufrufe

DIPLOMARBEIT

DIPLOMARBEIT

DIPLOMARBEIT

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2.3 Spracherkennung<br />

2.3.4.3 Akustische Modellierung<br />

Mit Hilfe der akustischen Modellierung kann einer Folge von Merkmalsvektoren ein bestimmtes<br />

Wort aus dem Vokabular zugeordnet werden. Dies geschieht in zwei Schritten.<br />

Der erste Schritt ist, die Wörter des Vokabulars als eine Abfolge von Phonemen zu beschreiben. Un‐<br />

ter Phonemen versteht man dabei die kleinsten bedeutungsunterscheidenden Lautelemente einer<br />

Sprache. Im Deutschen sind etwa die Laute, die in Lautschrift mit [d] und [t] notiert werden und zwi‐<br />

schen der Bedeutung von `Dorf´ und `Torf´ unterscheiden, Phoneme. Ein Spracherkennungssystem<br />

für die deutsche Sprache benutzt in der Regel zirka 40 derartiger Phoneme. Für diesen Zweck kommt<br />

ein Aussprachelexikon zum Einsatz. Dort ist jedem Wort eine Phonem‐Folge zugeordnet, die der<br />

Standardaussprache entspricht (vergleichbar mit der Lautschrift im Duden).<br />

Da bei einem großen Vokabular der Suchvorgang nach einer passenden Phonem‐Folge sehr aufwän‐<br />

dig sein kann, wird dort das Aussprachelexikon als Baum organisiert. Dabei werden Wörter, die mit<br />

der gleichen Phonem‐Kette beginnen, zu Gruppen zusammengefasst. An den Blättern des Baumes<br />

stehen die Wörter des Lexikons und der Pfad vom Stamm zu einem Blatt entspricht der Phonem‐<br />

Kette eines Wortes. Durch die Anordnung als Baum wird der Aufwand für den Suchvorgang gegenü‐<br />

ber der linearen Anordnung etwa um den Faktor 1,5 bis 6 reduziert.<br />

24<br />

Abbildung 8: Beispiel für ein Aussprachelexikon mit Baumstruktur<br />

Der zweite Schritt besteht darin, die Wahrscheinlichkeitsverteilungen der Merkmalsvektoren für die<br />

einzelnen Phoneme zu modellieren. Die Sprechgeschwindigkeit kann mitunter sehr stark schwanken,<br />

deshalb wird ein Modell benötigt, das diese Schwankungen berücksichtigt. Hier kommen die soge‐<br />

nannten Hidden Markov Modelle zum Einsatz.<br />

„Das Verborgene Markow‐Modell (VMM, engl. Hidden Markov Model, HMM), benannt nach dem<br />

russischen Mathematiker Andrei Andrejewitsch Markow, ist ein stochastisches Modell, das sich durch<br />

zwei Zufallsprozesse beschreiben lässt. Der erste Zufallsprozess entspricht dabei einer Markow‐Kette,<br />

die durch Zustände und Übergangswahrscheinlichkeiten gekennzeichnet ist. Die Zustände der Kette<br />

sind von außen jedoch nicht direkt sichtbar (sie sind verborgen, hidden). Stattdessen erzeugt ein<br />

zweiter Zufallsprozess zu jedem Zeitpunkt beobachtbare Ausgangssymbole gemäß einer zustandsab‐<br />

hängigen Wahrscheinlichkeitsverteilung. Die Aufgabe besteht häufig darin, aus der Sequenz der Aus‐<br />

gabesymbole auf die Sequenz der verborgenen Zustände zu schließen.“ [Wik081]<br />

Jedes Phonem wird dabei durch ein Hidden‐Markov‐Modell repräsentiert, wodurch sich der zeitliche<br />

Ablauf des Auftretens bestimmter Merkmale selbst innerhalb einzelner Phoneme optimal modellie‐<br />

ren lässt.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!