18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

12.5 Spracherkennung mit Hidden Markov Modellen 199<br />

12.5.1 Ein einfacher HMM Einzelkommandoerkenner<br />

Im folgenden werden die Bestandteile und die Funktionsweise eines einfachen<br />

auf Hidden-Markov-Modellen basierenden Einzelworterkenners beschrieben.<br />

Der Begriff ” Einzelwort“ ist in diesem Zusammenhang eher akustisch als<br />

linguistisch gemeint. ” Einzelkommandoerkenner“ wäre vielleicht der bessere<br />

Begriff. Als Einzelwort kann auch eine Folge von Wörtern gemeint sein.<br />

Allerdings ist dies aus der Sicht des Erkenners irrelevant. Jede Aufnahme<br />

wird als eine Einheit betrachtet, die zu einer einzigen aus einer Menge<br />

gegebener Klassen gehört.<br />

Die Erkennungsaufgabe bestehe darin, einzelne Wörter aus einem<br />

Vokabular L = {w1, w2, . . .w |L|} zu erkennen. Das bedeutet, der Erkenner<br />

verwendet |L| verschiedene HMMs λ(w1), λ(w2), . . . λ(w |L|). Zunächst muß<br />

jedes λ(wi) definiert werden. Ohne weiteres Wissen werden alle Modell mit<br />

der gleichen Architektur und den gleichen Parametern initialisiert, zum<br />

Beispiel mit je n Zuständen im Bakis-Schema und Gauß-Mischverteilungen<br />

mit je k Normalverteilungen zur Modellierung der Emissionswahrscheinlichkeiten.<br />

Da das Baum-Welch-Verfahren keine Anforderungen an die<br />

Initialwerte der HMM-Parameter stellt, kann man mit beliebigen (zufällig<br />

initialisierten) Werten anfangen.<br />

Für jedes Vokabularwort werden eines oder mehr Beispiele aufgezeichnet<br />

und vorverarbeitet (zum Beispiel zu Cepstren mit 13-koeffizientigen Cepstralvektoren<br />

alle 10ms).<br />

Jedes Wort-HMM wird mit seinen Trainingsbeispielen entsprechend<br />

dem Baum-Welch-Verfahren optimiert. Dabei wird das Verfahren (Forward-<br />

Backward, Baum-Welch-Regeln) für alle Trainingsbeispiele hintereinander<br />

durchgefürht. Gegebenenfalls werden mehrere Iteration über die gesamten<br />

Trainingsdaten gerechnet.<br />

Damit ist der Erkenner fertig trainiert und einsatzbereit. Zum Erkennen<br />

wird ein Wort gesprochen und die Aufnahme X genauso verarbeitet wie die<br />

Trainingsdaten. Auf der Aufnahme werden nun alle P(X|λ(wi)) mit Hilfe<br />

des Forward-Algorithmus berechnet. Gesucht ist allerdings: P(λ(wi)|X).<br />

Dies läßt sich mit der Kenntnis der a priori Wahrscheinlichkeiten P(wi) und<br />

der Bayes-Regel ausrechnen. Die P(wi) können – wenn kein Wissen und<br />

keine Statistik darüber bekannt ist – gleichverteilt angenommen werden.<br />

Das Wort ˆw gilt als erkannt, wenn<br />

ˆw = argmaxP(λ(wi)|X)<br />

(12.24)<br />

wi

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!