18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

14.2 Der Parameterraum des Akustischen Modells 225<br />

Mit diesen Operationen sind alle Schnittstellen zum HMM definiert.<br />

Während der Forward-Backward oder Viterbi-Algorithmus gerechnet werden,<br />

wird immer wieder P(xt|U) angefordert. Für jede Trainingsaufnahme<br />

und jede Beobachtung xt wird dann die Operation zum Akkumulieren<br />

der Trainingsinformationen aufgerufen. Für Gauß-Mischverteilungen bedeutet<br />

dies, daß für jede Gauß-Verteilung Uk die ihr zugeordneten und<br />

sowohl mit dem vom Forward-Backward gelieferten Gewicht γt(i) als auch<br />

dem Anteilsgewicht der Verteilung an P(xt|U) multiplizierten xt und x 2 t<br />

jeweils aufaddiert werden. Dann können am Ende einer Trainingsiteration<br />

mit der Operation zur Parameterneuberechnung entsprechend dem<br />

EM-Algorithmus die neuen Mittelwerte µ = E(x) und Kovarianzmatrizen<br />

Σ = E(x 2 ) − E 2 (x) berechnet werden. Wenn statt Gauß-Mischverteilungen<br />

zum Beispiel neuronale Netze verwendet werden, dann muß statt des EM-<br />

Algorithmus zum Beispiel ein Backpropagation-Verfahren verwendet werden.<br />

Später (im Kap. 17) werden je nach phonetischem Kontext verschiedene<br />

Spracheinheiten vorgestellt und die Thematik behandelt, wie sinnvolle<br />

Einheiten gefunden werden. Jetzt soll der Fokus vielmehr auf die Möglichkeiten<br />

der Modellierung von Emissionswahrscheinlichkeiten bei vorgegebenen<br />

Spracheinheiten gelegt werden.<br />

14.2.2 Kontinuierlichkeitsgrade<br />

Wenn Hidden Markov Modelle für Probleme mit einem diskreten Merkmalsraum<br />

verwendet werden, ist das dazugehörige mathematische Grundgerüst,<br />

ebenso wie die Algorithmen deutlich einfacher. In den Anfängen der Spracherkennung,<br />

als die Verwendung von Fließkommaoperation im Vergleich zu<br />

Rechnungen mit Ganzzahlen wesentlich aufwendiger waren, bot es sich oft<br />

an, den Merkmalsraum zu diskretisieren und statt reellwertiger hochdimensionaler<br />

Spektralvektoren jeweils nur einen einzigen Quantisierungsindex zu<br />

verwenden. Statt Mischverteilungen auf Spektral- oder Cepstralvektoren zu<br />

berechnen, wurden nichtparametrische diskrete Verteilungen (Abb. 14.1) auf<br />

zuvor vektorquantisierten Werten geschätzt.<br />

Abb. 14.1. Rein diskretes Modell (keine Codebücher)<br />

...

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!