18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

21.5 Adaptionsmethoden 363<br />

eine Funktion von i und k. Im einfachsten Fall gibt es nur eine einzige<br />

Transformation für alle Mittelwerte, im komplexesten Fall hat jede Gauß-<br />

Verteilung eine eigene Transformation (welche aber entweder bei wenig<br />

Adaptionsdaten nicht ausreichend gut geschätzt werden können, oder sehr<br />

vielen Adaptionsdaten, die schlechtere Variante im Vergleich mit einem<br />

EM-Training wären). Der Maximum-Likelihood Aspekt kommt von der Art,<br />

wie die Transformation gefunden wird:<br />

(Âj, ˆSj, ˆbj) = argmax pj(x|i) (21.6)<br />

(Aj,Sj,bj)<br />

Zwar könnte Aj eine beliebige Matrix sein, allerdings laßt sich die<br />

Maximum-Likelihood Optimierung am besten für Rotationsmatrizen<br />

durchführen. Im übrigen kann es sinnvoll sein, bei besonders wenigen<br />

Trainingsdaten, für Aj und Sj einfach Einheitsmatrizen zu verwenden, und<br />

die resultierende Transformation als eine einfache Translation der Mittelwertsvektoren<br />

zu implementieren. Tatsächlich stellt sich heraus, daß eine<br />

Transformation der Sj der Kovarianzmatrizen einen wesentlich geringeren<br />

positiven Effekt auf die Adaption hat als die Transformation der Mittelwerte<br />

[?].<br />

21.5.2 Label-Boosting<br />

Der zentrale Algorithmus beim Trainieren von Hidden Markov Modellen ist<br />

die Berechnung der γt(i) = P(qt = i|X, λ), also der Wahrscheinlichkeit dafür,<br />

daß der stochastische Sprachprozeß sich zum Zeitpunkt t bei gegebener<br />

Beobachtung X und HMM λ im Zustand si befindet (Gl. 12.16). Die Werte<br />

γt(i) werden nach der reinen Theorie mit Hilfe des Forward-Backward<br />

Algorithmus berechnet. Wie in Abs. 13.1.2 gezeigt, wird in der Praxis aber<br />

meist statt dessen der Viterbi-Algorithmus verwendet, beziehungsweise im<br />

voraus berechnete und abgespeicherte Viterbi-Pfade. Selbstverständlich ist<br />

die Qualität der Viterbi-Pfade von größter Bedeutung. Unexakt positionierte<br />

Zustandsübergänge führen dazu, daß die Modelle (Gauß-Mischverteilungen)<br />

mit ” falschen“ Trainingsdaten trainiert werden.<br />

Von Viterbi-Pfaden, die mit einem Sprecherunabhängigen Erkenner<br />

berechnet werden, kann man erwarten, daß sie nicht so gut sind wie Pfade,<br />

die mit einem auf den Sprecher spezialisierten Erkenner erzeugt wurden.<br />

Daher bietet sich ein Vorgehen an, das unter dem Namen ” Label-Boosting“<br />

bekannt ist (s. Abb. 21.3. Dabei werden iterativ neue HMM-Parameter St<br />

berechnet, wobei allerdings die Berechnung der γt(i) nicht mit sprecherunabhängigen<br />

HMM-Parametern sondern mit durch MLLR adaptierten

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!