18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

230 14. Das akustische Modell<br />

Der große Vorteil der Multi-Stream Methode liegt nicht nur in der Unterteilung<br />

des Merkmalsraumes ist mehrere Teilräume, die jeder für sich leichter<br />

und besser trainierbar sind, sondern auch in den folgenden möglichen Anwendungen:<br />

• Verwendung unterschiedlicher Rechenverfahren für Emissionswahrscheinlichkeiten:<br />

So ist es zum Beispiel möglich, eine Emissionswahrscheinlichkeit zu<br />

berechnen, zu der sowohl Gauß-Mischverteilungen als auch andere Modelle<br />

wie künstliche neuronale Netze oder andere parametrische Schätzer beitragen.<br />

Dann kann die Gesamtemissionswahrscheinlichkeit als gewichtetes<br />

Produkt der Ergebnisse der einzelnen Berechnungsmethoden zusammengesetzt<br />

werden. Erfolgreich wurde dies schon bei hierarchischen Mixturen<br />

von Experten [?] eingesetzt (s. Abs. 22.2.7).<br />

• Möglichkeit, die verschiedenen Ströme je nach HMM-Zustand unterschiedlich<br />

zu gewichten:<br />

Zunächst wurden bei Multi-Stream Systemen die Gewichtungsfaktoren für<br />

die einzelnen Ströme empirisch bestimmt und dieselben Gewichte für alle<br />

akustischen Modelle verwendet, so zum Beispiel in [?] [?] [?]. Nun ist es<br />

durchaus sinnvoll zu erwarten, daß manche akustischen Modelle von dem<br />

einen oder anderen Strom stärker abhängen als von anderen. So könnte man<br />

vermuten, daß Diphthonge mehr von den Delta-Koeffizienten abhängen<br />

beziehungsweise von diesen besser modelliert werden, während Frikative<br />

eher weniger von den Delta-Koeffizienten abhängen. So berechnet sich die<br />

Emissionswahrscheinlichkeit bj(x) für die Beobachtung von x im Zustand<br />

j mit n Datenströmen als:<br />

bj(x) =<br />

n<br />

b i j(x) fi(j)<br />

i=1<br />

(14.6)<br />

Die Gewichtung fi(j), mit der der i-te Datenstrom in die Berechnung für<br />

den Zustand j eingeht, muß selbstverständlich im Exponenten geschehen,<br />

wenn die Einzelwahrscheinlichkeiten aufmultipliziert werden. Betrachtet<br />

man statt der Emissionswahrscheinlichkeiten deren Logarithmen, so ergibt<br />

sich eine multiplikative Gewichtung. Um sicherzustellen, daß die bj(xt)<br />

echte Wahrscheinlichkeiten sind, muß natürlich gelten, daß 0 ≤ fi(j) ≤ 1<br />

und n<br />

i=1 fi(j) = 1.0 ∀j.<br />

Eine Möglichkeit, geeignete Werte für die fi(j) zu finden, wird in [?]<br />

vorgestellt. Dabei wird für jede Trainingsaufnahme ein Viterbi-Pfad<br />

q1, q2, . . .qn und alle Emissionswahrscheinlichkeiten bj(xt) berechnet.<br />

Letzteres kann je nach Parameterraum sehr aufwendig werden. Wenn der

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!