18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

13.2 Aufteilung der Sprachaufnahmen 213<br />

Am unteren Rand des Applets befindet sich das Spektrogramm der gerade<br />

ausgewählten Aufnahme. Hierbei handelt es sich allerdings um nur zwei<br />

Filterbankkoeffizienten (sie entsprechen grob dem Anteil tiefer und hoher<br />

Frequenzen im Signal). Wenn Sie z.B. die Aufnahme 0 (das englische Wort<br />

” ache“ betrachten, sehen Sie in der vorderen zeitlichen Hälfte mehr Energie<br />

(wegen des Vokals) vor allem im unteren Frequenzband, und in der hinteren<br />

Hälfte, die dem k-Laut entspricht sind die Filterbankkoeffizienten heller, d.h.<br />

kleiner.<br />

Unterhalb der 25 Aufnahmefelder befinden sich acht Gauß-Mischverteilungen<br />

(markiert mit AE-b, AE-e, EY-b, EY-e, K-b, K-e, SH-b und SH-e). Diese<br />

bestehen aus jeweils zwei einzelnen Gauß-Verteilungen über dem zweidimensionalen<br />

Merkmalsraum der beiden Filterbänke. Ein dunkler Punkt auf der<br />

Darstellung an der Position (x, y) entspricht einer hohen Wahrscheinlichkeit<br />

für das Beobachten eines Merkmals, dessen unterer Filterbankkoeffizient x<br />

ist und dessen oberer Filterbankkoeffizient y ist.<br />

Zu beginn sind alle Gauß-Mischverteilungen gleich initialisiert. Die beiden<br />

einzelnen Gauß-Verteilungen haben leicht unterschiedliche Mittelwerte, so<br />

daß die initialen Graustufenbilder etwas oval aussehen.<br />

Unterhalb der Darstellungen der Gauß-Mischverteilungen sehen sie verschiedene<br />

Hidden-Markov-Modelle, je eines für die Wörter ache“, ash“, cake“,<br />

” ” ”<br />

” shack“ und shake“. Unter den einzelnen Zuständen befinden sich die<br />

”<br />

Namen der zugehörigen Gauß-Mischverteilungen. Die Zustandsübergänge<br />

sind mit dem Zehnfachen ihrer Wahrscheinlichkeit beschriftet (ggf. kann<br />

durch Rundungsfehler die Summe ungleich 1 sein). Durch Anklicken eines<br />

dieser Wörter können Sie das entsprechende HMM auswählen, woraufhin es<br />

rot eingefärbt wird und seine Zustände auf der vertikalen Beschriftungsachse<br />

der darunterliegenden (DP-)Matrix erscheinen.<br />

Der Forward-Algorithmus berechnet p(X|λ), durch Auswahl einer bestimmten<br />

Aufnahme wählen Sie das X aus, und durch Auswahl eines bestimmten<br />

Wortes das λ. Wählen Sie nun die Aufnahme 0 und das Wort ” ache“. Nach<br />

Klicken von Forward wird die Matrix mit mehr oder weniger gefärbten<br />

Rechtecken gefüllt. Die Stärke der Färbung des Rechtecks in der j-ten Zeile<br />

und t−ten Spalte entspricht dem Wert αt(j) aus dem Forward-Algorithmus.<br />

Am unteren Rand, unterhalb des Spektrogramms wird der Wert p(X|λ)<br />

ausgegeben - er sollte ca. 8 · 10 −9 sein.<br />

Nachdem Sie nun P(Aufnahme0|λ(ache)) berechnet haben, versuchen sie<br />

dies auch für P(Aufnahme0|λ(ash)) und für die anderen Wörter. Machen<br />

Sie sich klar, daß immer die gleiche Wahrscheinlichkeit herauskommt, weil<br />

zu beginn alle akustischen Parameter gleich initialisiert sind.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!