18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

214 13. Das Trainieren von Spracherkennern<br />

Wählen Sie nun wieder Aufnahme 0 und ” ache“ aus. Klicken Sie auf<br />

Forward-Backward . Auch jetzt erscheint eine Matrix mit eingefärbten<br />

Zellen, die diesmal den γt(j) des Forward-Backward-Algorithmus entsprechen.<br />

Diese werden im Programm intern abgespeichert. Wenn Sie danach<br />

auf Update klicken. Werden Die Parameter des HMMs entsprechend<br />

der Baum-Welch Regeln und dem Expectation Maximization Algorithmus<br />

optimiert.<br />

Sie können erkennen, daß jetzt die Darstellung der Gauß-Mischverteilungen<br />

nicht mehr überall gleich ist. Insbesondere haben sich die Verteilungen<br />

für die Modelle EY-b, EY-e, K-b und K-e verändert. Auch wenn diese<br />

Veränderungen nur minimal ausfallen, ist erkennbar, daß der Schwerpunkt<br />

der K-b und K-e Modelle näher zum Nullpunkt gerückt ist. Dies ist darauf<br />

zurückzuführen, daß diese Modelle tendenziell eher mit den Mustern trainiert<br />

wurden, die dem verhältnismäßig energiearmen k-Laut entsprechen.<br />

Wenn Sie die Verteilungen von EY-b und EY-e miteinander vergleichen<br />

erkennen Sie, daß der Schwerpunkt der EY-e Verteilung weiter ” oben“ liegt.<br />

Dies ist darauf zurückzuführen, daß der EY-Laut ein Diphthong ist, dessen<br />

vorderer Teil (EY-b) durch das eher etwas tiefer klingende E dominiert wird,<br />

während der hintere Teil (EY-e) durch das eher etwas höher klingende Y<br />

dominiert wird. Daher wurde die Mischverteilung des EY-e Modells tendenziell<br />

eher mit Mustern trainiert, deren oberes Frequenzband energiereicher ist.<br />

Wenn Sie nun wiederholt Forward-Backward Update klicken, können<br />

Sie beobachten, wie mit jeder Iteration die angezeigte Wahrscheinlichkeit<br />

für P(Aufnahme0|λ(ache)) steigt. Die eben festgestellten Veränderungen an<br />

den Gauß-Mischverteilungen der Modelle, die im Word ” ache“ vorkommen,<br />

werden zementiert.<br />

Um den Erkenner mit mehreren Aufnahmen zu trainieren müßten Sie<br />

die Aufnahmen einzeln zusammen mit ihren entsprechenden Wort-HMMs<br />

auswählen und jeweils Forward-Backward ausführen; am Ende dann<br />

einmalig Update , um alle akkumulierte Trainingsinformation auszuwerten.<br />

Die Aufnahmen sind so angeordnet daß für jedes der Vokabularwörter vier<br />

Aufnahmen vorhanden sind. Da es zur Beurteilung der Erkennerqualität<br />

nicht korrekt wäre, die Fehlerrate auch auf den Trainingsdaten zu messen,<br />

sollte ein Teil der Daten nicht für das Training verwendet werden. Wenn Sie<br />

die Aufnahmen 3, 7, 11, 15, 19 und 23 (und 24) auslassen, dann bleibt von<br />

jedem Wort eine Aufnahme für die spätere Evaluation übrig. Es wäre sogar<br />

interessant, alle Aufnahmen des Wortes ” shake“ wegzulassen, um später die<br />

Erkennung auf untrainierten Wörtern zu Testen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!