18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

368 21. Robustheit und Adaption<br />

wird. Aus empirischen Experimenten hat sich ergeben, daß mit q = 0.8 eine<br />

ausreichend gute Ausgangslage besteht, und dafür ein ” passender“ Wert für<br />

p gesucht wird. Möglich wäre es, p so zu bestimmen, daß die Abweichung<br />

des durchschnittlichen Sprecherspektrums vom Durchschnittsspektrum aller<br />

Sprecher minimal wird. Bessere Ergebnisse liefert allerdings die Bestimmung<br />

von p mit einer Maximum Likelihood Methode. Dabei wird für verschiedene<br />

Werte von p (typischerweise 0.9q, 0.92q, . . .1.08q, 1.10q) mit dem Forwardoder<br />

dem Viterbi-Algorithmus die Beobachtungswahrscheinlichkeit der zum<br />

Adaptieren verfügbaren Äußerungen gemessen, und schließlich derjenige<br />

Wert genommen, für die die Wahrscheinlichkeit am größten ist. Abb. 21.7<br />

zeigt die Verteilung verschiedener Werte für p eingestellt für mehrere hundert<br />

Sprecherinnen und Sprechern. Sehr gut zu erkennen ist die Bimodalität<br />

der Verteilung. Links die Werte p < 1, die vor allem bei Frauen gemessen<br />

wurden, und rechts die p > 1, die vor allem bei Männern gemessen wurden.<br />

180<br />

160<br />

140<br />

120<br />

100<br />

80<br />

60<br />

40<br />

20<br />

0.95 1.05 1.15 1.25<br />

0.90 1.00 1.10 1.20<br />

Abb. 21.7. Verteilung der Spektren für verschiedene Vokaltraktlängen<br />

Die VTLN-Adaption kann zu verschiedenen Zeiten durchgeführt werden.<br />

Die erste naheliegende Idee ist, einen HMM-Erkenner ganz ohne Veränderung<br />

des Signals zu trainieren. Dadurch entstehen automatisch Modelle, die<br />

den Durchschnitt aller Trainingssprecher widerspiegeln. Vor der Erkennung<br />

einer Äußerung wird diese dann aber VTLN-adaptiert, so daß eventuelle<br />

Abweichungen vom Durchschnitt korrigiert werden. Schon dieses Vorgehen

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!