18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

312 17. Kontextabhängige akustische Modelle<br />

Verwendet man einen Entscheidungsbaum zum Auswählen der akustischen<br />

Atome in Abhängigkeit vom Kontext, so kann man den Entscheidungsbaum<br />

mit Fragen zu Modalitäten anreichern (s. Abb. 17.13. Gegebenenfalls<br />

muß man dann beim Bestimmen der Atome bis zur Berechnung der Emissionswahrscheinlichkeiten<br />

warten, weil erst dann feststeht, welche Modalitäten<br />

vorliegen, und kann dies nicht schon im voraus beim Aufbau des Suchbaumes<br />

festlegen.<br />

In [?] werden Experimente vorgestellt, in denen gezeigt wird, daß die<br />

Modalitäten Signal-Rausch-Abstand, Dialekt, Geschlecht des Sprechers<br />

und die Sprechgeschwindigkeit alle gewinnbringend in den Kontextentscheidungsbaum<br />

eingebunden werden können. Es gibt verschiedene<br />

Experimente, die zeigen, daß modalitätenspezifische Erkenner (zum Beispiel<br />

geschlechtsspezifische Erkenner in [?]) bessere Erkennungsleistung haben<br />

als ” gemischtmodale“. Dennoch kann man erwarten, daß ein Erkenner mit<br />

Modalitätenfragen gegenüber mehreren speziellen Erkennern Vorteile hat.<br />

Ein spezialisierter Erkenner wird nur mit einem Teil der Trainingsdaten<br />

trainiert und muß somit weniger Parameter haben oder er läuft Gefahr,<br />

diese schlecht zu trainieren. Ein Erkenner mit Modalitätenfragen trennt die<br />

Trainingsdaten nur für diejenigen Phoneme oder Allophone auf, für die dies<br />

hilfreich ist. Auf diese Art können modalitätenspezifische Modelle trainiert<br />

werden, aber dort wo dies keine Vorteile bringt, werden die Parameter mit<br />

allen Trainingsdaten statt nur mit einem Teil trainiert.<br />

Abb. 17.14 zeigt die Einteilung deutscher Dialektregionen in vier Klassen,<br />

wie sie mit Hilfe einer automatischen Ballung [?] gefunden wurden.<br />

Ausgangslage waren 21 deutsche Sprachregionen. Die durch die Ballung<br />

resultierenden vier Dialektklassen wurden als Modalitätenfragen in einem<br />

Experiment auf einer Terminvereinbarungsdatenbank [?] verwendet. Die<br />

Sprecher wurden explizit dazu angehalten Hochdeutsch zu sprechen, dennoch<br />

war die Sprache bei den meisten dialektisch gefärbt. Der Erkenner, der die<br />

Modalitätenfragen zur Herkunft des Sprechers beantworten konnte erzielte<br />

eine Verbesserung der Fehlerrate von 14.5% auf 13.5%.<br />

17.3 Wortübergangskontexte<br />

In einigen Sprachen wie im Englischen und ganz besonders im Französischen<br />

hängt die Aussprache eines Lautes stark von den angrenzenden Wörtern ab.<br />

Dies gilt vor allem für die Laute am Anfang und am Ende eines Wortes,<br />

aber durchaus auch für weiter im Inneren liegende Laute. Bei Aufbau eines<br />

HMM für ein Wort kann dies nicht einfach berücksichtigt werden. Wenn<br />

während der Trainingsphase ein Satz-HMM aufgebaut wird, dann steht die

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!