18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

242 14. Das akustische Modell<br />

scheinlichkeit paßt, dann kommt es oft vor, daß eine Folge von kurzen<br />

Varianten eine höhere Beobachtungswahrscheinlichkeit liefert.<br />

Gerade im Deutschen kann eine übermäßige Verwendung von Varianten<br />

– insbesondere, wenn sie automatisch durch Regeln erzeugt werden – zu<br />

einem zusätzlichen Problem führen. Man stelle sich einfach nur das Wort<br />

” siebenundzwanzig“ vor. Wenn das Wort sieben“ drei bis vier Varianten<br />

”<br />

hat (Z IE B E N, Z IE B N, Z IE M, usw.), das Wort und“ mehrere<br />

”<br />

Varianten hat (z.B. U N D, U N T, U N, N, usw.), und auch noch zwanzig“<br />

”<br />

auf viele Arten gesprochen werden kann, dann entstehen somit automatisch<br />

für das aus diesen Wörtern zusammengesetzte siebenundzwanzig“ leicht<br />

”<br />

mehrere Dutzend verschiedener Aussprachen. Da die deutsche Sprache für<br />

ihre Fähigkeit, lange Komposita bilden zu können, bekannt ist, kann man<br />

sich leicht ausmalen wie ein deutsches Aussprachelexikon stark aufgeblasen<br />

werden kann.<br />

Da während des Trainings von Hidden Markov Modellen die gesprochene<br />

Wortfolge bekannt ist, ist es an dieser Stellen unproblematisch, sehr viele<br />

Varianten zu verwenden, eine Verwechslung mit einem anderen Wort kann ja<br />

beim Aufbau des Satz-HMMs ausgeschlossen werden. Daher verwenden die<br />

meisten Spracherkenner verschiedene Trainings- und Erkennungslexika. Im<br />

Trainingslexikon kommen sehr viele Varianten vor, ins Erkennungslexikon<br />

werden vor allem die sehr kurzen und sehr seltenen Varianten nicht mit<br />

aufgenommen.<br />

Varianten in der Suche<br />

Eine weitere Problematik im Zusammenhang mit Aussprachevarianten sollte<br />

an dieser Stellen noch angesprochen werden. Da sowohl beim Training als<br />

auch beim Erkennen der Suchprozeß für einigermaßen komplexe Erkenner<br />

Techniken zur Beschneidung des Suchraums benötigen, können Wörter mit<br />

vielen Varianten gegenüber Wörtern mit wenigen Varianten benachteiligt<br />

werden. In Abb. 14.7 konkurrieren die Wörter wi und wj miteinander. Sollte<br />

an der Stelle t ein Entscheidung zur Beschneidung des Suchraums getroffen<br />

werden müssen, so kann es sein, daß, obwohl das Wort wi in allen seinen<br />

Varianten eine Wahrscheinlichkeitssumme akkumuliert hat, die größer ist als<br />

der entsprechende Wert für wi.<br />

Außerdem stellt sich natürlich die Frage, welche Werte die Übergangswahrscheinlichkeiten<br />

in ein Wort mit n Varianten erhalten soll. Wenn<br />

man jeder Variante die selbe Wahrscheinlichkeit P gibt, die das Wort<br />

unabhängig von seiner Aussprache hat, dann verletzen wir die Bedingung<br />

aus der Definition der Hidden Markov Modelle, nach der die Summe<br />

aller Ausgangswahrscheinlichkeiten eines Zustands 1.0 sein muß. Geben

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!