18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

15.3 Hidden Markov Modelle für kontinuierliche Sprache 257<br />

einem Phonem entspricht (Phonemgraph), und schließlich wird jeder Phonemzustand<br />

im dritten Schritt durch das HMM ersetzt, das einem Phonem<br />

entspricht (meist ca. drei linear angeordnete Zustände).<br />

Das Ersetzen eines Wortzustandes durch eine Phonemfolge (oder einen<br />

kleinen Phonemgraphen) geschieht durch Nachschauen in einem Aussprachelexikon.<br />

Viele Aussprachelexika geben für einige Wörter mehrere mögliche<br />

Aussprachen an. Für solche Fälle verwendet man dann keine lineare Folge<br />

von Phonemzuständen, sondern entweder je möglicher Aussprache eine<br />

eigene Phonemfolge, die alternativ (vgl. Abb. 12.1 rechts unten) durchlaufen<br />

werden können, oder einen Phonemgraphen, der alle Aussprachen berücksichtigt<br />

(s. Abb. 15.8).<br />

Guten Tag<br />

T G<br />

G U N T A<br />

CH<br />

G1 G2 U1 U2<br />

T1 T2<br />

Wortgraph<br />

N1 N2 T1 T2<br />

Abb. 15.8. Satz-HMM mit verschiedenen Aussprachen<br />

Phonemgraph<br />

A1 A2<br />

Zustandsgraph<br />

G1 G2<br />

CH1<br />

CH2<br />

Auch wenn es wünschenswert ist, sehr ausführliche und korrekte Transkripte<br />

zu verwenden, so muß man davon ausgehen, daß solche in vielen<br />

Fällen nicht zur Verfügung stehen. Kurze Pausen werden üblicherweise gar<br />

nicht schriftlich festgehalten. Will man potentielle Pausen zwischen zwei aufeinanderfolgenden<br />

Wörtern korrekt modellieren, muß dafür in das HMM ein<br />

Zustand oder eine Zustandsfolge eingebaut werden. Für den Wortgraphen<br />

bedeutet das, daß jeder Wortübergang optional über ein Stillewort umgeleitet<br />

wird. Und wenn wir schon davon ausgehen, daß nicht alle Pausen in den<br />

Transkripten enthalten sind, dann könnten wir gleich berücksichtigen, daß<br />

andere Geräusche wie z.B. die Geräusche, die beim Öffnen der Lippen entstehen<br />

oder Atemgeräusche oder Stotterlaute vor Beginn eines Wortes auch<br />

nicht immer in den Transkripten stehen. Das heißt, daß wir in den Wortgraphen<br />

neben den optionalen Stillen auch optionales Gemurmel erlauben<br />

(s. Abb. 15.9). Will man weitere Eventualitäten berücksichtigen, könnten sogar<br />

Übergänge zwischen den Stille- und den Murmelzuständen (engl. mumble<br />

words) eingefügt werden. Damit ist schon ein Teil des Weges, den das Flexible<br />

Transcription Alignment (s. Abs. 14.6.4) geht genommen.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!