18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

12.5 Spracherkennung mit Hidden Markov Modellen 201<br />

Menge subphonetischer Einheiten festzulegen. Daß die Modellierung von<br />

Aussprachen mittels einer vorgegebenen Menge von Silben nicht einfach<br />

ist, erkennt man gelegentlich an der Schwierigkeit, mit der Fremdwörter in<br />

die Japanische Sprache aufgenommen werden. Im Japanischen gibt es eine<br />

feste Silbenmenge und jede Silbe hat eine eigene im wesentlichen kontextunabhängige<br />

Aussprache. Wenn für bestimmte Wörter keine exakt passende<br />

Silbenfolge gefunden werden kann, wird leicht aus einem Wort wie ” Stuttgart“<br />

etwas, das sich anhört wie ” Schututogaruto“. Also sind es die Phoneme.<br />

Linguisten und Phonetiker verwenden schon seit langer Zeit das international<br />

genormte IPA Alphabet. Viele Sprachen (z.B. die meisten slawischen<br />

Sprachen, auch skandinavische Sprachen) verwenden eine Orthographie, die<br />

sehr eng an die Aussprache angelehnt ist. Bedenkt man, daß der Ursprung<br />

unseres lateinischen und auch des griechischen und arabischen Alphabets<br />

die Umschreibung der akustischen Erscheinung ist, so verwundert es nicht,<br />

daß selbst Laien sehr schnell lernen können, zu einem Wort die passende<br />

Aussprache in Lautschrift zu finden. Die meisten Sprachen verwenden ca.<br />

50 verschiedene Laute. Je nach Definition eines Lautes können das auch<br />

nur 20 oder mehrere hundert sein. Im Chinesischen zum Beispiel gibt es<br />

von jedem Vokal mehrere (je nach Dialekt vier bis fünf) Ausprägungen.<br />

In jedem Fall sind es ” ausreichend wenige“, damit jeder Laut in einer<br />

Standard-Datenbasis genügend Vorkommen hat. Damit ist sichergestellt,<br />

daß ein Phonem-HMM bzw. seine Parameter robust trainiert werden können.<br />

Abb. 12.8 zeigt, wie ein typisches HMM für das Wort ” Tag“ entsteht.<br />

Im ersten Schritt würde ein HMM-System in einem Aussprachelexikon<br />

nachsehen, um festzustellen, daß das Wort aus drei Phonemen besteht: t, a<br />

und g. Für jedes Phonem gibt ein vorkonstruiertes Phonem-HMM basierend<br />

auf dem Bakis Übergangsschema. Jedes der Phonem-HMMs ist aus drei<br />

Zuständen aufgebaut, von denen der erste (jeweils mit ” -b“ markiert) die<br />

akustischen Eigenschaften des Segments zu Beginn des Phonems modelliert,<br />

der zweite (mit ” -m“ markiert) den Mittelteil, und der dritte (mit ” -e“<br />

markiert das Ende. Würden wir streng nach dem Bakis-Schema vorgehen,<br />

dann müßte zu den eingezeichneten Übergängen noch ein Übergang aus dem<br />

letzten Zustand in den ” zweiten“ des darauffolgenden Teil-HMMs gehen.<br />

Erstens ist es gar nicht sicher, ob dieses dann überhaupt mehr als einen<br />

Zustand hat, und zweitens könnte es sogar mehrere ” zweite“ Zustände<br />

haben. In der Praxis haben sich derartige kleine Abweichungen von der<br />

Definition des Übergangsschemas als meistens irrelevant erwiesen. Das<br />

Ergebnis der Komposition des Wort-HMMs aus Phonem-HMMs ist in Abb.<br />

12.8 unten zu sehen. Ohne daß dies in der Abbildung gekennzeichnet wäre,<br />

ist der mit ” T-b“ markierte Zustand der Erste (also π( ” T-b“) = 1.0) und<br />

der mit “G-e“ markierte der Finalzustand.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!