18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

256 15. Erkennung kontinuierlicher Sprache<br />

15.3 Hidden Markov Modelle für kontinuierliche<br />

Sprache<br />

Während bei der Einzelworterkennung sowohl für das Training als auch für<br />

die Erkennung die gleichen Hidden-Markov-Modelle verwendet werden, auf<br />

denen dann im Training der Forward-Backward- und bei der Erkennung<br />

der Forward-Algorithmus eingesetzt werden, so gilt dies für kontinuierliche<br />

Sprache nicht mehr. Die aus der Einzelworterkennung bekannten Wort-<br />

HMMs könnten für das Training übernommen werden, wenn bekannt wäre,<br />

wo in einer Aufnahme jedes Wort anfängt und wo es aufhört. Da eine solche<br />

Segmentierung in der Regel nicht gegeben ist, muß hier ein anderer Weg<br />

beschritten werden.<br />

Meistens haben wir es beim Trainieren eines HMM-Erkenners für<br />

kontinuierliche Sprache mit Aufnahmen zu tun, in denen ganze Sätze stehen.<br />

Manchmal sind es auch mehrere Sätze, manchmal nur Satzfragmente.<br />

Eine Trainingsdatenmenge besteht aus vielen solcher Aufnahmen und den<br />

dazugehörigen Transkripten. Gelegentliche kleine Fehler in den Transkripten<br />

können meist toleriert werden, dennoch ist es vorteilhaft, wenn sie so<br />

exakt wie möglich sind, und sogar Atemgeräusche, Schmatzlaute, Stotterer,<br />

Telefonklingeln und andere Geräusche als solche beschrieben werden.<br />

Guten Tag<br />

G U T N T A G<br />

Wortgraph<br />

Phonemgraph<br />

G1 G2 U1 U2 T1 T2 N1 N2 T1 T2<br />

Abb. 15.7. Aufbau eines HMMs für einen ganzen Satz<br />

Zustandsgraph<br />

A1 A2 G1 G2<br />

Um auf einer kompletten Aufnahme mit mehreren Worten einen Forward-<br />

Backward Algorithmus zu rechnen, benötigen wir ein HMM, das alle Worte<br />

(und Geräusche) der Aufnahme modelliert. Im einfachsten Fall genügt es,<br />

die einzelnen Wort-HMMs zu einem einzigen HMM zu konkatenieren, wie in<br />

Abb. 15.7 dargestellt.<br />

Typischerweise besteht die Erzeugung des finalen HMMs (Zustandsgraph)<br />

aus drei Schritten. Im ersten Schritt wird ein Pseudo-HMM (Wortgraph)<br />

erzeugt, dessen Zustände ganzen Wörtern entsprechen. Im zweiten Schritt<br />

wird jeder Wortzustand durch ein HMM ersetzt, bei dem jeder Zustand

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!