18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

17.2 Ballung von Kontexten 309<br />

1. Initialisiere einen Ballungsknoten mit allen n zu ballenden Modellen.<br />

Alle Modelle haben eine eigene Mixturgewichteverteilung über<br />

einem gemeinsamen Codebuch (semikontinuierliche HMMs).<br />

2. Führe divisive Ballung durch bis m Klassen entstanden sind<br />

(Abbruchkriterium).<br />

3. Für jede der m Klassen: trainiere ein eigenes Codebuch (Gauß-<br />

Mischverteilung) und eine eigene Mixturgewichteverteilung.<br />

4. Führe divisive Ballung erneut durch (ausgehend von bisher erzeugtem<br />

Baum und trainierten Mixturgewichten).<br />

Als Abbruchkriterium wird in den meisten Fällen ein auf Erfahrung<br />

basierender Wert für die Zahl der resultierenden Modelle (typischerweise in<br />

der Größenordnung von mehreren tausend bis mehreren zehntausend) verwendet.<br />

Dieser Wert hängt davon ab, wieviel Trainingsdaten zur Verfügung<br />

stehen. Andere mögliche Kriterien beziehen sich auf die Entwicklung der<br />

Entropie- beziehungsweise Likelihood-Distanzen. Der Ballungsprozeß kann<br />

abgebrochen werden, wenn die besten Distanzen unter einen Schwellwert<br />

fallen oder sich nicht mehr nennenswert ändern. Auf jeden Fall wird durch<br />

jede Auftrennung eines Knotens ein echt positiver Gewinn erzielt (abgesehen<br />

von der unrealistischen Auftrennung in zwei völlig gleiche Unterknoten).<br />

Darüber hinaus kann mit Hilfe einer Kreuzvalidierungsmenge ein automatischen<br />

Abbruch der Ballung erreicht, ohne daß zuvor vom Entwickler ein<br />

Endekriterium definiert werden muß.<br />

17.2.5 Laufzeitbetrachtungen<br />

Bei der Verwendung kontextabhängiger Modelle fällt ein Teil des Potentials<br />

für die Einsparung von Laufzeit weg, da im kontextunabhängigen Fall zum<br />

Beispiel für das Wort ” lila“ zu jedem Zeitpunkt nur eine Emissionswahrscheinlichkeit<br />

für beide L-Laute berechnet werden muß. Wenn die L-Laute<br />

kontextabhängig behandelt werden, haben sie – sofern sie nicht in eine Klasse<br />

zusammengefaßt werden – verschiedene Modelle. Ganz deutlich wird dieses<br />

Phänomen, wenn wir einen Erkenner für sehr große Vokabulare betrachten.<br />

Ist er kontextunabhängig und verwendet 50 Monophone zur Modellierung der<br />

Akustik, dann müssen – wenn die Phoneme nicht in Untersegmente aufgeteilt<br />

sind – zu jedem Zeitpunkt nur maximal 50 Emissionswahrscheinlichkeiten berechnet<br />

werden. Wenn der Erkenner aber Triphone verwendet, dann könnten

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!