18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

17.2 Ballung von Kontexten<br />

17.2 Ballung von Kontexten 297<br />

Bevor man einen Algorithmus zum Ballen von akustischen Modellen verwendet,<br />

sollte klar sein, was die Ziele der Ballung sind. Es ist selbstverständlich,<br />

daß die in Tab. 17.3 und 17.4 aufgeführten Vorteile optimal ausgeschöpft werden<br />

sollen. Es gilt also einen geeigneten Kompromiß zwischen spezifischen,<br />

räumlich wenig ausgedehnten und generellen, räumlich weit ausgedehnten<br />

Modellen zu finden. Aus den Abb. 17.3 und 17.4 ist zu entnehmen, daß<br />

der beste Kompromiß wohl weit weg von der expliziten Modellierung jedes<br />

einzelnen Phänomens liegen muß. Um nahezu eine Million verschiedener Modelle<br />

sinnvoll zu trainieren, reichen die heute üblichen Trainingsdatenmenge<br />

nicht aus. Es kommt beim Erzeugen von HMMs auf den Trainingsdaten wie<br />

in Abs. 15.3 beschrieben (s. Abb. 15.8) sogar oft vor, daß einige Phänomene<br />

im den Trainingsdaten überhaupt nicht vorkommen, zum Beispiel weil<br />

nicht alle im Lexikon vorgesehenen Varianten auch tatsächlich irgendwann<br />

gesprochen werden, oder weil nicht alle im HMM möglichen verschiedenen<br />

Wortübergangskontexte auch genommen werden. Da es aber nicht<br />

vorhersagbar ist, ob solche Phänomene in den Testdaten dann doch vorkommen<br />

könnten und da das Testvokabular ja sogar vom Trainingsvokabular<br />

abweichen könnte, gehört zu den Zielen eines Ballungsalgorithmus, auch<br />

vorzusehen, für nicht-trainierte Phänomene eine sinnvolle Lösung anzubieten.<br />

17.2.1 Optimierungskriterien<br />

Jeder Ballungsalgorithmus trifft ständig Entscheidungen, welche Modelle<br />

zusammen in eine Klasse gehören und welche nicht. Es ist völlig unrealistisch,<br />

jede dieser Entscheidungen so zu treffen, daß der Effekt auf die<br />

Wortfehlerrate des resultierenden Erkenners minimiert wird. Man wird<br />

daher auf zu optimierende Kriterien zurückgreifen müssen, die sich sehr<br />

schnell während des Ballungsprozesses berechnen lassen. Die am häufigsten<br />

verwendeten Kriterien sind die Maximierung der Beobachtungswahrscheinlichkeit<br />

der Trainingsdaten und die Maximierung des Informationsgehaltes<br />

(negative Entropie) des Parameterraumes. Je nach Art der Berechnung<br />

der Emissionswahrscheinlichkeiten, können diese beiden Kriterien sogar<br />

identisch sein [?].<br />

Die Entropie einer Klasse von Modellen ist definiert durch die Wahrscheinlichkeitsverteilung<br />

f dieser Klasse über dem Merkmalsraum. Wenn<br />

man Gauß-Mischverteilungen zur Berechnung der Emissionswahrscheinlichkeiten<br />

verwendet, so ist die Berechnung der Entropie ein sehr aufwendiges<br />

numerisches Verfahren, das die Integration der Gauß-Verteilungen beinhaltet.<br />

In der Spracherkennung kommen derart komplexe Entropieberechnungen<br />

nicht vor, da entweder als Wahrscheinlichkeitsmodelle entweder nur einzelne

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!