18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

17.2 Ballung von Kontexten 303<br />

korrekten Beantwortung müßte der gesamte Ballungsvorgang, wiederholt<br />

werden, diesmal aber unter Einschließung von p2 p0 p5. Während des<br />

Trainings war es ja mangels Vorkommens dieses Kontextes und mangels<br />

akustischer Evidenz nicht möglich. Während der Erkennung ist zwar<br />

akustische Evidenz vorhanden, allerdings ist es weder praktikabel, zur<br />

Laufzeit, den Ballungsalgorithmus zu wiederholen noch wäre es berechtigt,<br />

zu erwarten, daß die wenige Evidenz in den Testdaten ausreicht, um ein gutes<br />

Ballungsergebnis zu liefern. Die einzig sinnvolle Vorgehensweise in einem<br />

solchen Fall wäre, für jedes Phonem auch ein kontextunabhängiges Modell<br />

bereitzuhalten und gegebenenfalls dieses zu verwenden. Auf jeden Fall wäre<br />

sowohl die Verwendung eines kontextunabhängigen Modells als auch die<br />

eines ” falschen“ kontextabhängigen keine optimale Lösung. Besser wäre es,<br />

herauszufinden, welches der vorhandenen kontextabhängigen am besten paßt.<br />

Dies kann durch den Einsatz eines divisiven Ballungsalgorithmus erreicht<br />

werden. Statt alle möglichen 2 n Divisionen einer Klasse von n Modellen<br />

zu antizipieren können nur einige wenige berücksichtigt werden. Da also<br />

bei der Ballung in jedem Knoten des Ballungsbaumes eine Entscheidung<br />

getroffen wird, wie der Knoten aufzutrennen ist, spricht man auch von<br />

Kontextentscheidungsbäumen. Sie fallen in den Komplex der allgemeinen<br />

Entscheidungsbäume (classification and regression trees CART). Dabei wird<br />

ein Fragenkatalog verwendet. Jede Frage ist eine ja/nein Frage und für jeden<br />

Kontext in einem aufzutrennenden Knoten wird mit Hilfe einer dem Knoten<br />

eigenen Frage entschieden, in welchen der entstehenden Unterknoten der<br />

Kontext kommen soll.<br />

Typische Fragen bei Kontextentscheidungsbäumen sind Fragen wie:<br />

” Ist das Vorgängerphonem ein Vokal“, oder “Ist das Nachfolgerphonem<br />

ein Frikativ“, aber auch Ist das Phonem selbst stimmhaft“ oder – wie<br />

”<br />

in Tab. 17.5 erwähnt – “Ist das Phonem am Anfang eines Wortes“. Das<br />

Ergebnis einer divisiven Ballung ist in Abb. 17.9 dargestellt. Ganz oben<br />

ist der Startknoten, in dem alle 17 in den Trainingsdaten vorkommenden<br />

Phoneme im Kontext enthalten sind. Diese sind entsprechend der<br />

in verschiedenen Spracherkennungssystemen üblichen Schreibweise als<br />

Phonem(linkerKontext|rechterKontext) angegeben. Die Frage, die in<br />

diesem Beispiel durch den Ballungsalgorithmus dem Startknoten zugeordnet<br />

wurde ist mit −1 = Vokal“ markiert und entspricht der umgangssprach-<br />

”<br />

lichen Formulierung: Ist das Vorgängerphonem ein Vokal“. Diese Frage<br />

”<br />

wird für 13 Kontexte mit ja und für vier Kontexte mit nein beantwortet.<br />

Der Ja-Nachfolgeknoten stellt dann die Frage, ob das Nachfolgephonem<br />

ein Stopplaut ist: +1 =Stopp“. Der Beispielbaum hat schließlich sieben<br />

”<br />

Blätter mit jeweils einem bis vier Kontexten. Wäre das das Ende des<br />

Ballungsprozesses, so würde das akustische Modell des Erkenners sieben<br />

akustische Einheiten haben, deren zeitliche Ausdehnung der eines

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!