18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

436 27. Entwicklung von Anwendungen<br />

etikettieren. Eine mögliche Vorgehensweise ist das Kopieren vorhandener<br />

Phonemmodelle in die neuen Modelle. Dann sind diese zwar aus der Sicht des<br />

Erkenners akustisch identisch, aber sie lassen sich immerhin mehr schlecht<br />

als recht erkennen. So wäre es möglich, im einen neuen Erkenner für die<br />

deutsche Sprache das im Amerikanischen übliche oÍ(wie in go oder show)<br />

als Ersatz für das deutsche o zu verwenden.<br />

In einem so frühen Stadium der Erkennerentwicklung ist es nicht<br />

ratsam gleich kontextabhängige akustische Modelle zu verwenden. Da diese<br />

jeweils einen kleinen Teil des Merkmals- und Parameterraumes einnehmen<br />

benötigen sie auch eine umso exaktere Zuordnung von Beobachtungen zu<br />

Modellen. Solange aber kein guter Erkenner existiert, genügt die Qualität<br />

dieser Zuordnungen nicht für ” scharfe“ kontextabhängige Modelle.<br />

Der neue Erkenner muß sich mit den unpassenden Parametern akustischer<br />

Modellen einer anderen Sprache oder mit schlechten Labels quasi<br />

am eigenen Schopf aus dem Sumpf ziehen. Diese geschieht in der Regel in<br />

einem iterativen Prozeß. In jeder Iteration wird ein etwas besserer Erkenner<br />

trainiert, der etwas bessere Viterbi-Pfade (Labels) berechnet, die dann für<br />

die nächste Iteration bessere Modelle erzeugen. Die Qualität des Erkenners<br />

wird nach jeder Iteration auf einer Kreuzvalidierungsmenge gemessen. Wenn<br />

festgestellt wird, daß keine weiteren Verbesserungen zu erwarten sind, wird<br />

der Schritt in die nächst höhere Komplexitätsstufe gemacht. Dann können<br />

feinere, kontextabhängige Modelle trainiert werden, die wiederum in der<br />

Lage sind, bessere Labels zu erzeugen. Ein Ballungsalgorithmus zum Zusammenfassen<br />

verschiedener Kontexte optimiert schließlich den Merkmalsraum.<br />

Es ist nicht ungewöhnlich, daß dieser iterative Trainingsvorgang mehrfach<br />

wiederholt wird. Insbesondere im Hinblick darauf, daß einige Algorithmen<br />

sich gegenseitig beeinflussen. So könnte zum Beispiel in einem relativ frühen<br />

Stadium eine LDA-Transformation berechnet werden, die auf einer mangelhaften<br />

Etikettierung der Daten beruht. Mehrere Erkenner mit verschieden<br />

vielen Trainingsiterationen und Komplexitätsgraden ihrer Parameterräume<br />

bauen auf dieser Merkmalsraumtransformation auf. Es ist nun nicht sinnvoll,<br />

einfach eine Neue LDA-Transformation mit den Labels eines besseren<br />

Erkenners zu berechnen. Der so transformierte Raum würde nicht mehr auf<br />

die Modelle des Erkenners passen. Daher muß nach der Erzeugung einer<br />

neuen LDA-Matrix das akustische Modell des Erkenners auch von Anfang<br />

an neu Trainiert werden.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!