18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

13.3 Trainingsparadigmen 221<br />

viel wahrscheinlicher ist als die anderen, dann ist davon auszugehen, daß<br />

der Erkenner ” sich seiner Hypothese sehr sicher ist“. Wenn die Wahrscheinlichkeiten<br />

jedoch nahe beieinander liegen, kann man annehmen, daß bereits<br />

eine kleine Änderung der Aufnahme womöglich dazu geführt hätte, daß ein<br />

anderes Wort das wahrscheinlichste geworden wäre. In diesem Fall ist die<br />

Konfidenz in die Hypothese eher gering.<br />

Die Konfidenz kt zum Zeitpunkt t kann nun verwendet werden, um<br />

das Training damit zu gewichten. Wenn kt zwischen 0 und 1 liegt, kann es<br />

direkt auf die γt(i) aufmultipliziert werden bevor die Baum-Welch-Regeln<br />

angewandt werden. Es ist aber auch möglich, einen Schwellwert h zu<br />

definieren, und γt(i) auf 0 (für kt < h) oder 1 (für kt ≥ h) zu setzen.<br />

Diese würde bedeuten, daß ein Training nur auf denjenigen Bereichen einer<br />

Aufnahme stattfinden, auf denen der Erkenner sich einigermaßen sicher<br />

ist, die korrekte Hypothese erzeugt zu haben. Selbstverständlich sind auch<br />

die Konfidenzmaße mit der tatsächlichen Korrektheit bestenfalls korreliert<br />

und geben keineswegs 100%-ige Sicherheit. Allerdings helfen sie deutlich,<br />

den Trainingserfolg auf untranskribierten Daten zu steigern. In [?] wird<br />

festgestellt, daß für die gleiche Steigerung der Erkennungsleistung eines<br />

schlechten Erkenners mit initialer Fehlerrate von 78.5%, etwa 100 mal so viele<br />

untranskribierte Daten benötigt werden wie fehlerfrei transkribierte. Dies<br />

berechtigt auf den ersten Blick durchaus zu Optimismus. Allerdings stellt [?]<br />

auch fest, daß die Gewinnaussichten mit steigender Erkennerqualität sinken.<br />

Das heißt, es ist wesentlich mehr Aufwand und Daten nötig, um einen<br />

bereits guten Erkenner noch besser zu machen. So daß dieses Verfahren nur<br />

bedingt anwendbar ist. In [?] wird berichtet, daß durch dieses Verfahren, ein<br />

Erkenner mit initialer Fehlerrate von 38.8% durch Trainieren auf korrekten<br />

Transkriptionen auf eine Fehlerrate von 24.5% verbesser werden konnte. Die<br />

immer noch beachtliche Verbesserung durch Trainieren auf denselben Daten<br />

ohne Transkriptionen allerdings unter Verwendung eines Konfidenzmaßes<br />

reichte allerdings nur zu einer Fehlerrate von 28.5%.<br />

13.3.3 Momentum und adaptives Training<br />

Gelegentlich kommt es vor, daß heterogene Daten vorliegen und eine<br />

Erkennung auf einer Art von Sprache bzw. Aufnahmequalität durchgeführt<br />

werden muß, die sich deutlich von der Art der Trainingsdaten unterscheidet.<br />

Wenn es möglich ist, wenigstens eine kleine Menge an Aufnahmen der neuen<br />

Art zu erhalten, kann diese kleine Menge verwendet werden, um die Parameter<br />

des Erkenners neu zu schätzen. Selbst wenn dabei davon auszugehen<br />

ist, daß diese kleine Menge besser mit der aktuellen Erkennungsaufgabe<br />

übereinstimmt als die große Menge an Daten, mit denen der Erkenner<br />

trainiert worden war, so wäre es doch meistens nicht sinnvoll, die große

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!