18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

220 13. Das Trainieren von Spracherkennern<br />

die Frage, ob es möglich ist, einen Erkenner mit Sprachaufnahmen zu<br />

trainieren, ohne daß dabei die Transkriptionen der Aufnahmen vorhanden<br />

sind. Die Erfahrung hat gezeigt, daß das Zitat von Bob Mercer: ” there’s<br />

no data like more data“ fast immer anwendbar ist. Daraus entsteht die<br />

Vorstellung, daß die sehr großen vorhandenen Audiodatenmengen genutzt<br />

werden können, um Spracherkenner zu trainieren, ohne vorher den sehr langwierigen<br />

und teuren Prozeß der Transktiption durchlaufen zu müssen. Wenn<br />

man bedenkt, daß die größten sauber transkribierten spontansprachlichen<br />

Datenbasen gerade mal etwa 250h Sprachaufnahmen beinhalten und daß in<br />

den Archiven verschiedener Medien und Sendeanstalten mehrere Millionen<br />

Stunden Sprachaufnahmen existieren, scheint die Hoffnung aus diesen riesigen<br />

Datenmengen einen Vorteil zu ziehen, nicht unbegründet, auch wenn die<br />

dann zu verwendenden Trainingsmethoden weniger gute Ergebnisse erzielen<br />

als überwachte Methoden es auf der gleichen Trainingsmenge könnten.<br />

Die Idee beim Trainieren ohne Transkriptionen ist, einen ersten schlechten<br />

Spracherkenner zu verwenden automatisch Transkriptionen zu erzeugen.<br />

Diese sind dann natürlich von schlechter Qualität und enthalten viele Fehler.<br />

Selbst wenn die Fehlerrate 30% beträgt, könnten so immer noch 70% von<br />

riesigen Datenmengen (z.B. aufgezeichnete Rundfunknachrichten) korrekt<br />

transkribiert zum Trainieren verwendet werden. Es muß allerdings etwas<br />

dagegen unternommen werden, daß die 30% falsch transkribierten Daten die<br />

geschätzten Modelle nicht zu stark verfälschen. Zu den Gegenmaßnahmen<br />

gehören im wesentlichen zwei Vorgehensweisen: die Adaption und konfidenzgewichtetes<br />

Training. Bei der Adaption wird versucht, durch Optimieren<br />

des Erkenners auf den neuen Daten (s. Kap. 21) an die Spracheigenschaften<br />

und Aufnahmebedingungen der großen untranskribierten Datenmengen<br />

anzupassen, und so die Fehlerrate etwas zu senken. Wenn der Erkenner<br />

bessere Transkriptionen erzeugt, dann wird auch der folgende Trainingsprozeß<br />

erfolgreicher verlaufen. Die Erwartung ist nun, durch wiederholtes<br />

Iterieren der automatischen Transkription und des Trainings einen immer<br />

besser werdenden Erkenner zu erhalten, der immer bessere Transkriptionen<br />

erzeugen kann, die wiederum zu besseren Trainingserfolgen führen.<br />

Das Verfahren des konfidenzgewichteten Trainings beruht auf der Feststellung,<br />

daß ein Erkenner zwar nicht angeben kann, welche Teile seiner<br />

Hypothese korrekt sind und welche falsch, aber es ist möglich bestimmte<br />

Konfidenzmaße zu bestimmen [?] [?], die ausdrücken, wie wahrscheinlich<br />

es ist, daß der Erkenner an einer bestimmten Stelle einen Fehler gemacht<br />

hat. Ein relativ leicht verständliches Konfidenzmaß ist zum Beispiel der<br />

Vergleich der (durch den Forward-Algorithmus) berechneten Beobachtungswahrscheinlichkeit<br />

des wahrscheinlichsten Wortes mit der des zweit- oder<br />

drittwahrscheinlichsten Wortes an der gleichen Stelle. Wenn diese Wahrscheinlichkeiten<br />

stark voneinander abweichen, also das wahrscheinlichste

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!