18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

456 28. Der moderne Vortragsraum<br />

meisten guten Spracherkenner sind im wesentlichen mit Nachrichtentexten<br />

und vorgelesenen Nachrichten trainiert, so daß die Inhalte von zum Beispiel<br />

wissenschaftlichen Vortragen sehr schlecht darauf passen.<br />

Problematisch ist sehr wohl auch die Tatsache, daß oft keine Nahbesprechungsmikrophone<br />

verwendet werden. Ohne Adaption kann die Fehlerraten<br />

von Diktiererkennern auf Konferenzvorträgen bei über 90% liegen. Zu dieser<br />

großen Menge Fehler führt auch die größtenteils schlechte englische Aussprache<br />

von Nicht-Muttersprachlern. Eine deutliche Reduktion der Fehler auf ca.<br />

40% ist durch den Einsatz von MLLR-Adaption und Sprachmodelladaption<br />

möglich. Diese immer noch recht hohen Fehlerraten illustrieren deutlich wie<br />

problematisch Vortragssprache sein kann.<br />

28.3.1 Adaption des Sprachmodells<br />

Wenn Spracherkenner gute Erkennungsleistungen erbringen sollen, sind sie<br />

in der Regel auf irgend eine Art auf die Erkennungsaufgabe eingestellt. Auch<br />

wenn heute die Entwicklung immer mehr in Richtung sprecherunabhängiger<br />

Erkennung ganz ohne Einlernphase geht, so machen sprecherabhängige Erkenner<br />

immer noch wesentlich weniger Fehler. Aber nicht nur die Adaption<br />

an die akustischen Gegebenheiten ist hilfreich, sondern auch die Adaption<br />

des Sprachmodells. Gerade für die Schätzung von Sprachmodellparametern<br />

ist es sehr wichtig, daß eine große Menge an Textdaten existiert. Vorträge<br />

und Vorlesungen befassen sich oft mit wissenschaftlichen Themen, die man in<br />

den typischen Texten von Zeitungen nur sehr selten findet. Es ist viel leichter,<br />

riesige Mengen an politischen Nachrichtentexten zu sammeln als Texte über<br />

Spracherkennung. Selbst wenn man wissenschaftliche Abhandlungen als<br />

Quelle verwendet, so sind diese zwar sehr hilfreich bei der Erweiterung des<br />

Erkennervokabulars, aber der darin verwendete Sprachstil weicht sehr stark<br />

von der typischerweise recht spontanen Sprache eines Vortrags ab.<br />

Die häufigste Ausgangslage für einen intelligenten Vortragsraum ist die,<br />

daß das Thema des Vortrags und die Medien, die der Vortragende verwenden<br />

möchte, im voraus bekannt sind. Unter Umständen ” erfährt“ der Raum erst<br />

unmittelbar vor dem Vortrag, in dem Moment in dem der Redner seinen<br />

Notebook Computer anschließt, etwas über den Inhalt des Vortrags. Es ist<br />

nun wünschenswert, das ein Verfahren einsetzt, das mit Hilfe der wenigen<br />

Informationen, die es aus den Präsentationsfolien extrahieren kann, das<br />

Sprachmodell des Spracherkenners adaptiert. Da auf den Folien viel zu<br />

wenig Text steht, um damit robuste n-Gramme zu schätzen, benötigen wir<br />

also eine Ausgangslage, die auch mit sehr wenig Daten leicht und schnell<br />

adaptierbar ist.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!