18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

16.7 Adaption von Sprachmodellen 285<br />

aufzunehmen, daß das Fehlen bestimmter Wortformen vernachlässigt werden<br />

könnte.<br />

Eine in verschiedenen Varianten von vielen Spracherkennungssystemen<br />

benutztes Verfahren ist die so genannte hypothesis driven lexicon adaptation,<br />

HDLA [?]. Die Idee dabei ist, ähnlich wie bei der Sprachmodelladaption<br />

an ein Thema, die Erkennerhypothese zu verwenden, um zusätzliche Informationen<br />

zu besorgen. Das Ziel der HDLA ist es, immer ein Vokabular zu<br />

verwenden, das möglichst wenige der zu erkennenden Wörter nicht enthält,<br />

das heißt, der Anteil der Nichtvokabularwörter (engl. out of vocabulary words,<br />

OOV-words) im Gesprochenen möglichst gering zu halten. Die zusätzlichen<br />

Informationen können zum Beispiel aus einem Hintergrundlexikon entnommen<br />

werden, das so groß ist, daß der Spracherkenner es nicht als ganzes<br />

komplett verwenden kann. Sie kann aber auch zur Laufzeit aus dem Internet<br />

besorgt werden. Der HDLA-Algorithmus kann grob wie folgt skizziert werden:<br />

1. erkenne mit nicht adaptiertem Lexikon und erhalte Hypothese<br />

(oder Hypothesenliste) H<br />

2. verwende alle Wörter in H,<br />

um ähnliche Wörter W aus Hintergrundwissen zu besorgen<br />

3. entferne einige der seltensten Wörter aus dem Lexikon<br />

und ersetze sie durch die Wörter in W<br />

4. wiederhole die Erkennung mit dem adaptierten Lexikon<br />

und erhalte Hypothese H ′<br />

Die Erwartung, daß H ′ weniger Fehler enthält als H stützt sich auf die<br />

Annahme, daß die aus dem Lexikon entfernten Wörter bei der Erkennung<br />

keine Rolle spielen (Wörter aus H werden selbstverständlich nicht entfernt),<br />

und daß die hinzugenommenen Wörter möglicherweise bestimmte Wortformen<br />

von Wörtern aus H enthalten, die zunächst falsch erkannt wurden.<br />

Beispielsweise könnte das Wort ” Spracherkenner“ an der Stelle, an der der<br />

Sprecher ” Spracherkenners“ gesagt hatte, erkannt worden sein, weil es von<br />

allen Wörtern im Vokabular dem Gesagten am nächsten kommt. Durch die<br />

Adaption, wäre ” Spracherkenners“ ins Vokabular aufgenommen worden und<br />

könnte dann korrekt erkannt werden.<br />

In [?] werden verschiedene Ähnlichkeitsmaße zwischen Wörtern getestet<br />

um im Schritt 2 zu entscheiden, welche Wörter in Vokabular aufgenommen<br />

werden sollten. Als ähnlich werden nicht nur Wörter betrachtet, die verschiedene<br />

Formen desselben Wortstammes sind, sondern auch solche, die einfach

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!