31.10.2012 Aufrufe

DIPLOMARBEIT

DIPLOMARBEIT

DIPLOMARBEIT

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

2.3 Spracherkennung<br />

2.3.4.4 Linguistische Modellierung<br />

Mit Hilfe der linguistischen Modellierung soll die Wahrscheinlichkeit für das Auftreten einer be‐<br />

stimmten Satzhypothese berechnet werden. Diese lässt sich berechnen, indem man das Produkt der<br />

bedingten Wahrscheinlichkeiten aller im Satz enthaltenen Wörter bildet. Die Wahrscheinlichkeit für<br />

das Auftreten eines einzelnen Wortes ist dabei immer von allen vorhergegangenen Wörtern abhän‐<br />

gig. Da es jedoch sehr viele unterschiedliche Folgen von Vorgängerworten geben kann, werden zur<br />

Vereinfachung nur die beiden letzten betrachtet. Die so erhaltene Gruppe aus drei Wörtern wird als<br />

Trigramm bezeichnet.<br />

Die Wahrscheinlichkeiten für das Auftreten der Trigramme wird in einem vorher separat durchge‐<br />

führten Training ermittelt. Hier ist es wichtig, einen großen Textkorpus zu verwenden, der für das<br />

spätere Anwendungsgebiet typisch ist. Da nicht jedes mögliche Trigramm im Trainingstext vorkom‐<br />

men kann, wird auch auf die Wahrscheinlichkeiten für das Auftreten von Wortpaaren (Bigrammen)<br />

und Einzelwörtern (Unigrammmen) zurückgegriffen.<br />

2.3.4.5 Die Suche<br />

26<br />

Ich rufe an 80<br />

von neun bis 77<br />

Anfang nächster Woche 69<br />

Ihnen das recht 67<br />

lassen Sie uns 61<br />

am Freutag den 59<br />

am Dienstag den 59<br />

wenn Ihnen das 58<br />

rufe an wegen 58<br />

ich weiß nicht 54<br />

am Mittwoch den 54<br />

am Donnerstag den 53<br />

halten wir das 52<br />

wäre Ihnen das 52<br />

oder Anfang nächster 50<br />

ich freue mich 49<br />

es geht um 49<br />

wenn es Ihnen 49<br />

von mir aus 44<br />

paßt es Ihnen 44<br />

Tabelle 8: Trigramm‐Häufigkeiten in einem Beispieltext<br />

Das Ziel der Suche ist es, diejenige Wortfolge zu ermitteln, für die das Produkt aus akustischer und<br />

linguistischer Wahrscheinlichkeit am größten ist. Es können natürlich nicht alle möglichen Wortfolgen<br />

betrachtet werden, da der Aufwand dabei zu gigantisch wäre. Zudem sind bei der Erkennung sowohl<br />

die Wörter als auch die Wortgrenzen unbekannt. Der folgende Algorithmus führt die Optimierung<br />

über diese beiden Arten von Unbekannten in einem Schritt durch.

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!