DIPLOMARBEIT
DIPLOMARBEIT
DIPLOMARBEIT
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
2.3 Spracherkennung<br />
2.3.4.4 Linguistische Modellierung<br />
Mit Hilfe der linguistischen Modellierung soll die Wahrscheinlichkeit für das Auftreten einer be‐<br />
stimmten Satzhypothese berechnet werden. Diese lässt sich berechnen, indem man das Produkt der<br />
bedingten Wahrscheinlichkeiten aller im Satz enthaltenen Wörter bildet. Die Wahrscheinlichkeit für<br />
das Auftreten eines einzelnen Wortes ist dabei immer von allen vorhergegangenen Wörtern abhän‐<br />
gig. Da es jedoch sehr viele unterschiedliche Folgen von Vorgängerworten geben kann, werden zur<br />
Vereinfachung nur die beiden letzten betrachtet. Die so erhaltene Gruppe aus drei Wörtern wird als<br />
Trigramm bezeichnet.<br />
Die Wahrscheinlichkeiten für das Auftreten der Trigramme wird in einem vorher separat durchge‐<br />
führten Training ermittelt. Hier ist es wichtig, einen großen Textkorpus zu verwenden, der für das<br />
spätere Anwendungsgebiet typisch ist. Da nicht jedes mögliche Trigramm im Trainingstext vorkom‐<br />
men kann, wird auch auf die Wahrscheinlichkeiten für das Auftreten von Wortpaaren (Bigrammen)<br />
und Einzelwörtern (Unigrammmen) zurückgegriffen.<br />
2.3.4.5 Die Suche<br />
26<br />
Ich rufe an 80<br />
von neun bis 77<br />
Anfang nächster Woche 69<br />
Ihnen das recht 67<br />
lassen Sie uns 61<br />
am Freutag den 59<br />
am Dienstag den 59<br />
wenn Ihnen das 58<br />
rufe an wegen 58<br />
ich weiß nicht 54<br />
am Mittwoch den 54<br />
am Donnerstag den 53<br />
halten wir das 52<br />
wäre Ihnen das 52<br />
oder Anfang nächster 50<br />
ich freue mich 49<br />
es geht um 49<br />
wenn es Ihnen 49<br />
von mir aus 44<br />
paßt es Ihnen 44<br />
Tabelle 8: Trigramm‐Häufigkeiten in einem Beispieltext<br />
Das Ziel der Suche ist es, diejenige Wortfolge zu ermitteln, für die das Produkt aus akustischer und<br />
linguistischer Wahrscheinlichkeit am größten ist. Es können natürlich nicht alle möglichen Wortfolgen<br />
betrachtet werden, da der Aufwand dabei zu gigantisch wäre. Zudem sind bei der Erkennung sowohl<br />
die Wörter als auch die Wortgrenzen unbekannt. Der folgende Algorithmus führt die Optimierung<br />
über diese beiden Arten von Unbekannten in einem Schritt durch.