18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

264 16. Verwendung von Sprachmodellen<br />

⎧<br />

#(Hwn)<br />

falls wn = Ve und Ve ∈ H<br />

⎪⎨<br />

#(H)<br />

P(H) falls wn = Ve und Ve ∈ H<br />

P(wn|H) =<br />

0.0 falls wn = Ve und Ve ∈ H<br />

⎪⎩<br />

1.0 falls wn = Ve und Ve ∈ H<br />

(16.3)<br />

wobei #(H) die Häufigkeit der Beobachtung der Wortfolge H ist, #(Hw)<br />

die Häufigkeit der Beobachtung der Wortfolge H gefolgt vom Wort w ist.<br />

Bei einem Vokabular von 100 000 Wörtern könnten 10 50 verschiedene<br />

Zehnwortfolgen erzeugt werden. Das bedeutet, daß es ausgeschlossen ist,<br />

daß wir eine Tabelle anlegen, die für jedes Wort w und jede Worthistorie<br />

H einen gut geschätzten Eintrag P(w|H) enthält. Bleiben also nur drei<br />

Möglichkeiten. Erstens wir setzen sehr viele Einträge in der Tabelle auf null.<br />

Zweitens, wir berechnen P(w|H) erst dann wenn wir es wirklich benötigen,<br />

und nicht alles im voraus. Oder drittens, wir fassen verschiedene Historien<br />

in Klassen zusammen und approximieren:<br />

P(w|H) ≈ P(w|C(H)), (16.4)<br />

wobei C(H) die Klasse von Historien ist, in die auch H fällt. Nur in<br />

wenigen Fällen ist es sinnvoll, die Sprachmodellwahrscheinlichkeit ” im Fluge“<br />

zu berechnen. Der Aufwand, der getrieben werden muß, um die Suche eines<br />

Spracherkenners in akzeptabler Zeit durchzuführen, ist schon so groß, daß<br />

eine sehr oft durchgeführte Anfrage nach Sprachmodellwahrscheinlichkeiten,<br />

die erst noch berechnet werden müßten, den Gesamtablauf so sehr verlangsamen<br />

würde, daß kein sinnvoller Einsatz des Erkenners mehr denkbar wäre.<br />

Aus ebenso praktischen Gründen bietet es sich meist nicht an, die gesamte<br />

Historie einer Aufnahme mitzuführen und ständig für die Berechnung<br />

von Sprachmodellwahrscheinlichkeiten bereitzustellen. Abgesehen davon,<br />

daß durch beliebig lange Historien die Komplexität des Suchalgorithmus<br />

sehr hoch wird, können wir davon ausgehen, daß der Einfluß eines Wortes<br />

auf die Beobachtungswahrscheinlichkeit eines anderen Wortes, daß erst sehr<br />

viel später im Satz oder gar erst in einem viel späteren Satz auftritt mit<br />

zunehmendem Abstand gegen null geht.<br />

Somit bietet sich an dieser Stelle eine Art der Klassenbildung der<br />

Historien an, nämlich die Beschränkung auf eine Maximallänge:<br />

C(H = w1, w2, . . . wn) = {v1, v2, . . .vk|vi = wn−k+i}, (16.5)

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!