18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

16.3 N-Gramme 265<br />

also alle Historien, bei denen die letzten k Wörter gleich sind, kommen<br />

in dieselbe Klasse. Sicherlich sind auch andere Arten der Historienklassifizierung<br />

sinnvoll und werden in der Praxis auch eingesetzt. So können<br />

einzelne Wörter oder auch Wortfolgen je nach ihrer semantischen oder auch<br />

syntaktischen Bedeutung in gemeinsame Klassen eingeordnet werden.<br />

16.3 N-Gramme<br />

Die bei weitem am häufigsten verwendete Historienklassifizierung ist die der<br />

Einschränkung auf maximal ein bis zwei Vorgängerwörter. Drückt man die<br />

Wahrscheinlichkeit eines Wortes in Abhängigkeit der n − 1 Vorgänger aus,<br />

so spricht man von n-Grammen:<br />

n-Gramm P(wm|w1, . . . wm−1) ≈<br />

n = 1 (Unigramm) P(wm)<br />

n = 2 (Bigramm) P(wm|wm−1)<br />

n = 3 (Trigramm) P(wm|wm−2, wm−1)<br />

n = k P(wm|w m−(k−1), . . . wm−1)<br />

Eine spezielle Form der Bigramme sind Wortpaargrammatiken. Sie<br />

definieren lediglich welche Wörter einem Wort folgen dürfen. Diese erhalten<br />

dann alle die gleiche positive Bigramm-Wahrscheinlichkeit, während alle<br />

anderen (nicht erlaubten Folgewörter) die Wahrscheinlichkeit 0 erhalten.<br />

Die naheliegende Maximum-Likelihood Schätzung für ein n-<br />

Gramm ist das Verhältnis der Vorkommen der gesamten“ Wort-<br />

”<br />

folge wm−(k−1), . . .wm−1, wm zu den Vorkommen der<br />

” Geschichte“<br />

wm−(k−1), . . . wm−1, also:<br />

P(wm|w m−(k−1), . . .wm−1) = #(w m−(k−1), . . . wm−1, wm)<br />

#(w m−(k−1), . . .wm−1)<br />

(16.6)<br />

Ein Blick auf eine typische Textdatenbasis wie die des Wall-Street-<br />

Journals läßt schnell erkennen, daß das Gesetz der großen Zahl für die<br />

Modellierung von Wortfolgen so enorm große Zahlen meint, daß wir kaum<br />

eine Chance haben, diese jemals zu erreichen. Im Standard-Benchmark<br />

der Wall-Street-Journal Datenbasis kommen Texte vor, die sich ca. 300<br />

Millionen Wörter aufsummieren. Auf den ersten Blick eine sehr große Zahl.<br />

Betrachten wir jetzt alle 300 Millionen Worttripel, dann stellen wir fest, daß<br />

ca. 65 Millionen, also gut ein fünftel, in der gesamten Textdatenbank nur ein

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!