18.09.2013 Aufrufe

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

Sprachliche Mensch-Maschine-Kommunikation

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

tf(w, Di) =<br />

#w in Di<br />

|Di|<br />

16.7 Adaption von Sprachmodellen 283<br />

(16.27)<br />

Der Wert tf(w, Di) ist also die Anzahl der Vorkommen von w im<br />

Dokument Di dividiert durch die Größe von Di.<br />

n<br />

idf(w) = log(<br />

) (16.28)<br />

#Dj mit Dj enthält w<br />

Ist w ein Artikel, der in nahezu jedem Dokument sehr oft vorkommt,<br />

dann ist zwar tf(w, Di) relativ groß – zumindest größer als für die meisten<br />

anderen Wörter – aber idf(w) ist nahezu null, da #Dj mit Dj enthält ≈ n.<br />

Somit ist tfidf(w, Di) = tf(w, Di) · idf(w) ≈ 0. Wörter, die in sehr wenigen<br />

Dokumenten vorkommen haben einen relativ hohen idf-Wert.<br />

Bei einem vorgegebenen Vokabular V läßt sich ein Dokument H thematisch<br />

durch einen k-dimensionale Vektor T(H) beschreiben:<br />

T(H) = (tfidf(w1, H), tfidf(w2, H), . . . tfidf(wk, H)) (16.29)<br />

Die tfidf-Distanz zweier Dokumente H1 und H2 läßt sich nun durch<br />

Vergleich von T(H1) und T(H2). Hier kann im einfachsten Fall (für<br />

kleine Vokabulare und große Dokumentemengen) eine Euklidische Distanz<br />

verwendet werden, und für stabilere Resultate einen Korrelationsabstand wie<br />

j=1<br />

k<br />

(tfidf(wj, H1) · tfidf(wj, H2))<br />

j=1<br />

δ(H1, H2) = 1 − <br />

⎛<br />

k <br />

⎝<br />

tfidf 2 ⎞ ⎛<br />

k<br />

(wj, H1) ⎠ ⎝ tfidf 2 ⎞ (16.30)<br />

(wj, H2) ⎠<br />

In Gl. 16.30 ist δ(H1, H2) = 0 wenn H1 = H2, und δ(H1, H2) = 1, wenn<br />

die Menge der Wörter in H1 und die Menger der Wörter in H2 disjunkt<br />

sind. Aus mathematischer Sicht gilt auch: 1 − δ(H1, H2) ist der Cosinus<br />

des Winkels zwischen den Vektoren T(H1) und T(H2) im R k . Aus dem<br />

Bereich des Information-Retrieval und Data-Mining sind zahlreiche weitere<br />

vergleichbare Distanz- und Ähnlichkeitsmaße bekannt.<br />

Die Adaption eines Standard Sprachmodells λ S auf das aktuelle Thema<br />

kann nun wie folgt durchgeführt werden. Die beste verfügbare Beschreibung<br />

j=1

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!