08.10.2013 Aufrufe

Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU

Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU

Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Automatische Indexierung<br />

• Mit Ansatz aus dem Apriori-Algorithmus:<br />

• Suche aus den gestemmten Daten alle Terme aus,<br />

die in der Dokumentmenge nicht weniger als 5 Mal<br />

vorkommen (diese Schranke wurde intuitiv gewählt)<br />

• Aus 5.225 Wörtern in den 5.790 Subjectlines kommen nur<br />

655 Wörter häufig genug vor, dies sind späteren Einträge<br />

unseres Thesaurus<br />

• Bilde Wortpaare, die im selben Kontext vorkommen,<br />

diejenigen, die mindestens 5 Mal vorkommen,<br />

werden später für die Bildung der Relationen benutzt<br />

• Aus 9.256 Tupel wurden 488 für die weiteren Berechnungen<br />

ausgewählt<br />

11 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!