Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU
Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU
Inkrementelle Thesauri am Beispiel von Spam- und ... - Wiki of UNI.LU
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Automatische Indexierung<br />
• Mit Ansatz aus dem Apriori-Algorithmus:<br />
• Suche aus den gestemmten Daten alle Terme aus,<br />
die in der Dokumentmenge nicht weniger als 5 Mal<br />
vorkommen (diese Schranke wurde intuitiv gewählt)<br />
• Aus 5.225 Wörtern in den 5.790 Subjectlines kommen nur<br />
655 Wörter häufig genug vor, dies sind späteren Einträge<br />
unseres Thesaurus<br />
• Bilde Wortpaare, die im selben Kontext vorkommen,<br />
diejenigen, die mindestens 5 Mal vorkommen,<br />
werden später für die Bildung der Relationen benutzt<br />
• Aus 9.256 Tupel wurden 488 für die weiteren Berechnungen<br />
ausgewählt<br />
11 <strong>Inkrementelle</strong> <strong>Thesauri</strong> <strong>am</strong> <strong>Beispiel</strong> <strong>von</strong> Sp<strong>am</strong>- <strong>und</strong> Phishing-Mails TRM - SS2006