9. Clusterbildung und Klassifikation Begriffsklärung Objekt: wird in ...
9. Clusterbildung und Klassifikation Begriffsklärung Objekt: wird in ...
9. Clusterbildung und Klassifikation Begriffsklärung Objekt: wird in ...
Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.
YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.
Auswahl der Merkmale:<br />
• zu viele Merkmale können sich negativ auf die Fehlerrate<br />
auswirken ("curse of dimensionality")<br />
• Speicherbedarf / Rechenzeit nimmt mit der Anzahl der<br />
Merkmale zu!<br />
Preprocess<strong>in</strong>g:<br />
• Datenbere<strong>in</strong>igung (Behandlung von Fehlwerten (miss<strong>in</strong>g),<br />
von verrauschten Daten, Ausreißerdetektion, Behandlung<br />
<strong>in</strong>konsistenter Daten)<br />
• Daten<strong>in</strong>tegration (z.B. Erkennung <strong>und</strong> Elim<strong>in</strong>ation von<br />
Red<strong>und</strong>anzen; Normierungen)<br />
• Datenreduktion (Komprimierung von Wertebereichen -<br />
Diskretisierung, Merkmalselim<strong>in</strong>ation)<br />
Datennormierung für die Clusterung:<br />
Zweck: Merkmale vergleichbar machen (gleicher Wertebereich).<br />
Hauptsächlich 2 Methoden<br />
Intervall-0-1-Normierung:<br />
xi<br />
− m<strong>in</strong>( x j )<br />
xi<br />
( normiert)<br />
=<br />
max( x ) − m<strong>in</strong>( x<br />
Mittelwert 0 - Varianz 1 - Normierung (Z-Score-Normierung):<br />
xi<br />
− m<br />
xi<br />
( normiert)<br />
= ,<br />
s<br />
wobei m das arithm. Mittel <strong>und</strong> s die Standardabweichung des<br />
Merkmals ist – das normalisierte Merkmal hat dann Mittelwert 0<br />
<strong>und</strong> Varianz 1.<br />
Intervall-0-1-Normierung ist der Mittelwert0-Varianz1-Normierung <strong>in</strong><br />
vielen Fällen überlegen (Jiang & Bunke 1997).<br />
j<br />
j<br />
)<br />
240