DWH-und-KDD--VL-09 - Informationssysteme - Universität Oldenburg
DWH-und-KDD--VL-09 - Informationssysteme - Universität Oldenburg
DWH-und-KDD--VL-09 - Informationssysteme - Universität Oldenburg
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Data Warehousing <strong>und</strong><br />
Knowledge Discovery in Databases<br />
9 Frank<br />
Data Mining – Gr<strong>und</strong>lagen<br />
Wintersemester 2003/2004<br />
Köster<br />
<strong>Universität</strong> <strong>Oldenburg</strong><br />
Fachbereich Informatik<br />
Abteilung <strong>Informationssysteme</strong><br />
Escherweg 2<br />
26121 <strong>Oldenburg</strong><br />
eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de<br />
9
GLIEDERUNG FÜR HEUTE …<br />
→ Organisatorisches<br />
→ Einleitung – Data Warehousing <strong>und</strong> Knowledge Discovery in Databases<br />
→ Data Warehousing: erste Anschauung, Begriffe <strong>und</strong> Historie …<br />
→ Knowledge Discovery in Databases: Gr<strong>und</strong>lagen <strong>und</strong> Begriffe …<br />
→ DWS-Referenzarchitektur<br />
→ DWS-Entwicklungsprozess – sehr kurz (eine Folie!)<br />
→ Multidimensionales Datenmodell<br />
→ Extraktion • Transformation • Laden<br />
→ Metadaten <strong>und</strong> Datenqualität<br />
→ Konzepte temporaler Datenbanken im DWS-Kontext (Arne Harren – OFFIS)<br />
→ Überleitung zum Knowledge Discovery in Databases I & II<br />
→ Exploration von Daten<br />
→ <strong>KDD</strong>-Prozesse<br />
→ Data Mining – Gr<strong>und</strong>lagen<br />
Knowledge Discovery in Databases<br />
Data Warehousing<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 2<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 3<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 4<br />
9
WAS IST <strong>KDD</strong> & DATA MINING?<br />
Vergleiche mit Foliensatz 1 & 8 ...<br />
Zusammenhang zwischen <strong>KDD</strong> <strong>und</strong> Data Mining<br />
→ Knowledge Discovery in Databases<br />
„<strong>KDD</strong> is the nontrivial process of identifying valid, novel, potentially<br />
useful, and ultimately <strong>und</strong>erstandable patterns in data.“<br />
(Fayyad et al., 1996)<br />
→ <strong>KDD</strong> ist ein interaktiver, mehrstufiger <strong>und</strong> iterativer Prozess. Ein<br />
zentraler Prozessschritt ist dabei das Data Mining.<br />
→ Data Mining<br />
„[...] data mining – the automatic creation of a model that identifies relevant<br />
trends and patterns in source data [...]“<br />
(Woods & Kyral, 1997)<br />
→ Was sind essentielle Aspekte des Data Mining?<br />
→ automatische Verfahren (Interaktion → <strong>KDD</strong>)<br />
→ Algorithmen “erk<strong>und</strong>en“ große/komplexe Datenmengen<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 5<br />
9
WAS IST <strong>KDD</strong> & DATA MINING?<br />
Vergleiche mit Foliensatz 1 ...<br />
Data Mining – verschiedene Facetten<br />
→ Data Mining <strong>und</strong> Spezialisierungen<br />
Visual Mining<br />
Text Mining Image Mining<br />
Video Mining<br />
Multimedia Mining<br />
Audio Mining<br />
Data Quality<br />
Management<br />
Data Mining<br />
Web Mining<br />
Web Usage<br />
Mining<br />
Distributed<br />
Data Mining<br />
Web Structure<br />
Mining<br />
Web Content<br />
Mining<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 6<br />
9
ARBEITSSCHWERPUNKTE<br />
Vergleiche mit Foliensatz 1 ...<br />
Mining – verschiedene Verfahren<br />
→ Beliebter Gegenstand der Forschung (→ 1980 ...)<br />
Maschinelles Lernen<br />
Visualisierung ...<br />
Evolutionäre Algorithmen<br />
Konnektionismus<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 7<br />
9
HISTORIE<br />
Data Mining als (wachsendes) Forschungsgebiet …<br />
→ Data Mining – zeitliche Entwicklung<br />
1960<br />
DBMS<br />
1970<br />
Query Languages<br />
Artificial Intelligence –Learning▪ Pattern Recognition ▪ Rule Based Reasoning ▪ etc.<br />
1980<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 8<br />
1990<br />
Web Mining<br />
… <strong>und</strong> weitere Spezialisierungen<br />
Data Warehouse … Data Mining<br />
2000<br />
9
MOTOR<br />
Data Mining – Gründe für die Entwicklung …<br />
→ „Push“ <strong>und</strong> „Pull“<br />
Drastischer Anstieg des verfügbaren<br />
Datenvolumens.<br />
Preis-/Leistungsverhältnis der<br />
Hardware verbessert sich zusehens.<br />
Vorstrukturierung der verfügbaren<br />
Daten in DWS.<br />
Data Mining<br />
Daten als als Quelle von von<br />
Wettbewerbsvorteilen.<br />
Wettbewerbsvorteilen.<br />
Wachsende Unzufriedenheit mit<br />
existierenden Analysemethoden<br />
(Ziel: mehr Automatisierung).<br />
Stärker Wettbewerbsdruck.<br />
Prozessorientierung <strong>und</strong><br />
Dezentralisierung.<br />
Push Pull<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 9<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 10<br />
9
DATA MINING<br />
Fragestellungen, Aufgaben & Methoden<br />
Geschäftsprozess-Analyse <strong>und</strong> Fragestellung Zieldefinition <strong>und</strong> Modellwahl Modellparametrisierung <strong>und</strong> Modellanwendung<br />
Analyse sachlicher Verb<strong>und</strong>beziehungen<br />
bei<br />
Transaktionen – z.B.: Welche<br />
Produkte werden im Zusammenhang<br />
gekauft?<br />
Einteilung in homogene<br />
Gruppen – z.B.: Zusammenfassung<br />
von K<strong>und</strong>en mit<br />
ähnlichem Einkaufsverhalten.<br />
Profilierung, Modellierung<br />
<strong>und</strong> Regeldefinition –z.B.:<br />
Beurteilung von K<strong>und</strong>enverhalten.<br />
Vorhersage im Sinne der<br />
Ergänzung von fehlender<br />
Merkmalswerte – z.B.:<br />
Vorhersage des K<strong>und</strong>enverhaltens.<br />
Assoziationsanalyse<br />
Segmentierung<br />
Klassifikation<br />
Prognose<br />
Abweichungsanalyse<br />
Zeitreihenanalyse<br />
Warenkorbanalyse<br />
Analyse sequenzieller Muster<br />
Kohonen Clustering<br />
k-means Clustering<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 11<br />
Clustering<br />
k-nearest Neighbors<br />
Entscheidungsbäume<br />
Neuronale Netze<br />
Evolutionäre Algorithmen<br />
Regression<br />
etc.<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 12<br />
9
DATA MINING<br />
Assoziationsanalyse I/III<br />
→ Ziel der Assoziationsanalyse ist die Analyse sachlicher Verb<strong>und</strong>beziehungen<br />
in Transaktionen – z.B. beim Produkterwerb im Supermarkt<br />
→ Resultat sind Aussagen der folgenden Form …<br />
In 40% der Fälle, in denen Zahnbürsten gekauft werden,<br />
wird auch Zahnpasta gekauft. Beide Produkte kommen in 0,8%<br />
aller Transaktionen vor.<br />
→ Praktische Fragestellung: Welche Produkte werden oft zusammen<br />
gekauft.<br />
→ Cross-Selling: Wer A kauft, kauft vielfach auch B …<br />
⇒ Anhaltspunkte zur Optimierung der Präsentation bzw. Platzierung<br />
von Produkten in Werbematerialien oder Supermarktregalen.<br />
⇒ Gezieltes Bewerben von Käufern bestimmter Produkte.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 13<br />
9
DATA MINING<br />
Assoziationsanalyse II/III<br />
→ Schema einer Assoziationsregel …<br />
Prämisse<br />
(unabhängige Variable)<br />
„wenn A“<br />
Assoziationsregel<br />
Konsequnez<br />
(abhängige Variable)<br />
„dann B“<br />
Konfidenz Support<br />
strukturelle Komponenten Gütekriterien<br />
wenn Zahnbürste, dann Zahnpasta Konfidenz = 40%; Support = 0,8%; Lift = 20<br />
Support := Anteil an gesamten Transaktionen<br />
Konfidenz := Quotient aus Anzahl der Transaktionen die im wenn-dann-Part enthalten sind<br />
<strong>und</strong> der Anzahl der Transaktionen aus der wenn-Bedingung<br />
Lift := Konfidenz / „erwartete Konfidenz“<br />
(siehe nächste Folie)<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 14<br />
Lift<br />
9
DATA MINING<br />
Assoziationsanalyse III/III<br />
→ Vollständiges Beispiel …<br />
→ Eine Supermarkt habe 100.000 Transaktionen an den<br />
Kassen, wobei 2.000 davon das Produkt Zahnbürste enthielten,<br />
darunter 800, die ebenfalls das Produkt Zahnpasta enthielten.<br />
→ Assoziationsregel (ohne Einschätzung der Güte):<br />
Wenn Zahnbürste gekauft wird, dann wird auch Zahnpasta gekauft.<br />
→ Support: 800/100.000 = 0,008 (also 0,8%)<br />
→ Konfidenz: 800/2.000 = 0,4 (also 40%)<br />
→ Produkt Zahnpasta taucht in insgesamt 2.000 Transaktionen<br />
auf. Somit ist die erwartete Konfidenz: 2.000/100.000 = 0.02<br />
→ Lift: 0,4 / 0,02 = 20<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 15<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 16<br />
9
DATA MINING<br />
Segmentierung – Clustering I/V<br />
→ Ziel der Segmentierung ist es, aus sich ähnelnden Objekte einer<br />
Eingabedatenmenge Cluster zu bilden. Ein Cluster ist dementsprechend<br />
eine Menge von Objekten, die untereinander eine hohe <strong>und</strong> zu anderen<br />
Objekten außerhalb des Clusters eine möglichst geringe Ähnlichkeit<br />
aufweisen.<br />
→ Die Ähnlichkeit zweier Objekte wird dabei als Distanz der Objekte<br />
definiert, die – in Abhängigkeit der Merkmale der Objekte – mit unterschiedlichen<br />
Metriken gemessen werden kann.<br />
Beachte: Es gibt auch konzeptbasiertes Clustering!<br />
→ Anwendungssituation …<br />
Bilde Cluster aus Personen, wobei<br />
die Attribute Alter, Jahresgehalt<br />
<strong>und</strong> Postleitzahl die Objektmerkmale<br />
darstellen.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 17<br />
9
DATA MINING<br />
Segmentierung – Clustering II/V<br />
→ Oftmals ist es schwierig, eine geeignete Distanzfunktion(en) zu finden …<br />
→ da Objekte häufig sowohl qualitative als auch quantitative<br />
Attribute besitzen <strong>und</strong><br />
→ da die Attribute der Objekte oft von unterschiedlicher Wichtigkeit<br />
für die Gruppierung der Objekte sind.<br />
→ Normalisierung der Werte kann beim Clustering notwendig sein.<br />
→ Beispiel: Die Haarfarbe eines K<strong>und</strong>en ist für die Gruppierung<br />
in K<strong>und</strong>engruppen eines Supermarktes sicherlich nicht so wichtig<br />
wie sein Einkommen oder die Postleitzahl seines Wohnortes.<br />
Darüber hinaus ist die Formulierung einer leistungsfähigen<br />
Distanzfunktion über die Haarfarbe ein gewisses Wagnis.<br />
→ Ein Clustering-Verfahren kann i.d.R. also nicht einfach eine fest gewählte<br />
Distanzfunktion nutzen, sondern muss diese je nach Anwendung<br />
variieren.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 18<br />
9
DATA MINING<br />
Segmentierung – Clustering III/V<br />
→ Für das Finden einer geeigneten Distanzfunktion benötigt man Hintergr<strong>und</strong>wissen<br />
über die vorliegenden Daten bzw. die betrachtet Domäne.<br />
→ Wahl der Distanzfunktion kann nicht automatisch von einem Clusteringalgorithmus<br />
geleistet werden.<br />
→ Klassen von Clustering-Verfahren …<br />
→ partitionierend<br />
→ hierarchisch<br />
→ dichtebasiert<br />
→ gitterbasiert<br />
→ modellbasiert<br />
→ Diese Einteilung beruht auf der Vorgehensweise, die die Verfahren<br />
verwenden, um Cluster zu finden. – siehe nächste Folie<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 19<br />
9
DATA MINING<br />
Segmentierung – Clustering IV/V<br />
→ Partitionierende Verfahren …<br />
Partitionierende Verfahren sind solche, die mit einem initialen Clustering<br />
beginnen, um dann iterativ solange eine Neuzordnung der Eingabedaten<br />
zu den bestehenden Clustern vorzunehmen, bis das Clustering<br />
optimal ist.<br />
→ Hierarchische Verfahren …<br />
Hierarchische Verfahren sind solche, die entweder zunächst jedes<br />
einzelne Objekt einem Cluster zuweisen <strong>und</strong> dann solange Cluster<br />
miteinander zu neuen Clustern vereinen, bis alle Objekte in einem<br />
Cluster enthalten sind, oder zunächst alle Objekte einem Cluster<br />
zuordnen <strong>und</strong> diesen dann sukzessiv aufspalten, bis alle Objekte<br />
einem eigenen Cluster angehören.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 20<br />
9
DATA MINING<br />
Segmentierung – Clustering V/V<br />
→ Dichtebasierte Verfahren …<br />
Dichtebasierte Verfahren sehen Cluster als Regionen von Objekten<br />
an, die in einer hohen Dichte zueinander stehen.<br />
→ Gitterbasierte Verfahren …<br />
Gitterbasierte Verfahren teilen den Raum der Eingabedaten in ein<br />
Gitter ein <strong>und</strong> weisen Objekte aufgr<strong>und</strong> ihrer Lage in diesem Gitter<br />
einem bestimmten Cluster zu.<br />
→ Modellbasierte Verfahren …<br />
Modellbasierte Verfahren versuchen ein mathematisches Modell<br />
zu entwickeln <strong>und</strong> dessen Parameter so zu wählen, dass die Eingabedaten<br />
möglichst gut repräsentiert werden.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 21<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 22<br />
9
DATA MINING<br />
Klassifikation I/V<br />
→ Ziel der Klassifikation ist es, Objekte einer Eingabedatenmenge zu<br />
(vorgegebenen) Klassen zuzuordnen. Die Merkmale der Objekte<br />
müssen hierzu bei der Klassifikation derart in einen „funktionalen<br />
Zusammenhang“ gebracht werden, sodass deren Abbildung auf<br />
eine Klasse möglich wird.<br />
→ Die der Klassifikation zugr<strong>und</strong>e liegenden Kriterien <strong>und</strong> ihr „funktionaler<br />
Zusammenhang“ wird beim Data Mining anhand von Daten<br />
gelernt.<br />
→ Anwendungssituationen …<br />
Welche (zukünftigen) K<strong>und</strong>en bedeuten für eine Versicherung<br />
ein hohes Risiko?<br />
Welche (zukünftigen) K<strong>und</strong>en eines Kreditinstituts erscheinen<br />
Kreditwürdig?<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 23<br />
9
DATA MINING<br />
Klassifikation II/V<br />
→ Training – Lernen der Kriterien zur Zuordnung von Objekten<br />
zu Klassen …<br />
Gegeben: Menge von Trainingsobjekten, die durch<br />
Merkmale (unabhängige Variablen) charakterisiert<br />
sind. Information über Klassenzugehörigkeit<br />
(abhängige Variable).<br />
Resultat: Klassendefinitionen<br />
→ Anwendung – Zuordnung von Objekten zu Klassen …<br />
Gegeben: Objektbeschreibungen durch Angabe der<br />
Merkmale.<br />
Resultat: Klassenzuordnung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 24<br />
9
DATA MINING<br />
Klassifikation III/V<br />
→ Beispiel I/III<br />
Gegeben ist eine Menge von Daten (Bilanzdaten/Kennzahlen) über<br />
verschiedene Firmen:<br />
U = Umsatz<br />
G = Gewinn<br />
E = Eigenkapital<br />
F = Fremdkapital<br />
UG = Gewinnanteil am Umsatz<br />
FE = Fremdkapital/Eigenkapital<br />
Jeder Datensatz ist einer von zwei Klassen zugeordnet:<br />
kw = kreditwürdig<br />
nkw = nicht-kreditwürdig<br />
Welche Attributwerte bestimmen, ob eine Firma kreditwürdig ist?<br />
Bilanzdaten<br />
Kennzahlen<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 25<br />
9
DATA MINING<br />
Klassifikation IV/V<br />
→ Beispiel II/III<br />
UG ≤ 20<br />
nkw<br />
UG > 20<br />
U < 5 Mio U > 50 Mio<br />
kw<br />
FE ≤ 5<br />
nkw<br />
UG ≤ 5<br />
5 Mio ≤ U ≤ 50 Mio<br />
FE > 5<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 26<br />
kw<br />
UG > 5<br />
kw<br />
UG ≤ 5<br />
nkw<br />
UG > 5<br />
kw<br />
9
DATA MINING<br />
Klassifikation V/V<br />
→ Beispiel III/III<br />
Ein Entscheidungsbaum ist offenbar eine grafische Darstellung von<br />
Regeln:<br />
– die Knoten des Baums entsprechen Entscheidungen<br />
– an den Wurzel sind die Klassen notiert<br />
Beispiel: U < 5 Mio <strong>und</strong> UG ≤ 20 ⇒ nkw<br />
– „Wenn der Umsatz kleiner als 5 Mio ist <strong>und</strong> der Gewinn<br />
weniger als (bzw. gleich) 20% des Umsatzes beträgt,<br />
dann ist die Firma nicht kreditwürdig.“<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 27<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 28<br />
9
DATA MINING<br />
Prognose I/V<br />
→ Ein beliebtes Anwendungsziel für die Prognose besteht in der Fortführung<br />
einer Zeitreihe in die Zukunft. Hierzu werden vielfach künstliche<br />
Neuronale Netze (kNN) genutzt, die anhand zurückliegender<br />
Beobachtungen trainiert wurden.<br />
→ Ein kNN approximiert dann eine Funktion, die abstrakt wie folgt<br />
notiert werden kann:<br />
deterministischer Anteil stochastischer Anteil<br />
→ Anwendungssituationen …<br />
Wie entwickelt sich die Biomasse innerhalb eines Ökosystems<br />
über die Zeit?<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 29<br />
9
DATA MINING<br />
Prognose II/V<br />
→ Künstliche Neuronale Netze … ? I/IV<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 30<br />
9
DATA MINING<br />
Prognose II/V<br />
→ Künstliche Neuronale Netze … ? II/IV<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 31<br />
9
DATA MINING<br />
Prognose II/V<br />
→ Künstliche Neuronale Netze … ? III/IV<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 32<br />
9
DATA MINING<br />
Prognose II/V<br />
→ Künstliche Neuronale Netze … ? IV/IV<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 33<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 34<br />
9
DATA MINING<br />
Anwendungsgebiete des Data Mining nach Funktionen<br />
→ Übersicht (Anteile) …<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 35<br />
9
DATA MINING<br />
Anwendung – Marketing Intelligence<br />
→ Analyse des Marketing-Mix …<br />
Durch Data Mining können Konstellationen <strong>und</strong> Ausprägungen von<br />
Marketinginstrumenten ermittelt werden, die mit hoher Wahrscheinlichkeit<br />
zum Erfolg führen.<br />
→ Bestimmung von Trend <strong>und</strong> Trendwechsel …<br />
Durch Verschiebungen in Segmenten <strong>und</strong> geänderten Verhaltensmustern<br />
lassen sich durch Data Mining frühzeitig Trends <strong>und</strong> Trendwechsel<br />
erkennen.<br />
→ Beispiel …<br />
Data-Mining-basierte Entwicklung einer K<strong>und</strong>en-Typologie. Auf Basis<br />
von letztlich gewonnenem differenzierten K<strong>und</strong>engruppen-Wissens<br />
konnten zielgerichtete Kampagnen durchgeführt werden.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 36<br />
9
DATA MINING<br />
Anwendung – Customer Intelligence<br />
→ Potenzialentwicklung …<br />
Auf Basis einer Top-K<strong>und</strong>enanalyse können die Attribute identifiziert<br />
werden, die K<strong>und</strong>en mit hohem Ertragspotential beschreiben. Diese<br />
Attribute können dann zur Selektion <strong>und</strong> pro-aktiven Ansprache<br />
neuer K<strong>und</strong>en genutzt werden.<br />
→ Identifikation abwanderungsgefährdeter K<strong>und</strong>en …<br />
Durch ein Customer-Profiling bereits abgewanderter K<strong>und</strong>en lassen<br />
sich Frühwarnindikatoren ableiten, die potentiell abwanderungsgefährdete<br />
K<strong>und</strong>en frühzeitig erkennen. Die Verringerung der Wechselquote<br />
hat einen entscheidenden Einfluss auf die Profitabilität.<br />
→ Beispiel …<br />
Lösung zur Stornoprävention einer Versicherung: Bindung von ca.<br />
8.000 potenziellen Stornok<strong>und</strong>en an das Unternehmen. Nachweisbare<br />
Effizienzsteigerung in der K<strong>und</strong>enbindung.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 37<br />
9
DATA MINING<br />
Anwendung – Process Intelligence<br />
→ Produktqualität abschätzen …<br />
Ist die Qualität eines Produktes gut, mittel oder schlecht, wenn die erforderlichen<br />
Rohstoffe von einem bestimmten Lieferanten kommen <strong>und</strong> anschließend auf<br />
einer bestimmten Maschine weiterverarbeitet werden?<br />
→ Ermittlung von Fehlermustern …<br />
Wie sehen Fehlermuster in administrativen Prozessen aus? Welche Ursache-<br />
Wirkung-Beziehung besteht zwischen Zeit, Kosten <strong>und</strong> Qualität eines Prozesses<br />
<strong>und</strong> Unternehmensinternen Faktoren wie Arbeitszeiten, Mitarbeiter, Arbeitsmittel<br />
<strong>und</strong> Arbeitsplatz?<br />
→ Beispiel …<br />
Ein Chemie-Unternehmen hat durch Data Mining Fehler-Quellen in der Chargen-Produktion<br />
festgestellt. Auf Basis diesen Wissens konnten zum einen die<br />
Prozessqualität erhöht werden, zum anderen konnten so gezielter QS-Mass-<br />
nahmen durchgeführt werden.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 38<br />
9
DATA MINING<br />
Anwendung – Innovation Intelligence<br />
→ Prozess- <strong>und</strong> Produktverbesserung …<br />
Welche Verbesserungspotenziale besitzen Unternehmensprozesse<br />
<strong>und</strong> Produkte?<br />
→ Produktgestaltung …<br />
Wie müsste ein Produkt aussehen – bzw. welche K<strong>und</strong>enattribute<br />
müsste es adressieren – damit es möglichst viel gekauft wird?<br />
→ Beispiel …<br />
Verbesserung des K<strong>und</strong>enportals bei einer deutschen Fluggesellschaft:<br />
Aufgr<strong>und</strong> des auf Basis von Data Mining generierten Wissens<br />
über K<strong>und</strong>en, K<strong>und</strong>enverhalten <strong>und</strong> Portalnutzung konnte das Portal<br />
gezielt modifiziert werden. Ertragspotenzial: 40 Mio. €<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 39<br />
9
DATA MINING<br />
Anwendung – Category Intelligence<br />
→ Optimierung des Category Management …<br />
Auf Basis von Data Mining kann das Category Management unterstützt werden.<br />
Das Zielgruppengerechte Bündeln von Produktangeboten kann den Umsatzpotenzial<br />
signifikant erhöhen.<br />
→ Cross-/Up-Selling …<br />
Durch Data Mining können/kann Produkte/Content identifiziert werden, die/der<br />
von bestimmten K<strong>und</strong>engruppen nachgefragt werden/wird. Dadurch können<br />
K<strong>und</strong>en zielgruppen-adäquat Produktempfehlungen/-angebote unterbreitet<br />
werden.<br />
→ Beispiel …<br />
Durch Assoziations- <strong>und</strong> Sequenzanalysen wurden bei einem großen<br />
„Tele-Shopper“optimale Kaufempfehlungen abgeleitet. Diese werden je nach<br />
K<strong>und</strong>enverhalten automatisch realtime in die Web-Seite eingespielt. Dadurch<br />
konnte eine Umsatzerhöhung von 8% realisiert werden.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 40<br />
9
DATA MINING<br />
Anwendung – Web Intelligence<br />
→ Web-Site Optimierung…<br />
Durch den Einsatz von Data Mining können Userprofile <strong>und</strong> deren Verhalten<br />
auf einer Website abgebildet <strong>und</strong> damit Websites zielführend optimiert werden.<br />
(Usability-Analysen)<br />
→ Multi-Channel-Analysen …<br />
Erhebung <strong>und</strong> integrierte Analyse von Daten über verschiedene Customer-<br />
Touchpoints hinweg: Welche Kommunikationskanäle werden von welchen<br />
K<strong>und</strong>en wie genutzt? Welche Verb<strong>und</strong>beziehungen bestehen zwischen den<br />
verschiedenen Kommunikationskanälen?<br />
→ Beispiel …<br />
Entdeckung von Optimierungspotenzialen eines Internetauftritts (Performance,<br />
Usability, Stickiness). Optimierung der Internetauftritts durch differenziertes<br />
User-/K<strong>und</strong>enwissen.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 41<br />
9
ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />
Was wird uns in dieser Vorlesung begegnen … ?<br />
Data Mining<br />
Funktionen <strong>und</strong><br />
Fragestellungen<br />
Verfahrensklassen<br />
Assoziationsanalyse<br />
Klassifikation<br />
Prognose<br />
Segemtierung<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 42<br />
9
LITERATUR<br />
M. Ester & J. Sander (2000). Knowledge Discovery in Databases – Techniken <strong>und</strong><br />
Anwendungen. Springer-Verlag.<br />
U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). From data mining to<br />
knowledge discovery in databases. AI Magazine 17, Fall 1996, Seiten 37-54.<br />
J. Han & M. Kamber (2000). Data Mining: Concepts and Techniques. Morgan<br />
Kaufmann.<br />
F. Köster (2002). Analyse von Simulationsmodellen mit Methoden des Knowledge<br />
Discovery in Databases. Dissertation, Carl von Ossietzky <strong>Universität</strong><br />
<strong>Oldenburg</strong> (Fachbereich Informatik). <strong>Oldenburg</strong>er Satz & Einband.<br />
E. Woods & E. Kyral (1997). Ovum Evaluates: Data Mining. Ovum Evaluates,<br />
Ovum Ltd.<br />
I.H. Witten & E. Frank (2001). Data Mining – Praktische Werkzeuge <strong>und</strong> Techniken<br />
für das maschinelle Lernen. Hanser.<br />
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 43<br />
9
Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 44<br />
9