08.10.2013 Aufrufe

DWH-und-KDD--VL-09 - Informationssysteme - Universität Oldenburg

DWH-und-KDD--VL-09 - Informationssysteme - Universität Oldenburg

DWH-und-KDD--VL-09 - Informationssysteme - Universität Oldenburg

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Data Warehousing <strong>und</strong><br />

Knowledge Discovery in Databases<br />

9 Frank<br />

Data Mining – Gr<strong>und</strong>lagen<br />

Wintersemester 2003/2004<br />

Köster<br />

<strong>Universität</strong> <strong>Oldenburg</strong><br />

Fachbereich Informatik<br />

Abteilung <strong>Informationssysteme</strong><br />

Escherweg 2<br />

26121 <strong>Oldenburg</strong><br />

eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de<br />

9


GLIEDERUNG FÜR HEUTE …<br />

→ Organisatorisches<br />

→ Einleitung – Data Warehousing <strong>und</strong> Knowledge Discovery in Databases<br />

→ Data Warehousing: erste Anschauung, Begriffe <strong>und</strong> Historie …<br />

→ Knowledge Discovery in Databases: Gr<strong>und</strong>lagen <strong>und</strong> Begriffe …<br />

→ DWS-Referenzarchitektur<br />

→ DWS-Entwicklungsprozess – sehr kurz (eine Folie!)<br />

→ Multidimensionales Datenmodell<br />

→ Extraktion • Transformation • Laden<br />

→ Metadaten <strong>und</strong> Datenqualität<br />

→ Konzepte temporaler Datenbanken im DWS-Kontext (Arne Harren – OFFIS)<br />

→ Überleitung zum Knowledge Discovery in Databases I & II<br />

→ Exploration von Daten<br />

→ <strong>KDD</strong>-Prozesse<br />

→ Data Mining – Gr<strong>und</strong>lagen<br />

Knowledge Discovery in Databases<br />

Data Warehousing<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 2<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 3<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 4<br />

9


WAS IST <strong>KDD</strong> & DATA MINING?<br />

Vergleiche mit Foliensatz 1 & 8 ...<br />

Zusammenhang zwischen <strong>KDD</strong> <strong>und</strong> Data Mining<br />

→ Knowledge Discovery in Databases<br />

„<strong>KDD</strong> is the nontrivial process of identifying valid, novel, potentially<br />

useful, and ultimately <strong>und</strong>erstandable patterns in data.“<br />

(Fayyad et al., 1996)<br />

→ <strong>KDD</strong> ist ein interaktiver, mehrstufiger <strong>und</strong> iterativer Prozess. Ein<br />

zentraler Prozessschritt ist dabei das Data Mining.<br />

→ Data Mining<br />

„[...] data mining – the automatic creation of a model that identifies relevant<br />

trends and patterns in source data [...]“<br />

(Woods & Kyral, 1997)<br />

→ Was sind essentielle Aspekte des Data Mining?<br />

→ automatische Verfahren (Interaktion → <strong>KDD</strong>)<br />

→ Algorithmen “erk<strong>und</strong>en“ große/komplexe Datenmengen<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 5<br />

9


WAS IST <strong>KDD</strong> & DATA MINING?<br />

Vergleiche mit Foliensatz 1 ...<br />

Data Mining – verschiedene Facetten<br />

→ Data Mining <strong>und</strong> Spezialisierungen<br />

Visual Mining<br />

Text Mining Image Mining<br />

Video Mining<br />

Multimedia Mining<br />

Audio Mining<br />

Data Quality<br />

Management<br />

Data Mining<br />

Web Mining<br />

Web Usage<br />

Mining<br />

Distributed<br />

Data Mining<br />

Web Structure<br />

Mining<br />

Web Content<br />

Mining<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 6<br />

9


ARBEITSSCHWERPUNKTE<br />

Vergleiche mit Foliensatz 1 ...<br />

Mining – verschiedene Verfahren<br />

→ Beliebter Gegenstand der Forschung (→ 1980 ...)<br />

Maschinelles Lernen<br />

Visualisierung ...<br />

Evolutionäre Algorithmen<br />

Konnektionismus<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 7<br />

9


HISTORIE<br />

Data Mining als (wachsendes) Forschungsgebiet …<br />

→ Data Mining – zeitliche Entwicklung<br />

1960<br />

DBMS<br />

1970<br />

Query Languages<br />

Artificial Intelligence –Learning▪ Pattern Recognition ▪ Rule Based Reasoning ▪ etc.<br />

1980<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 8<br />

1990<br />

Web Mining<br />

… <strong>und</strong> weitere Spezialisierungen<br />

Data Warehouse … Data Mining<br />

2000<br />

9


MOTOR<br />

Data Mining – Gründe für die Entwicklung …<br />

→ „Push“ <strong>und</strong> „Pull“<br />

Drastischer Anstieg des verfügbaren<br />

Datenvolumens.<br />

Preis-/Leistungsverhältnis der<br />

Hardware verbessert sich zusehens.<br />

Vorstrukturierung der verfügbaren<br />

Daten in DWS.<br />

Data Mining<br />

Daten als als Quelle von von<br />

Wettbewerbsvorteilen.<br />

Wettbewerbsvorteilen.<br />

Wachsende Unzufriedenheit mit<br />

existierenden Analysemethoden<br />

(Ziel: mehr Automatisierung).<br />

Stärker Wettbewerbsdruck.<br />

Prozessorientierung <strong>und</strong><br />

Dezentralisierung.<br />

Push Pull<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 9<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 10<br />

9


DATA MINING<br />

Fragestellungen, Aufgaben & Methoden<br />

Geschäftsprozess-Analyse <strong>und</strong> Fragestellung Zieldefinition <strong>und</strong> Modellwahl Modellparametrisierung <strong>und</strong> Modellanwendung<br />

Analyse sachlicher Verb<strong>und</strong>beziehungen<br />

bei<br />

Transaktionen – z.B.: Welche<br />

Produkte werden im Zusammenhang<br />

gekauft?<br />

Einteilung in homogene<br />

Gruppen – z.B.: Zusammenfassung<br />

von K<strong>und</strong>en mit<br />

ähnlichem Einkaufsverhalten.<br />

Profilierung, Modellierung<br />

<strong>und</strong> Regeldefinition –z.B.:<br />

Beurteilung von K<strong>und</strong>enverhalten.<br />

Vorhersage im Sinne der<br />

Ergänzung von fehlender<br />

Merkmalswerte – z.B.:<br />

Vorhersage des K<strong>und</strong>enverhaltens.<br />

Assoziationsanalyse<br />

Segmentierung<br />

Klassifikation<br />

Prognose<br />

Abweichungsanalyse<br />

Zeitreihenanalyse<br />

Warenkorbanalyse<br />

Analyse sequenzieller Muster<br />

Kohonen Clustering<br />

k-means Clustering<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 11<br />

Clustering<br />

k-nearest Neighbors<br />

Entscheidungsbäume<br />

Neuronale Netze<br />

Evolutionäre Algorithmen<br />

Regression<br />

etc.<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 12<br />

9


DATA MINING<br />

Assoziationsanalyse I/III<br />

→ Ziel der Assoziationsanalyse ist die Analyse sachlicher Verb<strong>und</strong>beziehungen<br />

in Transaktionen – z.B. beim Produkterwerb im Supermarkt<br />

→ Resultat sind Aussagen der folgenden Form …<br />

In 40% der Fälle, in denen Zahnbürsten gekauft werden,<br />

wird auch Zahnpasta gekauft. Beide Produkte kommen in 0,8%<br />

aller Transaktionen vor.<br />

→ Praktische Fragestellung: Welche Produkte werden oft zusammen<br />

gekauft.<br />

→ Cross-Selling: Wer A kauft, kauft vielfach auch B …<br />

⇒ Anhaltspunkte zur Optimierung der Präsentation bzw. Platzierung<br />

von Produkten in Werbematerialien oder Supermarktregalen.<br />

⇒ Gezieltes Bewerben von Käufern bestimmter Produkte.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 13<br />

9


DATA MINING<br />

Assoziationsanalyse II/III<br />

→ Schema einer Assoziationsregel …<br />

Prämisse<br />

(unabhängige Variable)<br />

„wenn A“<br />

Assoziationsregel<br />

Konsequnez<br />

(abhängige Variable)<br />

„dann B“<br />

Konfidenz Support<br />

strukturelle Komponenten Gütekriterien<br />

wenn Zahnbürste, dann Zahnpasta Konfidenz = 40%; Support = 0,8%; Lift = 20<br />

Support := Anteil an gesamten Transaktionen<br />

Konfidenz := Quotient aus Anzahl der Transaktionen die im wenn-dann-Part enthalten sind<br />

<strong>und</strong> der Anzahl der Transaktionen aus der wenn-Bedingung<br />

Lift := Konfidenz / „erwartete Konfidenz“<br />

(siehe nächste Folie)<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 14<br />

Lift<br />

9


DATA MINING<br />

Assoziationsanalyse III/III<br />

→ Vollständiges Beispiel …<br />

→ Eine Supermarkt habe 100.000 Transaktionen an den<br />

Kassen, wobei 2.000 davon das Produkt Zahnbürste enthielten,<br />

darunter 800, die ebenfalls das Produkt Zahnpasta enthielten.<br />

→ Assoziationsregel (ohne Einschätzung der Güte):<br />

Wenn Zahnbürste gekauft wird, dann wird auch Zahnpasta gekauft.<br />

→ Support: 800/100.000 = 0,008 (also 0,8%)<br />

→ Konfidenz: 800/2.000 = 0,4 (also 40%)<br />

→ Produkt Zahnpasta taucht in insgesamt 2.000 Transaktionen<br />

auf. Somit ist die erwartete Konfidenz: 2.000/100.000 = 0.02<br />

→ Lift: 0,4 / 0,02 = 20<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 15<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 16<br />

9


DATA MINING<br />

Segmentierung – Clustering I/V<br />

→ Ziel der Segmentierung ist es, aus sich ähnelnden Objekte einer<br />

Eingabedatenmenge Cluster zu bilden. Ein Cluster ist dementsprechend<br />

eine Menge von Objekten, die untereinander eine hohe <strong>und</strong> zu anderen<br />

Objekten außerhalb des Clusters eine möglichst geringe Ähnlichkeit<br />

aufweisen.<br />

→ Die Ähnlichkeit zweier Objekte wird dabei als Distanz der Objekte<br />

definiert, die – in Abhängigkeit der Merkmale der Objekte – mit unterschiedlichen<br />

Metriken gemessen werden kann.<br />

Beachte: Es gibt auch konzeptbasiertes Clustering!<br />

→ Anwendungssituation …<br />

Bilde Cluster aus Personen, wobei<br />

die Attribute Alter, Jahresgehalt<br />

<strong>und</strong> Postleitzahl die Objektmerkmale<br />

darstellen.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 17<br />

9


DATA MINING<br />

Segmentierung – Clustering II/V<br />

→ Oftmals ist es schwierig, eine geeignete Distanzfunktion(en) zu finden …<br />

→ da Objekte häufig sowohl qualitative als auch quantitative<br />

Attribute besitzen <strong>und</strong><br />

→ da die Attribute der Objekte oft von unterschiedlicher Wichtigkeit<br />

für die Gruppierung der Objekte sind.<br />

→ Normalisierung der Werte kann beim Clustering notwendig sein.<br />

→ Beispiel: Die Haarfarbe eines K<strong>und</strong>en ist für die Gruppierung<br />

in K<strong>und</strong>engruppen eines Supermarktes sicherlich nicht so wichtig<br />

wie sein Einkommen oder die Postleitzahl seines Wohnortes.<br />

Darüber hinaus ist die Formulierung einer leistungsfähigen<br />

Distanzfunktion über die Haarfarbe ein gewisses Wagnis.<br />

→ Ein Clustering-Verfahren kann i.d.R. also nicht einfach eine fest gewählte<br />

Distanzfunktion nutzen, sondern muss diese je nach Anwendung<br />

variieren.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 18<br />

9


DATA MINING<br />

Segmentierung – Clustering III/V<br />

→ Für das Finden einer geeigneten Distanzfunktion benötigt man Hintergr<strong>und</strong>wissen<br />

über die vorliegenden Daten bzw. die betrachtet Domäne.<br />

→ Wahl der Distanzfunktion kann nicht automatisch von einem Clusteringalgorithmus<br />

geleistet werden.<br />

→ Klassen von Clustering-Verfahren …<br />

→ partitionierend<br />

→ hierarchisch<br />

→ dichtebasiert<br />

→ gitterbasiert<br />

→ modellbasiert<br />

→ Diese Einteilung beruht auf der Vorgehensweise, die die Verfahren<br />

verwenden, um Cluster zu finden. – siehe nächste Folie<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 19<br />

9


DATA MINING<br />

Segmentierung – Clustering IV/V<br />

→ Partitionierende Verfahren …<br />

Partitionierende Verfahren sind solche, die mit einem initialen Clustering<br />

beginnen, um dann iterativ solange eine Neuzordnung der Eingabedaten<br />

zu den bestehenden Clustern vorzunehmen, bis das Clustering<br />

optimal ist.<br />

→ Hierarchische Verfahren …<br />

Hierarchische Verfahren sind solche, die entweder zunächst jedes<br />

einzelne Objekt einem Cluster zuweisen <strong>und</strong> dann solange Cluster<br />

miteinander zu neuen Clustern vereinen, bis alle Objekte in einem<br />

Cluster enthalten sind, oder zunächst alle Objekte einem Cluster<br />

zuordnen <strong>und</strong> diesen dann sukzessiv aufspalten, bis alle Objekte<br />

einem eigenen Cluster angehören.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 20<br />

9


DATA MINING<br />

Segmentierung – Clustering V/V<br />

→ Dichtebasierte Verfahren …<br />

Dichtebasierte Verfahren sehen Cluster als Regionen von Objekten<br />

an, die in einer hohen Dichte zueinander stehen.<br />

→ Gitterbasierte Verfahren …<br />

Gitterbasierte Verfahren teilen den Raum der Eingabedaten in ein<br />

Gitter ein <strong>und</strong> weisen Objekte aufgr<strong>und</strong> ihrer Lage in diesem Gitter<br />

einem bestimmten Cluster zu.<br />

→ Modellbasierte Verfahren …<br />

Modellbasierte Verfahren versuchen ein mathematisches Modell<br />

zu entwickeln <strong>und</strong> dessen Parameter so zu wählen, dass die Eingabedaten<br />

möglichst gut repräsentiert werden.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 21<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 22<br />

9


DATA MINING<br />

Klassifikation I/V<br />

→ Ziel der Klassifikation ist es, Objekte einer Eingabedatenmenge zu<br />

(vorgegebenen) Klassen zuzuordnen. Die Merkmale der Objekte<br />

müssen hierzu bei der Klassifikation derart in einen „funktionalen<br />

Zusammenhang“ gebracht werden, sodass deren Abbildung auf<br />

eine Klasse möglich wird.<br />

→ Die der Klassifikation zugr<strong>und</strong>e liegenden Kriterien <strong>und</strong> ihr „funktionaler<br />

Zusammenhang“ wird beim Data Mining anhand von Daten<br />

gelernt.<br />

→ Anwendungssituationen …<br />

Welche (zukünftigen) K<strong>und</strong>en bedeuten für eine Versicherung<br />

ein hohes Risiko?<br />

Welche (zukünftigen) K<strong>und</strong>en eines Kreditinstituts erscheinen<br />

Kreditwürdig?<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 23<br />

9


DATA MINING<br />

Klassifikation II/V<br />

→ Training – Lernen der Kriterien zur Zuordnung von Objekten<br />

zu Klassen …<br />

Gegeben: Menge von Trainingsobjekten, die durch<br />

Merkmale (unabhängige Variablen) charakterisiert<br />

sind. Information über Klassenzugehörigkeit<br />

(abhängige Variable).<br />

Resultat: Klassendefinitionen<br />

→ Anwendung – Zuordnung von Objekten zu Klassen …<br />

Gegeben: Objektbeschreibungen durch Angabe der<br />

Merkmale.<br />

Resultat: Klassenzuordnung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 24<br />

9


DATA MINING<br />

Klassifikation III/V<br />

→ Beispiel I/III<br />

Gegeben ist eine Menge von Daten (Bilanzdaten/Kennzahlen) über<br />

verschiedene Firmen:<br />

U = Umsatz<br />

G = Gewinn<br />

E = Eigenkapital<br />

F = Fremdkapital<br />

UG = Gewinnanteil am Umsatz<br />

FE = Fremdkapital/Eigenkapital<br />

Jeder Datensatz ist einer von zwei Klassen zugeordnet:<br />

kw = kreditwürdig<br />

nkw = nicht-kreditwürdig<br />

Welche Attributwerte bestimmen, ob eine Firma kreditwürdig ist?<br />

Bilanzdaten<br />

Kennzahlen<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 25<br />

9


DATA MINING<br />

Klassifikation IV/V<br />

→ Beispiel II/III<br />

UG ≤ 20<br />

nkw<br />

UG > 20<br />

U < 5 Mio U > 50 Mio<br />

kw<br />

FE ≤ 5<br />

nkw<br />

UG ≤ 5<br />

5 Mio ≤ U ≤ 50 Mio<br />

FE > 5<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 26<br />

kw<br />

UG > 5<br />

kw<br />

UG ≤ 5<br />

nkw<br />

UG > 5<br />

kw<br />

9


DATA MINING<br />

Klassifikation V/V<br />

→ Beispiel III/III<br />

Ein Entscheidungsbaum ist offenbar eine grafische Darstellung von<br />

Regeln:<br />

– die Knoten des Baums entsprechen Entscheidungen<br />

– an den Wurzel sind die Klassen notiert<br />

Beispiel: U < 5 Mio <strong>und</strong> UG ≤ 20 ⇒ nkw<br />

– „Wenn der Umsatz kleiner als 5 Mio ist <strong>und</strong> der Gewinn<br />

weniger als (bzw. gleich) 20% des Umsatzes beträgt,<br />

dann ist die Firma nicht kreditwürdig.“<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 27<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 28<br />

9


DATA MINING<br />

Prognose I/V<br />

→ Ein beliebtes Anwendungsziel für die Prognose besteht in der Fortführung<br />

einer Zeitreihe in die Zukunft. Hierzu werden vielfach künstliche<br />

Neuronale Netze (kNN) genutzt, die anhand zurückliegender<br />

Beobachtungen trainiert wurden.<br />

→ Ein kNN approximiert dann eine Funktion, die abstrakt wie folgt<br />

notiert werden kann:<br />

deterministischer Anteil stochastischer Anteil<br />

→ Anwendungssituationen …<br />

Wie entwickelt sich die Biomasse innerhalb eines Ökosystems<br />

über die Zeit?<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 29<br />

9


DATA MINING<br />

Prognose II/V<br />

→ Künstliche Neuronale Netze … ? I/IV<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 30<br />

9


DATA MINING<br />

Prognose II/V<br />

→ Künstliche Neuronale Netze … ? II/IV<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 31<br />

9


DATA MINING<br />

Prognose II/V<br />

→ Künstliche Neuronale Netze … ? III/IV<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 32<br />

9


DATA MINING<br />

Prognose II/V<br />

→ Künstliche Neuronale Netze … ? IV/IV<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 33<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 34<br />

9


DATA MINING<br />

Anwendungsgebiete des Data Mining nach Funktionen<br />

→ Übersicht (Anteile) …<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 35<br />

9


DATA MINING<br />

Anwendung – Marketing Intelligence<br />

→ Analyse des Marketing-Mix …<br />

Durch Data Mining können Konstellationen <strong>und</strong> Ausprägungen von<br />

Marketinginstrumenten ermittelt werden, die mit hoher Wahrscheinlichkeit<br />

zum Erfolg führen.<br />

→ Bestimmung von Trend <strong>und</strong> Trendwechsel …<br />

Durch Verschiebungen in Segmenten <strong>und</strong> geänderten Verhaltensmustern<br />

lassen sich durch Data Mining frühzeitig Trends <strong>und</strong> Trendwechsel<br />

erkennen.<br />

→ Beispiel …<br />

Data-Mining-basierte Entwicklung einer K<strong>und</strong>en-Typologie. Auf Basis<br />

von letztlich gewonnenem differenzierten K<strong>und</strong>engruppen-Wissens<br />

konnten zielgerichtete Kampagnen durchgeführt werden.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 36<br />

9


DATA MINING<br />

Anwendung – Customer Intelligence<br />

→ Potenzialentwicklung …<br />

Auf Basis einer Top-K<strong>und</strong>enanalyse können die Attribute identifiziert<br />

werden, die K<strong>und</strong>en mit hohem Ertragspotential beschreiben. Diese<br />

Attribute können dann zur Selektion <strong>und</strong> pro-aktiven Ansprache<br />

neuer K<strong>und</strong>en genutzt werden.<br />

→ Identifikation abwanderungsgefährdeter K<strong>und</strong>en …<br />

Durch ein Customer-Profiling bereits abgewanderter K<strong>und</strong>en lassen<br />

sich Frühwarnindikatoren ableiten, die potentiell abwanderungsgefährdete<br />

K<strong>und</strong>en frühzeitig erkennen. Die Verringerung der Wechselquote<br />

hat einen entscheidenden Einfluss auf die Profitabilität.<br />

→ Beispiel …<br />

Lösung zur Stornoprävention einer Versicherung: Bindung von ca.<br />

8.000 potenziellen Stornok<strong>und</strong>en an das Unternehmen. Nachweisbare<br />

Effizienzsteigerung in der K<strong>und</strong>enbindung.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 37<br />

9


DATA MINING<br />

Anwendung – Process Intelligence<br />

→ Produktqualität abschätzen …<br />

Ist die Qualität eines Produktes gut, mittel oder schlecht, wenn die erforderlichen<br />

Rohstoffe von einem bestimmten Lieferanten kommen <strong>und</strong> anschließend auf<br />

einer bestimmten Maschine weiterverarbeitet werden?<br />

→ Ermittlung von Fehlermustern …<br />

Wie sehen Fehlermuster in administrativen Prozessen aus? Welche Ursache-<br />

Wirkung-Beziehung besteht zwischen Zeit, Kosten <strong>und</strong> Qualität eines Prozesses<br />

<strong>und</strong> Unternehmensinternen Faktoren wie Arbeitszeiten, Mitarbeiter, Arbeitsmittel<br />

<strong>und</strong> Arbeitsplatz?<br />

→ Beispiel …<br />

Ein Chemie-Unternehmen hat durch Data Mining Fehler-Quellen in der Chargen-Produktion<br />

festgestellt. Auf Basis diesen Wissens konnten zum einen die<br />

Prozessqualität erhöht werden, zum anderen konnten so gezielter QS-Mass-<br />

nahmen durchgeführt werden.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 38<br />

9


DATA MINING<br />

Anwendung – Innovation Intelligence<br />

→ Prozess- <strong>und</strong> Produktverbesserung …<br />

Welche Verbesserungspotenziale besitzen Unternehmensprozesse<br />

<strong>und</strong> Produkte?<br />

→ Produktgestaltung …<br />

Wie müsste ein Produkt aussehen – bzw. welche K<strong>und</strong>enattribute<br />

müsste es adressieren – damit es möglichst viel gekauft wird?<br />

→ Beispiel …<br />

Verbesserung des K<strong>und</strong>enportals bei einer deutschen Fluggesellschaft:<br />

Aufgr<strong>und</strong> des auf Basis von Data Mining generierten Wissens<br />

über K<strong>und</strong>en, K<strong>und</strong>enverhalten <strong>und</strong> Portalnutzung konnte das Portal<br />

gezielt modifiziert werden. Ertragspotenzial: 40 Mio. €<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 39<br />

9


DATA MINING<br />

Anwendung – Category Intelligence<br />

→ Optimierung des Category Management …<br />

Auf Basis von Data Mining kann das Category Management unterstützt werden.<br />

Das Zielgruppengerechte Bündeln von Produktangeboten kann den Umsatzpotenzial<br />

signifikant erhöhen.<br />

→ Cross-/Up-Selling …<br />

Durch Data Mining können/kann Produkte/Content identifiziert werden, die/der<br />

von bestimmten K<strong>und</strong>engruppen nachgefragt werden/wird. Dadurch können<br />

K<strong>und</strong>en zielgruppen-adäquat Produktempfehlungen/-angebote unterbreitet<br />

werden.<br />

→ Beispiel …<br />

Durch Assoziations- <strong>und</strong> Sequenzanalysen wurden bei einem großen<br />

„Tele-Shopper“optimale Kaufempfehlungen abgeleitet. Diese werden je nach<br />

K<strong>und</strong>enverhalten automatisch realtime in die Web-Seite eingespielt. Dadurch<br />

konnte eine Umsatzerhöhung von 8% realisiert werden.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 40<br />

9


DATA MINING<br />

Anwendung – Web Intelligence<br />

→ Web-Site Optimierung…<br />

Durch den Einsatz von Data Mining können Userprofile <strong>und</strong> deren Verhalten<br />

auf einer Website abgebildet <strong>und</strong> damit Websites zielführend optimiert werden.<br />

(Usability-Analysen)<br />

→ Multi-Channel-Analysen …<br />

Erhebung <strong>und</strong> integrierte Analyse von Daten über verschiedene Customer-<br />

Touchpoints hinweg: Welche Kommunikationskanäle werden von welchen<br />

K<strong>und</strong>en wie genutzt? Welche Verb<strong>und</strong>beziehungen bestehen zwischen den<br />

verschiedenen Kommunikationskanälen?<br />

→ Beispiel …<br />

Entdeckung von Optimierungspotenzialen eines Internetauftritts (Performance,<br />

Usability, Stickiness). Optimierung der Internetauftritts durch differenziertes<br />

User-/K<strong>und</strong>enwissen.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 41<br />

9


ÜBERLEITUNG ZUM <strong>KDD</strong> …<br />

Was wird uns in dieser Vorlesung begegnen … ?<br />

Data Mining<br />

Funktionen <strong>und</strong><br />

Fragestellungen<br />

Verfahrensklassen<br />

Assoziationsanalyse<br />

Klassifikation<br />

Prognose<br />

Segemtierung<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 42<br />

9


LITERATUR<br />

M. Ester & J. Sander (2000). Knowledge Discovery in Databases – Techniken <strong>und</strong><br />

Anwendungen. Springer-Verlag.<br />

U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). From data mining to<br />

knowledge discovery in databases. AI Magazine 17, Fall 1996, Seiten 37-54.<br />

J. Han & M. Kamber (2000). Data Mining: Concepts and Techniques. Morgan<br />

Kaufmann.<br />

F. Köster (2002). Analyse von Simulationsmodellen mit Methoden des Knowledge<br />

Discovery in Databases. Dissertation, Carl von Ossietzky <strong>Universität</strong><br />

<strong>Oldenburg</strong> (Fachbereich Informatik). <strong>Oldenburg</strong>er Satz & Einband.<br />

E. Woods & E. Kyral (1997). Ovum Evaluates: Data Mining. Ovum Evaluates,<br />

Ovum Ltd.<br />

I.H. Witten & E. Frank (2001). Data Mining – Praktische Werkzeuge <strong>und</strong> Techniken<br />

für das maschinelle Lernen. Hanser.<br />

Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 43<br />

9


Dr. Frank Köster · <strong>Universität</strong> <strong>Oldenburg</strong> · Department für Informatik · Abteilung <strong>Informationssysteme</strong> · Escherweg 2 · 26121 <strong>Oldenburg</strong> · eMail: Frank.Koester@Informatik.Uni-<strong>Oldenburg</strong>.de 44<br />

9

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!