DWH-und-KDD--VL-09 - Informationssysteme - Universität Oldenburg

Data Warehousing und 

Knowledge Discovery in Databases 

9 Frank 

Data Mining – Grundlagen 

Wintersemester 2003/2004 

Köster 

Universität Oldenburg 

Fachbereich Informatik 

Abteilung Informationssysteme 

Escherweg 2 

26121 Oldenburg 

eMail: Frank.Koester@Informatik.Uni-Oldenburg.de 

Dr. Frank Köster · Universität Oldenburg · Department für Informatik · Abteilung Informationssysteme · Escherweg 2 · 26121 Oldenburg · eMail: Frank.Koester@Informatik.Uni-Oldenburg.de 

9

GLIEDERUNG FÜR HEUTE … 

→ Organisatorisches 

→ Einleitung – Data Warehousing und Knowledge Discovery in Databases 

→ Data Warehousing: erste Anschauung, Begriffe und Historie … 

→ Knowledge Discovery in Databases: Grundlagen und Begriffe … 

→ DWS-Referenzarchitektur 

→ DWS-Entwicklungsprozess – sehr kurz (eine Folie!) 

→ Multidimensionales Datenmodell 

→ Extraktion • Transformation • Laden 

→ Metadaten und Datenqualität 

→ Konzepte temporaler Datenbanken im DWS-Kontext (Arne Harren – OFFIS) 

→ Überleitung zum Knowledge Discovery in Databases I & II 

→ Exploration von Daten 

→ KDD-Prozesse 

→ Data Mining – Grundlagen 

Knowledge Discovery in Databases 

Data Warehousing 

Dr. Frank Köster · Universität Oldenburg · Department für Informatik · Abteilung Informationssysteme · Escherweg 2 · 26121 Oldenburg · eMail: Frank.Koester@Informatik.Uni-Oldenburg.de 2 

9

ÜBERLEITUNG ZUM KDD … 

Was wird uns in dieser Vorlesung begegnen … ? 

Data Mining 

Funktionen und 

Fragestellungen 

Verfahrensklassen 

Assoziationsanalyse 

Klassifikation 

Prognose 

Segemtierung 


9



Data Mining 






Prognose 

Segemtierung 


9

WAS IST KDD & DATA MINING? 

Vergleiche mit Foliensatz 1 & 8 ... 

Zusammenhang zwischen KDD und Data Mining 

→ Knowledge Discovery in Databases 

„KDD is the nontrivial process of identifying valid, novel, potentially 

useful, and ultimately understandable patterns in data.“ 

(Fayyad et al., 1996) 

→ KDD ist ein interaktiver, mehrstufiger und iterativer Prozess. Ein 

zentraler Prozessschritt ist dabei das Data Mining. 

→ Data Mining 

„[...] data mining – the automatic creation of a model that identifies relevant 

trends and patterns in source data [...]“ 

(Woods & Kyral, 1997) 

→ Was sind essentielle Aspekte des Data Mining? 

→ automatische Verfahren (Interaktion → KDD) 

→ Algorithmen “erkunden“ große/komplexe Datenmengen 


9

WAS IST KDD & DATA MINING? 

Vergleiche mit Foliensatz 1 ... 

Data Mining – verschiedene Facetten 

→ Data Mining und Spezialisierungen 

Visual Mining 

Text Mining Image Mining 

Video Mining 

Multimedia Mining 

Audio Mining 

Data Quality 

Management 

Data Mining 

Web Mining 

Web Usage 

Mining 

Distributed 

Data Mining 

Web Structure 

Mining 

Web Content 

Mining 


9

ARBEITSSCHWERPUNKTE 

Vergleiche mit Foliensatz 1 ... 

Mining – verschiedene Verfahren 

→ Beliebter Gegenstand der Forschung (→ 1980 ...) 

Maschinelles Lernen 

Visualisierung ... 

Evolutionäre Algorithmen 

Konnektionismus 


9

HISTORIE 

Data Mining als (wachsendes) Forschungsgebiet … 

→ Data Mining – zeitliche Entwicklung 

1960 

DBMS 

1970 

Query Languages 

Artificial Intelligence –Learning▪ Pattern Recognition ▪ Rule Based Reasoning ▪ etc. 

1980 


1990 

Web Mining 

… und weitere Spezialisierungen 

Data Warehouse … Data Mining 

2000 

9

MOTOR 

Data Mining – Gründe für die Entwicklung … 

→ „Push“ und „Pull“ 

Drastischer Anstieg des verfügbaren 

Datenvolumens. 

Preis-/Leistungsverhältnis der 

Hardware verbessert sich zusehens. 

Vorstrukturierung der verfügbaren 

Daten in DWS. 

Data Mining 

Daten als als Quelle von von 

Wettbewerbsvorteilen. 

Wettbewerbsvorteilen. 

Wachsende Unzufriedenheit mit 

existierenden Analysemethoden 

(Ziel: mehr Automatisierung). 

Stärker Wettbewerbsdruck. 

Prozessorientierung und 

Dezentralisierung. 

Push Pull 


9



Data Mining 






Prognose 

Segemtierung 


9

DATA MINING 

Fragestellungen, Aufgaben & Methoden 

Geschäftsprozess-Analyse und Fragestellung Zieldefinition und Modellwahl Modellparametrisierung und Modellanwendung 

Analyse sachlicher Verbundbeziehungen 

bei 

Transaktionen – z.B.: Welche 

Produkte werden im Zusammenhang 

gekauft? 

Einteilung in homogene 

Gruppen – z.B.: Zusammenfassung 

von Kunden mit 

ähnlichem Einkaufsverhalten. 

Profilierung, Modellierung 

und Regeldefinition –z.B.: 

Beurteilung von Kundenverhalten. 

Vorhersage im Sinne der 

Ergänzung von fehlender 

Merkmalswerte – z.B.: 

Vorhersage des Kundenverhaltens. 


Segmentierung 


Prognose 

Abweichungsanalyse 

Zeitreihenanalyse 

Warenkorbanalyse 

Analyse sequenzieller Muster 

Kohonen Clustering 

k-means Clustering 


Clustering 

k-nearest Neighbors 

Entscheidungsbäume 

Neuronale Netze 

Evolutionäre Algorithmen 

Regression 

etc. 

9



Data Mining 






Prognose 

Segemtierung 


9

DATA MINING 

Assoziationsanalyse I/III 

→ Ziel der Assoziationsanalyse ist die Analyse sachlicher Verbundbeziehungen 

in Transaktionen – z.B. beim Produkterwerb im Supermarkt 

→ Resultat sind Aussagen der folgenden Form … 

In 40% der Fälle, in denen Zahnbürsten gekauft werden, 

wird auch Zahnpasta gekauft. Beide Produkte kommen in 0,8% 

aller Transaktionen vor. 

→ Praktische Fragestellung: Welche Produkte werden oft zusammen 

gekauft. 

→ Cross-Selling: Wer A kauft, kauft vielfach auch B … 

⇒ Anhaltspunkte zur Optimierung der Präsentation bzw. Platzierung 

von Produkten in Werbematerialien oder Supermarktregalen. 

⇒ Gezieltes Bewerben von Käufern bestimmter Produkte. 


9

DATA MINING 

Assoziationsanalyse II/III 

→ Schema einer Assoziationsregel … 

Prämisse 

(unabhängige Variable) 

„wenn A“ 

Assoziationsregel 

Konsequnez 

(abhängige Variable) 

„dann B“ 

Konfidenz Support 

strukturelle Komponenten Gütekriterien 

wenn Zahnbürste, dann Zahnpasta Konfidenz = 40%; Support = 0,8%; Lift = 20 

Support := Anteil an gesamten Transaktionen 

Konfidenz := Quotient aus Anzahl der Transaktionen die im wenn-dann-Part enthalten sind 

und der Anzahl der Transaktionen aus der wenn-Bedingung 

Lift := Konfidenz / „erwartete Konfidenz“ 

(siehe nächste Folie) 


Lift 

9

DATA MINING 

Assoziationsanalyse III/III 

→ Vollständiges Beispiel … 

→ Eine Supermarkt habe 100.000 Transaktionen an den 

Kassen, wobei 2.000 davon das Produkt Zahnbürste enthielten, 

darunter 800, die ebenfalls das Produkt Zahnpasta enthielten. 

→ Assoziationsregel (ohne Einschätzung der Güte): 

Wenn Zahnbürste gekauft wird, dann wird auch Zahnpasta gekauft. 

→ Support: 800/100.000 = 0,008 (also 0,8%) 

→ Konfidenz: 800/2.000 = 0,4 (also 40%) 

→ Produkt Zahnpasta taucht in insgesamt 2.000 Transaktionen 

auf. Somit ist die erwartete Konfidenz: 2.000/100.000 = 0.02 

→ Lift: 0,4 / 0,02 = 20 


9



Data Mining 






Prognose 

Segemtierung 


9

DATA MINING 

Segmentierung – Clustering I/V 

→ Ziel der Segmentierung ist es, aus sich ähnelnden Objekte einer 

Eingabedatenmenge Cluster zu bilden. Ein Cluster ist dementsprechend 

eine Menge von Objekten, die untereinander eine hohe und zu anderen 

Objekten außerhalb des Clusters eine möglichst geringe Ähnlichkeit 

aufweisen. 

→ Die Ähnlichkeit zweier Objekte wird dabei als Distanz der Objekte 

definiert, die – in Abhängigkeit der Merkmale der Objekte – mit unterschiedlichen 

Metriken gemessen werden kann. 

Beachte: Es gibt auch konzeptbasiertes Clustering! 

→ Anwendungssituation … 

Bilde Cluster aus Personen, wobei 

die Attribute Alter, Jahresgehalt 

und Postleitzahl die Objektmerkmale 

darstellen. 


9

DATA MINING 

Segmentierung – Clustering II/V 

→ Oftmals ist es schwierig, eine geeignete Distanzfunktion(en) zu finden … 

→ da Objekte häufig sowohl qualitative als auch quantitative 

Attribute besitzen und 

→ da die Attribute der Objekte oft von unterschiedlicher Wichtigkeit 

für die Gruppierung der Objekte sind. 

→ Normalisierung der Werte kann beim Clustering notwendig sein. 

→ Beispiel: Die Haarfarbe eines Kunden ist für die Gruppierung 

in Kundengruppen eines Supermarktes sicherlich nicht so wichtig 

wie sein Einkommen oder die Postleitzahl seines Wohnortes. 

Darüber hinaus ist die Formulierung einer leistungsfähigen 

Distanzfunktion über die Haarfarbe ein gewisses Wagnis. 

→ Ein Clustering-Verfahren kann i.d.R. also nicht einfach eine fest gewählte 

Distanzfunktion nutzen, sondern muss diese je nach Anwendung 

variieren. 


9

DATA MINING 

Segmentierung – Clustering III/V 

→ Für das Finden einer geeigneten Distanzfunktion benötigt man Hintergrundwissen 

über die vorliegenden Daten bzw. die betrachtet Domäne. 

→ Wahl der Distanzfunktion kann nicht automatisch von einem Clusteringalgorithmus 

geleistet werden. 

→ Klassen von Clustering-Verfahren … 

→ partitionierend 

→ hierarchisch 

→ dichtebasiert 

→ gitterbasiert 

→ modellbasiert 

→ Diese Einteilung beruht auf der Vorgehensweise, die die Verfahren 

verwenden, um Cluster zu finden. – siehe nächste Folie 


9

DATA MINING 

Segmentierung – Clustering IV/V 

→ Partitionierende Verfahren … 

Partitionierende Verfahren sind solche, die mit einem initialen Clustering 

beginnen, um dann iterativ solange eine Neuzordnung der Eingabedaten 

zu den bestehenden Clustern vorzunehmen, bis das Clustering 

optimal ist. 

→ Hierarchische Verfahren … 

Hierarchische Verfahren sind solche, die entweder zunächst jedes 

einzelne Objekt einem Cluster zuweisen und dann solange Cluster 

miteinander zu neuen Clustern vereinen, bis alle Objekte in einem 

Cluster enthalten sind, oder zunächst alle Objekte einem Cluster 

zuordnen und diesen dann sukzessiv aufspalten, bis alle Objekte 

einem eigenen Cluster angehören. 


9

DATA MINING 

Segmentierung – Clustering V/V 

→ Dichtebasierte Verfahren … 

Dichtebasierte Verfahren sehen Cluster als Regionen von Objekten 

an, die in einer hohen Dichte zueinander stehen. 

→ Gitterbasierte Verfahren … 

Gitterbasierte Verfahren teilen den Raum der Eingabedaten in ein 

Gitter ein und weisen Objekte aufgrund ihrer Lage in diesem Gitter 

einem bestimmten Cluster zu. 

→ Modellbasierte Verfahren … 

Modellbasierte Verfahren versuchen ein mathematisches Modell 

zu entwickeln und dessen Parameter so zu wählen, dass die Eingabedaten 

möglichst gut repräsentiert werden. 


9



Data Mining 






Prognose 

Segemtierung 


9

DATA MINING 

Klassifikation I/V 

→ Ziel der Klassifikation ist es, Objekte einer Eingabedatenmenge zu 

(vorgegebenen) Klassen zuzuordnen. Die Merkmale der Objekte 

müssen hierzu bei der Klassifikation derart in einen „funktionalen 

Zusammenhang“ gebracht werden, sodass deren Abbildung auf 

eine Klasse möglich wird. 

→ Die der Klassifikation zugrunde liegenden Kriterien und ihr „funktionaler 

Zusammenhang“ wird beim Data Mining anhand von Daten 

gelernt. 

→ Anwendungssituationen … 

Welche (zukünftigen) Kunden bedeuten für eine Versicherung 

ein hohes Risiko? 

Welche (zukünftigen) Kunden eines Kreditinstituts erscheinen 

Kreditwürdig? 


9

DATA MINING 

Klassifikation II/V 

→ Training – Lernen der Kriterien zur Zuordnung von Objekten 

zu Klassen … 

Gegeben: Menge von Trainingsobjekten, die durch 

Merkmale (unabhängige Variablen) charakterisiert 

sind. Information über Klassenzugehörigkeit 

(abhängige Variable). 

Resultat: Klassendefinitionen 

→ Anwendung – Zuordnung von Objekten zu Klassen … 

Gegeben: Objektbeschreibungen durch Angabe der 

Merkmale. 

Resultat: Klassenzuordnung 


9

DATA MINING 

Klassifikation III/V 

→ Beispiel I/III 

Gegeben ist eine Menge von Daten (Bilanzdaten/Kennzahlen) über 

verschiedene Firmen: 

U = Umsatz 

G = Gewinn 

E = Eigenkapital 

F = Fremdkapital 

UG = Gewinnanteil am Umsatz 

FE = Fremdkapital/Eigenkapital 

Jeder Datensatz ist einer von zwei Klassen zugeordnet: 

kw = kreditwürdig 

nkw = nicht-kreditwürdig 

Welche Attributwerte bestimmen, ob eine Firma kreditwürdig ist? 

Bilanzdaten 

Kennzahlen 


9

DATA MINING 

Klassifikation IV/V 

→ Beispiel II/III 

UG ≤ 20 

nkw 

UG > 20 

U < 5 Mio U > 50 Mio 

kw 

FE ≤ 5 

nkw 

UG ≤ 5 

5 Mio ≤ U ≤ 50 Mio 

FE > 5 


kw 

UG > 5 

kw 

UG ≤ 5 

nkw 

UG > 5 

kw 

9

DATA MINING 

Klassifikation V/V 

→ Beispiel III/III 

Ein Entscheidungsbaum ist offenbar eine grafische Darstellung von 

Regeln: 

– die Knoten des Baums entsprechen Entscheidungen 

– an den Wurzel sind die Klassen notiert 

Beispiel: U < 5 Mio und UG ≤ 20 ⇒ nkw 

– „Wenn der Umsatz kleiner als 5 Mio ist und der Gewinn 

weniger als (bzw. gleich) 20% des Umsatzes beträgt, 

dann ist die Firma nicht kreditwürdig.“ 


9



Data Mining 






Prognose 

Segemtierung 


9

DATA MINING 

Prognose I/V 

→ Ein beliebtes Anwendungsziel für die Prognose besteht in der Fortführung 

einer Zeitreihe in die Zukunft. Hierzu werden vielfach künstliche 

Neuronale Netze (kNN) genutzt, die anhand zurückliegender 

Beobachtungen trainiert wurden. 

→ Ein kNN approximiert dann eine Funktion, die abstrakt wie folgt 

notiert werden kann: 

deterministischer Anteil stochastischer Anteil 

→ Anwendungssituationen … 

Wie entwickelt sich die Biomasse innerhalb eines Ökosystems 

über die Zeit? 


9

DATA MINING 

Prognose II/V 

→ Künstliche Neuronale Netze … ? I/IV 


9

DATA MINING 

Prognose II/V 

→ Künstliche Neuronale Netze … ? II/IV 


9

DATA MINING 

Prognose II/V 

→ Künstliche Neuronale Netze … ? III/IV 


9

DATA MINING 

Prognose II/V 

→ Künstliche Neuronale Netze … ? IV/IV 


9



Data Mining 






Prognose 

Segemtierung 


9

DATA MINING 

Anwendungsgebiete des Data Mining nach Funktionen 

→ Übersicht (Anteile) … 


9

DATA MINING 

Anwendung – Marketing Intelligence 

→ Analyse des Marketing-Mix … 

Durch Data Mining können Konstellationen und Ausprägungen von 

Marketinginstrumenten ermittelt werden, die mit hoher Wahrscheinlichkeit 

zum Erfolg führen. 

→ Bestimmung von Trend und Trendwechsel … 

Durch Verschiebungen in Segmenten und geänderten Verhaltensmustern 

lassen sich durch Data Mining frühzeitig Trends und Trendwechsel 

erkennen. 

→ Beispiel … 

Data-Mining-basierte Entwicklung einer Kunden-Typologie. Auf Basis 

von letztlich gewonnenem differenzierten Kundengruppen-Wissens 

konnten zielgerichtete Kampagnen durchgeführt werden. 


9

DATA MINING 

Anwendung – Customer Intelligence 

→ Potenzialentwicklung … 

Auf Basis einer Top-Kundenanalyse können die Attribute identifiziert 

werden, die Kunden mit hohem Ertragspotential beschreiben. Diese 

Attribute können dann zur Selektion und pro-aktiven Ansprache 

neuer Kunden genutzt werden. 

→ Identifikation abwanderungsgefährdeter Kunden … 

Durch ein Customer-Profiling bereits abgewanderter Kunden lassen 

sich Frühwarnindikatoren ableiten, die potentiell abwanderungsgefährdete 

Kunden frühzeitig erkennen. Die Verringerung der Wechselquote 

hat einen entscheidenden Einfluss auf die Profitabilität. 


Lösung zur Stornoprävention einer Versicherung: Bindung von ca. 

8.000 potenziellen Stornokunden an das Unternehmen. Nachweisbare 

Effizienzsteigerung in der Kundenbindung. 


9

DATA MINING 

Anwendung – Process Intelligence 

→ Produktqualität abschätzen … 

Ist die Qualität eines Produktes gut, mittel oder schlecht, wenn die erforderlichen 

Rohstoffe von einem bestimmten Lieferanten kommen und anschließend auf 

einer bestimmten Maschine weiterverarbeitet werden? 

→ Ermittlung von Fehlermustern … 

Wie sehen Fehlermuster in administrativen Prozessen aus? Welche Ursache- 

Wirkung-Beziehung besteht zwischen Zeit, Kosten und Qualität eines Prozesses 

und Unternehmensinternen Faktoren wie Arbeitszeiten, Mitarbeiter, Arbeitsmittel 

und Arbeitsplatz? 


Ein Chemie-Unternehmen hat durch Data Mining Fehler-Quellen in der Chargen-Produktion 

festgestellt. Auf Basis diesen Wissens konnten zum einen die 

Prozessqualität erhöht werden, zum anderen konnten so gezielter QS-Mass- 

nahmen durchgeführt werden. 


9

DATA MINING 

Anwendung – Innovation Intelligence 

→ Prozess- und Produktverbesserung … 

Welche Verbesserungspotenziale besitzen Unternehmensprozesse 

und Produkte? 

→ Produktgestaltung … 

Wie müsste ein Produkt aussehen – bzw. welche Kundenattribute 

müsste es adressieren – damit es möglichst viel gekauft wird? 


Verbesserung des Kundenportals bei einer deutschen Fluggesellschaft: 

Aufgrund des auf Basis von Data Mining generierten Wissens 

über Kunden, Kundenverhalten und Portalnutzung konnte das Portal 

gezielt modifiziert werden. Ertragspotenzial: 40 Mio. € 


9

DATA MINING 

Anwendung – Category Intelligence 

→ Optimierung des Category Management … 

Auf Basis von Data Mining kann das Category Management unterstützt werden. 

Das Zielgruppengerechte Bündeln von Produktangeboten kann den Umsatzpotenzial 

signifikant erhöhen. 

→ Cross-/Up-Selling … 

Durch Data Mining können/kann Produkte/Content identifiziert werden, die/der 

von bestimmten Kundengruppen nachgefragt werden/wird. Dadurch können 

Kunden zielgruppen-adäquat Produktempfehlungen/-angebote unterbreitet 

werden. 


Durch Assoziations- und Sequenzanalysen wurden bei einem großen 

„Tele-Shopper“optimale Kaufempfehlungen abgeleitet. Diese werden je nach 

Kundenverhalten automatisch realtime in die Web-Seite eingespielt. Dadurch 

konnte eine Umsatzerhöhung von 8% realisiert werden. 


9

DATA MINING 

Anwendung – Web Intelligence 

→ Web-Site Optimierung… 

Durch den Einsatz von Data Mining können Userprofile und deren Verhalten 

auf einer Website abgebildet und damit Websites zielführend optimiert werden. 

(Usability-Analysen) 

→ Multi-Channel-Analysen … 

Erhebung und integrierte Analyse von Daten über verschiedene Customer- 

Touchpoints hinweg: Welche Kommunikationskanäle werden von welchen 

Kunden wie genutzt? Welche Verbundbeziehungen bestehen zwischen den 

verschiedenen Kommunikationskanälen? 


Entdeckung von Optimierungspotenzialen eines Internetauftritts (Performance, 

Usability, Stickiness). Optimierung der Internetauftritts durch differenziertes 

User-/Kundenwissen. 


9



Data Mining 






Prognose 

Segemtierung 


9

LITERATUR 

M. Ester & J. Sander (2000). Knowledge Discovery in Databases – Techniken und 

Anwendungen. Springer-Verlag. 

U.M. Fayyad, G. Piatetsky-Shapiro & P. Smyth (1996). From data mining to 

knowledge discovery in databases. AI Magazine 17, Fall 1996, Seiten 37-54. 

J. Han & M. Kamber (2000). Data Mining: Concepts and Techniques. Morgan 

Kaufmann. 

F. Köster (2002). Analyse von Simulationsmodellen mit Methoden des Knowledge 

Discovery in Databases. Dissertation, Carl von Ossietzky Universität 

Oldenburg (Fachbereich Informatik). Oldenburger Satz & Einband. 

E. Woods & E. Kyral (1997). Ovum Evaluates: Data Mining. Ovum Evaluates, 

Ovum Ltd. 

I.H. Witten & E. Frank (2001). Data Mining – Praktische Werkzeuge und Techniken 

für das maschinelle Lernen. Hanser. 


9


9

DWH-und-KDD--VL-09 - Informationssysteme - Universität Oldenburg

Erfolgreiche ePaper selbst erstellen

Template löschen?

Als Template speichern?