Vortrag-Daniel.pdf
Vortrag-Daniel.pdf
Vortrag-Daniel.pdf
Erfolgreiche ePaper selbst erstellen
Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.
Clustering BEM-AlgorithmusAutomatische Bestimmung der Clusteranzahl<strong>Daniel</strong> Birkmaier,Erlangen, 04.07.2013
Inhalt● EM-Algorithmus● Grundlegendes● Details● Anwendung● Beispiel● Automatische Bestimmung der Cluster-Anzahl● Grundlegendes● Χ 2 -Statistiken●●●ArtenPrüfgrößenBeziehungen zum k-Means-Algorithmus● Bootstrap-Verfahren● Beispiel2
EM-AlgorithmusGrundlegendes
Geschichte des EM-Algorithmus● 1974 Entdeckung durch GoodmanHäufige Verwendung von Autoren in bestimmten Spezialfällen● 1977 Verallgemeinerung der Konvergenzanalyse auf breitere Klassevon Problemen durch Dempster, Laird und Rubin→ Wichtiges Instrument für statische Analyse● 1983 Veröffentlichung korrekter, nicht exponentiellerKonvergenzanalyse durch Jeff Wu4
Erinnerung an den k-Means-Algorithmus● Schritt 1:Zufällige Zuordnung der Objekte zu k Clustern● Schritt 2:Berechnung der Cluster-Zentren mit arithmetischem Mittel● Schritt 3:Neuzuordnung der Objekte zum Cluster-Zentrum mit minimalereuklidischer Distanz● Schritt 4:IterationBei Änderung der Cluster-Zuordnung der ObjekteWiederholung ab Schritt 25
Unterschiede zwischen k-Means- und EM-Algorithmus● Verallgemeinerung des k-Means-Algorithmus(Ausnahme: TwoStep-Cluster)● Schritt 2: Berechnung der Klassenzentren und KlassenanteilswerteArithmetisches Mittel → Maximum-Likelihood-Schätzung● Schritt 3: KlassenzuordnungMinimale euklidische Distanz → Zuordnungswahrscheinlichkeit● Deterministische Zuordnung der Objekte zu den Klassen→ Probabilistische Zuordnung der Objekte zu den Klassen● Beschreibung und Interpretation einer Klassenlösung analog zu k-Means● Unterschiede kaum bei Klassenzentren, eher beiKlassenanteilswerten6
EM-Algorithmus● Schritt 1:Zufällige Zuordnung der Objekte zu k Clustern● Schritt 2:Berechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung● Schritt 3:Neuzuordnung der Objekte zum Cluster-Zentrum mit höchsterZuordnungswahrscheinlichkeit● Schritt 4:IterationBei Änderung der Cluster-Zuordnung der ObjekteWiederholung ab Schritt 27
Möglichkeiten der Beschreibung und Interpretationäquivalent k-Means-Algorithmus● Prüfung jeder Variable auf signifikanten Beitrag zur Klassentrennung(Streuung der Variablen und F-Wert)● Berechnung paarweiser Unterschiede von Klassen in den Variablen● Zusammenfassung von Variablen innerhalb einer Klasse zu Gruppen● Prüfung auf signifikante Abweichungen von den Gesamtmittelwertendurch Berechnung von z-Werten● Beschreibung und inhaltliche Validitätsprüfung durch● Deskriptionsvariablen● bi-/multivariate Verfahren8
Vorteile des EM-Algorithmus● Gute Vergleichbarkeit● Modellierbarkeit von Messfehlern in den Variablen● Kleinere Anfälligkeit für Verzerrungen durch irrelevante Variablen● Ermittlung von erwartungstreuen Schätzern für Cluster-Zentren● Formal besser begründete Maßzahlen für Bestimmung der Cluster-Zahl● Modellierung unterschiedlicher Variablentypen möglich9
Nachteile des EM-Algorithmus● Konvergente und stabile Lösungen benötigen größere Stichproben● Verletzung von zu treffenden Annahmen kann zu verzerrtenSchätzungen führen● Untersuchung der Identifikation des zu schätzenden Modells10
EM-AlgorithmusDetails
Konzept der lokalen Unabhängigkeit● Zentral für EM-Algorithmus● Modellvorstellung:● Grundstein der Daten: K latente/unbeobachtete Klassen● Erklärung der Zusammenhänge zwischen den untersuchtenmanifesten/beobachteten Variablen durch Klassen● Einführung der (latenten) Klassen als Kontrollvariablen in die Analyse→ Verschwinden der empirischen Zusammenhänge● Unabhängigkeit manifester Variablen innerhalb jeder Klasse12
Modellansatz● K latente Klassen● Paarweise Unabhängigkeit aller Variablen innerhalb jeder Klasse● Anteilswert π(k) jeder Klasse k an der Grundgesamtheit2● Normalverteilung mit einem Erwartungswert μ kjund der Varianz σ kjfür jede Klasse k und jede Variable j13
Normalverteilung der Variablen● Zusammensetzung des beobachteten Wertes x gjder Variablen X jeines Objekts g einer Klasse k:● Klassenmittelwert μ kj● Fehlerterm ε gj● ε gjist Realisierung einer normalverteilten Zufallsvariable ξ kj● Erwartungswert 02● Varianz σ kj● ξ kjpaarweise unabhängig: cov(ξ kj, ξ kj*) = 014
Grundlegende Stochastikwerte● Gesamtmittelwert für eine Variable:μ j= ∑k● Kovarianz zwischen zwei Variablen:σ jj∗ = ∑kπ (k )μ kj● Varianz einer Variablen:σ j 2 = σ jj= ∑kπ (k )(μ kj − μ j )(μ kj∗ − μ j∗)π (k )σ 2 kj+ ∑ π (k )(μ kj− μ j ) 2k15
Bedingte Wahrscheinlichkeiten● Bedingte Wahrscheinlichkeit für das Auftreten eines Objektes g mitbestimmtem Wert x gjfür die Variable j in der Klasse k:π (x gj ∣ k ) = ϕ(x gj ∣ μ kj , σ kj ) =● Bedingte Wahrscheinlichkeit für die Zugehörigkeit eines Objektes gzu einer Klasse k:π (g ∣ k ) = ∏jπ(x gj ∣ k )1√2πσ kje(x gj− μ kj ) 222 σ kj16
Maximum-Likelihood-Schätzung● Likelihood-Funktion L:L = ∏g∑k● Log-Likelihood-Funktion LL:LL = lnL = ∑gπ (k )π (g ∣ k )ln∑kπ (k )π (g ∣ k )● Schätzwertbestimmung durch Funktionsmaximierung17
EM-AlgorithmusAnwendung
Grundprinzip des EM-Algorithmus● Expectation-Schritt (E-Schritt):Abschätzung der Zuordnungswahrscheinlichkeiten π(k | g)Annahme: Modellparameter π(k), µ kjund σ kjsind gegeben● Maximization-Schritt (M-Schritt):Abschätzung der Modellparameter π(k), µ kjund σ kjAnnahme: Zuordnungswahrscheinlichkeiten π(k | g) sind gegeben19
EM-Algorithmus● Schritt 1:Zufällige Zuordnung der Objekte zu k Clustern● Schritt 2: E-SchrittBerechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung● Schritt 3: M-SchrittNeuzuordnung der Objekte zum Cluster-Zentrum mit höchsterZuordnungswahrscheinlichkeit● Schritt 4:IterationBei Änderung der Cluster-Zuordnung der ObjekteWiederholung ab Schritt 220
Annahme● Wahrscheinlichkeit für Auftreten einer Klasse bei Objekt g gegebenπ (k ∣ g )● Vorsicht!● Annahme entspricht nicht den Tatsachen● Nicht verwechseln mit der bisher verwendeten Wahrscheinlichkeit:π (g ∣k )21
Folgerung● Log-Likelihood-FunktionLL = ∑gln∑k● Vereinfachungπ (k ) π (g ∣ k )LL = ∑g= ∑g∑k∑kπ (k ∣ g )(lnπ(k ) + ln π (g ∣ k ))π (k ∣ g )( lnπ(k ) + ∑jlnπ( x gj ∣ k ) )22
Schätzung von π(k | g)● Satz von BayesP( A∣B ) =P (B∣ A)P( A)P(B)● Schätzung p(k | g) von π(k | g)p(k ∣ g ) =∑kp (k )p(g ∣ k )p (k )p (g ∣ k )23
EM-Algorithmus - Schritt 1● Berechnung oder Eingabe von Startwerten für● Modellparameteroder● Zuordnungswahrscheinlichkeiten(Bei Startwerten hierfür gehe zu Schritt 3)24
EM-Algorithmus - Schritt 2● Schätzung der Zuordnungswahrscheinlichkeiten π(k | g):p(k ∣ g ) =i● Hierbei gilt:∑kp(g ∣ k ) = ∏ijp (k ) p (g ∣k )i − 1 i − 1p (k ) p (g ∣k )i − 1 i − 1ϕ(p (x gj ∣ k ) = ∏ x gj ∣ ̄x , s kj)i − 1ji − 1 kj i − 1● Mittig tiefgestellter Index: Iterationszähler25
EM-Algorithmus - Schritt 3● Schätzung der Modellparameter π(k), µ kjund σ kjp(k ) =īx kj =is2 =i kj∑g∑g∑g∑gp (k ∣ g )inp (k ∣ g ) x gjipip (k ∣ g )i(k ∣ g ) (x gj − ̄x kj)2i∑gp(k ∣ g )i26
EM-Algorithmus - Schritt 4● Prüfung der KonvergenzAbbruch des Algorithmus unter folgenden Bedingungen:● Verbesserung der Log-Likelihood-Funktion unter Schwellenwert(zum Beispiel 10 -7 )und/oder● Maximale Abweichung aufeinanderfolgender Schätzwerte unterSchwellenwert (zum Beispiel 10 -4 )27
Anzahl zu schätzender ParameterAnzahlArtK - 1Klassenanteilswerte π(k)(Definition eines Anteilwertes durch Bedingung, dass dieSumme aller Werte gleich 1 ist.)Km Klassenzentren µ kj:Erwartungswerte jeder Variablen für jede KlasseKmKlassenvarianzen:Varianzen σ kj2jeder Variablen für jede KlasseK(1 + 2m) - 1 Gesamtzahl zu schätzender Parameter =: m K28
Überwachung der lokalen Unabhängigkeit● Abspeicherung der Klassenzuordnungswahrscheinlichkeiten p(k | g)● Berechnung einer Varianz-Kovarianz-Matrix W kfür jede Klasse(Gewichte: p(k | g))● Unabhängigkeit ↔ W kist Diagonalmatrix● Möglichkeiten:● Likelihood-Quotienten-Test● Bivariate Residuen29
Überwachung der Klassenüberlappungen● Große Beeinflussung der Konvergenz und Stabilität→ Überwachung sinnvoll● Gefahr für Instabilität ab bestimmtem Überlappungsanteil stark erhöht● Überwachungsmöglichkeiten:● Dichotomisierung der Zuordnungswahrscheinlichkeiten und Berechnungaller Ausprägungskombinationen(Schwelle: 1/K)● Fuzzy-Clustering-Messzahlen● Empirische Stabilitätsuntersuchungen30
Beispiel● Zweidimensional● Nicht überlappende Klassen31
EM-AlgorithmusAutomatische Bestimmung der Cluster-Anzahl
Grundprinzip● Ausführung des EM-Algorithmus● Für verschiedene Anzahlen von Klassen● Mit verschiedenen Startwerten je Klasse● Anwendung von● Χ 2 -Statistiken● Bootstrap-Verfahren● Berechnungen für jede Klassenanzahl K33
Χ 2 -Statistiken● Ausmaß der durch das Modell unerklärbaren Beziehungen zwischenden Variablen● Je größer die Statistik, desto schlechter das Modell34
Indikator-Variablen● Sichtbare Klassenvariablen yLatente Klassenvariablen● Unsichtbare Klassenvariablen xKovariaten● Variablen z mit direktem Einfluss auf● Indikator-Variablenund/oder● Latente Klassenvariablen35
Datenmuster● Für ein Datenmuster i* haben alle enthaltenen Fälle i dieselbenAusprägungen in den Indikatoren und Kovariaten● w i:= Fallgewicht● n i*:= Auftrittshäufigkeit des Datenmusters i*n i∗ = ∑ w ii ∈ i ∗36
Weitere Annahmen und Voraussetzungen● Kovariatenmuster wie bei Datenmuster i*u i∗● Fallanzahl für Kovariatenmusteru i∗n u i∗● Bedingte multinomiale Wahrscheinlichkeit für Datenmuster i* beiKovariatenmuster̂f (y i∗∣z i∗)● Erwartete Zellhäufigkeiten̂m i∗ = n ui ∗̂f (y i∗∣ z i∗)u i∗37
Χ 2 -Statistiken● Likelihood-Ratio-Χ 2 -StatistikI ∗L 2 = 2 ∑ n i∗ln n i ∗̂mi ∗ = 1i∗● Pearson-Χ 2 -StatistikI ∗Χ 2 = ∑i ∗ = 12n ∗îm i∗− n● Cressie-Read-Χ 2 -StatistikI ∗CR 2 = 1,8 ∑i ∗ = 1∗((n n i ∗ 3îm ∗)2i− 1)38
Anzahl Freiheitsgrade● Anzahl an beobachteten Indikatoren im Kovariatenmuster i*T u∗● Anzahl der Kategorien des t-ten beobachteten Indikators∗M ut● Anzahl FreiheitsgradeUdf = min( ∑ u = 1T u1) )∗(∏ M ∗ ut− , n − m Kt = 1Freiheitsgrade df beruhen auf der Stichprobengröße n, wenn dieAnzahl der unabhängigen Zellen in der hypothetischen Kreuztabellegrößer ist als die Stichprobengröße39
Informationsmaße - Likelihood-Funktion● Akaike-Informationsmaß: AIC KAIC K = L K 2 − 2df● Akaike-3-Informationsmaß: AIC3 KAIC3 K = L K 2 − 3 df● Bayes'sches Informationsmaß: BIC KBIC K = L K 2 − df ln n● Konsistentes Akaike-Informationsmaß: CAIC KCAIC K = L 2 K − df ln (n + 1)40
Informationsmaße - Problem● Ähnliche Ergebnisse bei Beurteilung eines Modellvergleichs● Große Anzahl Freiheitsgrade df→ Nicht verwertbare Ergebnisse möglich bei Berechnung mit L 2→ Notwendigkeit der Berechnung mit LLI ∗LL = ∑ w i ln ̂f (y i∗∣z i∗)i ∗ = 141
Informationsmaße - Log-Likelihood-Funktion● Akaike-Informationsmaß: AIC KAIC K = 2m K − LL K● Akaike-3-Informationsmaß: AIC3 KAIC3 K = 3m K − 2LL K● Bayes'sches Informationsmaß: BIC KBIC K = m K ln n − 2LL K● Konsistentes Akaike-Informationsmaß: CAIC K42CAIC K = m K ln (n + 1) − 2LL K
Unähnlichkeitsindex● Englisch: Dissimilarity IndexDI =n + ∑i ∗ = 1I ∗ (∣n i∗ − ̂m i∗∣− ̂m i∗)2n● Stärke der Abweichung der beobachteten und geschätztenZellhäufigkeiten voneinander● Für perfekte Modellanpassung zu verändernder Teil der Stichprobe43
Berechnungen für jede Klassenanzahl K● Prozentuelle Verbesserung zum Nullmodell: PV0 KPV0 K = 1 − ∣ LL K ∣∣LL 0 ∣● Prozentuelle Verbesserung zu vorausgehendem Modell: PV KPV K = 1 − ∣ LL K ∣∣LL K − 1 ∣● Informationsmaß● Unähnlichkeitsindex● Veraltet: Likelihood-Quotienten-Statistiken44
Beziehungen von EM- und k-Means-Modellprüfgrößen● PV0 K↔ η K2(Erklärte Streuung)Auswahl von Lösungen mit bestimmtem Mindestwert für PV0 K● PV K↔ PRE K(Prozentuale Verbesserung zu vorheriger Lösung)Auswahl von Lösungen mit starkem Abfall bei nachfolgender Lösung● Informationsmaße ↔ F max(Maximale F-Statistik)Auswahl von Lösung mit kleinstem Informationsmaß● Likelihood-Quotienten-Statistiken ↔ Bealsche F-WerteAuswahl der Lösung, die im Vergleich zu allen● vorausgehenden Lösungen signifikant ist● nachfolgenden Lösungen nicht signifikant ist(Zur Signifikanzprüfung sind Bootstrap-Verfahren zu empfehlen)45
Bootstrap-Verfahren● Lieferungen von Wahrscheinlichkeiten für Modellprüfgrößen● Statistiken besitzen keine Χ 2 -Verteilungen→ Approximative Eigenschaften nicht erfüllt→ Heute Bootstrap-Verfahren empfohlen statt Χ 2 -Statistiken46
Beispiel● Zweidimensional● Überlappende Klassen47
Noch Fragen?
Anhang
Literaturverzeichnis● Johann Bacher, Andreas Pöge, Knut Wenzig (2010): Clusteranalyse -Anwendungsorientierte Einführung in Klassifikationsverfahren.Oldenbourg Verlag München. ISBN 978-3-486-58457-8.● Stuart Russell, Peter Norvig (2004): Künstliche Intelligenz. PearsonStudium. ISBN 3-86894-098-7.● Bing Liu (2011): Web Data Mining – Exploring Hyperlinks, Contents,and Usage Data. Springer. ISBN 978-3-642-19459-7.● Rob Sullivan (2012): Introduction to Data Mining for the LifeSciences. Springer. ISBN 978-1-58829-942-0.● Ian H. Witten, Eibe Frank, Mark A. Hall (2011): Data Mining –Practical Machine Learning Tools and Techniques. MorganKaufmann. ISBN 978-0-12-374856-0.50
Literaturverzeichnis● Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihoodfrom Incomplete Data via the EM Algorithm". Journal of the RoyalStatistical Society, Series B 39 (1): 1–38. JSTOR 2984875. MR0501537.● Sundberg, Rolf (1974). "Maximum likelihood theory for incompletedata from an exponential family". Scandinavian Journal of Statistics 1(2): 49–58. JSTOR 4615553. MR 381110.● Rolf Sundberg. 1971. Maximum likelihood theory and applications fordistributions generated when observing a function of an exponentialfamily variable. Dissertation, Institute for Mathematical Statistics,Stockholm University.51
Literaturverzeichnis● Sundberg, Rolf (1976). "An iterative method for solution of thelikelihood equations for incomplete data from exponential families".Communications in Statistics – Simulation and Computation 5 (1):55–64. doi:10.1080/03610917608812007. MR 443190.● Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11.● G. Kulldorff. 1961. Contributions to the theory of estimation fromgrouped and partially grouped samples. Almqvist & Wiksell.● Anders Martin-Löf. 1963. "Utvärdering av livslängder isubnanosekundsområdet" ("Evaluation of sub-nanosecondlifetimes"). ("Sundberg formula")● Martin-Löf, Per The notion of redundancy and its use as a quantitativemeasure of the discrepancy between a statistical hypothesis and aset of observational data. Scand. J. Statist. 1 (1974), no. 1, 3–18.52
Literaturverzeichnis● Sundberg, Rolf (1976). "An iterative method for solution of thelikelihood equations for incomplete data from exponential families".Communications in Statistics – Simulation and Computation 5 (1):55–64. doi:10.1080/03610917608812007. MR 443190.● Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11.● G. Kulldorff. 1961. Contributions to the theory of estimation fromgrouped and partially grouped samples. Almqvist & Wiksell.● Anders Martin-Löf. 1963. "Utvärdering av livslängder isubnanosekundsområdet" ("Evaluation of sub-nanosecondlifetimes"). ("Sundberg formula")● Martin-Löf, Per The notion of redundancy and its use as a quantitativemeasure of the discrepancy between a statistical hypothesis and aset of observational data. Scand. J. Statist. 1 (1974), no. 1, 3–18.53
Literaturverzeichnis● Per Martin-Löf. 1966. Statistics from the point of view of statisticalmechanics. Lecture notes, Mathematical Institute, Aarhus University.("Sundberg formula" credited to Anders Martin-Löf).● Per Martin-Löf. 1970. Statistika Modeller (Statistical Models):Anteckningar från seminarier läsåret 1969–1970 (Notes fromseminars in the academic year 1969-1970), with the assistance ofRolf Sundberg. Stockholm University. ("Sundberg formula")● Wu, C. F. Jeff (Mar. 1983). "On the Convergence Properties of the EMAlgorithm". Annals of Statistics 11 (1): 95–103.doi:10.1214/aos/1176346060. JSTOR 2240463. MR 684867.54
Literaturverzeichnis● PMartin-Löf, P. The notion of redundancy and its use as a quantitativemeasure of the deviation between a statistical hypothesis and a set ofobservational data. With a discussion by F. Abildgård, A. P. Dempster,D. Basu, D. R. Cox, A. W. F. Edwards, D. A. Sprott, G. A. Barnard, O.Barndorff-Nielsen, J. D. Kalbfleisch and G. Rasch and a reply by theauthor. Proceedings of Conference on Foundational Questions inStatistical Inference (Aarhus, 1973), pp. 1–42. Memoirs, No. 1, Dept.Theoret. Statist., Inst. Math., Univ. Aarhus, Aarhus, 1974.55