10.07.2015 Aufrufe

Vortrag-Daniel.pdf

Vortrag-Daniel.pdf

Vortrag-Daniel.pdf

MEHR ANZEIGEN
WENIGER ANZEIGEN

Erfolgreiche ePaper selbst erstellen

Machen Sie aus Ihren PDF Publikationen ein blätterbares Flipbook mit unserer einzigartigen Google optimierten e-Paper Software.

Clustering BEM-AlgorithmusAutomatische Bestimmung der Clusteranzahl<strong>Daniel</strong> Birkmaier,Erlangen, 04.07.2013


Inhalt● EM-Algorithmus● Grundlegendes● Details● Anwendung● Beispiel● Automatische Bestimmung der Cluster-Anzahl● Grundlegendes● Χ 2 -Statistiken●●●ArtenPrüfgrößenBeziehungen zum k-Means-Algorithmus● Bootstrap-Verfahren● Beispiel2


EM-AlgorithmusGrundlegendes


Geschichte des EM-Algorithmus● 1974 Entdeckung durch GoodmanHäufige Verwendung von Autoren in bestimmten Spezialfällen● 1977 Verallgemeinerung der Konvergenzanalyse auf breitere Klassevon Problemen durch Dempster, Laird und Rubin→ Wichtiges Instrument für statische Analyse● 1983 Veröffentlichung korrekter, nicht exponentiellerKonvergenzanalyse durch Jeff Wu4


Erinnerung an den k-Means-Algorithmus● Schritt 1:Zufällige Zuordnung der Objekte zu k Clustern● Schritt 2:Berechnung der Cluster-Zentren mit arithmetischem Mittel● Schritt 3:Neuzuordnung der Objekte zum Cluster-Zentrum mit minimalereuklidischer Distanz● Schritt 4:IterationBei Änderung der Cluster-Zuordnung der ObjekteWiederholung ab Schritt 25


Unterschiede zwischen k-Means- und EM-Algorithmus● Verallgemeinerung des k-Means-Algorithmus(Ausnahme: TwoStep-Cluster)● Schritt 2: Berechnung der Klassenzentren und KlassenanteilswerteArithmetisches Mittel → Maximum-Likelihood-Schätzung● Schritt 3: KlassenzuordnungMinimale euklidische Distanz → Zuordnungswahrscheinlichkeit● Deterministische Zuordnung der Objekte zu den Klassen→ Probabilistische Zuordnung der Objekte zu den Klassen● Beschreibung und Interpretation einer Klassenlösung analog zu k-Means● Unterschiede kaum bei Klassenzentren, eher beiKlassenanteilswerten6


EM-Algorithmus● Schritt 1:Zufällige Zuordnung der Objekte zu k Clustern● Schritt 2:Berechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung● Schritt 3:Neuzuordnung der Objekte zum Cluster-Zentrum mit höchsterZuordnungswahrscheinlichkeit● Schritt 4:IterationBei Änderung der Cluster-Zuordnung der ObjekteWiederholung ab Schritt 27


Möglichkeiten der Beschreibung und Interpretationäquivalent k-Means-Algorithmus● Prüfung jeder Variable auf signifikanten Beitrag zur Klassentrennung(Streuung der Variablen und F-Wert)● Berechnung paarweiser Unterschiede von Klassen in den Variablen● Zusammenfassung von Variablen innerhalb einer Klasse zu Gruppen● Prüfung auf signifikante Abweichungen von den Gesamtmittelwertendurch Berechnung von z-Werten● Beschreibung und inhaltliche Validitätsprüfung durch● Deskriptionsvariablen● bi-/multivariate Verfahren8


Vorteile des EM-Algorithmus● Gute Vergleichbarkeit● Modellierbarkeit von Messfehlern in den Variablen● Kleinere Anfälligkeit für Verzerrungen durch irrelevante Variablen● Ermittlung von erwartungstreuen Schätzern für Cluster-Zentren● Formal besser begründete Maßzahlen für Bestimmung der Cluster-Zahl● Modellierung unterschiedlicher Variablentypen möglich9


Nachteile des EM-Algorithmus● Konvergente und stabile Lösungen benötigen größere Stichproben● Verletzung von zu treffenden Annahmen kann zu verzerrtenSchätzungen führen● Untersuchung der Identifikation des zu schätzenden Modells10


EM-AlgorithmusDetails


Konzept der lokalen Unabhängigkeit● Zentral für EM-Algorithmus● Modellvorstellung:● Grundstein der Daten: K latente/unbeobachtete Klassen● Erklärung der Zusammenhänge zwischen den untersuchtenmanifesten/beobachteten Variablen durch Klassen● Einführung der (latenten) Klassen als Kontrollvariablen in die Analyse→ Verschwinden der empirischen Zusammenhänge● Unabhängigkeit manifester Variablen innerhalb jeder Klasse12


Modellansatz● K latente Klassen● Paarweise Unabhängigkeit aller Variablen innerhalb jeder Klasse● Anteilswert π(k) jeder Klasse k an der Grundgesamtheit2● Normalverteilung mit einem Erwartungswert μ kjund der Varianz σ kjfür jede Klasse k und jede Variable j13


Normalverteilung der Variablen● Zusammensetzung des beobachteten Wertes x gjder Variablen X jeines Objekts g einer Klasse k:● Klassenmittelwert μ kj● Fehlerterm ε gj● ε gjist Realisierung einer normalverteilten Zufallsvariable ξ kj● Erwartungswert 02● Varianz σ kj● ξ kjpaarweise unabhängig: cov(ξ kj, ξ kj*) = 014


Grundlegende Stochastikwerte● Gesamtmittelwert für eine Variable:μ j= ∑k● Kovarianz zwischen zwei Variablen:σ jj∗ = ∑kπ (k )μ kj● Varianz einer Variablen:σ j 2 = σ jj= ∑kπ (k )(μ kj − μ j )(μ kj∗ − μ j∗)π (k )σ 2 kj+ ∑ π (k )(μ kj− μ j ) 2k15


Bedingte Wahrscheinlichkeiten● Bedingte Wahrscheinlichkeit für das Auftreten eines Objektes g mitbestimmtem Wert x gjfür die Variable j in der Klasse k:π (x gj ∣ k ) = ϕ(x gj ∣ μ kj , σ kj ) =● Bedingte Wahrscheinlichkeit für die Zugehörigkeit eines Objektes gzu einer Klasse k:π (g ∣ k ) = ∏jπ(x gj ∣ k )1√2πσ kje(x gj− μ kj ) 222 σ kj16


Maximum-Likelihood-Schätzung● Likelihood-Funktion L:L = ∏g∑k● Log-Likelihood-Funktion LL:LL = lnL = ∑gπ (k )π (g ∣ k )ln∑kπ (k )π (g ∣ k )● Schätzwertbestimmung durch Funktionsmaximierung17


EM-AlgorithmusAnwendung


Grundprinzip des EM-Algorithmus● Expectation-Schritt (E-Schritt):Abschätzung der Zuordnungswahrscheinlichkeiten π(k | g)Annahme: Modellparameter π(k), µ kjund σ kjsind gegeben● Maximization-Schritt (M-Schritt):Abschätzung der Modellparameter π(k), µ kjund σ kjAnnahme: Zuordnungswahrscheinlichkeiten π(k | g) sind gegeben19


EM-Algorithmus● Schritt 1:Zufällige Zuordnung der Objekte zu k Clustern● Schritt 2: E-SchrittBerechnung der Cluster-Zentren mit Maximum-Likelihood-Schätzung● Schritt 3: M-SchrittNeuzuordnung der Objekte zum Cluster-Zentrum mit höchsterZuordnungswahrscheinlichkeit● Schritt 4:IterationBei Änderung der Cluster-Zuordnung der ObjekteWiederholung ab Schritt 220


Annahme● Wahrscheinlichkeit für Auftreten einer Klasse bei Objekt g gegebenπ (k ∣ g )● Vorsicht!● Annahme entspricht nicht den Tatsachen● Nicht verwechseln mit der bisher verwendeten Wahrscheinlichkeit:π (g ∣k )21


Folgerung● Log-Likelihood-FunktionLL = ∑gln∑k● Vereinfachungπ (k ) π (g ∣ k )LL = ∑g= ∑g∑k∑kπ (k ∣ g )(lnπ(k ) + ln π (g ∣ k ))π (k ∣ g )( lnπ(k ) + ∑jlnπ( x gj ∣ k ) )22


Schätzung von π(k | g)● Satz von BayesP( A∣B ) =P (B∣ A)P( A)P(B)● Schätzung p(k | g) von π(k | g)p(k ∣ g ) =∑kp (k )p(g ∣ k )p (k )p (g ∣ k )23


EM-Algorithmus - Schritt 1● Berechnung oder Eingabe von Startwerten für● Modellparameteroder● Zuordnungswahrscheinlichkeiten(Bei Startwerten hierfür gehe zu Schritt 3)24


EM-Algorithmus - Schritt 2● Schätzung der Zuordnungswahrscheinlichkeiten π(k | g):p(k ∣ g ) =i● Hierbei gilt:∑kp(g ∣ k ) = ∏ijp (k ) p (g ∣k )i − 1 i − 1p (k ) p (g ∣k )i − 1 i − 1ϕ(p (x gj ∣ k ) = ∏ x gj ∣ ̄x , s kj)i − 1ji − 1 kj i − 1● Mittig tiefgestellter Index: Iterationszähler25


EM-Algorithmus - Schritt 3● Schätzung der Modellparameter π(k), µ kjund σ kjp(k ) =īx kj =is2 =i kj∑g∑g∑g∑gp (k ∣ g )inp (k ∣ g ) x gjipip (k ∣ g )i(k ∣ g ) (x gj − ̄x kj)2i∑gp(k ∣ g )i26


EM-Algorithmus - Schritt 4● Prüfung der KonvergenzAbbruch des Algorithmus unter folgenden Bedingungen:● Verbesserung der Log-Likelihood-Funktion unter Schwellenwert(zum Beispiel 10 -7 )und/oder● Maximale Abweichung aufeinanderfolgender Schätzwerte unterSchwellenwert (zum Beispiel 10 -4 )27


Anzahl zu schätzender ParameterAnzahlArtK - 1Klassenanteilswerte π(k)(Definition eines Anteilwertes durch Bedingung, dass dieSumme aller Werte gleich 1 ist.)Km Klassenzentren µ kj:Erwartungswerte jeder Variablen für jede KlasseKmKlassenvarianzen:Varianzen σ kj2jeder Variablen für jede KlasseK(1 + 2m) - 1 Gesamtzahl zu schätzender Parameter =: m K28


Überwachung der lokalen Unabhängigkeit● Abspeicherung der Klassenzuordnungswahrscheinlichkeiten p(k | g)● Berechnung einer Varianz-Kovarianz-Matrix W kfür jede Klasse(Gewichte: p(k | g))● Unabhängigkeit ↔ W kist Diagonalmatrix● Möglichkeiten:● Likelihood-Quotienten-Test● Bivariate Residuen29


Überwachung der Klassenüberlappungen● Große Beeinflussung der Konvergenz und Stabilität→ Überwachung sinnvoll● Gefahr für Instabilität ab bestimmtem Überlappungsanteil stark erhöht● Überwachungsmöglichkeiten:● Dichotomisierung der Zuordnungswahrscheinlichkeiten und Berechnungaller Ausprägungskombinationen(Schwelle: 1/K)● Fuzzy-Clustering-Messzahlen● Empirische Stabilitätsuntersuchungen30


Beispiel● Zweidimensional● Nicht überlappende Klassen31


EM-AlgorithmusAutomatische Bestimmung der Cluster-Anzahl


Grundprinzip● Ausführung des EM-Algorithmus● Für verschiedene Anzahlen von Klassen● Mit verschiedenen Startwerten je Klasse● Anwendung von● Χ 2 -Statistiken● Bootstrap-Verfahren● Berechnungen für jede Klassenanzahl K33


Χ 2 -Statistiken● Ausmaß der durch das Modell unerklärbaren Beziehungen zwischenden Variablen● Je größer die Statistik, desto schlechter das Modell34


Indikator-Variablen● Sichtbare Klassenvariablen yLatente Klassenvariablen● Unsichtbare Klassenvariablen xKovariaten● Variablen z mit direktem Einfluss auf● Indikator-Variablenund/oder● Latente Klassenvariablen35


Datenmuster● Für ein Datenmuster i* haben alle enthaltenen Fälle i dieselbenAusprägungen in den Indikatoren und Kovariaten● w i:= Fallgewicht● n i*:= Auftrittshäufigkeit des Datenmusters i*n i∗ = ∑ w ii ∈ i ∗36


Weitere Annahmen und Voraussetzungen● Kovariatenmuster wie bei Datenmuster i*u i∗● Fallanzahl für Kovariatenmusteru i∗n u i∗● Bedingte multinomiale Wahrscheinlichkeit für Datenmuster i* beiKovariatenmuster̂f (y i∗∣z i∗)● Erwartete Zellhäufigkeiten̂m i∗ = n ui ∗̂f (y i∗∣ z i∗)u i∗37


Χ 2 -Statistiken● Likelihood-Ratio-Χ 2 -StatistikI ∗L 2 = 2 ∑ n i∗ln n i ∗̂mi ∗ = 1i∗● Pearson-Χ 2 -StatistikI ∗Χ 2 = ∑i ∗ = 12n ∗îm i∗− n● Cressie-Read-Χ 2 -StatistikI ∗CR 2 = 1,8 ∑i ∗ = 1∗((n n i ∗ 3îm ∗)2i− 1)38


Anzahl Freiheitsgrade● Anzahl an beobachteten Indikatoren im Kovariatenmuster i*T u∗● Anzahl der Kategorien des t-ten beobachteten Indikators∗M ut● Anzahl FreiheitsgradeUdf = min( ∑ u = 1T u1) )∗(∏ M ∗ ut− , n − m Kt = 1Freiheitsgrade df beruhen auf der Stichprobengröße n, wenn dieAnzahl der unabhängigen Zellen in der hypothetischen Kreuztabellegrößer ist als die Stichprobengröße39


Informationsmaße - Likelihood-Funktion● Akaike-Informationsmaß: AIC KAIC K = L K 2 − 2df● Akaike-3-Informationsmaß: AIC3 KAIC3 K = L K 2 − 3 df● Bayes'sches Informationsmaß: BIC KBIC K = L K 2 − df ln n● Konsistentes Akaike-Informationsmaß: CAIC KCAIC K = L 2 K − df ln (n + 1)40


Informationsmaße - Problem● Ähnliche Ergebnisse bei Beurteilung eines Modellvergleichs● Große Anzahl Freiheitsgrade df→ Nicht verwertbare Ergebnisse möglich bei Berechnung mit L 2→ Notwendigkeit der Berechnung mit LLI ∗LL = ∑ w i ln ̂f (y i∗∣z i∗)i ∗ = 141


Informationsmaße - Log-Likelihood-Funktion● Akaike-Informationsmaß: AIC KAIC K = 2m K − LL K● Akaike-3-Informationsmaß: AIC3 KAIC3 K = 3m K − 2LL K● Bayes'sches Informationsmaß: BIC KBIC K = m K ln n − 2LL K● Konsistentes Akaike-Informationsmaß: CAIC K42CAIC K = m K ln (n + 1) − 2LL K


Unähnlichkeitsindex● Englisch: Dissimilarity IndexDI =n + ∑i ∗ = 1I ∗ (∣n i∗ − ̂m i∗∣− ̂m i∗)2n● Stärke der Abweichung der beobachteten und geschätztenZellhäufigkeiten voneinander● Für perfekte Modellanpassung zu verändernder Teil der Stichprobe43


Berechnungen für jede Klassenanzahl K● Prozentuelle Verbesserung zum Nullmodell: PV0 KPV0 K = 1 − ∣ LL K ∣∣LL 0 ∣● Prozentuelle Verbesserung zu vorausgehendem Modell: PV KPV K = 1 − ∣ LL K ∣∣LL K − 1 ∣● Informationsmaß● Unähnlichkeitsindex● Veraltet: Likelihood-Quotienten-Statistiken44


Beziehungen von EM- und k-Means-Modellprüfgrößen● PV0 K↔ η K2(Erklärte Streuung)Auswahl von Lösungen mit bestimmtem Mindestwert für PV0 K● PV K↔ PRE K(Prozentuale Verbesserung zu vorheriger Lösung)Auswahl von Lösungen mit starkem Abfall bei nachfolgender Lösung● Informationsmaße ↔ F max(Maximale F-Statistik)Auswahl von Lösung mit kleinstem Informationsmaß● Likelihood-Quotienten-Statistiken ↔ Bealsche F-WerteAuswahl der Lösung, die im Vergleich zu allen● vorausgehenden Lösungen signifikant ist● nachfolgenden Lösungen nicht signifikant ist(Zur Signifikanzprüfung sind Bootstrap-Verfahren zu empfehlen)45


Bootstrap-Verfahren● Lieferungen von Wahrscheinlichkeiten für Modellprüfgrößen● Statistiken besitzen keine Χ 2 -Verteilungen→ Approximative Eigenschaften nicht erfüllt→ Heute Bootstrap-Verfahren empfohlen statt Χ 2 -Statistiken46


Beispiel● Zweidimensional● Überlappende Klassen47


Noch Fragen?


Anhang


Literaturverzeichnis● Johann Bacher, Andreas Pöge, Knut Wenzig (2010): Clusteranalyse -Anwendungsorientierte Einführung in Klassifikationsverfahren.Oldenbourg Verlag München. ISBN 978-3-486-58457-8.● Stuart Russell, Peter Norvig (2004): Künstliche Intelligenz. PearsonStudium. ISBN 3-86894-098-7.● Bing Liu (2011): Web Data Mining – Exploring Hyperlinks, Contents,and Usage Data. Springer. ISBN 978-3-642-19459-7.● Rob Sullivan (2012): Introduction to Data Mining for the LifeSciences. Springer. ISBN 978-1-58829-942-0.● Ian H. Witten, Eibe Frank, Mark A. Hall (2011): Data Mining –Practical Machine Learning Tools and Techniques. MorganKaufmann. ISBN 978-0-12-374856-0.50


Literaturverzeichnis● Dempster, A.P.; Laird, N.M.; Rubin, D.B. (1977). "Maximum Likelihoodfrom Incomplete Data via the EM Algorithm". Journal of the RoyalStatistical Society, Series B 39 (1): 1–38. JSTOR 2984875. MR0501537.● Sundberg, Rolf (1974). "Maximum likelihood theory for incompletedata from an exponential family". Scandinavian Journal of Statistics 1(2): 49–58. JSTOR 4615553. MR 381110.● Rolf Sundberg. 1971. Maximum likelihood theory and applications fordistributions generated when observing a function of an exponentialfamily variable. Dissertation, Institute for Mathematical Statistics,Stockholm University.51


Literaturverzeichnis● Sundberg, Rolf (1976). "An iterative method for solution of thelikelihood equations for incomplete data from exponential families".Communications in Statistics – Simulation and Computation 5 (1):55–64. doi:10.1080/03610917608812007. MR 443190.● Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11.● G. Kulldorff. 1961. Contributions to the theory of estimation fromgrouped and partially grouped samples. Almqvist & Wiksell.● Anders Martin-Löf. 1963. "Utvärdering av livslängder isubnanosekundsområdet" ("Evaluation of sub-nanosecondlifetimes"). ("Sundberg formula")● Martin-Löf, Per The notion of redundancy and its use as a quantitativemeasure of the discrepancy between a statistical hypothesis and aset of observational data. Scand. J. Statist. 1 (1974), no. 1, 3–18.52


Literaturverzeichnis● Sundberg, Rolf (1976). "An iterative method for solution of thelikelihood equations for incomplete data from exponential families".Communications in Statistics – Simulation and Computation 5 (1):55–64. doi:10.1080/03610917608812007. MR 443190.● Danksagung von Dempster, Laird und Rubin: S. 3, 5 und 11.● G. Kulldorff. 1961. Contributions to the theory of estimation fromgrouped and partially grouped samples. Almqvist & Wiksell.● Anders Martin-Löf. 1963. "Utvärdering av livslängder isubnanosekundsområdet" ("Evaluation of sub-nanosecondlifetimes"). ("Sundberg formula")● Martin-Löf, Per The notion of redundancy and its use as a quantitativemeasure of the discrepancy between a statistical hypothesis and aset of observational data. Scand. J. Statist. 1 (1974), no. 1, 3–18.53


Literaturverzeichnis● Per Martin-Löf. 1966. Statistics from the point of view of statisticalmechanics. Lecture notes, Mathematical Institute, Aarhus University.("Sundberg formula" credited to Anders Martin-Löf).● Per Martin-Löf. 1970. Statistika Modeller (Statistical Models):Anteckningar från seminarier läsåret 1969–1970 (Notes fromseminars in the academic year 1969-1970), with the assistance ofRolf Sundberg. Stockholm University. ("Sundberg formula")● Wu, C. F. Jeff (Mar. 1983). "On the Convergence Properties of the EMAlgorithm". Annals of Statistics 11 (1): 95–103.doi:10.1214/aos/1176346060. JSTOR 2240463. MR 684867.54


Literaturverzeichnis● PMartin-Löf, P. The notion of redundancy and its use as a quantitativemeasure of the deviation between a statistical hypothesis and a set ofobservational data. With a discussion by F. Abildgård, A. P. Dempster,D. Basu, D. R. Cox, A. W. F. Edwards, D. A. Sprott, G. A. Barnard, O.Barndorff-Nielsen, J. D. Kalbfleisch and G. Rasch and a reply by theauthor. Proceedings of Conference on Foundational Questions inStatistical Inference (Aarhus, 1973), pp. 1–42. Memoirs, No. 1, Dept.Theoret. Statist., Inst. Math., Univ. Aarhus, Aarhus, 1974.55

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!