18.11.2013 Aufrufe

Konzeption und Realisierung einer exiblen Pipeline zur ...

Konzeption und Realisierung einer exiblen Pipeline zur ...

Konzeption und Realisierung einer exiblen Pipeline zur ...

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

InstitutfurComputergraphik FachbereichInformatik UniversitatRostock<br />

<strong>Konzeption</strong><strong>und</strong><strong>Realisierung</strong><strong>einer</strong> <strong>exiblen</strong><strong>Pipeline</strong><strong>zur</strong>numerischen Informationsvisualisierung Vorverarbeitunginder<br />

STUDIENARBEIT ThomasNocke von<br />

Betreuer:Prof.Dr.HeidrunSchumann MatthiasKreuseler<br />

Abgabedatum:7.Juli1999


Inhaltsverzeichnis<br />

1Einfuhrung<strong>und</strong>Motivation 2Begrie<strong>und</strong>Problemstellung 53<br />

3Theoretische<strong>Konzeption</strong>der<strong>Pipeline</strong> 3.1Praproze.............................10 3.2Festlegungderzugr<strong>und</strong>eliegendenMae............12 3.2.1ProximitatsmaefurObjekte..............12 9<br />

3.2.1.2Eigenschaften<strong>und</strong>AuswahlkriterienvonProximitatsmaen.................14<br />

3.2.1.1MathematischeDenitionderBegrieAhnlichkeit<strong>und</strong>Distanz..............12<br />

3.2.1.3BeispielefurProximitatsmae........16 3.2.1.4VorgehensweisenbeihybridenMerkmalen..28 3.2.1.5AnmerkungenzuProximitatsmaenzwischen 3.2.3Heterogenitats-<strong>und</strong>Homogenitatsmae........32 3.2.2ProximitatsmaezwischenObjektmengen.......31 3.2.4BestimmungvontypischenObjekten..........32 Objekten....................30<br />

3.3Klassikationstechniken.....................34 3.3.2Einteilungen,Auswahleigenschaften<strong>und</strong>Uberblick..34 3.3.1EinordnungderKlassikationindasmathematische 3.3.2.1DisjunkteVerfahren..............37 Umfeld..........................34<br />

3.3.3Interpretation<strong>und</strong>ValidierungdergewonnenenErgebnisse..........................51<br />

3.3.2.3HierarchischeKlassikation..........45 3.3.2.2NichtdisjunkteKlassikation.........43<br />

4InfoSonne-EinTool<strong>zur</strong>Vorverarbeitung 1 53


4.1Zugr<strong>und</strong>eliegendeDatenstrukturen...............53 4.1.1Gr<strong>und</strong>datenstrukturen..................54<br />

4.1.2DasDeskriptorkonzept..................56 4.1.1.2TriangleMatrix.................55 4.1.1.1VectorArray<strong>und</strong>Vector............54<br />

4.1.2.2DerNutzerDeskriptor.............58 4.1.2.1DerDatenDeskriptor.............57 4.1.1.3HierachyTree..................56<br />

4.2Umsetzungder<strong>Pipeline</strong>struktur.................58 4.2.1ImplementierteAlgorithmen<strong>und</strong>Verfahren......59 4.1.2.3DerProzessDeskriptor.............58<br />

5Fallbeispiele 5.1DerAutodatensatz........................62 5.2DerSchachspielerdatensatz...................67<br />

Literaturverzeichnis 6Zusammenfassung,Ergebnisse<strong>und</strong>Ausblick 71<br />

Tabellenverzeichnis 73 72<br />

Abbildungsverzeichnis Anhang 74<br />

ABeispieldatensatze A.2DerSchachspielerdatensatz...................77 A.1DerAutodatensatz........................75<br />

BDatendenitionen B.2DenitionderKlasseTriangleMatrix..............81 B.1DenitionderKlassenVector<strong>und</strong>VectorArray........79 B.3DenitionderKlassenHierachyTree,TreeIter<strong>und</strong>Node...82<br />

B.4DenitionderDeskriptoren...................86 B.5Denitionder<strong>Pipeline</strong>-Klasse..................91 B.6Die"Main\-Funktion-Ausfuhrungder<strong>Pipeline</strong>imCommandLineTool...........................92<br />

2


Kapitel1<br />

Einfuhrung<strong>und</strong>Motivation<br />

desInteresse,ihrHerrzuwerden,istUrsachedafur,daheuteimmerneue semitgeeignetenVisualisierungstechnikenfurdenMenschennutzbarzu Technikenentwickeltwerden,umKerninformationenzuextrahieren<strong>und</strong>die-<br />

EineimmergroerwerdendeInformationsut<strong>und</strong>einimmergroerwerdenverarbeitendeInformationsreduktionfurdieVisualisierungdurchzufuhren,<br />

groenDatenmengenunbefriedigend.IdeedieserArbeitistdaher,einevor-<br />

VisualisierungdergesamtenDatenmenge.Diesistjedochgeradebeisehr machen.ImUmfeldderwissenschaftlichenVisualisierungerfolgthaugeine<br />

wobeidiewesentlichenCharakteristikaderDatenerhaltenbleibensollen. stenVisualisierungstechnikenbeiderDarstellungsehrgroerDatenmengen Anordnung<strong>und</strong>geeigneterAttributierungfurdenBenutzeranschaulichdarzustellen,oderandersausgedruckt,komplexeinhaltlicheBeziehungenvisuell<br />

uberfordertsind.SiebesitzenzwardieFahigkeit,dieDatenmittelsvisueller DieNotwendigkeit<strong>einer</strong>Vorverarbeitungergibtsichdaraus,dadiemei-<br />

aufzudecken.JedochversagenvieleVisualisierungsansatzebeizugroenInformationsmengen,weildieNavigationsfahikeit<strong>und</strong>Ubersichtlichkeitder<br />

DatenobjektemitahnlichenEigenschaftenzusammenzufassen.Dasheit, EininteressanterAnsatzhierbeiist,mitHilfevonKlassikationstechniken werden.DiesesProblemkannwahrendderVorverarbeitunggelostwerden. Visualisierungstarkabnimmt,wennzuvieleDatengleichzeitigdargestellt<br />

dadieDatenmengeinmehrereKlassenmit"ahnlichen\Elementenaufgeteiltwird.DieseKlassenkonnendannmitdenVisualisierungsmechanismen<br />

desVisualisierungssystemsgetrenntdargestelltwerden<strong>und</strong>sind,weilessich BeidieserVorgehensweisemujedochsichergestelltwerden,damansich Detailinformationenverlorengehen. jetztumwesentlichkl<strong>einer</strong>eDatenmengenhandelt,besserzuuberblicken. jederzeitdieElemente<strong>einer</strong>Datenklasseanzeigenlassenkann,damitkeine onsaufbereitungmitdemSchwerpunktderClusteranalyse<strong>und</strong>Klassikation ZieldieserStudienarbeitistes,gr<strong>und</strong>legendeVerfahrenderInformati-<br />

3


AnwendunginderwissenschaftlichenInformationsvisualisierungrelevante vonObjektmengen1zuuntersuchen,ausdenuntersuchtenVerfahrenfurdie auszuwahlen<strong>und</strong>eineAuswahldieserVerfahrenin<strong>einer</strong>moglichst<strong>exiblen</strong> nesmodularaufgebauten<strong>und</strong>leichtumneueVerfahren<strong>und</strong>mathematische FunktionenerweiterbarenWerkzeugs,welchesalsVorverarbeitungsstufeeineskomplexenVisualisierungssystemsgenutztwerdensollrithmen<strong>und</strong>Maen<strong>einer</strong>ebensogroenVielzahlvonunterschiedlichenDatentypen<strong>und</strong>Klassikationszielengegenubersteht.Darausergibtsichdie<br />

Notwendigkeit<strong>einer</strong><strong>exiblen</strong>Steuerung,diebeibestimmtenAnforderun-<br />

DasGr<strong>und</strong>problemhierbeiist,daeineVielzahlvonVerfahren,Algo-<br />

Art<strong>und</strong>Weiseumzusetzen.PraktischesZielwardieImplementationei-<br />

auszukennenbraucht.UmdieseverschiedenenAnforderungenerfullenzu forderungenstellenzulassen,ohnedaersichmitdenAlgorithmendetails BenutzerunabhangigvonderAlgorithmenebeneAnfrageninFormvonAngenautomatischpassendeVerfahrenauswahlt<strong>und</strong>durchfuhrt.Zielist,denetwerden.GegenstandderArbeitistdie<strong>Konzeption</strong><strong>und</strong>Umsetzungdieser<br />

<strong>Pipeline</strong>. konnen,wurdeeinAblaufschemaentworfen,welchesdieDaten-<strong>und</strong>Steuerstromefestlegt.DiesesSchemasollals"Vorverarbeitungspipeline\bezeich-<br />

Teil(Kapitel2-3)erfolgtdieProblemeingrenzung<strong>und</strong>dieDenitionvon wichtigenBegrien.ImAnschluwerdendietheoretischenVoraussetzungenfurdiedreiHauptschritteder<strong>Pipeline</strong>,denPraproze,dieWahlder<br />

DieStrukturderArbeitorientiertsichandieser<strong>Pipeline</strong>.Imersten<br />

zugr<strong>und</strong>eliegendenMaesowiedieWahl<strong>und</strong>DurchfuhrungderKlassikation,gelegt.Vorallemgehtesdarum,Verfahren,Funktionen<strong>und</strong>Parameter<br />

dereinzelnen<strong>Pipeline</strong>schrittevorzustellen,umdieseexibel<strong>und</strong>optimalje nachDateneigenschaften<strong>und</strong>Untersuchungszieleinsetzenzukonnen.Die AusfuhrungenimerstenTeilreektiereninersterLiniebekannteAnsatze ausderLiteratur.DieseAnsatzesindvorallemausgangigenKlassikations-<br />

sind,istdieserTeilderArbeitausfuhrlicherabgefat. setztwerdenkann,dasieimUmfeld"Visualisierung\ausreichendbekannt lehrbuchernentnommen(vgl.[Boc74]<strong>und</strong>[BEPW96]).Weilnichtvorausge-<br />

KapitelerarbeitetenKonzeptebeschrieben.DortwerdendieimplementiertenVerfahren,derenexibleEinbindungin<strong>einer</strong>weiterbaresKonzept<strong>und</strong><br />

diedamiterzieltenErgebnissevorgestellt. ImzweitenTeil(Kapitel4-5)wirddieUmsetzungderimvorherigen<br />

sind,charakterisiert. 1ObjektewerdendurcheineMengevonEigenschaften,diefuralleObjektedeniert 4


Kapitel2<br />

Begrie<strong>und</strong>Problemstellung<br />

BevordieverschiedenenTechnikenvorgestelltwerden,isteswichtig,einigegr<strong>und</strong>legendeBegriezuklaren<strong>und</strong>dieProblemstellungdeutlicherzu<br />

Vorverarbeitungspipeline.Diesebeinhaltet,wieinKapitel1bereitsangedeutetwurde,diedreiHauptschrittederVorverarbeitung(Abb.2.A).Vor<br />

VorverarbeitungspipelineDenHauptfadendieserArbeitbildetdie umreien.<br />

Metadaten? Rohdaten<br />

Nutzeranforderungen ?<br />

? Praproze<br />

AuswahlderGr<strong>und</strong>mae<br />

?<br />

Auswahl<strong>und</strong>AusfuhrungdesKlassikationsverfahrens<br />

StrukturierteDaten ? <br />

Beginnder<strong>Pipeline</strong>verarbeitungliegenfolgendeInformationenvor: Abbildung2.A:VorverarbeitungspipelinefurdieVisualisierung<br />

Rohdaten(inForm<strong>einer</strong>MengevonObjektenmitbestimmtenMerk- 5


MetainformationenuberdieRohdaten(z.B.Datentyp,Gewichtung<br />

Nutzeranforderungen(steuernz.B.ArtderKlassikation<strong>und</strong>AnforderungenandasErgebnis)<br />

oderRelevanzvonMerkmalen)<br />

einPraproze,indemVorverarbeitungenaufdenRohdatendurchgefuhrt DiesebildendieGr<strong>und</strong>lagefurdie3Schritteder<strong>Pipeline</strong>.InSchritt1erfolgt werden.BeispielsweisekonntendieseDaten<strong>einer</strong>Normierungunterworfen werden.Schritt2beinhaltetdieWahlvonderKlassikationzugr<strong>und</strong>eliegendenMaenbzw.Verfahren<strong>und</strong>istVoraussetzungfurSchritt3,indem<br />

EingangsdatenfureinVisualisierungssystem. dieKlassikationderObjekteerfolgt.DiesogewonnenenDatensinddann tunghatSchritt3.UmdiesenSchrittgenauerbeschreibenzukonnen,soll des:EineMengeS=fO1;:::;ONgmitNObjektenbzw.Untersuchungsfallen zunachstdasKlassikationsproblem1erlautertwerden.Esbeinhaltetfolgen-<br />

DasKlassikationsproblemSchwerpunktbeider<strong>Pipeline</strong>verarbei-<br />

Klasse<strong>und</strong>unahnlicheObjekteinunterschiedlicheKlasseneinsortiertwerden.DabeisollensichmoglichsthomogeneKlassenbilden.Damiterhalzeichnetsind,sollderartinKlassen(bzw.Gruppen)AiS(mitA1[<br />

Ok,welchedurchAngabevonpSchlusseleigenschaften(Merkmalen)gekenn-<br />

A2;:::[Ak=S)aufgeteiltwerden,daahnlicheObjekteindiegleiche<br />

zudecken<strong>und</strong>Strukturenzuerkennen. maneineEinteilungderObjekte,diehilft,versteckteZusammenhangeaufverhaltzugr<strong>und</strong>eliegendenInformationen.Zumeinenmumansichbewut<br />

mitderKlassikationverb<strong>und</strong>eneInformationsreduktion,diemaningewissemSinneauchalsAbstraktionverstehenkann,verandertdiedemSach-<br />

AllerdingsistbeiderInformationsinterpretationVorsichtgeboten:Die<br />

sein,dabeiderReduktionInformationverlorengeht.Informationsreicher, jedochnichtfurdenMenscheninformativer,sinddieursprunglichenDaten. onsschemazusammenbetrachtetwerden.ZumzweitenbestehtdieGefahr, Gewinnstelltsichnurein,wennsowohlRohdatenalsauchdasKlassikati-<br />

werden2. dadurchdieWahlderVerfahrenoderdurchdiegewahltenParameterdie che\StrukturenverlorengehenodernichtvorhandeneStrukturenerzeugt InformationenderartvomBenutzerverzerrtwerdenkonnen,da"naturlial.Oftistesnichteindeutig,welcheKlassengebildetwerden.EsbestehtdasProblem,da<br />

beiVariationvonParameterndasErgebnishaugnichtmehrstabilist.(Gr<strong>und</strong>tendenzen konnenverwischtwerden) 2DieWahlderParameter<strong>und</strong>VerfahrenfurdieErzeugungvonGruppenistnichttrivi-<br />

1bzw.Gruppierungsproblem<br />

6


nendenDatenbestandesbekanntsein.AllgemeinsprichtmanvonKlassi- StrukturierungderDatenwieAnzahloderLagederZielklassendeszuordbeitungfureinVisualisierungssystemkonnenVorab-Informationenuberdie<br />

BegrieKlassikation<strong>und</strong>ClusterungImSzenarioderVorverar-<br />

vorhanden,sobezeichnetmandieVerfahrenmitautomatischeKlassikationbzw.Clusterung.DiesebeidenBegriesollenimfolgendensynonym<br />

kation,egalobsolcheInformationenvorliegenodernicht.Sindsienicht verwendetwerden.ImRahmendieserArbeitstehendieTechnikenausdem BereichderClusterungimVordergr<strong>und</strong>. NutzersolldieMoglichkeithaben,durchEinstellungvonKlassikationszielenArt<strong>und</strong>ParameterdereingesetztenVerfahrenzusteuern.Beispiel<br />

FlexibleautomatischeoderhalbautomatischeKlassikationDer hierfurwarenz.B.dieForderung<strong>einer</strong>VorextraktionvonAusreiernaus derKlassikationoderdieFormfestlegungvonsichbildendenClustern.Ziel<br />

imPrinzipjedochautomatisch,aufbereitenzulassen. VerfahrenabhangigvonVersuchsziel<strong>und</strong>moglicheneigenenKenntnissen, Lageversetztwird,sichdieInformationdurchAuswahlunterschiedlicher derImplementationistdementsprechend,daderNutzerdesSystemsindie<br />

Schlusseleigenschaftencharakterisiertwerden.FurdiecomputerunterstutzteKlassikationmussendieseObjekte<strong>und</strong>Schlusseleigenschaftenineine<br />

umeineMengevonObjekten(bzw.Untersuchungsfallen)Ok,diedurchp ArtderDatenWieobenbereitserwahnt,handeltessichbeidenDaten<br />

zahlenquantizierbareFormuberfuhrbarsein,wasdurchausnichtimmer moglichist.WenndieDateninForm<strong>einer</strong>TabellewieinTabelle2.avorliegen,sprichtmanvon<strong>einer</strong>Objekt-Merkmals-Matrix.VonDatendieserArt<br />

KarolineHaarfarbe (ordinal)(nominal)(intervall- Groe skaliert) Alter skaliert) (ratio- Groe Geschlecht<br />

Robert rot klein 14 1,50m (ordinal<br />

Ivonne schwarz blond mittel gro 22 24 1,95m 1,65m mannlich weiblich binar)<br />

sollimweiterenVerlaufderAusfuhrungenausgegangenwerden.Formalausgedrucktbedeutetdas,dafurjedesObjektOk2SeinVektorxk2Rp<br />

Tabelle2.a:Objekt-Merkmals-MatrixmitunterschiedlichenSkalentypen<br />

dieOkenthalt.EineaquivalenteDarstellungderObjektinformationenstellt bekanntist,welcherdieMerkmalsauspragungendereinzelnenMerkmalefur dieNp-Objekt-Merkmals-Matrix(xki)dar,welchesichauchinForm<strong>einer</strong>Tabelledarstellenlat.DieZeilenderTabelleentsprechendenObjekten<br />

<strong>und</strong>dieSpaltendenEigenschaften(bzw.AttributenoderMerkmalen)der Objekte. SkalentypenGr<strong>und</strong>satzlichunterscheidetmanvierSkalentypen,inde- 7


nendieEigenschaftenwertevorliegenkonnen.DassinddieNominal-,die Ordinal-,dieIntervall-<strong>und</strong>dieRatioskala.NominalskalensindEinteilungen qualitativerEigenschaftsauspragungohneOrdung.BeipielhierfuristSpalte<br />

deniert.DieserkommterstbeiderIntervallskala(Spalte3Abb.2.a)hinzu.BeiihrerfolgteinegleichmaigeEinteilungderMeskalaingleichgroe<br />

Skalenabschnitte.BeidenIntervallskalenbesitzendieDierenzenzwischen denDatenimGegensatzzuNominal-<strong>und</strong>OrdinalskalenInformationsgehalt. weichung,abernichtdieDivision.BeiderRatioskala(oderVerhaltnisskala) IntervallskalierteDatenerlaubendiearithmetischenOperationenAddition <strong>und</strong>Subtraktion<strong>und</strong>diestatistischenMaeMittelwert<strong>und</strong>Standardab-<br />

kommtnocheinnaturlicherNullpunkthinzu,andemsichdasentsprechendeMerkmalals"nichtvorhanden\interpretierenlat.BeiDatendieserArt<br />

besitztauchdasVerhaltnisInformationsgehalt.SiekonnenmitOperationenallerArtmanipuliertwerden(Spalte4Abb.2.a).Auerdemoftvon<br />

BedeutungsindalsSpezialfallvonordinal-odernominalskaliertenMerk-<br />

mannlich<strong>und</strong>weiblich-annehmenkonnen(Spalte5Abb.2.a). malenbinareMerkmale,dienurzweiunterschiedlicheAuspragungen-z.B.<br />

dochnochkeinexakterAbstandzwischendenEigenschaftensauspragungen RangordungmitHilfevonRangwerten(Spalte2Abb.2.a).Hierbeiistje-<br />

1derAbb.2.a.DieOrdinalskalaerlaubtzusatzlichdieAufstellung<strong>einer</strong><br />

scheidendeBedeutungzu,wennmansieunterdemGesichtspunktvonAhn-<br />

lichkeit/Unahnlichkeitbzw.Distanz/NahevonObjektenbetrachtet.Ahn-<br />

gefuhrtenErlauterungenuberSkalentypenvonMerkmalenkommteineent-<br />

MaefurdieKlassikationDenimvorhergehendenAbsatzauslichkeitenbzw.DistanzensindzumeistVoraussetzungenfurdieKlassikation,weilObjektedurchsieerstvergleichbarwerden.Wichtigistdierichtige<br />

WahlderfurdieSkalentypenderMerkmalepassendenAhnlichkeits-bzw. DistanzmaeberechnendieDistanzzwischenzweiObjekten.Distanz-<strong>und</strong> chen.AhnlichkeitsmaeberechnendieAhnlichkeitzwischenzweiObjekten; Distanzmae3,umnichtbereitshierFehlerinderKlassikationzuma-<br />

DieexakteDenitiondieserMaeerfolgtinKapitel3.2.1. jekten<strong>einer</strong>Klasse4<strong>und</strong>auchdenAbstandbzw.dieAhnlichkeitvonun-<br />

terschiedlichenKlassenzuformalisieren,umdamitberechenbareMaeals KriterienfurdieKlassikationzuhaben(s.Kapitel3.2.2<strong>und</strong>3.2.3). Weiterhinistesnotwendig,dieHomogenitatoderHeterogenitatvonOb-<br />

AhlichkeitsmaewerdenimfolgendenauchalsProxymitatsmaebezeichnet.<br />

zweiObjektenineinezahlenquantizierbareForm,umsierechentechnischverarbeitenzu konnen. 3Ahnlichkeitsmaebzw.DistanzmaebringendieAhnlichkeitbzw.Distanzzwischen<br />

wieunahnlichsiesichimmittelsind. imMittelsindbzw.wiegutsiezusammenpassen.Heterogenitatbedeutetentsprechend, 4Homogenitatinnerhalb<strong>einer</strong>Klassebedeutet,wieahnlichsichdieObjekte<strong>einer</strong>Klasse<br />

8


Kapitel3<br />

<strong>Pipeline</strong> Theoretische<strong>Konzeption</strong>der<br />

IndiesemKapitelwirddieinKapitel2vorgestellteVorverarbeitungspipelineunterdemAspektder<strong>exiblen</strong>SteuerungauskonzeptionellerSicht<br />

sindVoraussetzungfurdiepraktischeUmsetzung(Kapitel4).Hauptaugenmerkliegthierbeidarauf,eineUbersichtubervorhandeneTechniken(z.B.<br />

beleuchtet.DieseBetrachtungen,dieauf<strong>einer</strong>Literaturrecherchebasieren,<br />

verschaen,welcheTechnikwanngenutztwerdensollte.Schwerpunktesind aufzufuhren<strong>und</strong>anhandderEigenschaftendemLesereineUbersichtzu rakterisierungvonTechnikenvorzustellen,wichtigeTechnikenexemplarisch Mae<strong>und</strong>Verfahren)zuerstellen,diewichtigstenEigenschaften<strong>zur</strong>Cha-<br />

eigentlichenKlassikationstechnikenvorstellt. denMaemitihrenEigenschaftendiskutiert<strong>und</strong>Abschnitt3.3,derdie Abschnitt3.2,welcherdieverschiedenenderKlassikationzugr<strong>und</strong>eliegen-<br />

werden.WelcherArtdieseUberlegungenseinkonnten,wirdindenfolgenden legungenzudenDaten<strong>und</strong>denerwunschtenKlassikationszielengemacht KapitelninFormvonFragenoderzubeachtendenEigenschaftenbeschrie-<br />

BevormaneineKlassikationdurchfuhrt,solltengr<strong>und</strong>legendeUberben.EinBeispielfurFragenallgem<strong>einer</strong>Natur,dienichtspeziellen<strong>Pipeline</strong>schrittenzugeordnetwerdenkonnen,wiediefolgende,solltevorBeginn<br />

IstdieZahlderObjektefureineKlassikationausreichend? HandeltessichumeineStichprobeaus<strong>einer</strong>groerenGr<strong>und</strong>gesamtheit<strong>und</strong>sollenaufgr<strong>und</strong>derAnalyseRuckschlusseaufdieGr<strong>und</strong>gesamtheitgezogenwerden,soisteswichtig,dagenugendElemen-<br />

eingeschrankt. teausdeneinzelnenTeilgesamtheitenerhobenwurden.Istdiesnicht vollstandigderFall,soistauchdieInterpretierbarkeitderErgebnisse<br />

der<strong>Pipeline</strong>ausfuhrunguberdachtwerden:<br />

9


DieserAbschnittentsprichtdemerstenSchrittderVorverarbeitungspipeline.UnterdemBegriPraprozesollendabeialledieVerfahrenverstanden<br />

Praproze 3.1<br />

Fragen,diesichdemNutzerstellen,werdentypischeVorverarbeitungsschrittevorgestellt:<br />

nochbevordieeigentlicheClusteranalysedurchgefuhrtwird.InFormvon werden,welchederAuswahl<strong>und</strong>AufbereitungderAusgangsdatendienen,<br />

SollenAusreiereleminiertwerden?Damanimallg.nichtwei, welche<strong>und</strong>wievieleKlassensichbilden,solltemanimFalle<strong>einer</strong> Stichprobe"Ausreier1\vorherausderKlassikationentfernen.Diese gen,diehierarchischeSingle-Linkage-Klassikation(s.Kapitel3.3.2.3) konntensonstdieKlassikationverzerrenoderdieubrigenObjektezu ineinemausreierentfernendenLaufvorzuschalten<strong>und</strong>dancherstdie starkbeeinussen.AlsMethodehierfurwirdin[BEPW96]vorgeschla-<br />

eigentlicheClusterungdurchzufuhren.AlternativwaredieFestlegung<br />

derlichenAusreierbeachtungeinKlassikationsverfahrenzuwahlen, <strong>einer</strong>Abstandsschranke.AlsAusreiergeltendannalledieObjekte, alsdieseSchranke.In[Boc74]wirdvorgeschlagen,imFall<strong>einer</strong>erfor-<br />

diedurchgangigeinehohereDistanzzuallenanderenObjektenhaben<br />

MussengleicheObjekteausgeschlossenwerden?FureinigeVer-<br />

welcheseine"nichtexhaustive\ClusterungimVerfahrenintegriert fahrenisteswichtig,dakeinezweigleichenObjekteinderObjekt-<br />

mengeSvorliegen,weildiesedenAbstandNullhabenwurden<strong>und</strong> diesnichterlaubtist.Allgemeinistallerdingszubeachten,damehrereObjektemitgleichenMerkmalenauchanzeigenkonnen,daan<br />

durchfuhrt.<br />

SollenalleMerkmaleindieKlassikationeinieen?EbensowiefurdieAnzahlderheranzuziehendenObjektegibtesaucfachauftretenwichtensiesoeineKlassestarker,wasdurchausvon<br />

Bedeutungseinkann. dieserStelleeinestarkeObjektkonzentrationvorliegt.MitdemMehrmalebeiderGruppierungberucksichtigtwerden,dieaustheoretischen<strong>und</strong>praktischenGr<strong>und</strong>enalsrelevantfurdenzuuntersuchenden<br />

Sachverhaltanzusehensind.Merkmale,diefurdenGruppierungsprozealsbedeutungslosgelten,solltenvorherentferntwerden.Darunteschriften.DerAnwendersolltedaraufachten,danursolcheMerk-<br />

furdieZahldereinzubeziehendenMerkmalekeineeindeutigenVor-<br />

1AusreiersindsehrunahnlichzuallenanderenObjekten. tungsschritt.Weiterhinkannmanbeispielsweisebeizweisehrhoch-<br />

korreliertenMerkmalen(Korrelation>0:9)direkteinesderbeiden falltz.B.dieEntfernungkonstanterMerkmaleineinemVorverarbei-<br />

10


MerkmaleineinemPraprozeschritteliminieren.Weiterhingibtes eineVielzahlvonProjektionsmethoden,welcheeinevorverarbeitendeMerkmalsreduktionbeiratioskaliertenMerkmalenineinenUnterraumdurchfuhren.BeispielehierfursinddieHauptkomponentenmethode<strong>und</strong>dieFaktoranalyse([Boc74]S.237-248u.[BEPW96]S.189<br />

SollendieMerkmaleunterschiedlichgewichtetwerden?Inder ). Regellatsichimvorausnichtbestimmen,obdiebetrachtetenMerkmalemitunterschiedlichenGewichtenindieKlassikationeinieen<br />

sollten.PraktischwirddeswegenmeistenseineGleichgewichtungder Merkmaleunterstellt.Hierbeizubeachtenist,dadurchhochkorrelierteMerkmalebestimmteAspektebeiderKlassikationuberbetont<br />

werden,waszu<strong>einer</strong>VerzerrungderErgebnissefuhrenkann.Wieoben bereitserwahntwurde,bestehtdieMoglichkeit,z.B.eineexplorative Faktorendurchzufuhren.EineandereMoglichkeitist,Maezuverwenden,dieetwaigeKorrelationenzwischendenMerkmalenbeachten(s.<br />

inKapitel3.2.1z.B.MAHALANOBIS-Distanz(3.45)). derMerkmalekanneskommen,wenndieDatenaufunterschiedli-<br />

Faktorenanalyse<strong>zur</strong>ReduktionkorrelierterVariablenaufunabhangige<br />

SinddieMerkmalevergleichbar?Zu<strong>einer</strong>implizitenWichtung<br />

dardisierungderWertejedesMerkmalsaufdasIntervall(0;1) Standardisierungdurchgefuhrtwerden.MoglichkeithiersinddieStanchenSkalenniveauserhobenwurden.UmdieseunterschiedlichenMerkmalsauspragungenvergleichbarzumachen,kanneinevorverarbeitende<br />

mit ~xki:=xki?zi ui?zi i=1;:::;pk=1;:::;N (3.1)<br />

WeiterhinkannmanauchaufdenMittelwert0<strong>und</strong>dieVarianz1 normieren:~xki:=xki?xi<br />

zi:=minfxkig; ui:=maxfxkig:<br />

mit ^i i=1;:::;pk=1;:::;N (3.2)<br />

^i:=vut1NNXk=1(xki?xi)2 xi:=1NNXk=1xki<strong>und</strong><br />

11 (3.3)


Schritt2derVorverarbeitungspipelinebeinhaltetdieAuswahlvonAhnlichkeits-,Distanz-,Heterogenitats-<strong>und</strong>HomogenitatsmaensowiedieAuswahl<br />

Festlegungderzugr<strong>und</strong>eliegendenMae 3.2<br />

eineEntscheidungsunterstutzungbeiderAuswahlvongeeignetenMaen pitelgr<strong>und</strong>legendeEigenschaftendieserMaebzw.Verfahrenvorstellen,um vonVerfahren<strong>zur</strong>BestimmungtypischerObjekte.DeswegensolldiesesKa-<br />

bzw.Verfahrenzuerhalten.DieseerfolgtinAbhangigkeitdervomNutzerfestgelegtenAnforderungenandieClusterung,inAbhangigkeitvonden<br />

SkalentypenderDaten<strong>und</strong>andieErfordernissedeseingesetztenClusterungsverfahrens2nitatsmae,wiehomogenbzw.heterogeneineObjektmengeist.Zusatzlich<br />

istesebenfallssinnvoll,Ahnlichkeitenbzw.DistanzenzwischenObjektgrup-<br />

WahrendProximitatsmaeersteinmalAhnlichkeitenoderDistanzen zwischenzweiObjektenbestimmen,ermittelnHomogenitats-<strong>und</strong>Heterogepenzudenieren.FureinigeVerfahrenistesweiterhinerforderlich,typische<br />

liegtaufderUntersuchungvonProximitatsmaen,dadiesemeistGr<strong>und</strong>lage Objekte<strong>einer</strong>Objektmengezubestimmen.SchwerpunktderBetrachtungen<br />

Verfahrennurausschnitthaftsein.FurweitereMaebzw.Verfahren<strong>und</strong> furdieanderenMae<strong>und</strong>Verfahrensind. vertiefendeBetrachtungenseihiervorallemauf[Boc74]<strong>und</strong>[BEPW96] verwiesen. ImRahmendieserArbeitkanndieListederbetrachtetenMaebzw.<br />

3.2.1ProximitatsmaefurObjekte mitatsmaenvorgestellt<strong>und</strong>dannfurdieAuswahlrelevanteEigenschaften angegebenwerden.AlsnachsteserfolgtdieVorstellungvonwichtigenMaen IndiesemAbschnittsollenzuerstgr<strong>und</strong>legendeEigenschaftenvonProxi-<br />

<strong>und</strong>derenEigenschaftenfurdiewichtigstenSkalentypen(binar,ordinal<strong>und</strong> nominalmehrstug<strong>und</strong>ratioskaliert).PraktischwichtigsinddiediesesKapitelabschlieendenBemerkungenzuStrategienbeimVorgehenimFallvon<br />

hybridenMerkmalstypen.DiehiergemachtenAusfuhrungenbeziehensich vorallemauf[Boc74]S.24-80,weildortinderuntersuchtenLiteraturam ausfuhrlichsten<strong>und</strong>systematischstenaufdasProblemderProximitatsmae eingegangenwurde. 3.2.1.1MathematischeDenitionderBegrieAhnlichkeit<strong>und</strong> ImGegensatz<strong>zur</strong>intuitivenalltaglichenVorstellungvon"ahnlichen\<strong>und</strong> "unahnlichen\Dingen,bedarfesbeidercomputerbasiertenInformationsver- Distanz<br />

2Dieseskannz.B.nurmitHeterogenitatsmaenarbeiten. 12


Objekteoder(Untersuchungs-)FallemiteinemexaktenZahlenwertangibt. arbeitungderformalisiertenAhnlichkeitsjk,welchedieAhnlichkeitzweier DieserZahlenwertvariertublicherweisekontinuierlichzwischen0(kleinste gilt: schaftenvonsjkangeben,indemmanfordert,da8j;kmit1j;kN Ahnlichkeit)<strong>und</strong>1(groteAhnlichkeit).FormalisiertkannmandieEigen-<br />

skj=sjk(Symmetrie) sjksjj sjk0 (3.5) (3.4)<br />

DiedurchdiesesMabestimmteNN-Matrix(sjk)wirdalsAhnlichkeitsmatrixderObjektmengeS=fO1;:::;ONgbezeichnettenmittelsderreelenZahldjkangeben.Siehat8j;k:1j;kNdie<br />

Eigenschaften AnaloglatsichdieUnahnlichkeitbzw.DistanzzwischenzweiObjek-<br />

sjj=1 (3.7) (3.6)<br />

<strong>und</strong> dkj=djk(Symmetrie), djk0 djj=0: (3.10) (3.9) (3.8)<br />

Bedingung DieMatrixdjkheitdannDistanzmatrix3.Weiterhinistessinnvoll,die<br />

aufzunehmen4.Diesebedeutet,dawennzweiObjektedenAbstand0besitzen,siezuallenanderenObjektendengleichenAbstandbesitzen.Im<br />

djk=0)dij=dik8i;j;k (3.11)<br />

GegensatzzuanderenBereichenderMathematikmueinDistanzmahier<br />

nichtfurallei,j<strong>und</strong>kerfulltseinmu.AllerdingswerdenmetrischeDistanzmaeinderPraxishaugangewendet.<br />

djkdij+djk (3.12) nichtimmermetrischsein,d.h.,dadieDreiecksungleichung<br />

zudenebengemachtenBetrachtungennichtdieexaktenWertedjkbzwsjk erforderlichbzw.diesegarnichtbekanntsind,sondernnurdieReihenfolge derdjk:dj1k1dj2k2:::djfkf(analogbeisjk)benotigtwird.Solche Erwahntseihier,dabeieinigenKlassikationsverfahrenimUnterschied<br />

metrie). stanzmatrizenzuverwenden(EinsparungvonNeuberechnungen<strong>und</strong>NutzungderSym-<br />

Ahnlichkeits-oderDistanzreihenfolgenheieninduziertePraordnungen.<br />

4(3.11)istfurdiemeistenVerfahrenerfullt. 3ImallgemeinenistesfurdiepraktischeUmsetzungeektiver,Ahnlichkeits-<strong>und</strong>Di-<br />

13


InderPraxiseingesetztwerdenzahlreichekonkurrierendeAhnlichkeit-<strong>und</strong> 3.2.1.2Eigenschaften<strong>und</strong>AuswahlkriterienvonProximitatsma-<br />

Distanzbestimmungsmethoden,dieaufempirischenUberlegungenberuhen en<br />

teneineMethodeals"bessere\imVergleichzu<strong>einer</strong>anderenbezeichnet oderdermathematischenStatistikentlehntwurden.Dabeikannnursel-<br />

werden.PrinzipiellmusichdieAuswahlnachdenErfordernissendesprak-<br />

Gesichtspunkteangefuhrtwerden,diealsGroborientierungbeiderMaauswahldienenkonnen:<br />

1.InvarianzeigenschaftenvonMaen bzw.AhnlichkeitenzwischenzweiObjektenbeibestimmtenArtenvon Datentransformationennichtandern. DiewichtigstenInvarianzenfurratioskalierteMerkmalsvektorensind InvarianzeinesProximitatsmaesbedeutet,dasichdieDistanzen<br />

tischenFallesrichten(Nutzerwissen<strong>und</strong>-anforderungen)<strong>und</strong>dierealeBe-<br />

deutungderDatenbeachten(Metadateneinbeziehen).Imfolgendensollen<br />

malefurdieresultierendeAhnlichkeitbzw.Distanzunerheblichist5. dieSkaleninvarianz<strong>und</strong>dieTranslationsinvarianz.DieSkaleninvarianz<br />

dabeiVerschiebungderWerteeinesMerkmalsumeinenkonstanten DieTranslationsinvarianzeinesProximitatsmaeshingegenbedeutet, beinhaltet,dadieGroenordnung(Maeinheit)dereinzelnenMerk-<br />

BetragsichdieAhnlichkeitenbzw.Distanzenebenfallsnichtandern. ImpraktischenFallistesentscheidend,dadieeinzelnenMerkmale<br />

essichumeinMa,danichtskalen-<strong>und</strong>translationsinvariantist,bedarfes<strong>einer</strong>NormierungderDatenindeneinzelnenDimensionen(s.<br />

ansonstenDimensionenmitgroerenAbsolutwertenbeiderDistanzbzw.Ahnlichkeitsberechnunghohergewichtetwerdenwurden.Handelt<br />

derObjektvektoren(Merkmalsauspragungen)vergleichbarsind,weil<br />

Kapitel3.1),umdieGleichgewichtungderDatenzusichern. BedeutungfurdieAuswahlvonbinarenMerkmalenhatdieVertauschungsinvarianz.Diesebeinhaltet,dademVorhandenseineinesMerkmalsbeibeidenObjektendiegleicheGewichtungfurdasProximitatsmazukommtwiedemNichtvorhandenseindiesesMerkmalsbeibei-<br />

WeiterhinkannmansichnaturlichauchweitereInvarianzenvorstellen, wiez.B.dieRotationsinvarianz.Allgemeinisteswichtig,dabeijeder spielefurProximitatsmae-BinareMerkmale\)gegeben. den.NahereErlauterungendazuwerdeninAbschnitt3.2.1.3.1("Bei-<br />

Ahnlichkeitbzw.Distanzbleibtgleich 5d.h.mankannbeliebigesMerkmalmitbeliebigemFaktor6=0multiplizieren<strong>und</strong>die TransformationderDatendiedurchdiepraktischeFragestellunggegebenenAhnlichkeitseigenschaftennichtverandertwerden<strong>und</strong>damit<br />

14


dieGruppenstrukturderObjekteunverandertbleibt.Eininvariantes<br />

2.GroeoderTendenz Informationen. Maerfatalle<strong>zur</strong>Klassikationrelevante,aberkeineuberussigen<br />

maletrotzunterschiedlicherGroenordnungenbeiderBerechnungdes lationsinvarianzvorgestellt.Diesesichernab,daunterschiedlicheMerk-<br />

ImvorherigenAbschnittwurdendieEigenschaftenSkalen-<strong>und</strong>Transschenswerterscheint.EineandereGr<strong>und</strong>fragebeiderAuswahlist,ob<br />

zwischenzweiObjektenoderdieTendenz(ahnlichesVerhaltnisder furdasErgebnisderKlassikationentwederdieGroenunterschiede Ahnlichkeits-bzw.Distanzwertesgleichgewichtetsind,fallsdieswun-<br />

KomponentenVektorenxj<strong>und</strong>xk)ausschlagebendsind.Sokonnten beispielsweisezweiVektoren<br />

beieinemProximitatsma,dasGroenordnungenbeachtet,sehrweit xj=0@121 1 Axk=0@676 1 A (3.13)<br />

3.AbhangigkeitvondergesamtenObjektmenge auseinanderliegen.BeieinemtendenziosenMasinddiebeidenim<br />

VieleMaesjk=s(xj;xk)bzw.djk=d(xj;xk)hangenausschlielich Gegensatzdazusehrahnlich.<br />

globaleStrukturderDatenmengefx1;:::;xNg.DieseVorgehenswei-<br />

vondenbeidenVektorenxj<strong>und</strong>xkab<strong>und</strong>berucksichtigennichtdie seistjedochnichtimmerangemessen.Willmanz.B.dieAbhangig-<br />

keit(Korrelation)derpMerkamleberucksichtigen,sobedarfesder SchatzungdieserAbhangigkeit.Diesekann(wieschonbeidenInva-<br />

(s.Kapitel3.1).EsbestehtjedochdieMoglichkeit,dieSchatzungdirianzen)ineinemVorverarbeitungsschrittaufdenRohdatendurchgefuhrt<strong>und</strong>dieDatenanschlieendentsprechendmanipuliertwerden<br />

s(xj;xk;fx1;:::;xNg). cherArthangendannvonallenNVektorenx1;:::;xNab:sjk= rektbeiderBestimmungvonsjkbzw.djkzuverwenden.Maesol-<br />

4.StochastischeEigenschaftenderDaten AlsletzterPunktseihierangefuhrt,dabeiderWahldesProximitatsmaesebenfallszubeachtenist,obdieDatenvonzufalligenMefehlernbehaftetsind,innerhalbderunbekanntenObjektklasseneine<br />

6NichtalleFalle/Objekte,sondernnureinAusschnitt,wurdenerfat schnittaus<strong>einer</strong>groerenGr<strong>und</strong>gesamtheitsind6.IndiesenFallen naturlicheMerkmalsstreuungauftrittoderdieObjektenureinAus-<br />

15


sindMaesinnvoll,welchediestochastischenEigenschaftenderDaten ingeeigneterWeiseberucksichtigen.MansiehtbeiihnendieObjektvektorenxk2Rdannals<strong>Realisierung</strong>vonNp-dimensionalenZufallsvektorenan.DamitsindauchdieausihnenberechnetenAhnlichkeiten<br />

nichttrivial. derObjekteabhangt.DasA<strong>und</strong>ensolcherVerteilungenisti.allg. WahrscheinlichkeitsverteilungvonArt<strong>und</strong>AusmaderGruppierung sjk=s(xj;xk)bzw.Distanzendjk=d(xj;xk)Zufallsgroen,deren<br />

maeninderPraxisvorliegt.OftistesvonBedeutung,denUnterschied zwischenmehrerenfurdieObjektmengefO1;:::;ONginBetrachtkommendenMaenzubestimmen.AlseinheitlicheVergleichsbasisbenutztwerden<br />

die?N2Dierenzendjk?jk.Angewandtwerdender-Abstand<br />

DieunterschiedlichenEigenschaftenzeigen,welcheVielfaltanProximitats-<br />

<strong>und</strong>dasMa (d;):=[12NX j;k=1jdjk?jkj]1; (3.14)<br />

beidemnurrelativeDierenzenbetrachtetwerden,<strong>und</strong>derempirischen rd(d;):=Xj


gestelltwerden.AusgehendvonderKontingenztafelwerdendanndieEivarianteaufgefuhrt.DanachwirdkurzaufMaeeingegangen,welcheMerkgenschaftenderSymmetrie<strong>und</strong>derVertauschungsinvarianzfurAhnlichkeitsmaedeniert<strong>und</strong>anschlieendBeispielefurinvariante<strong>und</strong>nichtinmalshaugkeitenbeachten.AbschlieendsolldieGr<strong>und</strong>ideevonprobabilistischenAhnlichkeitsmaenaufbinarenMerkmalendargelegtwerden.<br />

"Anwesenheit\<strong>und</strong>"Abwesenheit\desMerkmalsinterpretieren.BeidenfolgendenBetrachtungenwirdvorausgesetzt,daallepMerkmaleM1;:::;Mp<br />

BinareMerkmalesindMerkmalemitzweiAlternativen.DiebeidenAuspragungen"0\<strong>und</strong>"1\(inderinternenCodierung)lassensichmeistensals<br />

binarsind<strong>und</strong>damitnurnurdieWerte"0\oder"1\inderDatenmatrix stehen. zahlenubereinstimmender<strong>und</strong>nichtubereinstimmenderKomponentender Vektorenxj<strong>und</strong>xkbestimmen.DieseAnzahlenlassensichin<strong>einer</strong>22- Kontingenztafelablesen,diefurjedesPaarOj<strong>und</strong>Okaufgestelltwird(vgl. DieAhnlichkeitzweierObjekteOj<strong>und</strong>OklatsichhaugmitdenAn-<br />

Tabelle3.a). OjnOk 01 Ajk Cjk 0 Djk Bjkp?Ej 1<br />

Tabelle3.a:22-KontingenztafelfurOj<strong>und</strong>Ok.AjkbezeichnetdieAnzahl p?Ek Ek derMerkmale,beidenenbeideVektoren"0\sind,BjkdieAnzahl,wieoft p<br />

xj"0\<strong>und</strong>xk"1\istu.s.w.Ej(bzw.Ek)bezeichnetdieAnzahldesWertes<br />

<strong>und</strong>Djkab.Betontwerdenmu,dasMaedieserArtnichtgenerellanwend-<br />

"1\inOj(bzw.Oj).pistdieGesamtzahlbinarerMerkmale.<br />

nommenwerdenmussen.EinBeispieldafuristderVergleichzweierbinarer barsind,sodanachpraktischenGesichtspunktenoftModikationenvorge-<br />

EntsprechendeAhnlichkeitsmaesjkhangendannnurvonAjk,Bjk,Cjk<br />

Rasterbilder,woesi.allg.keinenSinnmacht,reineVergleichedereinzelnen Pixeldurchzufuhren.Hierwarez.B.einmustererkennenderAlgorithmusals schungsinvarianzdeniertwerden:EinMerkmalMiheitbinarsymme-<br />

trisch,wenndieAngabe"MibeiOj<strong>und</strong>Okvorhanden\diegleicheIn-<br />

formationbezuglichderAhnlichkeitbeiderObjektewiedieAngabe"Mibei AlsnachstessollendieEigenschaftenderSymmetrie<strong>und</strong>derVertau-<br />

Ahnlichkeitsgeberwesentlichgeeigneter.<br />

Oj<strong>und</strong>Oknichtvorhanden\tragt.BeispielhierfuristdieAlternative"weiblich/mannlich\.WenndieAussagexji=xki=1eineandereAussagekraft<br />

furdieAhnlichkeitbesitztalsdieAussagexji=xki=0,sosprichtmanana-<br />

8InderUberschriftzudiesemAbsatzwurdedarumverzichtet,binareMerkmaleein- logvoneinemunsymmetrischenMerkmal8.BeispielhierfuristdieAlternati-<br />

17


ve"rot/nichtrot\,woUbereinstimmungwesentlichstarkeraufAhnlichkeit dersoebendeniertenMerkmalsymmetielatsichn<strong>und</strong>ieVertauschungsinvarianz(imfolgendeneinfachInvarianz)furAhnlichlichkeitsmaefestlegen:<br />

hindeutetalsNichtubereinstimmungmitvielfaltigenFarbalternativen.Aus<br />

invariant,wennesnurvondenSummenAjk+Djk<strong>und</strong>Bjk+Cjkabhangt. WenndasMasjkinallenpbinarenMerkmalendieAlternativen"0\<strong>und</strong> "1\symmetrischbehandelt,soheites(vertauschungs-)invariant.AlleanderenMaeheienentsprechendnichtinvariant.EinMasjkistinsbesondere<br />

1.Vertauschungs-invarianteAhnlichkeitsmae (a)M-Koezient(Simple-Matching-Koezient) S.51)sjk:=Ajk+Djk "AlsM-KoezientenbezeichnetmandenrelativenAnteilder ubereinstimmendenKomponentenvonxj<strong>und</strong>xk:\(Zitat[Boc74]<br />

Esgilt0sjk1mitdenGrenzen p = (Ajk+Djk)+(Bjk+Cjk) sjk=0()xj=~xk(komplementareVektoren)(3.18) (3.17)<br />

EinigeWahrscheinlichkeitstheoretischeUntersuchungenzuden Eigenschaftenbendensichin[Boc74]S.52. <strong>und</strong>sjk=1()xj=xk: (3.19)<br />

(b)ModikationendesM-Koezienten nichtubereinstimmendenKomponentenvonxj<strong>und</strong>xkgleich. DerM-Koezient(3.17)wichtetdieubereinstimmenden<strong>und</strong>die<br />

1?u>0zu<strong>und</strong>erhaltsodaAhnlichkeitsma Oftistesjedochsinnvoll,dieseunterschiedlichzuwichten.Man ordnetdanndenubereinstimmendenKomponentendasGewicht u(0


Weiterhinwurdevon[Ham61]dasAhnlichkeitsma<br />

verwendet,welchesdierelativeDierenzuber-<strong>und</strong>nicht-ubereinstimmenderKomponentenangibt.<br />

p (3.22) sjk:=(Ajk+Djk)?(Bjk+Cjk)<br />

2.Nichtvertauschungs-invarianteAhnlichkeitsmae<br />

M1;:::;Mpunsymmetrisch<strong>und</strong>die"1\immerdiewichtigerederbeidenAlternativenbezeichnet.Indemmann<strong>und</strong>ieubereinstimmenden<br />

(a)S-Koezient<strong>und</strong>Modikationen dasAhnlichkeitsma LatmaninZahler<strong>und</strong>NennerdesM-Koezienten(3.17)die ubereinstimmenden0-Komponentenaueracht,soerhaltman<br />

ab.FurdiefolgendenMaeseivorausgesetzt,dadiepMerkmale teOj<strong>und</strong>OkvonderUnterschiedlichkeitderAnzahlenAjk<strong>und</strong>Djk BeiunsymmetrischenMerkmalenhangtdieAhnlichkeitzweierObjek-<br />

1-Komponentenstarkerwichtet,erhaltmannicht-invarianteMaesjk.<br />

DiesesMaheitS-Koezient(oderauchTanimoto-bzw.Jaccard- sjk:=Djk p?Ajk= Bjk+Cjk+Djk: Koezient).Esgilt0sjk1mitdenGrenzen (3.23)<br />

WeiterhinbenutztwirdderRR-Koezient <strong>und</strong>sjk=1()xj=xk: sjk=0()keine1-Komponentenstimmenuberein<br />

sjk:=Djk (3.24)<br />

welcherdieubereinstimmenden0-KomponentenimNennerberucksichtigt.<br />

p; (3.25)<br />

erhaltmandasAhnlichkeitsma wichtu<strong>und</strong>denanderenKomponentendasGewicht1-ugibt,so WennmananalogzumgewichtetenM-Koezienten(3.20)den ubereinstimmenden1-KomponentendesS-KoezientendasGe-<br />

sjk:= uDjk+(1?u)(Bjk+Cjk): (3.26)<br />

19


(b)VerwandteMae WeiterenichtinvarianteMaesind<br />

<strong>und</strong> sjk:= Cjk+Djk (3.27)<br />

DiesebeidenMaelassensichalsbedingteWahrscheinlichkeit sjk:= Bjk+Djk: dafurdeuten,daeinzufalliggewahltesMerkmalauchOk(bzw. (3.28)<br />

Oj)vorhandenist,wennesbereitsbeiOj(bzw.Ok)auftritt.Verallgem<strong>einer</strong>ungendiesesAnsatzessinddasarithmetischeMittel<br />

von(3.27)<strong>und</strong>(3.28)sowiederengeometrischesMittel sjk:=12(Djk Ej+Djk Ek) (3.29)<br />

3.MaemitBerucksichtigungvonMerkmalshaugkeiten<strong>und</strong> sjk:= pEjEk: Djk<br />

Abhangigkeiten (3.30)<br />

DiebisheraufgezahltenbinarenAhnlichkeitsmaeberucksichtigenwederdieHaugkeitendereinzelnenMerkmalsalternativennocheventuelleAbhangigkeitenzwischendenMerkmalen.DieseAnsatzewurdetensatzbeachten,somumanzuerstdiebeidenZahlen<br />

WillmandieMerkmalshaugkeitenderMerkmaleimgesamtenDa-<br />

indenfolgendenMaenbeachtet.<br />

berechnen,welchedieAnzahlendesAuftretensvon"1\bzw."0\im MerkmalMizahlen.Gewichtetmann<strong>und</strong>ieUbereinstimmungzweier Ni1:=NXk=1xki<strong>und</strong>Ni0:=NXk=1(1?xki)=N?Ni1 (3.31)<br />

Nichtubereinstimmungmit1,sokannmandieParameter EinsenmitNi0 Djk= N,dieUbereinstimmungzweierNullenmitNi1 pXi=1xjixkidurch~Djk:=pXi=1xjixki(Ni0 N<strong>und</strong>bei<br />

<strong>und</strong>Ajk= pXi=1(1?xji)(1?xki) N)<br />

durch ~Ajk:=pXi=1(1?xji)(1?xki)(Ni1 20 N) (3.32)


malshaugkeiten.Zubeachtenist,daeinGruppierungsverfahren,wel-<br />

chesmitdenmodiziertenParameternarbeitet,ehernachseltenen modiziertenParameternbenutzen<strong>und</strong>beachtetdadurchdieMerk-<br />

ersetzen.NunkannmandiebereitsobenvorgestelltenMaemitden<br />

Merkmalengruppierenwird.Objektklassen,dieeherdurcheinebestimmteKombinationvonMerkmalsalternativencharakterisiertsind,<br />

(empirische)Korrelationskoezient UmeventuelleAbhangigkeitenderMerkmalezubeachten,wirdder sinddamitnurschlechterkennbar.<br />

^pv= qNv1N1(N?Nv1)(N?N1) NNXk=1xkvxk?Nv1N1<br />

derMerkmalev<strong>und</strong>deniert.AlsAhnlichkeitsmaergibtsichdann (3.33)<br />

mittv:=8>:1; sjk:= pXv=1pX=1^pvtv ?1;furxjv=xj=1?xkv=1?xk furxjv=xj=xkv=xk (3.34)<br />

DiesesMaistnichtvertauschungs-invariant. 0; sonst.<br />

4.StochastischeAnsatze Gehtmandavonaus,dainderObjektmengefO1;:::;ONgdieMerkmaleeinezufalligeSteuungaufweisen,sokannmandieVektorenx1;:::;<br />

xNalsZufallsvektorenauassen.MitderUntersuchung,obdieseVektorenvoneinanderunabhangigoderabhangigsind,kannmannunAhnlichkeitsmaedenieren.<br />

BeispielhierfuristderKorrelationskoezient<br />

dersowohlselbstalsauchseinQuadratrjk2alsAhnlichkeitsmaverwendetwerdenkann.EinweiteresMadieserArtistderYule'sche<br />

Assoziationskoezientsjk:=AjkDjk?BjkCjk AjkDjk+BjkCjk; 21<br />

rjk:= p(p?Ek)Ek(p?Ej)Ej(speziellfurbinar);(3.35) AjkDjk?BjkCjk<br />

(3.36)


dieMengederbeieinemObjektvorhandeneninderMengederbeim dernach[Boc74]angewendetwerdensollte,"wenndieTatsache,da anderenObjektvorkommendenMerkmaleenthaltenist,bereitsauf ProblematischbeiMaendieserArtist,daeinhoherWertsjknicht mu,sondernlediglichaufdieempirische(lineare)Unabhangigkeit notwendigerweiseeinegroeAhnlichkeitvonOj<strong>und</strong>Okbedeuten Ahnlichkeitschlieenlat.\<br />

alsZufallsexperimentbeschreibt(vgl.[Boc74]S.63-64). wickelt,welchesdieBestimmungderAhnlichkeiteinesObjektpaares beschranktist.Deswegenwurdevon[Goo64]einAhnlichkeitsmaent-<br />

ZusammenfassungTabelle3.bfatdiewichtigstenbinarenMaemitihrenEigenschaftenzusammen.DieinderTabelledargestelltenMaewurden<br />

beispielhaftausgewahlt,umeinenUberblickfurdieVorverarbeitunguber<br />

Verfahrenisteindeutigzubevorzugen. dieinderLiteraturvorgestelltenMaezuerhalten.Prinzipiellkannman sichmitNutzung/NichtnutzungderMerkmalshaugkeitsmethodemiteinemderanderenVerfahrenfastalleKombinationenzusammenstellen.Kein<br />

M-Koezient(3.17) Eigenschaft! Ma# InvarianzKorrelationKorrelationBeachtung ja Merkmalen zwischen Vektoren zwischen derHaug- keiten<br />

keitsmethode(3.32) S-Koezient(3.23) Merkmalshaug- nein - nein - nein - nein<br />

koezient(3.34) M-Korrelations- ja nein ja<br />

Yule'scherAssozia- koezient(3.35) V-Korrelations- ja nein ja Tabelle3.b:ZusammenfassungwichtigerbinarerAhnlichkeitsmae<strong>und</strong>derenEigenschaften<br />

3.2.1.3.2MehrstugeMerkmale<br />

tionskoezient(3.36) nein<br />

praktischerBedeutungalsdieordinalenmehrstugenMerkmale(z.B.klein nominalenmehrstugen(z.B.Fichte,Tanne<strong>und</strong>Buche)meistvonhoherer hiervorallemumMerkmalemitmehralszweiZustanden.Dabeisinddie ImGegensatzzudenAhnlichkeitsmaenaufbinarenMerkmalengehtes<br />

setzungbeidenfolgendenMaenist,daessichbeidenMerkmalenum -mittel-gro)<strong>und</strong>werdendeswegenhierausfuhrlicheruntersucht.Voraus-<br />

22


"exklusive\Alternativenhandelt9.ImfolgendenwerdeneinigeMaemit <strong>und</strong>ohneBeachtungderAlternativenzahlvorgestellt: 1.Verallgem<strong>einer</strong>terM-Koezienz AnalogzudenBetrachtungenbeibinarenMerkmalenkannmanauch men.DasresultierendeAhnlichkeitsma zahljkderubereinstimmendenKomponentenvonxj<strong>und</strong>xkbestim-<br />

hierdieAhnlichkeitzwischenzweiObjektenOj<strong>und</strong>OkuberdieAn-<br />

sjk:=jk<br />

sjkistvertauschungs-invariant10<strong>und</strong>damitnurfurnominaleMerkma-<br />

isteineVerallgem<strong>einer</strong>ungdesM-KoezientenfurbinareMerkmale. p (3.37)<br />

tungderAnzahljkubereinstimmenderKomponenten<strong>und</strong>derAnzahl legeeignet.EineModikationergibtsichbeiunterschiedlicherWich-<br />

!jknichtubereinstimmenderKomponentenmitderZahlu:<br />

2.BeachtungderAlternativenanzahl<strong>und</strong>derHaugkeit sjk:= ujk+(1?u)!jk (3.38)<br />

GleichheiteinesMerkmalsdieAnzahldervorhandenenAlternativen voll,dieAhnlichkeitvonOj<strong>und</strong>Okhohereinzuschatzen,wennbei einzelnenMerkmalsalternativenunabhangig.Oftistesjedochsinn-<br />

DieMae(3.37)<strong>und</strong>(3.38)sindvondenAnzahlenm1;:::;mpder<br />

groerist.DeshalbwurdefolgendesMavorgeschlagen: sjk:=1mpXi=1mi(xji;xki) (3.39)<br />

UmVerzerrrungendiesesMaesauszuschlieen,solltennursolcheAlternativen<strong>zur</strong>BestimmungderAnzahlenmiherangezogenwerden,<br />

0;furu6=v mitm:=pXi=1mi<strong>und</strong>(u;v):=(1;furu=v<br />

dieauchtatsachlichimDatensatzauftreten.<br />

wohingegenbei"nichtexklusiven\mehrereAlternativengleichzeitigauftretenkonnen. 9BeiMerkmalenmit"exklusiven\AlternativenschlieensichdieAlternativenaus, venalsGewichtungaufzunehemen,<strong>und</strong>diesesnichtwiein(3.39)als Oftistesjedochsinnvoller,dastatsachlicheAuftretenvonAlternati-<br />

Maeauf"nichtexlusiven\Merkmalenndetmanz.B.in[LW67]. 10unabhangigvonderNumerierungderAlternativen 23


Karoline Robert Merkmal1:Merkmal2:Merkmal3: klein? mittel? nein gro?<br />

Tabelle3.c:BeispielfurdieZerlegungdesordinalenMerkmals"Groe\aus Ivonne ja ja nein ja<br />

Tabelle2.aindreibinareMerkmale gleichverteiltanzunehmen.JeseltenereineAlternativeinderObjekt-<br />

Mengefxi;:::;nNgist,kannmandamitdasAhnlichkeitsma mengeineinemMerkmalMiauftritt,jestarkergehtsiebeigleichzei-<br />

tigemAuftreteninxj<strong>und</strong>xkindieAhnlichkeitein.WennalsoNi dieHaugkeitdesAuftretensderAlternativebeiMerkmalMiinder<br />

denieren,wobei(u;v)wieinFormel(3.39)deniertist. sjk:=pXi=1mi?1 X=01 Ni(xji;)(xki;) (3.40)<br />

verwenden.DazuwirdfurjedeMerkmalsalternativeeinneuesMerkmalerzeugt,z.B.wirddasMerkmalFarbemitdenAlternativenfrot,grun,gelb,<br />

AlternativzudendargestelltenMaenwirdin[BEPW96]vorgeschlagen, mehrstugeMerkmaleinbinareumzuwandeln<strong>und</strong>dannbinareMaezu blaugin4MerkmalemitdenAlternativen"rot/nichtrot\,"grun/nichtgrun\ usw.aufgespalten.ProblematischistdieseVorgehensweisebei<strong>einer</strong>groen demisteinweiteresProblemdiesesAnsatzes,dakunstlichKorrelationen sohohergewichtetwerdenalsMerkmalemitwenigerAlternativen.Auer-<br />

AnzahlvonMerkmalsalternativen,weilMerkmalemitvielenAlternativen<br />

denieren,uberoderunterwelchedieentsprechendenMerkmalsalternativen genoderauchbeiintervallskaliertenMerkmalen.DortkannmanSchranken eingeordnetwerden.KodiertmandanndieeinzelnenSchrankenmitbinaren erzeugtwerden11.SinnvolleristdieseVorgehensweisebeiordinalenmehrstumaldurchdieFrage,obesunteroderuberderSchrankeliegt,erfolgen.<br />

Merkmalen,kanndieZuordnung<strong>einer</strong>AlternativezueinembinarenMerk-<br />

AlsBeispielwurdedasMerkmal"Groe\ausTabelle2.agewahlt<strong>und</strong>die AufspaltunginTabelle3.cdargestellt. malenistdieVerwendungvonprobabilistischenAhnlichkeitsmaen.Dieser AnsatzhatdenVorteil,daersowohlfurnominalealsauchfurordinale Merkamleverwendetwerdenkann(siehe[Boc74]S.70). EineweitererAnsatz<strong>zur</strong>AhnlichkeitsbestimmungvonmehrstugenMerk-<br />

<strong>und</strong>ihreEigenschaftenfurdieNutzunginderVorverarbeitungnocheinmal 11BinareMerkmaleauseinemmehrstugenMerkmalsindvoneinanderabhangig. ZusammenfassungTabelle3.dfatdiewichtigstenmehrstugenMae<br />

24


zusammen.Auchhierkannmannichteindeutigfestlegen,welchesMerkmal besseristalseinanderes.JenachAnfordungkannhierjedesMasinnvoll einsetzbarsein.BenotigtmanallerdingseinMaaufordinalenmehrstugen Merkmalen,solltemankeinesdieserMaeverwenden. Eigenschaft! Ma# Gleichge- wichtung Beachtung derAlter- derAltern.- Beachtung Spez.Eig-<br />

M-Koezient(3.37) Verallgem<strong>einer</strong>ter von=<strong>und</strong>6=nativenzahl ja haugkeit ord.Merk. nungfur<br />

M-Koezient(3.38) Gewichteterverallg. nein Ma(3.39) Ma(3.40) nein ja nein ja nein nein<br />

Eigenschaften Tabelle3.d:ZusammenfassungmehrstugerAhnlichkeitsmae<strong>und</strong>deren<br />

3.2.1.3.3RatioskalierteMerkmale IndiesemAbschnittsollenBeispielefurProximitatsmaeaufratioskaliertenDatenangegebenwerden.VorgestelltwerdensollenunteranderemditungderwichtigstenEigenschaftenwiez.B.Invarianzen,umderenexible<br />

Korrelationskoezient.HauptaugenmerkdabeiliegtaufderHerausarbei-<br />

EuklidischeDistanz,dieLR-Distanzen,dieMahalanobis-Distanz<strong>und</strong>der Einbindungindie<strong>Pipeline</strong>zugewahrleisten.Voraussetzunghierist,daallepMerkmaleratioskaliertoderratioskalarinterpretierbarsind.Ansonstegen,bevordieBerechnungderDistanzenbzw.Ahnlichkeitenbeginnt.Diese<br />

mueineTrennungderMerkmaleinunterschiedlicheMerkmalstypenerfol-<br />

werdendanngetrenntberechnet(s.Abschnitt3.2.1.4). 1.EuklidischerAbstand AlserstesMafurratioskalierteProximitatsmaeseihierderEuklidischeAbstand<br />

angegeben12. d jk:=kxk?xjk=vutpXi=1(xki?xji)2 (3.41)<br />

12VerwendetwirdauchderquadratischeEuklidischeAbstanddjk2. 13z.B.Rotation genuberorthogonalenlinearenTransformationen13derVektorenx1;:::; DerEuklidischeAbstandisttranslationinvariant<strong>und</strong>invariantge-<br />

25


xN.Eristjedochnichtskaleninvariant,waseinevorverarbeitendeNormierung<strong>zur</strong>SicherungderGleichgewichtungdereinzelnenMerkmale<br />

2.LR-Distanzen(Minkowski-Metriken) erforderlichmachenkann. EineVerallgem<strong>einer</strong>ungdesEuklidischenAbstandessinddieLR-Distan-<br />

AuchverwendetwurdederenNormierungjk(r): djk(r):=rvutpXi=1jxki?xjijr: (3.42)<br />

jk(r):=djk(r)<br />

alfaller=1(SummederrelativenDierenzen)<strong>und</strong>r=2(Euklidischer PraktischeRelevanzvon(3.42)<strong>und</strong>(3.43)habenvorallemdieSpezi-<br />

rpp (3.43)<br />

translations-nochskaleninvariantnochinvariantgegenuberorthogo-<br />

Abstand3.41)).LR-Distanzensindmetrisch<strong>und</strong>auerbeir=2weder<br />

aufdemMittelwert0<strong>und</strong>aufdemr-ten,zentralen,absolutenMoment seNormierungerfolgthierauftheoretischenUberlegungenberuhend 1: nalenTransformationen,waseineNormierungerforderlichmacht.Die-<br />

~xki:=kxki?xi ^(r);i=1;:::;p^k=1;:::;N(3.44)<br />

<strong>und</strong>^(r):=rvut1NNXi=1jxki?xijr;i=1;:::;p mitxi:=1NNXk=1xki;i=1;:::;p<br />

terschiedeimVergleichzukleinenMerkmalsunterschiedenindenDi-<br />

stanzwertein. Jegroerrgewahltwird,umsostarkergehengroeMerkmalsun-<br />

3.MAHALANOBIS-Distanz EineandereVerallgem<strong>einer</strong>ungderEuklidischenDistanzdurchVerscharfungderInvarianzforderungenistdieMAHALANOBIS-Distanz<br />

djk2:=(xj?xk)T^?1(xj?xk): 26 (3.45)


Dabeiist(xj?xk)derDierenzvektorzwischenxj<strong>und</strong>xk,(xj? xk)Tdessentransponierter(waagerechter)Vektor<strong>und</strong>^?1dieinverse Matrixderempirischenpp-Kovarianzmatrix<br />

zudenVektorenx1;:::;xN.HieristxderMittelvektorderVektoren ^:=1NNXk=1(xk?x)(xk?x)T<br />

x1;:::;xN,<strong>und</strong>erwirdberechnetmit (3.46)<br />

UnterderVoraussetzung,dax1;:::;xNvoneinanderunabhangigsind, eliminiertdiesesMaKorrelationenzwischendenMerkmalen.Esist x:=1NNXk=1xk: (3.47)<br />

geschnitten<strong>und</strong>hangtnichtnurvondenbeidenObjektenOj<strong>und</strong> Okab,sondernvondergesamtenObjektmenge.Esistskalen-<strong>und</strong> translationsinvariant<strong>und</strong>dieDatenbedurfendamitk<strong>einer</strong>Normierung.MankanndieMAHALANOBIS-DistanzalseuklidischeDistanz<br />

zweiertransformierterVektorenyi<strong>und</strong>ykauassen.<br />

WeitereAhnlichkeitsmaefurratioskalierteMerkmalesindderKorre-<br />

aufeinenaherungsweiseNormalverteilungderAusgangsvektorenzu-<br />

4.Korrelationskoezient<br />

oderdessenQuadrat rjk:= p^jj^kk ^jk (3.48)<br />

Hierbeisind sjk:=rkj2: (3.49)<br />

dieElementederNN-Kovarianzmatrix^=(^jk)<strong>und</strong> ^jk:=1ppXi=1(xji?xj)(xki?xk)<br />

derMittelwertdesMerkmalsMk.DerKorrelationskoezientistweder skalen-nochtranslationsinvariant.sjk=rjk2=0bedeutet,dadie xk:=1ppXi=1xki<br />

27


Merkmalepaarweisenormalverteiltsein.SinnvollistseineAnwendung, <strong>und</strong>beirjk=1sindsiemaximallinearkorreliert.UmdavonallerdingsaufallgemeineUnabhangigkeitschlieenzukonnen,mutendie<br />

beidenVektorenlinearunkorreliert(unabhangig)sind.Beirjk=?1<br />

5.WeitereMae pragungnichtimVordergr<strong>und</strong>steht. wennesvorallemumgleicheVerlaufegeht<strong>und</strong>diespezielleAus-<br />

WeiterangewendeteempirischeDistanzmaesinddieMae<br />

djk:= Xi=1jkki?kjij pXi=1(kki+kji) p (3.50)<br />

<strong>und</strong><br />

VerwendungfandauchdasnormierteSkalarprodukt djk:=pXi=1jkki?kjij jkkij+jkjij: (3.51)<br />

vonxj<strong>und</strong>xj14. sjk:=xjxk jxjjjxkj (3.52)<br />

ZusammenfassungTabelle3.efatdiewichtigstenMaeaufratioskaliertenMerkmalenausSichtderVorverarbeitungnocheinmalzusammen.<br />

konntenallerdingsdurchdiehohereRechendauer(Invertierung<strong>einer</strong>Ma-<br />

besitzt.DamitistsiealsProximitatsmafurvieleFallegeeignet.Probleme Aualligdabeiist,dadieMAHALANOBIS-DistanzfastalleEigenschaften<br />

3.2.1.4VorgehensweisenbeihybridenMerkmalen retischenVoraussetzungenzuachten. trix)auftreten.AuerdemistaufdasZutreenvonwahrscheinlichkeitstheo-<br />

HaugsindunterdenpMermalenM1;:::;MpMerkmaleverschiedenen<br />

LiteraturteilweisekeineErwahnungndet. maleauftreten.InsolchenFallengibtesdiefolgendenVorgehensweisen: Typs.Sokonnenbeispielsweisegleichzeitigratioskalierte<strong>und</strong>binareMerk-<br />

14Interessantist,dadasSkalarproduktalsAhnlichkeitsmainderzusammenfassenden 15Auerbeir=2.<br />

28


Eigenschaft! Euklidischer Ma# invariant skalen- translations- invariant ja zw.Merkmalenzw.Vektoren Korrelation Korrelation<br />

LR-Distanzen(3.42) MAHALANOBIS- Abstand(3.41) nein nein15 nein Distanz(3.45) Korrelations- nein ja nein ja nein ja nein<br />

Tabelle3.e:ZusammenfassungwichtigerratioskalierterAhnlichkeitsmae koezient(3.48) ja<br />

<strong>und</strong>derenEigenschaften 1.EswirdeinesderDistanzmaefurratioskalierteMerkmalebenutzt tenbeibinarenMerkmalen. SinnvollistdieseMethodejedochnurbeiordinalenmehrstugen,sel-<br />

<strong>und</strong>dieMerkmaleandererSkalentypenaufdieRatioskalaabgebildet.<br />

2.BeimAuftretenvonratioskalierten<strong>und</strong>nominalenmehrstugenMerkmalenwahltmanzweifesteZahlen4241>0<strong>und</strong>setzt:<br />

ujk:=8>: nominalenKomponentenvonxj<strong>und</strong>xk<br />

Anzahlderubereinstimmenden<br />

9>=>;+8>: skaliertenKompo-<br />

nentenxji;xkimit Anzahlderratio-<br />

9>=>; jxji?xkij41<br />

jk:=8>: nominalenKomponentenvonxj<strong>und</strong>xk<br />

Anzahldernicht 9>=>;+8>: skaliertenKompo-<br />

nentenxji;xkimit Anzahlderratio-<br />

9>=>;(3.53) Analogzumverallgem<strong>einer</strong>tenM-Koezienten(3.37)<strong>und</strong>zumgewich-<br />

jxji?xkij42 ubereinstimmenden<br />

tetenM-Koezienten(3.38)mitu=13wirddieAhnlichkeitdann tioskaliertenMerkmalenunterscheidendurfen,umnochalsahnlichzu Schranke41fest,wiesehrsichdieObjekteOj<strong>und</strong>Okindenra-<br />

gelten.Umgekehrtlegt42fest,abwannsiealsunahnlichgelten.Diese durchsjk:=ujk=podersjk:=ujk=jkfestgelegt.Dabeilegtdie<br />

3.BeigleichzeitigemAuftretenvonratioskalierten<strong>und</strong>ordinalenmehrstugenMerkmalenkannmandieratioskaliertendurchDiskretisierung<br />

inordinalemehrstugeMerkmaleuberfuhren<strong>und</strong>dieentsprechenden<br />

VorgehensweisesetzteinegleichmaigeNormierungderratioskalierten Merkmalevoraus.<br />

29


4.BerechnetmanfurdieMerkmalegleichenSkalentypsgetrennteAhnlichkeiten16,sokannmandieGesamtahnlichkeitsjkderObjekteOj<br />

Maeverwenden.ProblemdabeiistdermitderEinfuhrungvonIntervallenverb<strong>und</strong>eneInformationsverlust.<br />

WeitererAnsatzbeigemischtenMerkmalenistz.B.dieVerwendungvon men. <strong>und</strong>OkalsgewichtetenMittelwert17derEinzelahnlichkeitenbestim-<br />

probabilistischenAhnlichkeitsmaen.<br />

Merkmalseeldeswegenaufsie(s.Kapitel4). kann.DieWahldesumzusetzendenVerfahrens<strong>zur</strong>Verarbeitunghybrider weilsieamallgemeinstenunterschiedlicheTypenmiteinanderkombinieren Amexibelstenfurdie<strong>Pipeline</strong>scheintmirVorgehensweise4zusein,<br />

3.2.1.5AnmerkungenzuProximitatsmaenzwischenObjekten IndiesemAbschnittsollkurzaufdasProblemvonfehlendenDaten<strong>und</strong>auf dieMoglichkeitderWichtungvonMerkmaleneingegangenwerden: 1.FehlendeDatenWenninderObjekt-Merkmals-Matrix(xki)einige einzelneMerkmalsvergleicheinenadditivenBeitragzumGesamtwert den.MangehtdannvoneinemMasjkbzw.djkaus,beidemjeder Datennichtbekanntsind,mudasProximitatsmamodiziertwerdizierterM-Koezient<br />

danndurchdieAnzahldieserKomponenten.AlsBeispielseidermo-<br />

dieKomponenten,dieinbeidenVektorenbekanntsind,<strong>und</strong>dividiert liefert.InderentsprechendenSummeberucksichtigtmandannnur<br />

angegeben. sjk?:=1~p8


Allgemeinkannmannichtsagen,obeineGewichtung(z.B.Gleichgewichtung)<strong>und</strong>fallsja,welchesinnvollist.Allerdingsistesso,darungsverfahrenimHinblickauf<strong>einer</strong>wunschtesKlassikationsergebnis<br />

"dieGefahrbesteht,dadurchWahlpassenderGewichtedieGruppie-<br />

manipuliertwerden.\([Boc74]S.76)Andersverhaltessichallerdings,<br />

ergeben.Ublichist,dieGewichteauf!1+:::+!p=1zunormieren.<br />

3.2.2ProximitatsmaezwischenObjektmengen automatischberechnetwerden. wenndieGewichte!iinAbhangigkeitvondergesamtenObjektmenge<br />

FurvieleKlassikationsverfahrenistdieAhnlichkeitbzw.Distanzzwischen nungmitAhnlichkeits-oderDistanzmatrizen(NutzungderMaeausKa-<br />

pitel3.2.1),dieBerechnunguberNutzungderMittelwerte,dieBerechnung hafteinigevorgestelltwerden.HaugeVorgehensweisensinddieBerech-<br />

Objektmengen18Gr<strong>und</strong>lagederKlassikation.Deshalbsollenhierbeispielminale<strong>und</strong>ordinaleDaten(vgl.[Boc74]S.81).<br />

durchVergleichderVerteilungsfunktionen<strong>und</strong>spezielleVerfahrenfurnomengen:DieAhnlichkeitzweierdisjunkterObjektmengenAi;AjSwirlichkeit)durchdieZahlDAiAj(DAiAj=DAjAi0)gemessen.Diesehaben<br />

durchdiereelleZahlSAiAj(SAiAj=SAjAi0)<strong>und</strong>dieDistanz(Unahn-<br />

AlserstesbenotigtmaneineDenitionfurProximitatsmaeaufObjekt-<br />

analogeEigenschaftenwiesijin(3.4)<strong>und</strong>wiedijin(3.8).Weiterhinvon BedeutungfurdieimfolgendendargestelltenMaeistdieZahlni:=jAij, welchedieAnzahlderObjekteinderMengeAibeinhaltet.<br />

zweiObjektmengenalsahnlichbezeichnetwenndieObjekteOk2Ai<strong>und</strong>die stanzmatrizenvorgestelltwerden: IstfurdieObjekteeineAhnlichkeitsmatrix(sjk)vorgegeben,werden AlsBeispielsollenhierMaeunterNutzungvonAhnlichkeits-bzw.Di-<br />

ObjekteOl2AjalleoderdieuberwiegendeAnzahleinegroeAhnlichkeit sjkaufweisen.Beispielhierfursind:<br />

8k2Ai;l2Ajfsklg ninjXk2AiX 1min<br />

l2Ajskl (3.57) (3.56)<br />

Objektpaareswiederspiegelt,eineziemlichstarkeForderung.Diesewirdin HierbeiistdieDenition(3.56),welchedieAhnlichkeitdesunahnlichsten SAiAj:= 8k2Ai;l2Ajfsklg max (3.58)<br />

(3.57)(mittlereAhnlichkeit)abgeschwacht.(3.58)istdagegeneinesehr 18bzw.KlassenoderGruppen 31


empndlich. schwacheForderung<strong>und</strong>z.B.gegenuberzufalligenFehlerninderMatrix djkberechnen.DasMaximumistdanndiestarke<strong>und</strong>dasMinimumdie schwacheForderung. AnalogkannmandieDistanzDAiAjunterVerwendungderDistanzen<br />

BeiderSpezikationderProblemstellungderKlassikation(Kapitel2)wurdebereitserwahnt,welchengr<strong>und</strong>satzlichenStellenwertdieHomogenitat<br />

UmdiesbezuglichquantitativeAussagenmachenzukonnen,fuhrtmanfur jedeObjektmengeASeineZahlk(A)0ein,diealsHomogenitatbezeichnetwird.Diesegibtan,wieahnlichsichdieeinzelnenObjekteimMittel<br />

sindbzw.wiegutsiezusammenpassen.Umgekehrtkannmang(A)0als dieMengeA.FurdieimfolgendenvorgestelltenMaesein:=jAjdieAn-<br />

Heterogenitat(Inhomogenitat)denieren.Jekl<strong>einer</strong>g(A),jehomogenerist vonHeterogenitatenbzw.HomogenitatensinddieNutzungderDistanzzahlderObjekteinA.Gr<strong>und</strong>satzlicheHerangehensweisen<strong>zur</strong>Berechnunbzw.Ahnlichkeitsmatrix,dieNutzungdesMittelpunktes<strong>und</strong>informationstheoretischeVorgehensweisen(vgl.[Boc74]S.91)genitatenunterNutzungderDistanz-bzw.Ahnlichkeitsmatrixvorgestellt<br />

werden:EinbrauchbaresMafurdieHeterogenitatistdiemittlereDistanz der?n2ObjektpaareausA,also AlsBeispielsollenhierdieBerechnungderHeterogenitatenbzw.Homo-<br />

3.2.3Heterogenitats-<strong>und</strong>Homogenitatsmae<br />

<strong>und</strong>HeterogenitatvonObjektmengenfurdenKlassikationsbegrihaben.<br />

WeiterhinbenutztwurdedaMa g(A):= n(n?1)Xk2AXj2Adjk: 1 (3.59)<br />

AnalogkannmannauchdieHomogenitatk(A)berechnen,indemdjkdurch sjk<strong>und</strong>maxdurchminersetztwird. g(A):=d(A):=max 8j;k2Afdjkg: (3.60)<br />

tendenMengeAStypische(reprasentative)<strong>und</strong>untypischeObjektecha-<br />

DieFragestellungdiesesAbschnittsist,obsichin<strong>einer</strong>nObjekteenthal-<br />

3.2.4BestimmungvontypischenObjekten<br />

verfahren<strong>und</strong>spieltvorallemeinewichtigeRollebeiderInterpretation<strong>und</strong> praktischenVerwertung19gef<strong>und</strong>enerhomogenerKlassen.Betrachtetwer- rakterisierenlassen.DieseBestimmungistGr<strong>und</strong>lageeinigerGruppierungs-<br />

Visualisierungssystem 19z.B.Darstellung<strong>einer</strong>gef<strong>und</strong>enenKlassedurcheinreprasentativesElementineinem 32


denhierdieBestimmungvonzentralenPunkten<strong>und</strong>dieBestimmungvon Kernpunkten. 1.ZentralePunkteOftlatsicheineObjektmengeeinfachdurcheinen zentralenPunkt,z.B.dasarithmetischeMittelderEinzelvektorenbestimmen.Istjedochgewunscht,daessichumeinObjektausder<br />

erhohenoderliegennichtratioskalierteMermalevor,kannmaneine Mittelpunktausgewahlt.MochtemandieBerechnungsgeschwindigkeit derfolgendenVorschriften<strong>zur</strong>BestimmungeineszentralenPunktest Mengehandelt,sowirddasObjektmitdemgeringstenAbstandzum<br />

beiNutzungderAhnlichkeits-bzw.Distanzmatrixverwenden:<br />

oder t1(Ak):=Xj2Adjk!min k2A (3.61)<br />

2.KernpunkteDieunter1bestimmtenzentralenPunktebzw.Objekte t2(Ak):=Xj2Asjk!max k2A: (3.62)<br />

sindnurreprasentativ,wenndieObjektmenge<strong>einer</strong><strong>und</strong>eoderovale auerhalbderMengeliegen. Formaufweist.IstdieFormjedochgekrummtoderverzweigt,mussen diezentralenPunktenichtreprasentativsein<strong>und</strong>konnensogarweit InsolcheinemFallwirdmansolcheinObjektalstypischansehen,das EinBeispielfurdieBestimmungsolcherPunkteistimfolgenenden angegeben: ManwahleeingeeigneteDistanzschranked>0<strong>und</strong>suchedasObjekt,furdasgilt:<br />

inirgendeinemSinndiegrotePunktkonzentration("Kern\)besitzt.<br />

bzw.analogmit0


DieAuswahl<strong>einer</strong>Klassikationsstechnik<strong>und</strong>DurchfuhrungderKlassikationentsprechendem3.SchrittderVorverarbeitungspipeline.Siebildenden<br />

Klassikationstechniken 3.3<br />

KerndesKlassikationsprozesses.IndiesemAbschnittwirdeinUberblick geben<strong>und</strong>anhandvonBeispieleneinigewichtigeVerfahrenvorgestellt.Am AnfangsolljedochzuersteineEinordnungderKlassikationindasmathematischeUmfelderfolgen.<br />

uberEigenschaften<strong>und</strong>AuswahlkriterienvonKlassikationsstechnikenge-<br />

3.3.1EinordnungderKlassikationindasmathematische<br />

machtwerden.HistorischwirddieKlassikation<strong>zur</strong>Statistikgezahlt.Es Zunachstsolleneinigegr<strong>und</strong>satzlicheBemerkungen<strong>zur</strong>Klassikationge-<br />

Umfeld<br />

werdenaberauchErkenntnisseausanderenBereichengenutzt,wiez.B. manunterKlassikationalldieVerfahren,indenenunbekannteKlassen ausderGraphentheorieoderausderkunstlichenIntelligenz.Allgemeinfat entdeckt<strong>und</strong>dieObjekteindieseKlasseneinsortiertwerden.Damitistsie eineWeiterentwicklungderDiskriminanzanalyse.DortwirdeinvorgegebenesObjektinbekanntebzw.vorgegebeneKlasseneinsortiert.Aufgabeder<br />

kationerhalteneKlassenstrukturaufihreEigenschaftenzuuberprufen<strong>und</strong> DiskriminanzanalysekannindiesemUmfeldjedochsein,diemittelsKlassiderKlassenvorliegt.<br />

TeilgebietderKlassikationkeineVorabinformationuberLage<strong>und</strong>Anzahl dieErgebnissezuinterpretieren.VonbesonderemInteresseauchfurdieVisualisierungsinddieClusterungbzw.automatscheKlassikation,inderals<br />

IndiesemKapitelwirdeinUberblickuberClusterungs-<strong>und</strong>Klassikationstechnikenerstellt.Zielistes,dieTechnikennachallgemeinenKriterien<br />

3.3.2Einteilungen,Auswahleigenschaften<strong>und</strong>Uberblick<br />

zuklassizieren<strong>und</strong>furihreAuswahlrelevanteEigenschaftenherauszuarbeiten.WeiterhinsollendiewichtigstenHerangehensweisenkurzvorgestellt<br />

werden. blem,welchesbereitsinKapitel2vorgestelltwurde,sollhiernocheinmal bekannt.DarauswirdfurvieleVerfahreneineAhnlichkeitsmatrix(sjk)oder prazisiertwerden:ZuNObjektenO1;:::;ONseieineDatenmatrix(xki) PrazisierungdesKlassikationsproblemsDasKlassikationspro-<br />

eineDistanzmatrix(djk)abgeleitet,diedieAhnlichkeitsstrukturderObjektmengeS=O1;:::;ONcharakterisiert.AndereVerfahrenarbeitendirektaufdenDatenoderalternativlediglichaufderOrdungderDistanzen<br />

maendenebenfallsVerwendung.GesuchtistnunaufbauendaufdenMa- bzw.Ahnlichkeiten.WeitereEingabemaewieHomo-<strong>und</strong>Heterogenitats-<br />

34


eneineKlassikationA=(A1;A2;:::),welchedieAhnlichkeitsstruktur Abbildung3.A:Disjunkte,nichtexhaustiveKlassikationimR2<br />

<strong>und</strong>daverschiedeneKlassenleichtunterscheidbarsind(Separierbarkeit). injederKlasseAimoglichstgroeAhnlichkeitbesitzensollen(Homogenitat) ondurchfuhrt.DieseForderungistverbalsointerpretierbar,dadieObjekte derObjektemoglichstgutwiedergibt<strong>und</strong>einehinreichendeDatenreduktitige,strukturellunterschiedlicheKlassikationsarten:<br />

DisjunkteKlassikation:DieKlassenA1;A2;:::vonAdurfensich EinteilungennachderZielstrukturGr<strong>und</strong>satzlichgibtesdreiwich-<br />

NichtdisjunkteKlassikation:DieKlassenA1;A2;:::vonAdurfen nichtuberschneiden.<br />

HierarchischeKlassikation:DieKlassenA1;A2;:::vonAsindsich inFormeinesBaumesuber-bzw.untergeordnet. sich(beliebigoderbegrenzt)uberschneiden.<br />

zubevorzugen,weilsiedenzugr<strong>und</strong>eliegendenSachverhaltderEvolution stenentspricht.HandeltessichbeispielsweiseumdieKlassikationvonTie-<br />

renunterschiedlicherRasse,soistsicherlichdiehierarchischeKlassikation AusgewahltwerdensolltedieArt,welchedervermutetenStrukturammei-<br />

kanndieZielklassenstrukturauchvon<strong>einer</strong>moglichenWeiterverarbeitung dieWahl<strong>einer</strong>nichtdisjunktenGruppierungoftuberlegenswert.Manchmal derDatenbestimmtwerden. ambestenwiedergebenkann.BeirelativhomogenerObjektverteilungist<br />

kationen:EineexhaustiveKlassikationordnetalleObjekteindieKlassen A1;A2;:::ein.BeidernichtexhaustivenKlassikationgibtesdagegenauch unklassizierteObjekte(s.Abb3.A).DieAnwendungdernichtexhaustiven Weiterhinunterscheidetmanexhaustive<strong>und</strong>nichtexhaustiveKlassi-<br />

Klassikationistsinnvoll,wennVerzerrungenderKlassendurchAusreier <strong>und</strong>zwischendenKlassenliegendeObjektevermiedenwerdensollen. scheidetmandreiwichtigeTypenvonFragestellungenmitwachsendem SchwierigkeitsgradebeiderKlassikationGr<strong>und</strong>satzlichunter-<br />

35


Schwierigkeitsgrad: 1.ImeinfachstenFallwirddie"wahre\Klassenzahlmalsbekanntvorausgesetzt<strong>und</strong>manfordert,daAexhaustivist.Alternativkonnen<br />

inverschiedenenVerfahrenauchHomogenitats-bzw.HeterogenitatsschrankeninnerhalbderKlassenoderDistanzschrankenzwischenden<br />

2.BeivielenAnwendungenistdieKlassenzahlmnichtvonvornherein bekannt.DasVerfahrenbestimmtdannsowohldieexhaustiveKlassi- Klassenvorgegebensein.<br />

3.ImallgemeinstenFallsollenmKlassenA1;:::;Amgebildetwerden, wobeimunbekannt<strong>und</strong>dieGruppierungnichtexhaustivist. kationalsauchdieKlassenzahl.<br />

BeidieserEinteilungistPunkt1furdeninteraktivenVisualisierungsnutzer geeignet,derdurchParametervariationselbstModikationendesKlassikationsergebnissesvornehmenwill.Diesistvorallemsinnvoll,wennderNutzer<br />

schonKenntnisuberdieStrukturierungderObjektehat.Istdiesnichtder<br />

letztenAbsatzebasiertenaufderZielstrukturderKlassikation.Willman Fall,sollteneherVerfahrennachPunkt2oderPunkt3verwendetwerden,<br />

imGegensatzdazueineEinteilungaufgr<strong>und</strong>derDateneigenschaftenvornehmen,sounterteiltmaninstochastische<strong>und</strong>deterministischeModelle.<br />

EinteilungnachdatenabhangigemModellDieEinteilungender welchedieKlassenzahlselbstbestimmen.<br />

IneinemstochastischenModellwerdendieZahlenxkials<strong>Realisierung</strong>von Zufallsgroenangesehen.DieseModellartsolltegewahltwerden,wenndie DatenMefehlernoder<strong>einer</strong>naturlichenStreuungunterworfensindbzw. chastischeModellefuhrenzu<strong>einer</strong>statistischenBehandlungdesKlassikati-<br />

eineZufallsstichprobeaus<strong>einer</strong>groerenGr<strong>und</strong>gesamtheitdarstellen.StomengeSuberhaupteineKlassenstrukturaufweist.DeterministischeModellonsproblems<strong>und</strong>erlauben-zumindestprinzipiell-zutesten,obdieObjekt-<br />

vonObjektzuObjektvariieren,jedochkeinenZufallsschwankungenunterworfensind.WahrscheinlichkeitsaussagensindbeisolchenDatenoenbar<br />

wahltman,wennSeinefesteObjektmengeist,inderdieEigenschaftenzwar sinnlos. beiistdieFrage,wiestarksichdieKlassenstrukturbeiAnderungvonPara-<br />

metern,beimHerausnehmenvoneinzelnenObjektenoderderVeranderung StabilitatEinweitereswichtigesKriterium<strong>zur</strong>Bewertung<strong>und</strong>InterpretationderErgebnisseistdieStabilitat<strong>einer</strong>Klassikation.Wichtighier-<br />

deszugr<strong>und</strong>eliegendenMaesandert. pretationderErgebnissealsauchfurdiegeeigneteVerfahrenswahlistdie Frage,welcheKlassenformendurchdasbenutzteVerfahrenerkanntwerden Klassenform-KlassentrennungOftvonInteressesowohlfurInter-<br />

36


konnenbzw.welchenFormannahmensiezugr<strong>und</strong>eliegen.HiergibtesverschiedeneFormen:<br />

AndereTechnikenfuhrenzuKettenbildung,wasbedeutet,dasich VieleVerfahrengehenvon<strong>einer</strong>r<strong>und</strong>enKlassenformaus.<br />

WeiterhinkanndieKlassentrennungdurchsogennteHyperebenenerfolgen.<br />

auchlanggestreckteKlassenherausbildenkonnen.<br />

EinandererAnsatzistdieBetrachtungderPunktdichte,umKlassen<br />

ImfolgendensollennuneinigeHerangehensweisenvorgestelltwerden.Es zuidentizieren.DortsindjenachverwendeterVerteilungsdichtefunktionverschiedeneFormenmoglich.<br />

seidaraufhingewiesen,dauberdiehiervorgestelltenVerfahrenhinausin neuererZeitweitereAnsatzeenwickeltwurden,Datenzustrukturieren<strong>und</strong> zuklassizieren.Beispielhierfursindu.a.dieLernverfahrenmitneuronalen Netzen.EineVorstellungdieserTechnikenwurdeallerdingsdenRahmen 3.3.2.1DisjunkteVerfahren dieserArbeitsprengen.<br />

IndiesemAbschniittsollendieverschiedeneArtenvondisjunktenKlassikationenvorgestelltwerden.EshandeltsichdabeiumOptimaleGruppierungen,NumerischeVerfahren,umdieAnalysederPunkt-<strong>und</strong>Verteilungsdichte<strong>und</strong>umgraphentheoretischeMethoden.<br />

1.OptimaleGruppierungen<br />

sierend20.Gr<strong>und</strong>lageoptimalerGruppierungenistdieEinfuhrungei-<br />

nesGutekriteriumsk(A)bzw.g(A)furjedemoglichePartitionA= welchedieFunktionk(A)maximalbzw.dieFunktiong(A)minimal (A1;:::;Am)vonS.Zielistdann,diejenigePartitionz<strong>und</strong>en,fur ist.UnterschiedlicheKriterienwichtendiefolgendendreiAnliegenunterschiedlich:<br />

OptimaleGruppierungenerzeugendisjunktiveKlassikationen.Diese VektorenxjoderauchaufderDistanz-bzw.Ahnlichkeitsmatrixba-<br />

erfolgenmeistinAbhangigkeitvondendenObjektenOjzugehorigen<br />

ratioskalierteMerkmaleeinzubeziehen 20BeiMaenmitVerwendungderD/A-MatrizenbestehtdieMoglichkeit,nicht-<br />

WiegroistdieAhnlichkeitderObjekteinnerhalbdereinzelnen KlassenAivonA?(HomogenitatvonA)<br />

37


WiekleinistdieAhnlichkeitvonObjektenverschiedenerKlassen Fallen"ahnliche\Objektetatsachlichingleiche<strong>und</strong>"unahnliche\ <strong>und</strong>wiegutsinddieKlassenvoneinandergetrennt?(Separation vonA)<br />

Hatmann<strong>und</strong>asKriteriumbestimmt,kannmanaustheoretischer SichtjedebezuglichdesKriteriumsoptimalePartitionalsLosungder ObjekteaberinverschiedeneKlassen?<br />

ihreAnzahljedochexponentiellmitderZahlderObjektewachst(s. tionendenKriteriumswertbestimmenmu("Abzahlverfahren\).Weil matisch,weilmani.allg.furalleKombinationenvonmoglichenParti-<br />

Klassikationsproblemsbetrachten.Praktischistdiesjedochproble-<br />

[Boc74]S.109.),istdieseVorgehensweisemeistineektiv.Deswegen<br />

gebenwerden: wurdenVerfahrenentwickelt,dieimRahmenakzeptablenRechenaufwandesapproximativeLosungennahedemglobalenOptimumliefern.<br />

ImfolgendensollenBeispielefurOptimalitatskriterienkriterienange-<br />

Moglichkeiten<strong>zur</strong>BestimmungvonGutekriteriensindz.B.entlungen.DortwirdjedegesuchteObjektklassedurcheinep-dimensionalscheidungstheoretischeModelleaufderBasisvonNormalverteimeterfurdiedereinzelnenVerteilungen<strong>und</strong>AnzahlmderKlassendurchMaximum-Likelihood-SchatzeroderBayesverfahren.<br />

Normalverteilungcharakterisiert.BestimmmtwerdendiePara-<br />

Klassenschwerpunkte<strong>und</strong>ihreKovarianzmatritzendieraumliche GroederKlassen.Eswerdendabeir<strong>und</strong>eKlassenformenzugr<strong>und</strong>egelegt.<br />

DabeireprasentierendieEigenwertederNormalverteilungendie<br />

EinweiteresKriteriumfurratioskalierteDatenistdasVarianzkriteriumg(A):=g(A;x1;:::;xN)<br />

HierbeiistxAiderMittelpunktderVektorenxAiderKlasseAi. :=mXi=1Xk2Aikxk?xAik2!min: (3.65)<br />

DasVarianzkriteriumfordert,dadieHomogenitat(ausgedruckt durchdieVarianz)derKlassenimMittelminimalist.Essetzt<br />

21bzw.bestimmtenForderungenunterworfen([Boc74])S.163) voraus,dadieMerkmaleunabhangig,dieKlassenkugelformig <strong>und</strong>dieAufteilungderObjektegleichmaig21ist.AusdemVarianzkriteriumfurdiedisjunktiveKlassikationleitetsichauch<br />

38


Klasseneingrenztwird.DasWard-VerfahrenfuhrteineApproxi-<br />

dasWard-VerfahrenderhierarchischenagglomerativenKlassikationab,indemdasKriteriumaufdiePartionierungnurzweiemationdesoptimalenProblemsdurch,ummitHilfe<strong>einer</strong>GruppenhierarchieeinedisjunkteKlassikationzukonstruieren.<br />

AlsVerallgem<strong>einer</strong>ungdesVarianzkriteriumswurdenOptimalitatskriterienentwickelt,welchedieKorrelationderMerkmale<br />

moglicherweisevonKlassezuKlassevariiert. achtet,dadieArtderAbhangigkeitmeistunbekanntist<strong>und</strong> untereinanderbeachten.BeidieserBetrachtungsweisewirdbe-<br />

WahrendbeidenebengenanntenKriteriendieKlassenAidurch dieMittelpunktederzugehorigenVektorenreprasentiertsind, konnenauchKriterienaufHyperebenenbasierenddeniertwerden.Zielist,eineKlassestattdurcheinemeinzigenPunktdurch<br />

einemoglichstniedrigdimensionaleHyperebenen<strong>zur</strong>eprasentieren.<br />

FurnominalmehrstugeMerkmaleistebenfallseinKriterium n<strong>und</strong>iePartitionAaufihreGutehinuntersuchen,bestimmtman dieUbereinstimmungvonA<strong>und</strong>denAtimMittel. entwickeltworden.Gr<strong>und</strong>ideehierbeiist,dajedesMerkmalMt einePartitionAt=(At1;At2;:::)derObjektedeniert.Willman<br />

2.NumerischeVerfahrenWieimvorhergehendenAbschnittangedeutet,istdieBestimmungderoptimalenPartitionwegendesgroenAufstellteInterpretationdesGruppierungsproblemszueng.Dortkonnewandsnichtgenerellmoglich.AuerdemistinderPraxisdievorge-<br />

zahlreiche,oftauchkonkurrierendeForderungenauftreten.Weiterhin DeswegenwurdenverschiedenenumerischeVerfahrenentwickelt,wel-<br />

istdieBeschrankungaufexhaustiveKlassikationoftunzweckmaig. chedieoptimalePartitionapproximieren<strong>und</strong>indiesenPunktene-<br />

ImfolgendensollendieseTechnikenkurzvorgestelltwerden: ihrerschnellenBerechenbarkeit. litat(VariationvonParametern,verschiedeneProximitatsmae)<strong>und</strong> xiblersind.DieVerfahrenempfehlensichwegenihrerhohenFlexibi-<br />

(a)IterativeVerbesserungderAnfangsklassikationVerfahumg(A)(bzw.k(A))approximativeLosungenz<strong>und</strong>en.EinrendieserArtversuchen,beivorgegebenemOptimalitatskriteri-<br />

vorgegebeneAnfangsklassikationA0wirddurchsystematische UmgruppierungderObjekteiterativsolangeverbessert,bisein mumderFunktiong(A),i.allg.jedochnichtzumglobalenMi-<br />

nimum.ImAustauschverfahrenwerdendurchVerlagerungvon stabilerZustandeintritt.SogelangtmanzueinemlokalenMini-<br />

39


nenAgebildet,wodurchg(A)verkl<strong>einer</strong>twird.Problematisch ObjektenzwischendeneinzelnenKlassenimmerneuePartitio-<br />

hierbeiistdiegunstigeWahlderAnfangsklassen<strong>und</strong>dierichtige WahlderAnfangsklassenzahl.Vorgehensweisehierkannz.B.sein,<br />

(b)RekursiverAufbauvonGruppenumKerneDiesesVerfahrenkannsowohlaufdenBeobachtungsvektorenx1;:::;xkalstimmtdienochunbekannteAnzahlderKlassen<strong>und</strong>kannalter-<br />

auchaufderDistanz-bzw.Ahnlichkeitsmatrixbasieren.Esbenativdisjunktivexhaustiv<strong>und</strong>nichtexhaustivgruppieren.Idee<br />

mit<strong>einer</strong>geringenKlassenzahlzubeginnen<strong>und</strong>beibeendeter Verringerungvong(A)zuprufen,obeineSpaltungvonKlassen sinnvollist<strong>und</strong>dieseSpaltunggegebenenfallsdurchzufuhren.<br />

Konstruktionsprinzip: oder"zentrales\Objektscharen<strong>und</strong>dieKlassenumdieseObjekteaufgebautwerden.VerfahrendieserArtbenutzendasfolgende<br />

istdasichdieElementejederKlassedichtumein"typisches\<br />

ii.MansucheausderMengeU1:=S?A1jenesObjektOk, i.MansucheinderMengeS=fO1;:::;ONgdas"typischste\ ObjektOk1,betrachteesalsKern<strong>einer</strong>erstenGruppeA1 dadiegroteAhnlichkeitzuA1besitzt<strong>und</strong>fugeeszuA1 <strong>und</strong>setzezunachstA1=fOk1g.<br />

iii.WiederholungvonPunkt2.bisbisHeterogenitatderMenge hinzu.<br />

iv.Manentferntn<strong>und</strong>ieKlasseA1ausderObjektmengeS<strong>und</strong> A1+fOk1geineGrenzeubersteigt.A1istnuneinefertige Klasse.<br />

v.DasVerfahrenwirdabgebrochen,sobaldalleObjekteaus suchtinS?A1einenzweitenKernpunktOk2<strong>und</strong>einedazugehorigeKlasseA2usw.DurchIterationdieserSchritte<br />

Sklassiziertsind(exhaustiveGruppierung)oderwennnur entstehteineFolgedisjunkterKlassenA1;A2;A3;:::<br />

f<strong>und</strong>enenGruppierungensolltennochmitHilfeandererMetho-<br />

EingesetztwurdenverschiedeneMae(s.Abschnitt3.2).Diegepierung).<br />

nochunwesentlicheGruppenauftreten(nichtexhaustiveGrup-<br />

(c)Heuristische<strong>und</strong>kombinierteVerfahrenWieobenbereits angedeutet,konnendieBedingungenandieKlassikationkommungderAnfangsklassikationvonoptimalenVerfahrendenverbessertwerden.InsbesondereeignensiesichfurBestimsendeniertwerdenmussen.Solchemglw.wiedersprechendeplexererNatursein.Z.B.konntenminimaleodermaximaleKlassengroenvorgegeben<strong>und</strong>MindestabstandezwischendenKlas-<br />

40


mittelsheuristischerGesichtspunktemodiziert. werdendazuVerfahrenkombiniertoder"elementare\Verfahren Anforderungenkonnennurapproximativgelostwerden.Meist<br />

3.AnalysederPunkt-<strong>und</strong>VerteilungsdichteGr<strong>und</strong>legenderAnhangendenBereichdesRaumesentspricht,indemdieeinzelnenPunksatzbeiderAnalysevonPunkt-<strong>und</strong>Verteilungsdichtenistdieanteuberdurchschnittlichdichtliegen<strong>und</strong>siedurchBereicheniedrigererPunktdichteabgetrenntsind.DiespezielleGestaltderMengeA<br />

ZentrumoderKernderentsprechendenGruppeangesehen.Gruppiert werdendieObjekteO1;:::;ONaufgr<strong>und</strong>derNBeobachtungsvektorenx1;:::;xN2Rp,womitVerfahrendieserArtnuraufratioskalierte<br />

Merkmaleanwendbarsind. (a)VerteilungsmischungenAnnahmehierbeiist,dadieObjekte O1;:::;ONeinezufalligeStichprobeaus<strong>einer</strong>groerenGr<strong>und</strong>-<br />

wirklicheineKlassenstrukturauf<strong>und</strong>besteheausdenEinzelgesamtheitdarstellen.DieGesamtpopulationQweiseweiterhipopulationenQ1;:::;Qmderart,dajedePopulationQidurch<br />

eineeigeneVerteilungsdichtefi(x)charakterisiertist(x2Rp). DieWahrscheinlichkeitdafur,daeinzufalligausSherausgegrienesObjekt<strong>zur</strong>PopulationQigehort,seipi.Diemarginale<br />

DichtedesZufallsvektorsXergibtsichdannmit<br />

schaulicheVorstellung,daeinePunktgruppeAeinemzusammen-<br />

spieltkeineRolle.DieStellemaximalerPunktkonzentrationwirdals<br />

MerkmalsvektorsXausQ,derzueinemzufalliggezogenenObjektOgehorttevonBedeutung:<br />

BestimmungderVerteilungsmischungf(x)z.B.durchAp-<br />

BestimmungderPopulationdesObjektesOk.DieLosung proximationderfi(x)mitNormalverteilungen<strong>und</strong>Bestim-<br />

mungderzugehorigenParameter.<br />

lungsmischungbezeichnet.f(x)beschreibtdieVerteilungeines DieseMischungderDichtenf1(x);:::;fm(x)wirdalsVertei-<br />

f(x)=p1f1(x)+p2f2(x)+:::+pmfm(x): (3.66)<br />

FurdasGruppierungsproblemsindnunvorallemfolgendeSchrit-<br />

(b)NichtparametrischeSchatzungderVerteilungsdichteIm vorherigenParagraphenreduziertesichdieBestimmungvonf(x) erfolgen. dieserFragekanni.allg.imRahmenderDiskriminanzanalyse<br />

aufdieSchatzungunbekannterParameter.ParametrischeSchatzungensindjedochnichtimmermoglich<strong>und</strong>haugauchunzweckmaig.BeiTechnikendieserArterfolgtdieSchatzungaufnicht<br />

41


(c)GruppierungunterVerwendungderPunktdichteInVerfahrendieserArthatjederPunktmit<strong>einer</strong>ihnuberlagernden<br />

Ranggroen(s.[Boc74]S.265). parametrischeArt.EineTechnikenhiersinddieVerwendungvon Kernfunktionen,Reihenentwicklungen<strong>und</strong>dieVerwendungvon<br />

texiwerdendannz.B.nacheinemGradientenverfahreninRich-<br />

tungdesnachstenMaximumsderaktuellenVerteilungdichtever-<br />

Funktionfi(x)einenEinuaufdieGesamtdichtef(x).DiePunkschoben.DieseVorgehensweiseerzeugtimmereindeutigereMaximaderVerteilungsdichte<strong>und</strong>gruppiertgleichzeitigdiePunkte<br />

indiesenMaxima.<br />

(d)Sequentielle,selbst-adaptierendeVerfahrenInderPraxis Willmandannz.B.einenichtexhaustiveGruppierungerzeugen,<br />

kannmannichtimmervoraussetzen,daalleDatengleichzeitig kannmanmittels<strong>einer</strong>DichteschrankesalledieMaxima,furdie f(x)untersliegtalsunklassizierteObjekteaussortieren.<br />

ObjekteindieKlassikationeinzubeziehen. tinuierlichenDatenstromderObjekteOjumzugehen<strong>und</strong>neue vorliegen.VerfahrendieserArtsindinderLage,miteinemkon-<br />

4.GraphentheoretischeMethodenMethodendieserArtbasierenauf <strong>einer</strong>NN-Distanzmatrix(djk)<strong>und</strong>erzeugenaufdieserBasisGruppierungen,diegenerelldieHomogenitatoderSeparationderObjektmengensichern.Gr<strong>und</strong>lageistdieDenitionvonObjektmangenA<br />

Sals"Gruppen\.IsteinsolcherGruppenbegrideniert,reduziert sichdasKlassikationsproblemaufdieeindeutigformulierteAufgabe, dieinSenthaltenenGruppenzubestimmen. Dafurwahltmaneinebeliebige,aberfesteDistanzschranked>0<strong>und</strong> bezeichnetzweiObjekteOj<strong>und</strong>Okals"ahnlich\genaudann,wenn vonOk.FurjedeGruppeAfordertmandann: djkdgilt.DieMengeallerObjekteOjmitdjkdheitd-Umgebung<br />

(b)MitjedemObjektOksollauchdiegesamted-UmgebungvonOk (a)Asollnichtleersein.<br />

(c)KeineinAenthalteneTeilmengeB(6=A)solla<strong>und</strong>berfullen. zuAgehoren.<br />

DieKonstruktionderGruppenvonSerfolgtnun,indemmanmiteinemObjektbeginnt,alleObjektes<strong>einer</strong>d-Umgebung<strong>zur</strong>Gruppehinzufugt<strong>und</strong>mitdiesenObjektenfortsetzt.IstdieGruppevollstandig,<br />

fahrtmanmitmglw.verbleibendenObjektenfort,furdieseebenfalls<br />

(Minimalitatsbedingung)<br />

42


Gruppenzubilden.DerarterhaltmaneinenGraphen,dessenisolierteTeilgraphendieeinzelnenGruppenbilden.Diedadurchentstandene<br />

PartitionAbezeichnetmanalsGruppierungderStufed.DieseMethodewirdalsGruppierungderZusammenhangskomponentenoderauch<br />

alsSingle-Linkage-Methodebezeichnet.VorteildieserMethodeistdie SteuerbarkeitdurchdenParameterd.Sieneigt<strong>zur</strong>Kettenbildung<strong>und</strong> denenGraphenkanneineHierarchieerzeugtwerden(vgl.Single-Linkage identiziertAusreier. DurchKonstruktiondesMinimalbaumesausdemvollstandigverbun-<br />

alshierarchischesVerfahren).DieseKonstruktionerfolgt,indemman zueinemAnfangsobjektOdieminimaleDistanzzumnachstenObjekt schreitendimmerdiekurzesteDistanzeinesBaumknotenobjektsmit bestimmt<strong>und</strong>diesesindenBaumeinfugt.Bestimmtmandannfort-<br />

einemnochnichteingefugtenObjekt<strong>und</strong>fugtdiesesein,soentsteht derMinimalbaum. WeitereAnsatze<strong>zur</strong>axiomatischenGruppierungmitgraphentheoretischenVerfahrensindz.B.dieGruppierungdurchreziprokePaare<strong>und</strong><br />

durchk-Gruppen. 3.3.2.2NichtdisjunkteKlassikation FurvielepraktischeAnwendungenistdieBeschrankungaufdisjunktive Klassikationenunzweckmaig.WenndiegesuchteGruppierunggraduelle<br />

DieVorgehensweisensindhierbeiweitgehendaxiomatischinAnlehnungan dungvonnichtdisjunktivenVerfahrensinnvoller.Voraussetzungderimfol-<br />

gendenbeschriebenTechnikenisteineDistanz-bzw.Ahnlichkeitsmatrix. AbstufungenmitiessendemUbergangwiderspiegelnsoll,istdieVerwen-<br />

diegraphentheoretischenVerfahrenderdisjunktenKlassikation.EshandeltsichdabeiumdieDenitionvonGruppenoderCliquen.Aufgr<strong>und</strong>dieserDenitionerfolgtdanndieKonstruktion,diemeistmathematischexakt<br />

deniertist.DiewichtigstenVerfahrenseienhierkurzangefuhrt: 1.MaximaleCliquenBeimaximalenCliquenwirdvonderForderung ausgegangen,dadieDistanzjedesObjektes<strong>einer</strong>GruppezuausnahmslosallenanderenObjektendieserGruppeeinevorgeschriebene<br />

maximaleDistanzdnichtuberschreitensoll:EineMengeAvonObjektenausSheitCliquederStufedganaudann,wenndieUngleichung<br />

erfulltist.WeiterhinheiteineCliquemaximal,wennzuAkeinObjektOkausderRestmengeS?Ahinzugefugtwerdenkann,ohneda<br />

dijd8Oi;Oj2A (3.67)<br />

Bedingung(3.67)verletztwurde. 43


MitdiesenDenitionenlatsichnunrelativleichteineKonstruktionsvorschriftbestimmen,dieallemaximalenCliquenerzeugt.Weil<br />

GruppenderGroeeinsoderzweiebenfallserfatwerden,empehlt Allgemeinkannmansagen,damaximaleCliquenHomogenitat<strong>und</strong> essichhaug,diesezueliminieren. VollstandigkeitderentsprechendenObjektmengensichern,jedochdie sehrahnlichenGruppenfuhren,waskeinesinnvolleInformationsreduktiondarstellt.AuerdemistderDurchmesserd<strong>einer</strong>Klasseoft<br />

einezuharteEinschrankung.Istder"naturliche\KlassendurchmessergroeralsdodervariierendieKlassendurchmesser,sindmaximale<br />

Mangelzubeseitigen,wurdeeineVielzahlvonVerfahrenvorgeschlagenKriteriumfurzufalligeFehlerinderMatrixanfallig.Umdiese<br />

Cliquenkaumsinnvolleinsetzbar.Auerdemsindsiemitihremstren-<br />

SeparationzuanderenGruppennichteinbeziehen.Dieskannoftzu<br />

Allgmeinistzuempfehlen,dasVerfahrenmitmehrerend-Wertenausgen(s.[Boc74]S.330).<br />

2.R-GruppenEineweitereVorgehensweiseistdieDenition<strong>und</strong>KonstruktionvonR-Gruppen.Zieldabeiist,dieInexibilitatvonCliquen<br />

zuuberwinden.Dasgeschieht,indemmanbeiderBerechnungvonHomogenitatenstattderExtremwertemittlereAhnlichkeitenbenutzt.So<br />

kanneinObjektzu<strong>einer</strong>Gruppegehoren,wenneszueinemreprasentativenTeilderObjektederGruppeahnlichist,wasderanschaulichen<br />

Vorstellungvon"naturlichen\Objektklassenentspricht. EineObjektmengeASheitR-Gruppegenaudann,wennfuralle ObjekteOi2A<br />

tenKlassenaufzubauen. zufuhren.DamitbestehtdieMoglichkeit,eineHierarchiemitdisjunk-<br />

gilt.Zielistnun,moglichstkleineR-Gruppenzuerzeugen,dereninnere Xj2Asij?X<br />

AhnlichkeitgroeralsdieauerenAhnlichkeitensind. j2S?Asij0 (3.68)<br />

EskannrelativleichteinAlgorithmusbestimmtwerden,derR-Gruppen <strong>zur</strong>ObjektmengeSerzeugt([Boc74]S.341).UmmoglichstminimaleR-Gruppenzuerzeugen,werdendiesoerhaltenenR-Gruppenfallsmoglich-inkl<strong>einer</strong>eR-Gruppenaufgespaltetgeeignet,wenndieObjektmengekleineuberschneidendeObjektklasweiseR-Gruppensind<strong>und</strong>diekleinennurbeiextremerHomogenitat<br />

ProblemdiesesAnsatzesist,daauchgroeObjektmengentypischer-<br />

<strong>und</strong>SeparationR-Gruppenbilden.DeswegenistdieserAnsatzunsenenthaltoderdieErzeugunggroerKlassenvonvornhereinalsun-<br />

44


zweckmaigerscheint.Deswegenwurdenz.B.dieS-Gruppenverwendet,derenKriterium1<br />

schwacheristalsdasderR-Gruppen.DieS-Gruppenerlaubendie jAj?1Xj2AsijN?jAjXj=2Asij 1 (3.69)<br />

Gruppenbildungkl<strong>einer</strong>Gruppen,fallsdieGruppenbereitsoberhalb EineweitereVerbesserungderR-GruppenstellendieGR-Gruppendar desGesamtahnlichkeitsdurchschnittsderObjektmengeliegen.<br />

3.3.2.3HierarchischeKlassikation (s.[Boc74]S.349).Zusatzlich<strong>zur</strong>HomogenitatinnerhalbderGruppe wirddortdieHeterogenitatzuNichtgruppenmitgliederngefordert.<br />

Problem<strong>und</strong>VorgehensweiseGr<strong>und</strong>legendesProblemdermeistenbishervorgestelltenVerfahrenist,dadortalsKriteriumentwederdieKlassenzahlmbzw.dieHomogenitatkderKlassen(z.B.inFormdesKlassendurch-<br />

inUbereinstimmungzubringensind.AuerdemistesfurdieVisualisierung(s.Kapitel1)meistsinnvoll,inmehrerenStufendurchdieentstandenmessers)vorgegebenwerdenmute.Problematischdabeiistjedoch,dadieseParametermeistschwermitden"tatsachlichen\GroenderGruppierungesolcherGruppierungenmitsteigenderAnforderungandieHomogenitat<br />

Strukturnavigierenzukonnen.<br />

(<strong>und</strong>steigenderKlassenzahl)zuerzeugen(sogenntePartitionenderStufe neeinzigedisjunkteGruppierungzubestimmen,sonderneineganzeFol-<br />

VorgehensweisebeiderhierarchischenKlassikationistdeswegen,kei-<br />

h).Hauptforderungdabeiist,dadieGruppenvergleichbarseinsollen<strong>und</strong><br />

gammDasErgebnissolch<strong>einer</strong>Klassikationlatsichgraphischalsso-<br />

inf<strong>einer</strong>eUnterklassenaufteilen. dasichnachdemPrinzipderschrittweisenVerf<strong>einer</strong>unggroereKlassen<br />

genanntesDendrogrammdarstellen(Abb.3.B),indemdieeinzelnenKlas-<br />

sennachArteines"Stammbaums\angeordnetsind.JedeKlasseineinem DiePartitionenhierarchie-ReprasentationdurcheinDendro-<br />

KlasseenthaltdieObjekte,diedurchFusionderObjektederzugehorigen Sohnknotenentstehen. DendrogrammwirddurcheinenKnotendiesesBaumesreprasentiert.Eine<br />

entspricht.EinindiziertesDendrogrammbestimmteindeutigeinePartitionenhierarchieHvonPartitionenAvaufdenHeterogenitatsstufenh.<br />

EinDendrogrammheitindiziert,wennandenBaumknotendieHeterogenitatbzw.dieHomogenitatderKlasseeingetragenwird,diedemKnotetendesDendrogrammsbendet.AnalogsteigtdieHomogenitat,jekl<strong>einer</strong><br />

DieHeterogenitath<strong>einer</strong>Klassesteigt,jenahersiesichamWurzelkno-<br />

45


h<br />

S<br />

1.0<br />

0.8<br />

0.85<br />

0.6<br />

0.5<br />

0.5<br />

0.4<br />

Abbildung3.B:IndiziertesDendrogrammmit10Objekten<strong>und</strong>Darstellung<br />

0.3<br />

0.15<br />

0.1<br />

dieKlassenwerden.UmdieseEigenschaftabzusichern,solltenausschlielich derHeterogenitatendereinzelnenKlassenandenKnoten<br />

0<br />

O 1 O 2 O 3<br />

O 4 O 5 O 6 O 7<br />

O 8 O 9 O<br />

dergibt.DasentsprichtderForderung,dadieStufehderHierarchie,auf zuerzeugen,welchesdieAhnlichkeitsstrukturderObjekteambestenwie-<br />

monotoneHeterogenitats-bzw.Homogenitatsmaeverwendetwerden. ZielderhierarchischenKlassikationist,einindiziertesDendrogramm<br />

groerdieAhnlichkeitzwischenihnenist. welchersichzweiObjekteOj<strong>und</strong>Okbenden,umsoniedrigerseinsoll,je<br />

genitatvonKlasseninderHierarchiezuvergleichen,dienichtineinander vonHierarchienistesmoglich,reinvisuelldieHeterogenitatbzw.Homo-<br />

enthaltensind.EinweitererVorteilsolch<strong>einer</strong>Hierarchieistz.B.,daman InterpretationsmoglichkeitenvonHierarchienBeiderBenutzung<br />

leichtsehenkann,obdieKlasseneherdurchFusionvonKlassenvergleichbarerGroenordnung(starkeGruppenstruktur)odereherdurchEinfugen<br />

alsdeutlichausgepragt,gutsepariert<strong>und</strong>damitals"naturliche\Klassebezeichnetwerden.Ausreiersinddaranzuerkennen,dasieerstin<strong>einer</strong><br />

relativhohenHeterogenitatsstufeeinsortiertwurden. se,dieubereinenweitenHeterogenitatsbereichfastunverandertbleibt,kann einzelnerObjekteentstandensind(schwacheGruppenstruktur).EineKlas-<br />

kationensindaberauchanwendbar,wenneinedisjunkteKlassikation22 archischeStrukturderObjektmengezuvermutenist.HierarchischeKlassi- bereitsaufgr<strong>und</strong>sachlicher,auermathematischerGesichtspunkteeinehier-<br />

AnwendungsbereicheWichtigeAnwendungsbereichesindsolche,wo<br />

setzbar.DieDarstellungvonDendrogrammen,indenenin<strong>einer</strong>Ebenemeistnureine Fusionierungstattndet,istmeistzuunubersichtlich<strong>und</strong>fuhrtimSinnederVisualisie- 22InderVisualisierungsinddisjunkteKlassikationenaufmeherenStufensinnvollein-<br />

46


aufbestimmtenHeterogenitatsstufengesuchtist. nungvonHierarchienvorgestelltwerden: 1.OptimaleHierarchienBeioptimalenHierarchiensolleinindiziertes VerfahrenImfolgendensollenunterschiedlicheVerfahren<strong>zur</strong>Bestimm-<br />

einDistanzmamitbestimmtenEigenschaften(vgl.[Boc74]S.265). ErsteMoglichkeitistdieErzeugungdesDendrogrammsausderDistanzmatrixdurchNutzungvonUltrametriken.EineUltrametrikist<br />

Dendrogrammmittels<strong>einer</strong>Optimalitatsforderungerzeugtwerden.<br />

DabeiexistierteineeindeutigeAbbildungvon<strong>einer</strong>Ultrametrikauf einindiziertesDendrogramm.AufgabebeiderBildungvonoptimalen HierarchienmitUltrametrikenist,furdasgegebeneDistanzmadder ObjektemengeSeineUltrametrikz<strong>und</strong>en,welchedapproximiert (vgl.[Boc74]S.371). Alszweite,wenigertheoretischeMoglichkeit<strong>zur</strong>DenitioneinesOptimalitatskriteriumsergibtsichdieForderung,denHeterogenitatszuwachsvon<strong>einer</strong>Hierarchiestufe<strong>zur</strong>nachstenmoglichstgeringzuhalmationdieserForderungum.Von<strong>einer</strong>Heterogenitatsstufe<strong>zur</strong>nachsfat,diedengeringstenHeterogenitatszuwachserzeugen.ImallgemeinenwerdendabeizweiKlassenbzw.Objektefusioniert,esseidenn,die<br />

hoherenwerdendortgeradedieKlassenbzw.Objekte23zusammengeten.AgglomerativewieauchdiversiveVerfahrensetzeneineApproxi-<br />

FusionierungmehrererKlassenbzw.ObjekteergibtdenselbenHeterogenitatswertwiedieFusionierungnurzweierKlassenbzw.Objekte.<br />

2.AgglomerativeVerfahren InderPraxisvongroerBedeutungsinddieagglomerativenVerfahren.Gr<strong>und</strong>ideehierist,dadiePartitionenhierarchieH,beginnend<br />

mitderfeinstenPartitionA0=(fO1g;:::;fONg)derartaufgebaut wird,daausderf<strong>einer</strong>enPartitionAv?1durchFusionierungvonihr sichhieralsoum"buttom-up\-Verfahren. zugehorigenKlassendiegroberePartitionAverzeugtwird.Eshandelt KonstruktionsprinzipVoraussetzungfurdieKonstruktiondieser HierarchieisteinDistanzmaDAB,welchesdieDistanzbzw.UnahnlichkeitzweierKlassenmit.AnalogkonnteaucheinAhnlichkeitsmarithmusprazisiertwerden:<br />

SABverwendetwerden.Imfolgendensollderzugr<strong>und</strong>eliegendeAlgo-<br />

rungeinezugeringeReduktionderAusgangsinformationdurch. 23EinobjektigeKlassen (a)Furv=0seiA0=(fO1g;:::;fONg)diefeinstePartitionder ObjektmengeS=fO1;:::;ONg.<br />

47


(b)ZuBeginnvonSchrittvseidie(v?1)-tePartitionAv?1= 2KlassenAr<strong>und</strong>As,furdiedieDistanzDArAsminimalist: (A1;:::;Amv?1)bereitskonstruiert.UnterA1;:::;ANsucheman<br />

dadiebeidenKlassenAr<strong>und</strong>AsvonPv?1zu<strong>einer</strong>einzigen DieneuePartitionAv=(Av1;:::;Avmv)entstehtdanndadurch, DAr;As=min 8i6=jfDAiAjg<br />

(c)DerAgglomerationsschrittbwirdfurv=1;2;:::iteriert,bis KlasseA=Ar+Asfusioniertwerden.<br />

JenachDistanzmaDABbzw.SABunterscheidetmanverschiedene vereinigtsind. nachN?1SchrittenalleObjekteinderKlassefO1;:::;ONg<br />

agglomerativeVerfahren.Wichtigdabeiist,dadasMamonotonist, daesi.allg.gleichdirektalsHeterogenitatsbzw.Homogenitatsma<br />

dazuneigt,dieObjekteinkl<strong>einer</strong>e,etwagleichgroeKlassenzusammenzufassen.ImGegensatzdazuerzeugenkontrahierendeVerfahretrahierendeVerfahrensind<strong>zur</strong>Ausreieridentikationgeeignet.KonservativeVerfahrenweisenwederdieeinenochdieandereTendenz<br />

DieausunterschiedlichenMaenresultierendenVerfahren<strong>und</strong>ihre verstarktauf. Eigenschaftensollenimfolgendenkurzvorgestelltwerden: Single-Linkage-VerfahrenDasSingle-Linkage-Verfahrenfurdie DasAbstandsmaDArAs:= ausKapitel3.3.2.1-Abschnitt"GraphentheoretischeMethoden\. hierarchischeKlassikationisteineAnwendungdesVerfahrens<br />

kontrahierend<strong>und</strong>konservativ.EinVerfahrenistdilatierend,wennes ManunterscheidetbeidiesenVerfahrendieEigenschaftendilatierend, furdieIndizierungdesDendrogrammsverwendetwird.<br />

eherwenigegroeKlassen,dievielenkleinengegenuberstehen.Kon-<br />

KlassenAr<strong>und</strong>As.DasVerfahrenfusioniertdiebeidenKlassen, beinhaltetdieminimaleDistanzzweierObjekteausdenbeiden 8j2Ar;k2Asdjk (3.70)<br />

liegen.DasSingle-Linkage-Verfahrenneigt<strong>zur</strong>Kettenbildung<strong>und</strong> indenenzweiObjektejeweilsaus<strong>einer</strong>Klassesichamnachsten istgeeignet<strong>zur</strong>ErkennungvonAusreiern(kontrahierendesVerfahren).VorteildiesesVerfahrensist,damanmathematisch<br />

wurdenModikationendesKonstruktionsprinzips<strong>und</strong>einenicht disjunkteHierarchieeingefuhrt. beweisbareAussagenuberdasKlassikationsergebnisableiten kann.ZurVermeidungderunerwunschtenVerkettungseigenschaft<br />

48


Complete-Linkage-VerfahrenDasAbstandsma<br />

beinhaltetdiemaximaleDistanzzweierObjekteausdenbeiden KlassenAr<strong>und</strong>As.DasVerfahrenfusioniertdiebeidenKlassen,furdiederDurchmesserderzusammengefugtenneuenKlasse<br />

gleichgroeGruppenzusammenzufugen(dilatierendesVerfahren).AusreierkonnenhierdasFusionierungsergebnisverzerren<br />

Bildungkl<strong>einer</strong>Gruppen<strong>und</strong>versuchtdieObjekteverstarktin minimalist.DasComplete-Linkage-Verfahrentendierteher<strong>zur</strong><br />

DArAs:= 8j2Ar;k2Asdjk (3.71)<br />

Zentroid-VerfahrenDasAbstandsma <strong>und</strong>solltenvorhereleminiertwerden.VorteildiesesVerfahrens sikationsergebnisableitenkann. ist,damanmathematischbeweisbareAussagenuberdasKlas-<br />

beinhaltetdieDistanzderMittelpunktevonAr<strong>und</strong>As.Esfusio-<br />

niertdieKlassenmitdemahnlichstenMittelpunkt.DasZentroid- DArAs:=kxAr?xAsk2 (3.72)<br />

Average-Linkage-VerfahrenDasAbstandsma Verfahrenistkonservativ.<br />

beinhaltetdiemittlereDistanzallerObjektevonAr<strong>und</strong>As. DArAs:=1 nrnsX j2ArX<br />

EsfusioniertdieKlassen,derenObjektdistanzenimMittelam k2Asdjk (3.73)<br />

Ward-VerfahrenDasWard-Verfahrengehortzu<strong>einer</strong>Klasse kleinstensind.DasAverage-Linkage-Verfahrenistkonservativ. vonVerfahren,dienichtaufderDistanzbzw.Ahnlichkeitder Klassen<strong>einer</strong>PartitionAv,sondernwieinderDenitionvon indiziertenDendrogrammendirektaufHeterogenitats-bzw.Homogenitatsmaenbasieren.ZielbeidiesenVerfahrenist,denHeterogenitatszuwachsvonderPartitionAv?1<strong>zur</strong>PartitionAvzu<br />

minimieren.DieseForderungtrittimKonstruktionsprinzipandie StellederDistanzforderung.DasVerfahrenvonWardimspeziellenversucht,dasVarianzkriterium(vgl.3.65)zuminimieren.<br />

Diesbedeutet,dasichdieSummederVarianzendereinzelnen Klassensichnurminimalerhohensoll.DasWard-Verfahrenist unterdenvorgestelltenMaenlt.[BEPW96]ambestengeeignet, konservativ<strong>und</strong>bildetetwagleichgroeKlassen.Esistdamit hierarchischeKlassikationendurchzufuhren.WeitereVerfahren basierenz.B.aufinformationstheoretischenHeterogenitatskriterien.<br />

49


FurdiehieraufgefuhrtenVerfahrenbestehtdieMoglichkeitderBeschleunigungderBerechnungderDistanzmatrix,indemdieseiterativ<br />

S.404<strong>und</strong>[BEPW96]S.286-287).DamitentfalltbeimKlassenvergleichdieaufwendigeDistanzberechnungzwischenallenObjekten<br />

beiderKlassen. WeiterhinbestehtdieMoglichkeit,wahrendderhierarchischenagglomerativenKonstruktiondurchStoppenbei<strong>einer</strong>bestimmtenPartitioneinedisjunktenKlassikationzuerzeugen.Stopkriteriensind<br />

nitatszuwachseinenvergleichsweisegroenSprungausfuhrt(Elbow- u.a.dasErreichen<strong>einer</strong>vorgegebenenKlassenzahl,fallsderHeteroge-<br />

Kriterium)oderwennderInformationsverlustbeimPartitionsuber-<br />

furdieAnwendunginderVisualisierungvonInteresse,weildortauf gangeinegewisseSchrankeubersteigt.DieseKriteriensindu.a.auch<br />

injedemSchrittandieneuePartitionangepatwird(vgl.[Boc74]<br />

3.DiversiveVerfahrenEbensowiebeidenagglomerativenVerfahren verschiedenenEbenendisjunkteKlassikationenerzeugtwerden(vgl. Abschnitt4.2.1). wirdbeidendiversivenVerfahrenaufgr<strong>und</strong><strong>einer</strong>Distanz-oderAhnlichkeitsmatrixeinindiziertesDendrogrammerzeugt.DerUnterschied<br />

bestehtdarin,dadieVerfahrenbeginnendmitderKlasseA0=Sei-<br />

neUnterteilungbereitsgef<strong>und</strong>enerKlassendurchfuhren("top-down\-<br />

Gr<strong>und</strong>forderungbeiderAufspaltung<strong>einer</strong>KlasseASinzweiUnterklassenB1<strong>und</strong>B2istdieForderung,daB1<strong>und</strong>B2moglichst<br />

homogen<strong>und</strong>moglichstgutgetrenntsindoderdadieHeterogenitat derPartitionA=(B1;B2)moglichstkleinist.DiezweiHauptvorgehensweisensind(vgl.[Boc74]S.412-419):<br />

PolythetischeVerfahrenVonpolythetischenMerkmalenspricht MonothetischeVerfahrenImGegensatzzudenpolythetischen man,wenndiepMerkmaleinsymmetrischerWeiseberucksichtigt<br />

aufgeteilt.DiesewerdendannrekursivimmerwiederinzweiKlassen Verfahren).DabeiwirdeineKlasse"optimal\inzweiUnterklassen aufgeteilt,bisdieresultierendenKlasseneinelementigeObjektebilden.<br />

gungaufGr<strong>und</strong>lageeinescharakteristischenMerkmals. MethodenerfolgtbeidenmonothetischenMethodendieZerle-<br />

werden.<br />

4.WeiterehierarchischeMethodenWeitereMethoden<strong>zur</strong>ErzeugungvonhierarchischenKlassikationenbasierenaufderModikationvondisjunktenbzw.nichtdisjunktenVerfahren.DieHierarchien<br />

werdendortdurchVariationvonParameternderVerfahrenerzeugt. BeispielehierfursinddasVerfahrenSchnell<strong>und</strong>dasVerfahrenvon 50


3.3.3Interpretation<strong>und</strong>ValidierungdergewonnenenErgebnisse<br />

nichtdisjunktenHierarchien. Wishart(s.[Boc74]S.420).InteressantistauchdieErzeugungvon<br />

diemitderKlassikationgewonnenenErgebnisseinterpretierenkann.WichtigistdabeivorallemdieFrage,wiestabil<strong>und</strong>gesichertmandasErgebnipretationen<strong>und</strong>Validierungsansatzesollhiernichtnocheinmaleingegangen<br />

werden. ansehenkann.AufbereitsimvorigenAbschnitt3.3.2eingegangeneInter-<br />

IndiesemKapitelsolleneinigeBemerkungendazugemachtwerden,wieman<br />

sikationenistdieFragederStabilitatderentstandenenKlassikation.Ge-<br />

pruftwerdensollte,wiestarkdasErgebnisvonleichtverandertenParame-<br />

tern,vomspezielleingesetztenVerfahren<strong>und</strong>vondenzugr<strong>und</strong>eliegenden StabilitatGr<strong>und</strong>satzlichvonBedeutungfurdieInterpretationvonKlas-<br />

Maenbeeinutwird.Weiterhinistzubeachten,welchenEinudieAus-<br />

kannz.B.sein,dieInterpretationerstzuformulieren,wennsieaufmehreren "Simulationslaufen\mitleichtverandertenParameternberuht.Dannkann wahlbestimmterMerkmale<strong>und</strong>Objektebzw.dieBeachtungvonKorrela-<br />

tionenzwischenMerkmalen<strong>und</strong>zwischenObjektenhaben.Empfehlenswert <strong>einer</strong>elativumfassende"Kernaussage\getroenwerden. terpretationvonKlassikationsergebnissenistdieAnalysevonKlassenauf denEinuvonbestimmtenMerkmalenhin.Vorallemkannmanfragen, wiehomogeneinMerkmalinnerhalb<strong>einer</strong>Klassevertretenist<strong>und</strong>wiestark AnalysevonKlasseneigenschaftenWeiterhininteressantfurdieIn-<br />

Merkmalsiin<strong>einer</strong>KlasseAberechnetsichnachderVorschrift kalierteMerkmaledieF-<strong>und</strong>diet-Wertebestimmen.DerF-Werteines beidenObjekten<strong>einer</strong>KlassebestimmteMerkmaleausgepragtsind. UmdieseFragenzuuntersuchen,kannmanbeispielsweisefurratios-<br />

wobei(i;A)dieVarianzdesMerkmalsiinderGruppeA<strong>und</strong>(i)dieVarianzdesMerkmalsiindergesamtenObjektmengebezeichnen.Jekl<strong>einer</strong>der<br />

(i); (3.74) F(i;A)=(i;A)<br />

F-Wert,destogeringeristdieStreuungdiesesMerkmalsimVergleich<strong>zur</strong> gesamtenObjektmenge.WennderF-Wert1uberschreitet,weistdasMerkmaleinegroereStreuunginderKlassealsindergesamtenObjektmenge<br />

auf."EinClusteristalsvollkommenhomogenanzusehen,wennalleF-Werte kl<strong>einer</strong>als1sind.\(Zitat[BEPW96]S.310) UmdieAuspragungeinesMerkmalsiin<strong>einer</strong>KlasseAzubestimmen,<br />

51


ziehtmandent-Wertmitt(i;A)=x(i;A)?x(i) <strong>zur</strong>Interpretationheran.Hierbeibezeichnetx(i;A)denMittelwertdesMerkmalsiderObjektederKlasseA,x(i)denMittelwertdesMerkmalsiinder<br />

s(i) (3.75)<br />

gesamtenObjektmenge<strong>und</strong>s(i)dieGesamtstandardabweichungdesMerkmalsi.Negativet-WerteeinesMerkmalszeigenan,dadiesesinderKlasse<br />

unterreprasentiertist.AnalogzeigenpositiveWertean,daeinMerkmalin Klasse. derKlasseuberreprasentiertist.JegroerderBetragdest-Wertesist,je<br />

z.B.<strong>zur</strong>automatischenBeschriftungvonKlasseneingesetztwerdenkann. starkeristdieUnter-bzw.dieUberreprasentationdiesesMerkmalsindieser<br />

Darstellunggesteigertwerden. DamitkannderInformationsgehalt<strong>und</strong>dieVerstandlichkeit<strong>einer</strong>visuellen Mitdemt-WertisteinHilfsmittelgegeben,welchesinderVisualisierung<br />

52


Kapitel4<br />

InfoSonne-EinTool<strong>zur</strong> Vorverarbeitung<br />

NachdemimvorhergehendenKapiteldietheoretischenGr<strong>und</strong>lagenfurdie Vorverarbeitungspipelinegelegtwurden,sollindiesemKapiteldieUmsetzungdesTools"InfoSonne\vorgestelltwerden.Schwerpunktdabeiist,die<br />

exible<strong>und</strong>erweiterbareUmsetzungder<strong>Pipeline</strong>vorzustellen.Weiterhin fahrenvorgestellt. wirddieimplementierteAuswahlderimvergangenenTeilbehandeltenVer-<br />

"StandardTemplateLibrary\.EinePortierungnach"Unix\istangedacht <strong>und</strong>gr<strong>und</strong>satzlichmoglich1. <strong>und</strong>inderProgrammiersprache"VisualC++6.0\.Verwendetwurdedie DieImplementierungerfolgteunterdemBetriebssystem"WindowsNT\<br />

4.1 werden.Dabeisollerlautertwerden,wiedieDatenstrukturendurchein IndiesemAbschnittsollendieimplementiertenDatenstrukturenvorgestellt Zugr<strong>und</strong>eliegendeDatenstrukturen<br />

geeignetesDesignden<strong>exiblen</strong>Anforderungender<strong>Pipeline</strong>entsprechen. Meta-,Nutzer-<strong>und</strong>VerfahrensinformationenaufdereinenSeite<strong>und</strong>den Gr<strong>und</strong>legenderAnsatzbeiderSpeicherungderDatenistdieTrennungvon strukturenaufderanderenSeite.ErstdamitkanndiegeforderteFlexiblitat erreichtwerden. Rohdaten<strong>und</strong>denausihnentransformiertenstrukturbestimmendenDaten-<br />

moglichdurchdieDeklarationalsprivatezuverstecken<strong>und</strong>denZugri nuruberMemberfunktionen<strong>und</strong>Memberoperatorenzuerlauben.Dieses Konzeptsollabsichern,daderBenutzerdergeschaenenDatenstrukturen ZielbeidemDesignderDatenstrukturenwar,Membervariablenwenn<br />

unabhangigvonderdarunterliegendenImplementationeineSchnittstelle<strong>zur</strong> 1keineVerwendungderMFC 53


Verfugunggestelltbekommt,aufdereraufsetzenkann.Damitwird<strong>einer</strong>seits KonsistenzderDatenmengezugefahrden3. gesichert,dabeiAnderungenderinternenImplementationsichnachauen hinnichtsandert2<strong>und</strong>derNutzerauchdarangehindertwird,dieinterne<br />

folgendenUnterabschnitt"DasDeskriptorkonzept\(4.1.2)wirddasSteue-<br />

rungskonzeptvorgestellt,welchesdieTransformationenderDatenaus4.1.1 Unterabschnitt"Gr<strong>und</strong>datenstrukturen\(4.1.1)beinhaltetdieVorstellungderAusgangs-,Zwischen-<strong>und</strong>Ergebnisdatenstrukturen.Imdarauf-<br />

kontrolliert. 4.1.1Gr<strong>und</strong>datenstrukturen<br />

Matrixgegebensind,werdeninderDatenstrukturVectorArraygespeichert. IndiesemAbschnittwerdendieDatenstrukturenvorgestellt,aufdenendie Klassikationbasiert.DieRohdaten,welcheinForm<strong>einer</strong>Objekt-Merkmals- ImVerlaufder<strong>Pipeline</strong>wirdeineAhnlichkeits-oderDistanzmatrixaufgestellt,wenndieKlassikationaufderBerechnungvonDistanzenodegleMatrixeingefuhrt.DieseistfurvieleKlassikationsverfahrendieBasis<br />

derKlassenberechnung.DaserzielteErgebnisderKlassikationwirdinder DatenstrukturHierachyTreegespeichert.Imfolgendenwerdendieeinzelnen Ahnlichkeitenberuht.FurdieseMatrizenwurdedieDatenstrukturTrian-<br />

Datenstrukturenvorgestellt:<br />

DenRohdaten,welcheinForm<strong>einer</strong>Objekt-Merkmals-Matrixvorliegen, wurdemitderDatenstruktur"VectorArray\einepassendeFormgegeben. 4.1.1.1VectorArray<strong>und</strong>Vector<br />

FurdasDesigndieserKlassewichtigwardie<strong>Realisierung</strong>des<strong>exiblen</strong>ZugrissowohlaufEinzelwertederMatrixalsauchaufdenzueinemObjekt<br />

eineKlasse"Vector\deniert,diez.B.alsUbergabeparameterfurdieProximitatsfunktionenverwendetwird.DerZugriaufdieeinzelnenObjekte-<br />

einexiblesInterfacezuhaben,wurdezusatzlich<strong>zur</strong>KlasseVectorArray OjzugehorigenVektorxj.UmfurdieArbeitmitdenerhaltenenVektoren<br />

MitdemOperatorVectorArray::operator()istderZugriaufeinzelneElementederObjekt-Merkmals-Matrixmoglich,indemderObjekt-<strong>und</strong>deparameterderIndexdeszumVektorgehorendenObjektesubergebenwirdvektorenerfolgtmitderFunktionVectorArray::getVec,deralsUbergabe-<br />

Merkmalsindexubergebenwerden. derMerkmaleinderVariableVectorArray::AttNamesgespeichert. NamenderObjekteinderVariableVectorArray::ObjNames<strong>und</strong>dieNamen 2EssollenhochstensneueFunktionenhinzukommen. ZusatzlichzudenMatrix-WertenwerdenimVectorArrayebenfallsdie<br />

3z.B.Einstellung<strong>und</strong>enierterWerte54


nitionderVektordimensionzulat.DieseexibleVektorlangeistz.B.furdie AufteilungdesgesamtenMerkmalsvektorinVektorenmitunterschiedlichen SkalentypenbeiderBerechnungvonhybridenMaenvonBedeutung. WeiterhinimplementiertwurdedieKlasseVector,dieeineexibleDe-<br />

Kapitel4.1.2).WenneinMerkmalbeispielsweiseim"DatenDeskriptor\als terscheidungnachdenTypenwirdim"DatenDeskriptor\festgelegt(vgl getrennt.D.h.,dainihnenalleWertevomTyp"double\sind.DieUn-<br />

BeidiesenbeidenKlassenwurdenichtnachunterschiedlichenSkalen<br />

"1\oder"0\.AnalogsindfurmehrstugeMerkmalenurganzahligeWerte binarfestgelegtist,soenthaltdiesesMerkmalimVectorArraynurdieWerte<br />

inAnhangB.1enthalten. deniert.<br />

4.1.1.2TriangleMatrix DiegenaueDenitiondieserKlassenistinderDatei"VectorArray.hpp\<br />

<strong>und</strong>Distanzmatrizenkonzipiert.VorteilbeiderBenutzungsolcherMatrizen DieDatenstruktur"TriangleMatrix\wurdealsKontainerfurAhnlichkeits-<br />

kannweiterhinderSpeicherbedarfdersymmetrischenNN-Matrizendurch den.UnterNutzungderEigenschaftderSymmetrievonProxymitatsmaen ist,MehrfachberechnungenvonAhnlichkeits-<strong>und</strong>Distanzwertenzuvermei-<br />

dieEinsparungderunteren(bzw.oberen)Halbmatrix<strong>und</strong>derDiagonale4 mehralshalbiertwerden.<br />

dann,wennzweiObjektebzw.KlasseninsolcheinemVerfahrenfusioniert MatrixdurchStreichungvonSpaltenverkl<strong>einer</strong>nzukonnen.Diesgeschieht rativenhierarchischenKlassikation(vgl.Kapitel3.3.2.3),dieGroedieser AuerdemergabsichalsAnforderungausdenVerfahrenderagglome-<br />

entsprechendenRekursionsformelnentfalltsodieNeuberechnungdergesamtenentstandenenTeilmatrix.<br />

werden.DurchNeuberechnungderDistanzenderfusioniertenKlassenmit<br />

rayfestgelegtenObjektes.DieLoschfunktionalitatwurdemitderFunktion TriangleMatrix::deleteLineAndColumn<strong>und</strong>derVariableTriangleMatrix:: validLinesAndColumnsumgesetzt.ZugriaufdieWertedjkbzw.sjkerlaubt DieNummerderSpaltebzw.ZeileentsprichtdemIndexdesimVectorAr-<br />

derOperatorTriangleMatrix::operator().<br />

selber.DiesesindjedochperDenitiongleich1bzw.0. inAnhangB.2enthalten. 4InderDiagonalestehennurdieDistanzenbzw.AhnlichkeitenderObjektezusich DiegenaueDenitiondieserKlasseistinderDatei"TriangleMatrix.hpp\<br />

55


DieDatenstruktur"HierachyTree\dientalsKontainerfurdieKlassikationsergebnisseder<strong>Pipeline</strong>.WichtigwarbeimDesigndiesesKontainers,eine<br />

4.1.1.3HierachyTree<br />

Siesollsowohldisjunktive,nichtdisjunktive<strong>und</strong>auchhierarchischeKlassi- Datenstrukturzuentwerfen,diealleTypenvonKlassikationenunterstutzt. kationsergebnissespeichernkonnen.DieEntscheidungelaufdie<strong>Konzeption</strong>einesBaumes,weildieserallevorgegebenenStrukturenuberdeckt.<br />

JederHierachyTreegehorteindeutigzueinemVectorArray<strong>und</strong>tragtan rArrays.DerWurzelknotenentsprichtdergesamtenKlassikation,zwischen seinenBlatternVerweiseaufdieentsprechendenObjektvektorendesVekto-<br />

reduziert5.ImFallnichtdisjunkterKlassikationkonnenObjekteinunterschiedlichenKlassenmehrmalseingetragenwerden.<br />

KnoteneinzelnenKlassen<strong>und</strong>dieBlatterdenObjekten.Beiderdisjunkten<strong>und</strong>nichtdisjunktenKlassikationisteinsolcherBaumaufdreiEbenen<br />

HierachyTree::rootdesBaumes.Vondortauskannmansichentweder rekursivoderiterativmitderzueinemKnotengehorendenListeNode::sons diehierarchischgeordnetsind.ZugrierhaltmanuberdenWurzelknoten EinHierachyTreebestehtaus<strong>einer</strong>MengevonKnoten(KlasseNode),<br />

durchdenBaumnavigierenoderdieeinzelnenUnterobjekteeinesKnotens mitdemIteratorTreeIterdurchwandern.<br />

HeterogenityHierachyFromDendrogram<strong>zur</strong>Erzeugungeinesn-narenBaumesauseinembinarenDendrogramm.AuerdembestehtdieMoglichkeit,<br />

Klassikationenindas"Typ0\-FormatvonKOAN6zuexportieren. WeiterhindienendieFunktionenNode::heter<strong>und</strong>HierachyTree::build-<br />

alsindiziertesDendrogrammnutzbarmacht. JederKnotenbesitztweiterhineineHeterogenitat,wasdenHierachyTree<br />

inAnhangB.3enthalten. 4.1.2DasDeskriptorkonzept DiegenaueDenitiondieserKlasseistinderDatei"Klassikation.hpp\<br />

tesumgesetztwurden. Vorverarbeitungssystem"InfoSonne\durchWahleinesgeeignetenKonzep-<br />

IndiesemAbschnittsollbeschriebenwerden,wiedieAnforderungenandas<br />

RohdatenineineDatenstrukturumgesetztwurden,wurdebereitsinAbschnitt4.1.1.1vorgestellt.DaesfurdieFlexibilitatder<strong>Pipeline</strong>vongroer<br />

dievomNutzervorgegebenenNutzeranforderungen(s.Abb.2.A).Wiedie Eingangsdatenindie<strong>Pipeline</strong>sinddieRohdaten,derenMetadaten<strong>und</strong><br />

dieObjekte Bedeutungist,dieMetadatenvondenRohdatenzutrennen<strong>und</strong>dieNut- 51.EbeneistdieKlassikation,die2.EbenesinddieKlassen<strong>und</strong>die3.Ebenesind 6KOntextANalysator,entwickeltbeiSiemensAGAbteilungZT 56


starrimQuelltextzuverankern,muteeindiesenAnforderungenentsprechendesKonzeptgeschaenwerden.EineweitereAnforderunganeinsolches<br />

zeranforderungen<strong>und</strong>dieresultierendenAlgorithmeninformationennicht KonzeptistdieleichteErweiterbarkeitumneueVerfahren<strong>und</strong>Mae,ohne dieauereSchnittstellezubeeinussen.DementstandenenKonzeptwurde bungenvonDaten-<strong>und</strong>Algorithmeninformationenhandelt. derName"Deskriptorkonzept\gegeben,weilessichsichhierumBeschrei-<br />

Merkmale<strong>und</strong>Objekteenthalt<strong>und</strong>der"ProzessDeskriptor\,derdiefurdie Diessindder"NutzerDeskriptor\,welcherdieNutzeranforderungenandie Klassikationenthalt,der"DatenDeskriptor\,welcherdieEigenschaftender DieseVorgabenfuhrten<strong>zur</strong>EntwicklungvondreiDeskriptorentypen.<br />

Daten<strong>und</strong>AnforderungenpassendenVerfahren<strong>und</strong>Parameterbeschreibt. MitderFunktion<strong>Pipeline</strong>::calcProzessDeskriptorwirdderProzessDeskriptorautomatischausdenbeidenanderenberechnet.IndieserFunktionliegt<br />

dieHauptintelligenzbeiderAlgorithmen-,Ma-<strong>und</strong>Parameterwahl. FunktionenaufdieDeskriptoren<strong>zur</strong>uckgreifen,wurdendieDeskriptorenals globaleVariablendeklariert.Diesmachtsievonuberallfreiverfugbar<strong>und</strong> verkl<strong>einer</strong>tdadurchwesentlichdieUbergabeparameterlistederbeteiligten WeilgleichzeitignureineKlassikationdurchgefuhrtwird<strong>und</strong>fastalle<br />

genschaftenkurzbeschriebenwerden.DiezugehorigenQuelltextdenitionen Funktionen<strong>und</strong>erhohtdieUbersichtlichkeitdesQuelltextes. konneninderDatei"deskriptor.hpp\(s.AnhangB.4)eingesehenwerden. ImfolgendensollendiesedreiDeskriptoren<strong>und</strong>derengr<strong>und</strong>legendeEi-<br />

DieDatenstruktur"Datendeskriptor\enthaltdieMetainformationenuber 4.1.2.1DerDatenDeskriptor dieObjekt-Merkmals-Matrix.DeswegenwirdihmeindeutigdasVectorArrayDatenDeskriptor::vazugeordnet.Erenthalteinen"ObjektDeskriptornenuberdieObjekte.ImaktuellenStandenthalterdieInformation,wel-<br />

<strong>und</strong>einen"AttributDeskriptor\.DerObjektDeskriptorenthaltInformatiocheObjekteindieKlassikationeinbezogenwerdensollen.DerAttribut-<br />

jedesMerkmaldieVariablenskalenTyp(SkalentypdesMerkmals),bRelevanz(EinbeziehungdesMerkmalsinKlassikation),Gewichtung<strong>und</strong>bInfoLucken(FehlenvonDatenindiesemMerkmal).DiesewerdeninderMaeinfachung<strong>und</strong>GeschwindigkeiterhohungstattdessenlediglichdieVariable<br />

allEqualTypegefullt.<br />

DeskriptorenthaltdieEigenschaftenderMerkmale.Aktuellenthalterfur<br />

AttMapgespeichert.ImFall,daalleMerkmalegleichsind,wird<strong>zur</strong>Ver-<br />

57


DieDatenstruktur"NutzerDeskriptor\enthaltdieZielvorgabendesNutzers 4.1.2.2DerNutzerDeskriptor<br />

Distanzen(SchwerpunkteabsoluteDistanzencontaProlverlaufe),bAusreisserIdentizieren,bAusreisserEleminieren,klassenForm(Festlegungder<br />

Art(ArtdesKlassikationszieles:hierarchischoderdisjunkt),bAbsolute- andieKlassikation.DerzeitbestehtdieMoglichkeit,dieVariablenclusternenfestzulegen.<br />

4.1.2.3DerProzessDeskriptor Klassenformz.B.r<strong>und</strong>oderkettenformig)<strong>und</strong>EinzubeziehendeDimensio-<br />

IndiesemAbschnittsolldieDatenstruktur"ProzessDeskriptor\vorgestellt dieFunktion<strong>Pipeline</strong>::calcProzessDeskriptorberechnet.DieseFunktion werden.ErwirdunterderVorgabederbeidenanderenDeskriptorendurch legtfest,welcheArtvonMaderKlassikationzugr<strong>und</strong>eliegensoll<strong>und</strong> welchesVerfahrenmitwelchenParameterneinzusetzenist. Der"StandardisierungsDeskriptor\legtfest,welcheVorverarbeitungendurchgefuhrtwerden.Der"AehnlichkeitsDistanzDeskriptor\legtdieArt<strong>und</strong>die<br />

HauptteilediesesDeskriptorssindder"StandardisierungsDeskriptor\, der"AehnlichkeitsDistanzDeskriptor\<strong>und</strong>der"GruppierungsAlgorithmus\. Funktionenderzugr<strong>und</strong>eliegendenMaefest.Der"GruppierungsAlgorithmus\speziziertdieArt<strong>und</strong>dieParameterdesgewahltenKlassikationsverfahrens.<br />

4.2 IndiesemAbschnittsolldieImplementierungdes<strong>Pipeline</strong>ablaufeskurzvorgestelltwerden.<br />

Umsetzungder<strong>Pipeline</strong>struktur<br />

(vgl.AnhangB.5). rechnenderDeskriptorenwurdeninderKlasse"<strong>Pipeline</strong>\zusammengefat ImfolgendensollderAblaufderVorverarbeitungkurzbeschriebenwer-<br />

DieFunktionenfurdie<strong>Pipeline</strong>abarbeitung<strong>und</strong>dasEinlesen<strong>und</strong>Beginnder<strong>Pipeline</strong>ausfuhrungwerdenzuerstdieFunktionen<strong>Pipeline</strong>::readden(vgl.AnhangB.6-"main\-FunktiondesCommandLineTools).VorBepeline::calcProzessDeskriptordieAuswahlderMae<strong>und</strong>Verfahrendurchgefuhrt<strong>und</strong>dasErgebnisderAuswahlimProzessDeskriptorgespeichert.<br />

Rohdaten,derMetadaten<strong>und</strong>derNutzeranforderungenindieentsprechendenDatenstrukturenausfuhren.AlsnachsteswirdmitHilfederFunktionPi-<br />

Data<strong>und</strong><strong>Pipeline</strong>::readDeskriptorsaufgerufen,welchedasEinlesender<br />

derReihenachdieFunktionen<strong>Pipeline</strong>::executePraeprozess,<strong>Pipeline</strong>:: der<strong>Pipeline</strong>inderFunktion<strong>Pipeline</strong>::execute<strong>Pipeline</strong>.Dieseruftdabei Aufgr<strong>und</strong>dervorliegendenDatenstrukturenerfolgtdanndieAusfuhrung<br />

58


calculateProxyMatrix<strong>und</strong><strong>Pipeline</strong>::calculateKlassikationauf,wasder theoretischvorgestelltenVorverarbeitungpipelineentspricht. on,welchedurchdieDatenstrukturHierachyTreereprasentiertwird.Diese n-narenHierarchiebaumuberfuhrtoderineineDateiausgegebenwerden. StrukturkannalsEingabeineinVisualisierungssystemgenutzt,ineinen ErgebnisderAusfuhrungdieserFunktionenfolgeisteineKlassikati-<br />

vorzustellen. DieserAbschnitthatzumZiel,implementierteVerfahren<strong>und</strong>Algorithmen 4.2.1ImplementierteAlgorithmen<strong>und</strong>Verfahren<br />

war,dadiese<strong>einer</strong>seitseinehohepraktischeRelevanzbesitzen<strong>und</strong>andererseitsaberimmernochsoeinfachseinsollten,daihreStruktur<strong>und</strong>ihr<br />

Verhaltenuberschaubarbleiben. HauptuberlegungbeiderAuswahlvonzuimplementierendenVerfahren<br />

mierungenimplementiert. zungvonzugehorigenMaenwurdederSchwerpunktaufbinare,nominal ProximitatsmaeBeiderDenitionderSkalentypen<strong>und</strong>derUmset-<br />

VorverarbeitungFurdieVorverarbeitungwurdenverschiedeneNor-<br />

mehrstuge<strong>und</strong>ratioskalierteMerkmalegelegt,weildieseSkalentypenin Distanz-<strong>und</strong>Ahnlichkeitsmae.SowurdenfurbinareMerkmalebeispielsweisederM-<strong>und</strong>derS-Koezient,furnominalmehrstugeMerkmaleder<br />

modizierteM-Koezient<strong>und</strong>furratioskalierteMerkmaledieLr-Distanzen, dasnormierteSkalarprodukt<strong>und</strong>dieMAHALANOBIS-Distanzimplementiert(vgl.Abschnitt3.2.1.3).<br />

wurdenmittelsderTransformationdjk=1?sjkDistanzmaegeschaen, weildiesebeiderArbeitmitratioskaliertenDistanzmaengebrauchtwurdenẆeiterhinwurdedieMoglichkeitgeschaen,hybrideProxymitatenzu<br />

derPraxisdiegroteRelevanzbesitzen.Umgesetztwurdenuberwiegend<br />

FurdieAhnlichkeitsfunktionenderbinaren<strong>und</strong>mehrstugenMerkmale<br />

berechnen.InderFunktioncalcADwerdendieObjektvektorennachihren SkalentypzugehorigenMaendieProximitatberechnet.Diesoentstandenen Merkmalenaufgespalten<strong>und</strong>furdieeinzelnenTeilvektorenmitdenihrem ProximitatenwerdendanninAbhangigkeitvonderAnzahlderMerkmale desjeweiligenSkalentypsgewichtet<strong>und</strong>zusammenaddiert(vgl.Abschnitt 3.2.1.4). dederAlgorithmus"RekursiverAufbauumKerne\implementiert. KlassikationsverfahrenFurdiereinedisjunktiveKlassikationwurheitlichungwurdedabeidieBerechnungmitrekursivenDistanzenverwendiziertenDendrogrammenimplementiert.ZurBeschleunigung<strong>und</strong>Vereindet(vgl.Abschnitt3.3.2.3).Sokonntenz.B.dasWard-oderdasSingle-<br />

WeiterhinwurdendieagglomerativenVerfahren<strong>zur</strong>Erzeugungvonin-<br />

59


ausindiziertemDendrogrammmit10ObjektendurchVorgabederHeterogenitatsstufen0:8;0:4<strong>und</strong>0(GraphikentwickeltvonMathiasKreuseler,Uni<br />

Linkage-VerfahrenleichtausdemallgemeinenAlgorithmusdurchParam-<br />

Rostock,FachbereichInformatik) teranderungenabgeleitetwerden.BeiderFusionzweierKlassenwirdbei dieserVorgehensweisedie<strong>einer</strong>KlassezugehorigeSpalte<strong>und</strong>Zeileausder S.286-287)neuberechnet.EswerdenalsostattderNeuberechnungder TriangleMatrixentfernt<strong>und</strong>dieZeile<strong>und</strong>SpaltederanderenKlassemit derentsprechendenRekursionsformel(vgl.[Boc74]S.404<strong>und</strong>[BEPW96] denunverandertenKlassenbestimmt. ganzenMatrixlediglichdieProximitatenderneuentstandenenKlassemit ausindiziertemDendrogrammWiebereitserwahntwurde,istfurdie semGr<strong>und</strong>wirddasDendrogrammfurdieDarstellunginmehrereHierar-<br />

VisualisierungeinindiziertesDendrogrammoftzuunubersichtlich.Ausdie-<br />

Algorithmus<strong>zur</strong>Erzeugungeinesn-narenHierarchiebaumes<br />

Abbildung4.A:Algorithmus<strong>zur</strong>Erzeugungeinesn-narenHierarchiebaumes<br />

chieebeneneingeteilt,indenendisjunkteKlassikationenerzeugtwerden. EinentsprechenderAlgorithmuswurdevonunsentwickelt. mitdendreiHeterogenitatsstufen0:8;0:4<strong>und</strong>0aufgebautwird.Wieman indiziertenDendrogrammmit10ObjektenO1;:::;ONeinHierarchiebaum dortsieht,liegeninderHierarchiestufeH3ausschlielichEinzelobjekte,weil Abbildung4.Azeigtbeispielhaft,wiemitdiesemAlgorithmusauseinem<br />

nurdieseeineHerogenitatvon0besitzen.IndernachsthohergelegenenStufe 0:4wurdenalledieKlassen<strong>und</strong>Objekteeingegliedert,dieeinemaximale Heterogenitatkl<strong>einer</strong>gleich0:4besitzen.AlleUnterklassendieserKlassen wurdenaufgr<strong>und</strong>ihrergeringerenHeterogenitatnichtindenneuenBaum ubernommen.HiervonausgeschlossensinddieKlassen,dieunterhalboder 60


wurdenKlassen<strong>und</strong>ObjekteaufderHeterogenitatsstufe0:8eingefugt. aufdernachsttieferenHeterogenitatsstufeliegen.NachdemselbenPrinzip<br />

2.WahleausderHeterogenitatsstufenlistedieersteHeterogenitasstufe 1.ErzeugedieWurzeldesHierarchiebaumes. AllgemeinfolgtderAlgorithmusdenfolgendenSchritten:<br />

4.UntersuchefurdiebeidenaktuellenKnoten,obihreHeterogenitats-<br />

3.WahlediebeidenSohnknotenderDendrogrammwurzelaus. aus.<br />

5. wertebereitskl<strong>einer</strong>gleichderaktuellenvorgegebenenHeterogenitats-<br />

stufesind. Fall1:FugefurdieKnoten,dieunterhalbderSchrankeliegen, Fall2:FurdieKnoten,dieoberhalbderSchrankeliegen,untersuchewiederumderenSohnknotenmitSchritt4.<br />

einenneuenSohnknotenimHierarchiebaumein.Merkedirden VaterknotendesuntersuchtenKnotens.<br />

6.Wiederhole4.,bisfuralleentsprechendgef<strong>und</strong>enenSohnknotenunterhalbderaktuellenHierarchiestufeliegen.(Diesgeschiehtspatestens,<br />

7.WahleausderHeterogenitatsstufenlistedienachsteHeterogenitasstufeaus<strong>und</strong>fahremitdeninSchritt5gemerktenVaterknoten8mit<br />

Schritt4.fort.<br />

wenndieKlassennurnocheinObjektenthalten7.)<br />

8.FallsHeterogenitatslisteistamEnde:STOPdesAlgorithmus.<br />

keit=1mussenvorherreduziertwerden. 8beidenenFall1inderletztenHeterogenitatsstufeaufgetretenist 7VorraussetzungfurdenAlgorithmus:AlleObjektemitderDistanz=0bzw.Ahnlich-<br />

61


Kapitel5<br />

Fallbeispiele<br />

IndiesemAbschnittwirdanhandvonzweiBeispielendieNutzungmeinesToolsvorgestellt.BeschriebenwirddieFestlegungderDeskriptoren,die<br />

DiesewurdendurchdieErzeugungeinesDendrogramms<strong>und</strong>dieTransfor-<br />

darausresultierendeVorverarbeitung,dieMaauswahl<strong>und</strong>diedarananschlieendeKlassikation.VorgestelltwerdenhierarchischeKlassikationenstemezuverdeutlichen,werdendieErgebnissederKlassikationenmitdem<br />

MagicEyeView1<strong>und</strong>mitdemSystemKOAN2dargestellt. gebildet.UmdieEinsetzbarkeitderVorverarbeitungfurVisualisierungssymationdessoerhaltenenDendrogrammsineinenn-narenHierarchiebaum<br />

5.1 VorstellungdesDatensatzesBeidiesemDatensatzhandeltessichum 38amerikanischePKW(Objekte)mit6Merkmalen.DieMerkmale"MPG\ DerAutodatensatz<br />

einAuszugausderDatendatei(s.AnhangA.1): placement\(Hubraum)wurdenratioskaliertdargestellt.Angegebenseihier "Horsepower\(Pferdestarke),"Cylinders\(AnzahlderZylinder)<strong>und</strong>"Dis-<br />

(MeilenproGalone),"Weight\(Gewicht),"Drive-ratio\(Fahreektivitat),<br />

Buick-Estat-Wagon16.94.362.73155.00350.008.00 CarMPGWeightDrive-RatioHorsepowerDisplacementCylinders Ford-Country-Squire-Wagon15.54.052.26142.00351.008.00 "638<br />

[:::]\FestlegungdesDaten-<strong>und</strong>NutzerdeskriptorsIndenDatendeskriptorerfolgtenfolgendeEintragungen:Alle6Merkmalesindratioskaliert<br />

2KOntextANalysator,entwickeltbeiSiemensAG,AbteilungZT 1Visualisierungskomponenteentwickeltvon...anderUniversitatRostock,Fachbereich<br />

Chevy-Malibu-Wagon19.23.602.56125.00267.008.00<br />

Informatik 62


teKlassikationentstehensoll.Weiterhinwurdenfestgelegt,daabsolute <strong>und</strong>furdieKlassikationrelevant3. DistanzenGr<strong>und</strong>lagederKlassikationseinsollen4.FurdieseBeispielevari-<br />

iertwurde,obdieentstehendenKlasseneherkettenformigsein<strong>und</strong>Ausrei- ImNutzerdeskriptorwurdefestgelegt,daeinehierarchischedisjunk-<br />

dereinzelnenMerkmaleaufdasIntervall(0..1)(siehe(3.1)).Diesewurde eridentizierensollen(Fall1)odereherr<strong>und</strong>egleichgroeKlassenerzeugensollen(Fall2).WeiterhinfestgelegtwurdeeineNormierungderWerte<br />

gewahlt,weilz.B.dasMerkmal"Cylinders\miteinemIntervallvon4bis8 z.B.mitdemIntervalldesMerkmals"Horsepower\von65bis150vergleichbarwird.WeilkaumAusreierindeneinzelnenMerkamalenauftreten,ist<br />

dieNutzungderNull-Eins-Normierungsinnvoll.BeimAuftretenvonAus-<br />

Ausreierextraktionwurdenichtgefordert. reiernwaredieNutzungderVarianznormierung(3.2)ehersinnvoll.Eine<br />

ten)MerkmalewurdedieL3-Distanzausgewahlt(Hohergewichtunggroer stanzma<strong>und</strong>dasKlassikationsverfahrenausgewahlt.Furdie(ratioskalier-<br />

torenwurdendannmitHilfederFunktion"calcProzessDeskriptor\dasDi-<br />

DerberechneteProzedeskriptorAusdenvorgegebenenDeskrip-<br />

Distanzen).ImFall1eldieWahlaufdasagglomerativeSingle-Linkage- Verfahren<strong>und</strong>inFall2aufdasagglomerativeWard-Verfahren. 1.PraprozeImPrapozeerfolgteeineNormierungderratioskalierten <strong>Pipeline</strong>ausfuhrung:<br />

2.BerechnungderDistantmatrixIndiesemSchritterfolgtedieBerechnung<strong>einer</strong>3838groenDreiecks-Distanzmatrix.<br />

MerkmaleaufdasIntervall(0..1).Ausreier<strong>und</strong>Korrelationenwurden nichtbeseitigt.<br />

3.KlassikationIndiesemSchritterfolgtedieBerechnungderbeidenindiziertenDendrogrammemitdemSingle-Linkage-Verfahren<strong>und</strong><br />

InterpretationWeildiedurchdie<strong>Pipeline</strong>ausfuhrungerhaltenenDendrogrammeziehmlichunubersichtlichsind,wurdensiefurdieVisualisierung<br />

demWard-Verfahren(vgl.Kapitel3.3.2.3-AgglomerativeVerfahren).<br />

beidenDendrogrammemitdenHeterogenitatsstufen0:5;0:3<strong>und</strong>0inderartigeHierarchiebaumeuberfuhrt(vgl.AlgorithmusausKapitel4.2.1).Die<br />

ErgebnishierarchiensindindenAbbildungen5.A<strong>und</strong>5.Bdargestellt. aufderHeterogenitatsstufe0:5diedreiAusreier"Audi-5000\,"Datsun- 810\<strong>und</strong>"Mercury-Zephir\identiziert.AnsonstenistdieseHierarchieje- 3d.h.allewurdeneinbezogen InAbbildung5.Aistzuerkennen,dadasSingleLinkageVerfahren<br />

<strong>und</strong>dieInterpretationinHierarchiebaumeuberfuhrt.Alsersteswurdendie<br />

4keineBeachtungvonProlverlaufen63


einemHierarchiebaummitdreiHeterogenitatsstufen0:5;0:3<strong>und</strong>0; Abbildung5.A:MagicEyeView-DarstellungdesAutodatensatzesdurch Basis:Single-Linkage-Verfahren<br />

Abbildung5.B:MagicEyeView-DarstellungdesAutodatensatzesdurch einemHierarchiebaummitdreiHeterogenitatsstufen0:5;0:3<strong>und</strong>0; Basis:Ward-Verfahren 64


Abbildung5.C:MagicEyeView-DarstellungdesAutodatensatzesdurcheinemHierarchiebaummitvierHeterogenitatsstufen0:8;0:5;0:3<strong>und</strong>0senstarkenentstehen.Diesgeschiehtaufgr<strong>und</strong>derkontrahierendenEigenschaftdesSingle-Linkage-Verfahrens:Vieleein-oderzweiobjektigeKlassen<br />

dochrelativunubersichtlich,weilvieleKlassenmitunterschiedlichenKlas-<br />

Basis:Ward-Verfahren<br />

stehenwenigengroenKlassengegenuber. esentstehendahervierinetwahomogeneKlassenaufderHierarchiestufe 5.Bwesentlichleichterinterpretierbar.DiesesVerfahrenistkonservativ,<strong>und</strong> 0:5.Ausreiersindhiernichtzuerkennen.ZurbesserenInterpretationdieser ImGegensatzdazuistdiemitdemWard-VerfahrenerzeugteDarstellung<br />

Klassenwurden<strong>und</strong>ieweitereHierarchiestufe0:8hinzugenommen.Damit lichenKlassensichaufdemHeterogenitatsniveau0:8zu<strong>einer</strong>Oberklasse ergibtsichdieDarstellung5.C. vereinen,wahrenddieKlasserechtsobenerhaltenbleibt. Mansiehtdort,dadiedreiinAbbildung5.Blinks<strong>und</strong>untenbend-<br />

entstandenenKlassen(vgl.Tabelle5.a)erkenntman,dadienichtverandertealleinstehendeKlassedie"groen\Wagenrepresentiert<strong>und</strong>diefusioniertendreiKlassendie"kl<strong>einer</strong>en\Wagenreprasentieren.Begr<strong>und</strong>etwerden<br />

Aufgr<strong>und</strong>derAnalysedert-WertefurdieaufderHeterogenitatsstufe0:8<br />

kanndieseAussagedurchAnalysedert-WertedereinzelnenMerkmaleder Klassenobjekte(vgl.Kapitel3.3.3).Inder"Growagen\-Klassesinddiet- WertederMerkmale"Weight\,"Horsepower\,"Cylinders\<strong>und</strong>"Displacement\,diemanimallgemeinengroerenWagenzuschreibt,wesentlich<br />

65


Merkmal Weight MPG "Kl<strong>einer</strong>eWagen\"Gro-Wagen\ -2.44 1.84 -6.91<br />

Displacement Drive-Ratio Horsepower -2.25 2.13 -7.99 9.15<br />

Cylinders -2.74 -2.67 10.27 10.02 8.45<br />

0:8inderAbbildung5.CgebildetenHauptklassen,umRuckschlusseuber Tabelle5.a:Berechnungdert-WertederzweiaufderHeterogenitatsstufe diePrasenzvonMerkmalenindiesenKlassenzuerhalten.<br />

unterreprasentiert.GenauentgegengesetztdazuverhaltensichdieWagen Wagen\zugeschriebenwerden,sindmitt-Wertenkl<strong>einer</strong>0indieserKlasse groeralsNull.DiesbedeuteteineUberreprasentationdieserMerkmalein dieserKlasse.DieMerkmale"MPG\<strong>und</strong>"Drive-ratio\,dieeher"kl<strong>einer</strong>en deranderenKlasse,beidenen"MPG\<strong>und</strong>"Drive-ratio\uberreprasentiert <strong>und</strong>dieanderenMerkmaleuberreprasentiertsind.DieseKlassenenthalten derEigenschaftennichtsostarkwieinder"Growagen-Klasse\,waseine damitdie"kl<strong>einer</strong>en<strong>und</strong>mittlerenWagen\.AllerdingsistdieAuspragung<br />

KlasseaufdemHeterogenitatsniveau0:5indreiKlassenzerfallt. starkereStreuunginnerhalbdieserKlassevermutenlat.DieseVermutung<br />

keitderVerf<strong>einer</strong>ungderDatendurchinteraktiveSteuerungvorgestelltwer-<br />

den.Ideedabeiist,alleKlassenbzw.Objekte<strong>einer</strong>Hierarchieebenein<strong>einer</strong> Darzustellungzuverbinden.Bestehtn<strong>und</strong>ieNotwendigkeit,einebestimmte AlsletzteMoglichkeitderDarstellungdiesesDatensatzessolldieMoglich-<br />

wirdnochdadurchbestarkt,dawiebereitsinAbb5.Bdargestellt,diese<br />

Klassegenauerzuuntersuchen,kannderNutzerdesVisualisierungssystems durchMausklickaufdiegraphischeReprasentationderKlasseeineDarstellungallerUnterklassendieserKlasseaufdernachsttieferenHeterogenitatsstufeerhalten.DadurchisteineguteNavigationdurchDatenmengen<br />

Ebenengleichzeitigdarstellenkann. wurdedieDarstellungdereinzelnenHierarchieebenenineinemKOAN- Graphendurchgefuhrt.Abbildung5.DzeigtdieAutohierarchieausAbbildung5.BaufderHeterogenitatsstufe0.5.Zusehensindhierwiederdievier<br />

AlsBeispielfureinesolchehierarchischegeschachtelteVisualisierung moglich,bedenktman,daderNutzermehrereuber-bzw.untergeordnete<br />

vorderen("Gro-Wagen\).Wirdnunaufdieamweitestenobendargestellte sichaufdieserStufebildendenKlassen.Deutlichzuerkennenistauchdie KlasseeinDoppelklickausgefuhrt,onetsicheinneuesKOAN-Fenster,welchesindiesemFallalleindieserKlasseenthaltenenObjektedarstellt5(s.<br />

SeparationderdreihinterenKlassen("kleine<strong>und</strong>mittlereWagen\)vonder<br />

5EswirddirektHierarchieebene0gewechselt. 66


Abbildung5.D:KOAN-DarstellungdesAutodatensatzeserzeugtmitdem Ward-VerfahrenaufderHierarchiestufe0.5;DieKugelnreprasentierendie<br />

OberklasseinAbb.5.DnahedenMerkmalen"MPG\<strong>und</strong>"Drive-Ratio\. Merkmale<strong>und</strong>dieWurfeldieKlassen. Abb.5.E).AuchaufdieserEbenebendensichdieObjektegenauwieihre<br />

IndiesemAbschnittsollenKlassikationendesSchachspielerdatensatzes 5.2 kurzvorgestelltwerden.DasInteressanteandiesemDatensatzbestehtdarin, DerSchachspielerdatensatz<br />

<strong>und</strong>"+/-\(VeranderungderELO-ZahlimletztenQuartal)vor. beidemratioskaliertenMerkmale"ELO-Zahl\(BewertungderSpielstarke) dreinominalmehrstugenMerkmale"Land\,"Titel\<strong>und</strong>"Verein\<strong>und</strong>die dahiergemischteMerkmalevorkommen.Furdie46Schachspielerliegendie<br />

M-Koezienten(3.37)furdiemehrstugenMerkmale<strong>und</strong>beiAuswahlder L3-DistanzfurdieratioskaliertenMerkmalemitdemWard-Verfahrenklassiziert.InAbbildung5.FsiehtmandiesichbildendeStrukturmitden<br />

DieseDatenwurdenbeiautomatischerAuswahldesverallgem<strong>einer</strong>ten<br />

sendesBaumes,erhaltmaneinesehrguteUbersichtuberdenDatensatz (Abb5.G).Gr<strong>und</strong>satzlicherkenntmanaufderoberstenHierarchiestufe0:7 einzelnenSpielern.Beschriftetmann<strong>und</strong>ieeinzelnennichttrivialenKlas-<br />

eineAufspaltunginvierHauptklassen.DabeibildetsicheineGromeister- DienachstgroereKlassereprasentiertdiestarkenSpielerdesVfLNeuklo- KlassemitdendreistarkstenMecklenburg-VorpommeranischenSpielern.<br />

67


Ward-VerfahrenaufderObjektebene(Hierarchiestufe0.0);DieKugelnreprasentierendieMerkmale<strong>und</strong>dieWurfeldieObjekte.<br />

Abbildung5.E:KOAN-DarstellungdesAutodatensatzeserzeugtmitdem<br />

Abbildung5.F:NamensbeschrifteteMagicEyeView-DarstellungdesSchachspielerdatensatzesdurcheinemHierarchiebaummitdreiHeterogenitatsstufen0:7;0:3<strong>und</strong>0;Basis:Ward-Verfahren<br />

68


spielerdatensatzesdurcheinemHierarchiebaummitdreiHeterogenitatsstu-<br />

fen0:7;0:3<strong>und</strong>0;Basis:Ward-Verfahren Abbildung5.G:KnotenbeschrifteteMagicEyeView-DarstellungdesSchach-<br />

69


Abbildung5.H:MagicEyeView-DarstellungdesSchachspielerdatensatzes durcheinemHierarchiebaummitdreiHeterogenitatsstufen0:7;0:3<strong>und</strong>0unterAuswahlderMerkmale"ELO-Zahl\<strong>und</strong>"Verein\;Basis:Ward-Verfahren<br />

ster,diesichwiederumin3Unterklassenaufspaltet.Diedritte,nochgroere KlassebildetdieKlassevonpolnischenSpielerninMecklenburgerVereinen. Dieletzte<strong>und</strong>groteKlassebestehteinzigausdeutschenSpielernmittlerer<strong>und</strong>untererSpielklasse.DieseKlassezerfalltvorallemaufgr<strong>und</strong>debenscheint.<br />

dadasMerkmal"+/-\kaumEinuaufdasKlassikationergebniszuha-<br />

VereinszugehorigkeitinweitereKlassen. WeiterhinfalltbeiderInterpretationdieserKlassikationshierarchieauf,<br />

diesenSachverhaltwieder. diesemDatensatzeineReduktionaufdiebeidenMerkmale"ELO-Zahl\<strong>und</strong> "Verein\durchgefuhrt.DieentstandeneKlassikationinAbbildung5.Hgibt UmdieMoglichkeitderAuswahlvonMerkmalenvorzustellen,wurdein<br />

70


Kapitel6<br />

Zusammenfassung, Ergebnisse<strong>und</strong>Ausblick<br />

IndiesemKapitelsollendiedurchgefuhrtenUntersuchungennocheinmal werden. zusammengefat,dieerzieltenErgebnissebewertet<strong>und</strong>einAusblickgegeben<br />

keitsolcherDatenmengenaufweisen.AusdiesemGr<strong>und</strong>ewurdedieIdeeder erheblicheMangelinBezugaufdieUbersichtlichkeit<strong>und</strong>NavigationsfahigstemenbeiderDarstellunggroerDatenmengenzuvermindern,dadieseoft<br />

Gr<strong>und</strong>gedankedieserArbeitwares,dieProblemevonVisualisierungssy-<br />

Vorverarbeitungaufgegrien<strong>und</strong>einKonzeptentwickelt,dasesermoglicht, dieEingangsdatenderVisualisierungexibelzustrukturieren<strong>und</strong>zuklassizierendeneVerfahrenaufihreNutzbarkeitfurdieVisualierungzuuntersuchen<strong>und</strong><br />

relevanteEigenschaftenunterdemAspektderVisualisierungzuextrahieren. AufdenErkenntnissendieserUntersuchungenaufbauendwurdedasWerkzeug"InfoSonne\entwickelt,welchessowohlderAnforderungFlexibilitat<br />

HierfurwurdeeineLiteraturrecherchedurchgefuhrt,umbereitsvorhanverarbeitendeStrukturierungdieDarstellung<strong>und</strong>Interpretierbarkeitgroer<br />

Datenmengenwesentlichverbessert. alsauchdenAnforderungenModularitat<strong>und</strong>Erweiterbarkeitentspricht.<br />

Ausblickendsolldaraufhingewiesenwerden,dadasTool"InfoSonne\ DiemitdiesemWerkzeugerzieltenErgebnissebestatigen,dadievor-<br />

aufgr<strong>und</strong>s<strong>einer</strong>FlexibilitatleichtumneueVerfahrenerweitertwerdenkann. BeispielsweisekonntenVerfahrenausderaktuellenForschung<strong>und</strong>StrukturierungenmitneuronalenNetzenintegriertwerden.Weiterhinkonntenbei<br />

integriertenMerkmalseigenschafteneingefugtwerden. BedarfneueMaefurdieUntersuchungneuerDatensatzemitbishernicht rungbreiteAnwendungsperspektiveninderVisualisierungverspricht. Abschlieendbleibtfestzustellen,dadievorverarbeitendeStrukturie-<br />

71


Literaturverzeichnis<br />

[BEPW96]KlausBackhaus,BerndErichson,WulPlinke,andRolfWeber,Multivariateanalysemethoden.eineanwendungsorientierte<br />

[Boc74] HansHermannBock,Automatischeklassikation,Vandenhoeck &Ruprecht,Gottingen,1974. einfuhrung.,8ed.,Springer,1996.<br />

[Goo64] [Ham61] D.W.Goodall,Aprobabilisticsimilarityindex,Nature(1964), U.Hamann,Merkmalsbestand<strong>und</strong>verwandtschaftsbeziehungen derfarinose.einbeitragzumsystemdermonokotyledonen.,Willdenowia(1961),no.2,639{768.<br />

no.203,1098.<br />

[LW67] G.N.LanceandW.T.Williams,Mixed-dataclassicatoryprogramsi.agglomerativesystems.,AustralianComputerJ.(1967),<br />

no.1,15{20.<br />

72


Tabellenverzeichnis<br />

3.a22-KontingenztafelfurOj<strong>und</strong>Ok.............17 2.aObjekt-Merkmals-MatrixmitunterschiedlichenSkalentypen. 3.bZusammenfassungwichtigerbinarerAhnlichkeitsmae<strong>und</strong>derenEigenschaften.........................22<br />

7<br />

3.dZusammenfassungmehrstugerAhnlichkeitsmae<strong>und</strong>deren 3.cBeispielfurdieZerlegungdesordinalenMerkmals"Groe\ ausTabelle2.aindreibinareMerkmale............24 3.eZusammenfassungwichtigerratioskalierterAhnlichkeitsmae Eigenschaften...........................25<br />

5.at-WertederzweiHauptklassendesAutodatensatzes.....66 <strong>und</strong>derenEigenschaften.....................29<br />

73


Abbildungsverzeichnis<br />

2.AVorverarbeitungspipelinefurdieVisualisierung........ 3.BIndiziertesDendrogramm....................46 3.ADisjunkte,nichtexhaustiveKlassikationimR2.......355<br />

4.AAlgorithmus<strong>zur</strong>Erzeugungeinesn-narenHierarchiebaumes 5.AMagicEyeView-BaumdarstellungdesAutodatensatzeserzeugt mitdemSingle-Linkage-Verfahren...............64 ausindiziertemDendrogramm..................60<br />

5.BMagicEyeView-BaumdarstellungdesAutodatensatzeserzeugt<br />

5.DKOAN-DarstellungdesAutodatensatzeserzeugtmitdemWard- 5.CMagicEyeView-BaumdarstellungdesAutodatensatzeserzeugt mitdemWard-Verfahren....................64<br />

VerfahrenaufderHierarchiestufe0.5;DieKugelnreprasentierendieMerkmale<strong>und</strong>dieWurfeldieKlassen........67<br />

mitdemWard-Verfahren(2)..................65<br />

5.EKOAN-DarstellungdesAutodatensatzeserzeugtmitdemWard-<br />

5.GKnotenbeschrifteteMagicEyeView-BaumdarstellungdesSchachspielerdatensatzeserzeugtmitdemWard-Verfahren......6spielerdatensatzeserzeugtmitdemWard-VerfahrenmitMerkmalsauswahl............................70<br />

5.FNamensbeschrifteteMagicEyeView-BaumdarstellungdesSchachspielerdatensatzeserzeugtmitdemWard-Verfahren......68<br />

VerfahrenaufderObjektebene.................68<br />

5.HKnotenbeschrifteteMagicEyeView-BaumdarstellungdesSchach-<br />

74


AnhangA<br />

Beispieldatensatze<br />

A.1 638 CarMPGWeightDrive_RatioHorsepowerDisplacement DerAutodatensatz<br />

Buick_Estat_Wagon Ford_Country_Squire_Wagon Chevy_Malibu_Wagon19.2 16.9 4.36 3.60 15.5 2.73 2.56 4.05 155.00350.008.00 125.00267.008.00 2.26 142.00351.008.00 Cylinders<br />

Datsun_51027.2 Toyota_Corona Chevette Chrysler_LeBaron_Wagon18.5 302.15 27.52.303.70 2.563.5468.00 3.05 3.9497.00 98.00 95.00 2.45119.004.00<br />

134.004.00 150.00360.008.00<br />

Audi_5000 Dodge_Omni30.9 Volvo_240_GL Saab_99_GLE21.6 20.3173.14 2.23 2.83 2.79 3.37 3.90 3.77 3.50 75.00 103.00131.005.00 115.00121.004.00 125.00163.006.00 105.004.00<br />

Peugeot_694_SL16.2 Buick_Century_Special 3.41 20.6 3.58 3.38 133.00163.006.00<br />

AMC_Concord_D/L18.1 Dodge_Aspen18.6 Mercury_Zephyr20.83.623.41 3.072.712.73 3.08110.00225.006.00<br />

120.00258.006.00 85.00 2.73 200.006.00 105.00231.006.00<br />

Chevy_Caprice_Classic Mercury_Grand_Marquis Ford_LTD Dodge_St_Regis18.2 17.6 3.72173.84 16.52.263.95129.00302.008.00<br />

2.412.26130.00305.008.00<br />

Ford_Mustang_426.5 Ford_Mustang_Ghia 21.93.83 2.582.912.45 3.08 3.08135.00318.008.00<br />

88.00 109.00171.006.00 140.004.00 138.00351.008.00<br />

Mazda_GLC VW_Scirocco31.5 AMC_Spirit27.4 Dodge_Colt35.1 34.1 1.99 2.67 1.91 1.97 3.78 3.08 2.97 3.73 71.00 80.00 65.00 89.00 121.004.00 98.00 86.00 75


Chevy_Citation28.8 Olds_Omega26.8 Buick_Skylark Honda_Accord_LX29.5 28.42.702.67 2.59 2.132.842.53 3.05115.00173.006.00<br />

90.00 68.00 151.004.00 98.00 Plymouth_Horizon Pontiac_Phoenix33.534.22.552.202.693.3790.00 70.00 151.004.00<br />

VW_Dasher Fiat_Strada37.3 Datsun_21031.8 30.5 2.13 2.02 2.19 3.10 69.00 65.00 78.00 91.00 85.00 97.00 105.004.00<br />

VW_Rabbit BMW_320i Datsun_810222.81 21.5 31.9 2.60 1.923.703.64 3.7897.00 110.00121.004.00 71.00 146.006.00<br />

CarMPGWeightDrive_RatioHorsepowerDisplacement 638 89.00 Buick_Estat_Wagon Ford_Country_Squire_Wagon Chevy_Malibu_Wagon19.2 16.9 3.60 4.36 15.5 2.56 2.73 4.05 125.00267.008.00 155.00350.008.00 2.26 142.00351.008.00 Cylinders<br />

Chrysler_LeBaron_Wagon18.5 Datsun_51027.2 Toyota_Corona Chevette 302.15 27.52.303.70 2.563.5468.00 3.05 3.9497.00 98.00 95.00 2.45119.004.00<br />

134.004.00 150.00360.008.00<br />

Audi_5000 Dodge_Omni30.9 Volvo_240_GL Saab_99_GLE21.6 20.3173.14 2.23 2.83 2.79 3.37 3.90 3.77 3.50 75.00 103.00131.005.00 115.00121.004.00 125.00163.006.00 105.004.00<br />

Peugeot_694_SL16.2 Buick_Century_Special Mercury_Zephyr20.8 3.41 20.6 3.58 3.38 133.00163.006.00<br />

AMC_Concord_D/L18.1 Dodge_Aspen18.6 3.623.41 3.072.712.73 3.08110.00225.006.00<br />

120.00258.006.00 85.00 2.73 200.006.00 105.00231.006.00<br />

Chevy_Caprice_Classic Mercury_Grand_Marquis Ford_LTD Dodge_St_Regis18.2 17.6 3.72173.84 16.52.263.95129.00302.008.00<br />

2.412.26130.00305.008.00<br />

Ford_Mustang_426.5 Ford_Mustang_Ghia 21.93.83 2.582.912.45 3.08 3.08135.00318.008.00<br />

88.00 109.00171.006.00 140.004.00 138.00351.008.00<br />

Mazda_GLC VW_Scirocco31.5 AMC_Spirit27.4 Dodge_Colt35.1 34.1 1.99 2.67 1.91 1.97 3.78 3.08 2.97 3.73 71.00 80.00 65.00 89.00 121.004.00 98.00 86.00 Chevy_Citation28.8 Buick_Skylark Honda_Accord_LX29.5 28.4 2.67 2.59 2.13 2.53 2.69 3.05 90.00 115.00173.006.00 68.00 151.004.00 98.00 76


Plymouth_Horizon Pontiac_Phoenix33.5 Olds_Omega26.8 2.70 34.22.552.84 2.202.69115.00173.006.00<br />

3.3790.00 70.00 151.004.00<br />

VW_Dasher Fiat_Strada37.3 Datsun_21031.8 30.5 2.13 2.02 2.19 3.10 69.00 65.00 78.00 91.00 85.00 97.00 105.004.00<br />

VW_Rabbit BMW_320i Datsun_810222.81 21.5 31.9 2.60 1.923.703.64 3.7897.00 110.00121.004.00 71.00 146.006.00<br />

A.2 DerSchachspielerdatensatz 89.00 Name 546 Danielsen_Henrik Saltaev_Michail Levin_Felix UZBGM LandTitelElo+/-Verein DENGM DEUGM 2504-21SF_Schwerin 2506-4SF_Schwerin<br />

Jasnikowski_Zbigniew Stern_Rene Kulaots_Kaido DEUIM ESTIM 2411+11VfL_Blau-Wei_Neukloster 2462-3VfL_Blau-Wei_Neukloster 2426-19VfL_Blau-Wei_Neukloster 2496+16SF_Schwerin<br />

Weyrich_Morten Weglarz_Leszek Woda_Jacek Czerwonski_Aleksander POLFM POLIM 23850SYC_Rostock 2379-16SYC_Rostock 2354+9SF_Schwerin 2397+7VfL_Blau-Wei_Neukloster<br />

Wandel_Bernd Schirm_Friedmar Michalski_Olaf Hennings_Artur DEUFM DEUTL 23300VfL_Blau-Wei_Neukloster<br />

Nurkiewicz_Maciej DEUIM 23300SF_Schwerin<br />

Knuth_Hannes 2301+16VfL_Blau-Wei_Neukloster 2325+20VfL_Blau-Wei_Neukloster<br />

Bockowski_Ryszard DEUTL 2314-6VfL_Blau-Wei_Neukloster<br />

Bartosik_Pjotr 22750VfL_Blau-Wei_Neukloster<br />

Waschk_Armin Nocke_Thomas POLTL 22500HSG_Uni_Rostock 2264-11Torgelower_SV_Greif<br />

Huneburg_Christian 22450SG_Eintracht_Neubrandenburg 2238+28SF_Schwerin 22600VfL_Blau-Wei_Neukloster<br />

Bartolomaus_Christian Brettschneider_Stefan Bauer_Norbert Jaster_Robert 2230.0010VfL_Blau-Wei_Neukloster 22300VfL_Blau-Wei_Neukloster 2210-15Torgelower_SV_Greif<br />

Dettmann_Gerd Luthke_Hans-Eckart Doppner_Tilo 21900SF_Schwerin 22000SYC_Rostock<br />

Woll_Wilfried DEUTL 2184-16Post_Gustrow 21800Torgelower_SV_Greif 22000SF_Schwerin<br />

77


von_Rahden_Arvid Teschke_Olaf Romann_Andreas Rohl_Rainer 21750SG_Eintracht_Neubrandenburg<br />

Czekalski_Adam 2174-21Torgelower_SV_Greif 2166-9VfL_Blau-Wei_Neukloster 2174+14VfL_Blau-Wei_Neukloster<br />

Reyer_Ulli Westphal_Wolfgang Kutschke_Peter 2127-3VfL_Blau-Wei_Neukloster 213701.Schweriner_SV 21550HSG_Uni_Rostock 21630VfL_Blau-Wei_Neukloster<br />

Wagner_Ralf Jungmichel_Dirk Prosch_Carsten 21080FHS_Strals<strong>und</strong><br />

Zietek-Czerwonska_BeataPOLTL Priebe_Jan DEUTL 20880VfL_Blau-Wei_Neukloster 2105-30SF_Schwerin 2093+3VfL_Blau-Wei_Neukloster<br />

Oldach_Ehrenfried Assmann_Hans Romaszko_Sylwia 2079+14Torgelower_SV_Greif 2058+8Ostsee_Warnem<strong>und</strong>e 2035+5TSV_1860_Strals<strong>und</strong> 20850VfL_Blau-Wei_Neukloster<br />

Schwetlick_Thomas DEUTL 20300HSG_Uni_Rostock<br />

78


AnhangB<br />

Datendenitionen<br />

//Datei"VektorArray.hpp" B.1 DenitionderKlassenVector<strong>und</strong>VectorArray:"VectorArray.hpp\<br />

//enthaltdieDefinitionderKlassenVectorArray<strong>und</strong>Vector. #ifndefVECTORARRAY_HPP #defineVECTORARRAY_HPP #include"main.hpp" /***************************************************************<br />

* classVector<br />

****************************************************************/ -DefinitionvonObjektvektorenfurdieKlassifikation<br />

classVector {public: Vector(uiNrDims=0); //Memberfunktionen<br />

~Vector(); Vector(Vector&); //KonstruktormitAngabeder //Destruktor //Copy-Konstruktor //Vektordimension<br />

79


voidoperator=(Vector&v); ValueType&operator[](uix); //ZugriffsoperatoraufdenWert<br />

uigetDim(); //Vergleichsoperator //derx.tenDimension<br />

private: ValueType*Data; //Membervariablen //DatenwertedesVektors;ValueType //ZugriffaufdieDimension<br />

}; uiDim; //Vektordimension //wurdealsTypdoubledefiniert<br />

/***************************************************************<br />

* classVectorArray<br />

***************************************************************/ -DefinitionderObjekt-Merkmals-Matrix<br />

classVectorArray { private: friendclassFileIO;<br />

public: uiNrAttr; uiNrObjects; //Membervariablen<br />

ValueType**Data; //AnzahlderObjekte //Objekt-Merkmals-Matrix //AnzahlderMerkmale<br />

char**ObjNames; char**AttNames; std::stringObjTypeName; //Objektnamen //Merkmalesnamen<br />

//Memberfunktionen VectorArray(uiargNrAttr=0,uiargNrObj=0);//Konstruktor //NamedesObjekttyps<br />

VectorArray(VectorArray&); ~VectorArray(); ValueTypeoperator()(uiObjNr,uiAttrNr);//Zugriffsoperator //Copy-Konstruktor<br />

//aufWerteder//Destruktor<br />

80


VectorgetVec(uix); uigetNrObjects(); //ZugriffaufeinenObjektvektor //Objekt-Merkmals-Matrix<br />

uigetNrAttr(); voidloesche(uiVecNr); //AnzahlderObjekte //AnzahlderMerkmale<br />

voidwriteVAtoFile(char*filename);//Hilfsfunktion:Ausgabeder //LoscheneinesObjektes<br />

}; //MatrixinDatei<br />

#endif//VECTORARRAY_HPP B.2 //Datei"TriangleMatrix.hpp" DenitionderKlasseTriangleMatrix:"TriangleMatrix.hpp\<br />

//enthaltdieDefiniertionderKlasseTriangleMatrix. #ifndefTRIANGLEMATRIX_HPP #defineTRIANGLEMATRIX_HPP<br />

*/******************************************************<br />

*******************************************************/ Includes<br />

#include"main.hpp" #include<br />

/******************************************************<br />

classTriangleMatrix -Definition<strong>einer</strong>oberenbzw.unteren<br />

*******************************************************/* DreiecksmatrixalsKontainerfurDistanz- <strong>und</strong>Ahnlichkeitsmatrizen<br />

81


classTriangleMatrix {public: //Memberfunktionen TriangleMatrix(uisize); double&operator()(uij,uik);//Zugriffsoperator ~TriangleMatrix(); //Destruktor //Konstruktor<br />

voiddeleteLineAndColumn(uixy);//Loschen<strong>einer</strong>Spalte //oderdenDistanzwertd_jk //aufdenAhnlichkeitswerts_jk<br />

doublegetSize(); //<strong>und</strong>derzugehorigenZeile<br />

//Hilfsfunktionen voidwriteToScreen(); //AktuelleMatrixgroe?<br />

private: voidwriteToDatei(char*FileName);//AusgabeinDatei //Bildschirmausgabe<br />

double**array; //Membervariable uimax_size; std::vectorvalidLinesAndColumns;//nichtgeloschte //Matrixwerte //AnfangsgroederMatrix<br />

}; uisize; doubleequalVar; //aktuelleMatrixgroe //Zeilen<strong>und</strong>Spalten<br />

#endif//TriangleMatrix_HPP<br />

//Datei"Klassifikation.hpp" B.3 DenitionderKlassenHierachyTree,TreeIter<br />

//enthaltdieDefiniertionderKlassenHierachyTree,Node <strong>und</strong>Node:"Klassikation.hpp\<br />

//<strong>und</strong>TreeIter. #ifndefKLASSIFIKATION_HPP #defineKLASSIFIKATION_HPP 82


#include"main.hpp" #include"VectorArray.hpp" #include #include//filestreamoperations #include #pragmawarning(disable:4786) usingnamespacestd; /****************************************************<br />

*****************************************************/ *Datastructuresforclassification<br />

/**************************************************** *classNode *-representsaclass(group),sonsarepartclasses *-NodesarecollectedinHierachyTrees *andleavesareObjects<br />

classNode {public: *****************************************************/<br />

//membervariables<br />

//vectorArray; listsons;//childclassesofNode<br />

//ifNodeisnotaleaf,valueisMaxUi! doubleheterogenity;//Heterogenityofclass uileafInfo;//containsreferencekeytoobjectin<br />

//memberfunctions listObjects;//containsallobjects(references)of //thisclass<br />

83


Node(uiargLeafInfo=MaxUi,doubleheterogenity=0.0); //constructor1<br />

double&Heterogenity();//accesstoheterogenity ~Node();//destructor Node(doubleheterogenity);//constructor2<br />

classTreeIterbegin();//deliversbeginiteratorforsubtree classTreeIterend();//deliversendiiteratorofsubtree uigetNrLeafs();//numberofclassobjects<br />

voidfillObjects(list*);//fillsvariableObjects voidnormHeterogenitiesInSubTree(doublemaxHeterogenity); //normofheterogenities:rooth=1,leafh=0<br />

doublefindOutMaxTreeHomoValue();//max.homogenityvalue //changehomogenityofsonclassestoherogenity voidmakeHomogenitiesToHeterogenitiesInSubTree( doubleminHomogenity,doublemaxHomogenity);<br />

voidheterFkt(list&FatherBuildingList, //insubtree?<br />

list&Thresholds, //buildHierachyTreeofthresholdlevelsonthisnode list::iteratoractThreshold);<br />

voidwriteNodeInfoToOneTyp0File(ofstream&,ofstream&,ui&, //andsubnodes<br />

VectorArray*,uiLevel); voidwriteNodeInfoToTyp0Hierachy(constchar*childFileName, //outputfunctionstoKOAN<br />

classHierachyTree&tree,uiLevel); private:<br />

uiLevel,constchar*SubFileName=NULL); voidwriteObjOrAttTyp0Info(ofstream&datei1, uiactObjOrAttId,VectorArray*va, //helpingoutputfunctiontoKOAN<br />

}; /************************************************************ 84


*-IteratorotherallleafobjectsofaHierachyTreeNode *TreeIter<br />

classTreeIter {public: *************************************************************/<br />

friendNode;<br />

TreeIter(TreeIter&);//Copy //memberfunctions TreeIter(); ~TreeIter(){};//Destruktor //Konstructor<br />

ui TreeIter&operator++();//Increment voidoperator=(TreeIter&);//Assign<br />

booloperator!=(TreeIter&);//Notcompare booloperator==(TreeIter&);//Compare operator*()//Access<br />

private: //helpingmembervariables typedeflist::const_iteratorNodeListIter; dequemIterList; listmTreeNodeList; };//enditerator-class<br />

*classHierachyTree /*************************************************************<br />

*withheterogenitylevels(n-nertree) *-canbedendrogram(binarytree)orcomplexhierachy *-isatreecollectinghierachic,disjunctivandnot<br />

*-consistsofNodes *disjunctiveclassificationresults<br />

*-IterationothersubclassesviaTreeIter 85


classHierachyTree {public: **************************************************************/<br />

Node*root; friendNode; //membervariables VectorArray*vectorArray;//relatedVectorArray //memberfunctions HierachyTree(VectorArray*);//contructor //rootoftree<br />

~HierachyTree();//destructor<br />

voidbuildHeterogenityHierachyFromDendrogram( Node*generateFatherOfTwoNodes(Node*son1,Node*son2); //helpingfunctionforbuildingtree<br />

list&heterogenLevel); //constructsHierachywithheterogenitylevels constHierachyTree&Dendrogramm,<br />

//outputfunctionstowriteKOANfiles //ofTreetorooth=1andleafh=0 voidnormTreeHeterogenities();//normsheterogenities<br />

voidwriteOneTyp0File(constchar*filename); voidwriteTyp0Hierachy(constchar*rootFileName); }; #endif//KLASSIIFIKATION_HPP B.4 DenitionderDeskriptorenDatenDeskriptor,<br />

//Datei"VektorArray.hpp" NutzerDeskriptor<strong>und</strong>ProzessDeskriptor:"deskriptor.hpp\<br />

//enthaltdieDefinitionderKlassenDatenDeskriptor, //Nutzerdeskriptor,ProzessDeskriptorsowiedie 86


DefinitionzugehorigerEnums. #ifndefDESKRIPTOR_HPP #defineDESKRIPTOR_HPP<br />

*/********************************************************<br />

#include"Precompiled.hpp" ********************************************************/ Includes<br />

#include"disjunktivKl.hpp" #include"Klassifikation.hpp" #include"AehnDistFuncs.hpp" #include"HierachischeKl.hpp" usingnamespacestd;<br />

*/********************************************************<br />

typedefenum{Aehnlichkeit,Distanz}ProximitaetsMass; ********************************************************/ enums<br />

typedefenum{DisjunktClustern,NichtDisjunktClustern, typedefenum{NullEinsTrafo,VarianzTrafo}<br />

HierachischClustern}ClusterArt; StandardisierungsArt;<br />

typedefenum{r<strong>und</strong>,kette}KlassenForm; typedefenum{allEqual,hybrid}Equality;<br />

*/********************************************************<br />

classDatenDeskriptor ********************************************************/ Datendeskriptor<br />

{public: 87


~DatenDeskriptor(); //Konstruktor<br />

classObjektDeskriptor//BeschreibungderObjekt- //Destruktor<br />

{public: boolbVerwendungAllerObjekte;//alleObjekte //eigenschaften<br />

vectorZuVerwendendeObjekte; //Nichtalleverwenden?->welchesollen //verwendetwerden? //verwenden?<br />

}ObDesk; classAttributEigenschaft//BeschreibungderMerk- {public: SkalenTypenSkalenTyp;//SkalentypdesMerkmals //malseigenschaften<br />

doubleGewichtung;//WichtungdesMerkmals boolbRelevanz; boolbInfoLuecken;//fehlenDatenwerte? //SollMerkmalindie //Kl.einbezogenwerden?<br />

}; classAttributDeskriptor//Zusammenfassungaller AttributEigenschaft(){};//Konstruktor<br />

{public: Equalityequality;//hybrideMerkamleoderalle //Merkmalseigenschaften<br />

AttributEigenschaftallEqualType;//AlleMerkmale //Gesamtmerkmalseigenschaften //gleich->Abspeicherungder //gleich?<br />

mapAttMap;//Map<strong>zur</strong><br />

mapTypAnzahlen;//Anzahlender //eigenschaften //SpeicherungderMerkmals-<br />

88


uigetNrOfRelevantAttributes();//Anzahlrelevanter //einzelnenSkalentypen<br />

}AttrDesk; VectorArray*va;//zudenMetadatenzugehorigeObjekt- //Merkmale<br />

}; externDatenDeskriptordatenDeskriptor;//globaleVariable //Merkmals-Matrix<br />

/*********************************************************** //DatenDeskriptor //furdenZugriffaufden<br />

classNutzerDeskriptor ************************************************************/* classProzessDeskriptor<br />

{public: ClusterArtclusterArt; boolbAbsoluteDistanzen; boolbAusreisserIdentifizieren;//solldasVerfahren //hierarchisch,disjunkt //odernicht_disjunkt //->nein:Profilverlaufe<br />

boolbAusreisserEleminieren;//SollenAureierineinem //Ausreierkenntlichmachen?<br />

KlassenFormklassenForm; //welcheKlassenformsolldas //Verfahrenerkennen? //Praprozeschritteleminiert //werden?<br />

}; vectorEinzubeziehendeDimensionen;//WelcheMerkmale //sollenindieKlassifikation<br />

externNutzerDeskriptornutzerDeskriptor;//globaleVariable //einbezogenwerden<br />

//NutzerDeskriptor //furdenZugriffaufden<br />

89


*/************************************************************<br />

classProzessDeskriptor *************************************************************/ classProzessDeskriptor<br />

{public: {public: classStandardisierungsDeskriptor//Beschreibungder<br />

boolbStandardisieren;//SolleineNormierung //Standardisierungsart<br />

setNichtZuStandardisierendeMerkmale; StandardisierungsArtStandardTyp;//ArtderNormierung //WelcheMermalesollenausgeschlossenwerden? //durchgefuhrtwerden?<br />

}StandDesk; boolbEliminierenVonAusreissern;//sollenAusreier //z.B.nominale<strong>und</strong>ordinalMerkmale<br />

classAehnlichkeitsDistanzDeskriptor//eliminiertwerden?<br />

{public:<br />

ADFunktionnominalBinaerFunktion; //FunktionenfurdieeinzelnenSkalentypen ProximitaetsMassType;//DistanzoderAhnlichkeitsma?<br />

ADFunktionnominalMehrstufenFunktion; ADFunktionratioFunktion;<br />

}AehnDistDesk; doubleLrDistanzR;//ParameterfurdieLr-Distanzen<br />

classGruppierungsAlgorithmus {public:<br />

ClusterungsAlgoFunktionClusterungsAlgo; ClusterArtAlgoGr<strong>und</strong>Typ;//hierarchisch,disjunkt<br />

//SpezifikationdesKlassifikations-Verfahrens //odernicht_disjunkt<br />

90


};}GrupAlgo;<br />

ClusterungsParameter*Params;//Klassifikationparameter<br />

externProzessDeskriptorprozessDeskriptor;//globaleVariable<br />

#endif//DESKRIPTOR_HPP //DatenDeskriptor //furdenZugriffaufden<br />

B.5 //Datei"<strong>Pipeline</strong>.hpp" //enthaltdieDefinitionderKlasse<strong>Pipeline</strong><strong>zur</strong> Denitionder<strong>Pipeline</strong>-Klasse:"<strong>Pipeline</strong>.hpp\<br />

//ZusammenfassungvonHauptfunktionalitatenfur //die<strong>Pipeline</strong>ausfuhrung. #ifndefPIPELINE_HPP #definePIPELINE_HPP #include"TriangleMatrix.hpp" #include"klassifikation.hpp" #include"disjunktivKl.hpp" #include"FileIO.hpp" class<strong>Pipeline</strong> {public: staticvoidreadData(FileIOParametersCalcParams, staticvoidreadDeskriptors(FileIOParametersCalcParams,<br />

staticvoidcalcProzessDeskriptor(boolverbose=false);<br />

staticvoidexecute<strong>Pipeline</strong>(HierachyTree&,boolverbose=false); private: staticvoidexecutePraeprozess(boolverbose=false); 91


staticTriangleMatrix*calculateProxyMatrix(boolverbose=false); staticvoidcalculateKlassifikation(HierachyTree&, }; #endif//PIPELINE_HPPboolverbose=false);<br />

B.6 /******************************************************************* Die"Main\-Funktion-Ausfuhrungder<strong>Pipeline</strong>imCommandLineTool<br />

*-lesenderEingangsdaten(Nutzer-,Meta-<strong>und</strong>Rohdaten) *main-Funktion<br />

*-SpeichernderErgebnisse *-berechnendesProzessdeskriptors<br />

*******************************************************************/ *-ausfuhrender<strong>Pipeline</strong><br />

FileIOParametersCalcParams; {//0.Einlesenderexe-Argument-Parameter voidmain(intargc,char*argv[])<br />

CalcParams.ProgramName=strdup(ProgramName); ProgramName=getProgramName(argv[0]);<br />

if(CalcParams.InPutFileName==string(""))//keinInputFiledefiniert {cout


};<br />

<strong>Pipeline</strong>::readDeskriptors(CalcParams,CalcParams.verbose); <strong>Pipeline</strong>::readData(CalcParams,CalcParams.verbose); //1.EinlesenderDaten<strong>und</strong>desNutzer-<strong>und</strong>Datendeskriptors<br />

//2.ErstellungdesProzessdeskriptorsausDaten-<strong>und</strong>Nutzerdeskriptor<br />

<strong>Pipeline</strong>::calcProzessDeskriptor(); //(bishernochperHand)<br />

-FestlegungderVerfahren<strong>und</strong>Maefurdie<strong>Pipeline</strong><br />

//3.1.ErzeugenderKlassifikationsdatenstruktur //3.Pripelineausfuhrung HierachyTreeclassification(datenDeskriptor.va); //3.2.Ausfuhrungder<strong>Pipeline</strong> <strong>Pipeline</strong>::execute<strong>Pipeline</strong>(classification,CalcParams.verbose); //4.Nachbearbeitungen //4.0.SchreibeneinesTyp0-FilesdesDendrogramms if(CalcParams.verbose) cout


if(CalcParams.ThresholdFileName!=string("")) try {FileIO::readThresholds(Thresholds,CalcParams.ThresholdFileName); }catch(FileIOException&e) exit(1); }else<br />

{cout


6.3.Schreiben<strong>einer</strong>Typ0-Hierachie if(CalcParams.verbose) cout

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!