22.02.2013 Aufrufe

Nicola Arndt und Matthias Pohl - Neobiota

Nicola Arndt und Matthias Pohl - Neobiota

Nicola Arndt und Matthias Pohl - Neobiota

MEHR ANZEIGEN
WENIGER ANZEIGEN

Sie wollen auch ein ePaper? Erhöhen Sie die Reichweite Ihrer Titel.

YUMPU macht aus Druck-PDFs automatisch weboptimierte ePaper, die Google liebt.

Abbildung 2 <strong>und</strong> Tabelle 2 dienen zur Veranschaulichung.<br />

Cart-Beispiel. Eine Menge von Kugeln ist zu ordnen. Die Kugeln unterscheiden sich hinsichtlich folgender kategorialer<br />

(M1, M2) <strong>und</strong> metrischer (M3, M4) Merkmale: Farbe (M1: rot, gelb, grün, blau), Material (M2: Glas, Holz, Kunststoff,<br />

Metall), Durchmesser (M3: cm) <strong>und</strong> Gewicht (M4: g). Die absolute <strong>und</strong> relative Häufigkeit der roten, gelben, grünen <strong>und</strong><br />

blauen Kugeln ist bekannt (Abb. 2). Das Ziel besteht darin, die in einem großen Haufen vermischt vorliegenden Kugeln so zu<br />

ordnen, daß eine überschaubare Zahl von Teilmengen gebildet werden, deren Elemente in Bezug auf die Farbe möglichst<br />

einheitlich sind. CART prüft, welches der Merkmale M 2 bis M 4 die Kugelmenge in zwei Tochterklassen so gliedert, daß in<br />

einer von ihnen der Anteil der in der Ausgangsmenge am häufigsten vorkommenden roten Kugeln steigt. Diejenige<br />

Ausprägung eines der Merkmale M 2 bis M 4, das am häufigsten gemeinsam mit der Kugelfarbe rot auftritt, also die engste<br />

statistische Beziehung (Korrelation) hierzu aufweist, wird als Unterteilungskriterium benutzt. Diese Randbedingung wird in<br />

dem Beispiel am besten vom Kugeldurchmesser erfüllt; diejenigen Kugeln, die einen Durchmesser von kleiner als 20 cm<br />

aufweisen, werden in die Tochterklasse 1 eingeordnet. In ihr ist der Anteil der roten Kugeln um 10 % höher als in der<br />

Ausgangsklasse. Da aber auch einige gelbe, grüne <strong>und</strong> blaue Kugeln in dieser Größenklasse vorkommen, sind sie auch in der<br />

Tochterklasse 1 enthalten. Kugeldurchmesser über 20 cm kommen am häufigsten bei den blauen Kugeln vor, so daß diese<br />

Farbe in der Tochterklasse 2 dominiert. Die Tochterklassen 1 <strong>und</strong> 2 sind also nicht völlig homogen.<br />

In einem zweiten Durchgang prüft CART, welche Kugelmerkmale den Anteil der häufigsten Farbe in Tochterklasse 1 (rot)<br />

<strong>und</strong> 2 (blau) in den aus ihr zu bildenden Tochterklassen 1.1 <strong>und</strong> 1.2 bzw. 2.1 <strong>und</strong> 2.2 mit sich bringt. In dem Beispiel sind<br />

dies das Material <strong>und</strong> das Gewicht: Sortiert man aus der Klasse 1 die Kunststoffkugeln aus (Klasse 1.1), so steigt der Anteil<br />

der roten Kugeln auf 80%. Bei den Kugeln aus anderen Materialien dominieren die gelben mit 65 % (Klasse 1.2). Die Klasse<br />

2 wird anhand des Kugelgewichtes in die Tochterklassen 2.1 (Gewicht > 20 g) <strong>und</strong> 2.2 (Gewicht < 20 g) gegliedert.<br />

Analogie. Bei der Raumgliederung entsprechen die 2 x 2 km-Rasterzellen der BRD den Kugeln des<br />

Beispiels, die PNV den Kugelfarben <strong>und</strong> die Landschaftsmerkmale Höhenlage, Boden <strong>und</strong> Klima den<br />

Kugelmerkmalen Material, Umfang <strong>und</strong> Gewicht (Tabelle 2).<br />

Tabelle 2: Analogie Kugelbeispiel/Raumgliederung mit CART.<br />

44<br />

Kugelbeispiel Raumgliederung mit CART (Tabelle 1)<br />

Objekte Kugeln 2 x 2 km-Rasterzellen BRD<br />

Zielvariable Farbe (4 Kategorien) PNV (67 Kategorien)<br />

Prädiktoren<br />

Material (4 Kategorien) Bodenart (72 Kategorien)<br />

Umfang (metrisch) Klima (metrisch)<br />

Gewicht (metrisch) Orographie (metrisch)<br />

Statistische Gütemaße. Die Qualitätsprüfung der CART-Klassifikation kann nach fachlichen <strong>und</strong><br />

nach statistischen Kriterien erfolgen. Als statistische Gütemaße fungieren missclassification, deviance<br />

<strong>und</strong> cost complexity. Das Maß für die Reinheit bzw. Homogenität einer Tochterklasse ist die Fehlklassifikationsrate.<br />

Ihr Wert berechnet sich aus dem Verhältnis der Elemente mit der am häufigsten in<br />

dieser Klasse vertretenen Ausprägung der Zielvariablen zu allen in dieser Klasse enthaltenen<br />

Elementen. CART berechnet für alle Ausprägungen aller beschreibenden Variablen die Fehlklassifikation<br />

der Tochtergruppen <strong>und</strong> wählt diejenige Partition mit dem kleinsten Fehlklassifikationswert<br />

aus. Dabei wird ein leicht lesbarer Strukturbaum (Tree) erzeugt, aus dem man die Beziehungen der<br />

Klassen (der Blätter des Baumes) untereinander <strong>und</strong> der jeweiligen Ausprägungen der Ziel- <strong>und</strong> der<br />

beschreibenden Variablen ablesen kann. So erstellt CART zunächst den Tree Tmax mit der nach<br />

Datenlage maximal

Hurra! Ihre Datei wurde hochgeladen und ist bereit für die Veröffentlichung.

Erfolgreich gespeichert!

Leider ist etwas schief gelaufen!