02.07.2013 Views

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

134 第五章 图库<br />

1 > library(rpart)<br />

2 > fit = rpart(Kyphosis ~ Age + Number + Start, data = kyphosis)<br />

3 > par(mar = rep(1, 4), xpd = TRUE)<br />

4 > plot(fit, branch = 0.7)<br />

5 > text(fit, use.n = TRUE)<br />

Start>=14.5<br />

absent<br />

29/0 absent<br />

12/0<br />

Start>=8.5<br />

|<br />

Age< 55<br />

Age>=111<br />

absent<br />

12/2<br />

present<br />

3/4<br />

图 5.38: 脊椎矫正手术结果的分类树图<br />

present<br />

8/11<br />

椎畸形)和三个自变量Age(年龄,以月计)、Number(畸形脊椎的数目)<br />

和Start(从上往下数第一段畸形脊椎的位置)。我们希望知道的是这三个<br />

自变量对脊椎矫正手术结果的影响,例如怎样特征的小孩手术容易失败。<br />

分类与回归树的读法为:每个节点上的条件若满足则树枝向左生长,否则<br />

向右生长,每片叶子(最底端,即不再生长枝节的地方)上标明了该处的<br />

因变量的预测结果 6 ,下方也给出了该叶节点上样本的因变量构成情况。从<br />

图5.38中可以看出,Start小于8.5的小孩的矫正手术容易失败(右边叶节点<br />

上有11例失败和8例成功),而对于Start大于等于8.5的小孩来说,手术结<br />

果则需要继续按照自变量拆分:Start大于等于14.5的29名小孩中,所有小<br />

孩的手术均获成功,这表明手术成败的重要因素是小孩的第一段畸形脊椎<br />

的位置,这个位置越靠下,则手术越易成功;若前面的条件不满足,则继<br />

6 若因变量为分类变量,则预测值按照多数投票表决(majority vote)原则计算;若为数值变量,则按<br />

照叶节点上的样本均值预测。

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!