02.07.2013 Views

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

66 第五章 图库<br />

对原始数据通常会作舍入处理,它只是在早期计算机尚不发达时对于手<br />

工整理数据来说比较方便。 茎叶图的整体形状如同植物的茎和叶,对于<br />

一个数据,通常取其10 n 部分为茎(n视所有数据的数量级而定),剩下的<br />

尾数为叶,放置于茎旁,这样每隔m10 n 就对数据作一次归类汇总,将落<br />

入区间[km10 n , (k + 1)m10 n ]的数据汇集为叶子(k, m为整数,m通常取1,<br />

k = 1, 2, 3, · · · ),我们不妨称这种区间为一个“节”,节的长度与直方图的<br />

“窗宽”本质上是同样的概念。 显然,叶子越长则表明该节上数据频数越<br />

高。<br />

R中茎叶图的函数为stem(),其用法为:<br />

1 > usage(stem)<br />

stem(x, scale = 1, width = 80, atom = 1e-08)<br />

参数scale控制着m,即节与节之间的长度(scale越大则m越小);width控<br />

制了茎叶图的宽度,若叶子的长度超出了这个设置,则叶子会被截取到长<br />

度width,然后以一个整数表示后面尚有多少片叶子没有被画出来。<br />

下面我们以datasets包中islands数据为例说明茎叶图的作法。该数据<br />

记录了世界上各大陆地块的面积大小,原始数据前10条如下(单位:千平<br />

方英里):<br />

1 > head(islands, 10)<br />

Africa Antarctica Asia Australia Axel Heiberg<br />

11506 5500 16988 2968 16<br />

Baffin Banks Borneo Britain Celebes<br />

184 23 280 84 73<br />

可以看出,以上数据中最大的数量级为10 4 ,而大部分数据的数量级集<br />

中在10 1 ,因此茎上的数量级取作10 3 相对比较合适—更大的数量级会导致<br />

茎的节数非常少、对分布的刻画过于粗略,而更小的数量级会导致节数过<br />

多,使得茎叶图几乎退化为数据的原始表示,这样也难以看出数据的集中<br />

趋势。图5.3展示了48块大陆块面积的分布,该茎叶图窗宽为2 × 10 3 ,图中<br />

注明了原始数据小数点位置在“|”后面三位数处,因此我们从图中“还<br />

原”原始数据时,需要用(“茎的区间”+“叶”)×10 3 。我们以图5.3为例<br />

说明一下茎叶图的制作过程及其相应解释。首先我们将原始数据除以10 3 ,<br />

并四舍五入到小数点后的一位数:

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!