现代统计图形 - 科学网—博客
现代统计图形 - 科学网—博客
现代统计图形 - 科学网—博客
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
66 第五章 图库<br />
对原始数据通常会作舍入处理,它只是在早期计算机尚不发达时对于手<br />
工整理数据来说比较方便。 茎叶图的整体形状如同植物的茎和叶,对于<br />
一个数据,通常取其10 n 部分为茎(n视所有数据的数量级而定),剩下的<br />
尾数为叶,放置于茎旁,这样每隔m10 n 就对数据作一次归类汇总,将落<br />
入区间[km10 n , (k + 1)m10 n ]的数据汇集为叶子(k, m为整数,m通常取1,<br />
k = 1, 2, 3, · · · ),我们不妨称这种区间为一个“节”,节的长度与直方图的<br />
“窗宽”本质上是同样的概念。 显然,叶子越长则表明该节上数据频数越<br />
高。<br />
R中茎叶图的函数为stem(),其用法为:<br />
1 > usage(stem)<br />
stem(x, scale = 1, width = 80, atom = 1e-08)<br />
参数scale控制着m,即节与节之间的长度(scale越大则m越小);width控<br />
制了茎叶图的宽度,若叶子的长度超出了这个设置,则叶子会被截取到长<br />
度width,然后以一个整数表示后面尚有多少片叶子没有被画出来。<br />
下面我们以datasets包中islands数据为例说明茎叶图的作法。该数据<br />
记录了世界上各大陆地块的面积大小,原始数据前10条如下(单位:千平<br />
方英里):<br />
1 > head(islands, 10)<br />
Africa Antarctica Asia Australia Axel Heiberg<br />
11506 5500 16988 2968 16<br />
Baffin Banks Borneo Britain Celebes<br />
184 23 280 84 73<br />
可以看出,以上数据中最大的数量级为10 4 ,而大部分数据的数量级集<br />
中在10 1 ,因此茎上的数量级取作10 3 相对比较合适—更大的数量级会导致<br />
茎的节数非常少、对分布的刻画过于粗略,而更小的数量级会导致节数过<br />
多,使得茎叶图几乎退化为数据的原始表示,这样也难以看出数据的集中<br />
趋势。图5.3展示了48块大陆块面积的分布,该茎叶图窗宽为2 × 10 3 ,图中<br />
注明了原始数据小数点位置在“|”后面三位数处,因此我们从图中“还<br />
原”原始数据时,需要用(“茎的区间”+“叶”)×10 3 。我们以图5.3为例<br />
说明一下茎叶图的制作过程及其相应解释。首先我们将原始数据除以10 3 ,<br />
并四舍五入到小数点后的一位数: