现代统计图形 - 科学网—博客
现代统计图形 - 科学网—博客
现代统计图形 - 科学网—博客
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
5.3 箱线图 67<br />
1 > # 去掉陆地名称以便显示数据<br />
2 > unname(sort(round(islands/1000, 1)))<br />
[1] 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0<br />
[13] 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0<br />
[25] 0.0 0.0 0.0 0.0 0.0 0.1 0.1 0.1 0.1 0.1 0.1 0.2<br />
[37] 0.2 0.2 0.3 0.3 0.8 3.0 3.7 5.5 6.8 9.4 11.5 17.0<br />
然后从0到18 × 10 3 、以2 × 10 3 为窗宽,分段整理数据,每一段(节)<br />
中依次放置落入该段的数据的小数位,堆砌起来便形成了茎叶图的叶<br />
子。例如11.5落入了[10, 12]的区间,我们就将尾数5放在10的右边;类似地,<br />
17.0在[16, 18]之间,我们将0放在16右边;关于茎叶图顶部的一长串0的解释<br />
此处不再赘述。<br />
图5.4是利用泊松分布随机数生成的茎叶图,由于窗宽为1,不存在舍入<br />
问题,所以图形可以还原到原始数据,请读者自行对应数据观察茎叶图。<br />
经过前面的说明,现在我们不妨将茎叶图简单理解为横放着的直方图,<br />
只是茎叶图通常都以某个便利的整数为窗宽,不如直方图那样精细。此外,<br />
茎叶图曾经的优势(简单、可手工绘制)在今天这个计算机时代也显得并<br />
不突出,因此,除非特殊情况,我们建议主要使用直方图作为密度函数估<br />
计工具。<br />
5.3 箱线图<br />
箱线图(Box Plot或Box-and-Whisker Plot)主要是从四分位数的角度<br />
出发描述数据的分布,它通过最大值(Q4)、 上四分位数(Q3)、 中位数<br />
(Q2)、下四分位数(Q1)和最小值(Q0)五处位置来获取一维数据的分布<br />
概况。我们知道,这五处位置之间依次包含了四段数据,每段中数据量均<br />
为总数据量的1/4。 通过每一段数据占据的长度,我们可以大致推断出数<br />
据的集中或离散趋势(长度越短,说明数据在该区间上越密集,反之则稀<br />
疏)。<br />
R中相应的函数为boxplot(),其用法如下:<br />
1 > # 默认用法<br />
2 > usage(boxplot, "default")<br />
boxplot(x, ..., range = 1.5, width = NULL,<br />
varwidth = FALSE, notch = FALSE, outline = TRUE,