02.07.2013 Views

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5.3 箱线图 67<br />

1 > # 去掉陆地名称以便显示数据<br />

2 > unname(sort(round(islands/1000, 1)))<br />

[1] 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0<br />

[13] 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0<br />

[25] 0.0 0.0 0.0 0.0 0.0 0.1 0.1 0.1 0.1 0.1 0.1 0.2<br />

[37] 0.2 0.2 0.3 0.3 0.8 3.0 3.7 5.5 6.8 9.4 11.5 17.0<br />

然后从0到18 × 10 3 、以2 × 10 3 为窗宽,分段整理数据,每一段(节)<br />

中依次放置落入该段的数据的小数位,堆砌起来便形成了茎叶图的叶<br />

子。例如11.5落入了[10, 12]的区间,我们就将尾数5放在10的右边;类似地,<br />

17.0在[16, 18]之间,我们将0放在16右边;关于茎叶图顶部的一长串0的解释<br />

此处不再赘述。<br />

图5.4是利用泊松分布随机数生成的茎叶图,由于窗宽为1,不存在舍入<br />

问题,所以图形可以还原到原始数据,请读者自行对应数据观察茎叶图。<br />

经过前面的说明,现在我们不妨将茎叶图简单理解为横放着的直方图,<br />

只是茎叶图通常都以某个便利的整数为窗宽,不如直方图那样精细。此外,<br />

茎叶图曾经的优势(简单、可手工绘制)在今天这个计算机时代也显得并<br />

不突出,因此,除非特殊情况,我们建议主要使用直方图作为密度函数估<br />

计工具。<br />

5.3 箱线图<br />

箱线图(Box Plot或Box-and-Whisker Plot)主要是从四分位数的角度<br />

出发描述数据的分布,它通过最大值(Q4)、 上四分位数(Q3)、 中位数<br />

(Q2)、下四分位数(Q1)和最小值(Q0)五处位置来获取一维数据的分布<br />

概况。我们知道,这五处位置之间依次包含了四段数据,每段中数据量均<br />

为总数据量的1/4。 通过每一段数据占据的长度,我们可以大致推断出数<br />

据的集中或离散趋势(长度越短,说明数据在该区间上越密集,反之则稀<br />

疏)。<br />

R中相应的函数为boxplot(),其用法如下:<br />

1 > # 默认用法<br />

2 > usage(boxplot, "default")<br />

boxplot(x, ..., range = 1.5, width = NULL,<br />

varwidth = FALSE, notch = FALSE, outline = TRUE,

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!