02.07.2013 Views

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

120 第五章 图库<br />

带状图函数为泛型函数,可以直接接受数据参数或者公式参数。 x为<br />

数据,一般为一个向量;method指定作图方法,取值’overplot’意思是将<br />

所有的数据点画在一条直线上,不管它们是否有重叠,’jitter’意思是将<br />

直线上的数据随机打乱,以免数据重叠导致我们不知道在某个位置究竟有<br />

多少个点,’stack’意思是将重叠的数据堆砌起来,某个位置重叠的数据<br />

越多,则堆砌越高;jitter给定打乱的程度,参见jitter()函数(B.4小节有讲<br />

解);vertical设定带状图的方向(横向或纵向);group.names为每一组数据<br />

的名称标签;add决定是否将带状图添加到现有图形上;at给定每条带子的<br />

位置。<br />

带状图作为描述一维数据分布的工具也有其独特的优势,它的作图方<br />

法可以反映出原始数据的疏密,若原始数据有重叠,它也有相应的办法处<br />

理,最终使所有的数据点都能够被展示出来。图5.31重新使用了杀虫剂数<br />

据InsectSprays,上图展示了堆砌的带状图,并且在图中同时放置了箱线<br />

图作为对比,如果只是观察箱线图,我们无从得知数据在若干位置有重复,<br />

只知道数据四分位点的位置,而带状图则可以告诉我们在哪些位置分别有<br />

多少数据点;下图为随机打乱的带状图,作图方法只是将y方向上的固定数<br />

值添加了随机数,使原本重叠在一起的数据重新拥有不同的纵坐标,从而<br />

将重叠的数据分开来。<br />

回顾前面5.20小节中我们曾经用坐标轴须在坐标轴上标记出原始数据,<br />

这与带状图在一条直线上用点表达原始数据的想法有异曲同工之妙,然而<br />

坐标轴须没有堆砌和随机打乱数据的功能 4 ,所以有时候使用不妨视情况向<br />

图中添加带状图作为变量分布的辅助性描述。<br />

5.25 向日葵散点图<br />

向日葵散点图(Sunflower Scatter Plot)是用来克服散点图中数据点重<br />

叠问题的特殊散点图工具。它采用的办法是在有重叠的地方用一朵“向日<br />

葵花”的花瓣数目来表示重叠数据的个数,这样我们就很容易看出来散点<br />

图中哪些地方的数据有重叠,而且能知道重叠的具体数目。向日葵散点图<br />

在数据特别密集或者数据类型为分类数据时很有用,因为这两种情况下都<br />

容易产生重复的数据点,尤其是后一种情况下,数据几乎必然有重复(除<br />

非列联表单元格频数为1)。<br />

4 后者可以通过函数jitter()实现

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!