现代统计图形 - 科学网—博客
现代统计图形 - 科学网—博客
现代统计图形 - 科学网—博客
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
120 第五章 图库<br />
带状图函数为泛型函数,可以直接接受数据参数或者公式参数。 x为<br />
数据,一般为一个向量;method指定作图方法,取值’overplot’意思是将<br />
所有的数据点画在一条直线上,不管它们是否有重叠,’jitter’意思是将<br />
直线上的数据随机打乱,以免数据重叠导致我们不知道在某个位置究竟有<br />
多少个点,’stack’意思是将重叠的数据堆砌起来,某个位置重叠的数据<br />
越多,则堆砌越高;jitter给定打乱的程度,参见jitter()函数(B.4小节有讲<br />
解);vertical设定带状图的方向(横向或纵向);group.names为每一组数据<br />
的名称标签;add决定是否将带状图添加到现有图形上;at给定每条带子的<br />
位置。<br />
带状图作为描述一维数据分布的工具也有其独特的优势,它的作图方<br />
法可以反映出原始数据的疏密,若原始数据有重叠,它也有相应的办法处<br />
理,最终使所有的数据点都能够被展示出来。图5.31重新使用了杀虫剂数<br />
据InsectSprays,上图展示了堆砌的带状图,并且在图中同时放置了箱线<br />
图作为对比,如果只是观察箱线图,我们无从得知数据在若干位置有重复,<br />
只知道数据四分位点的位置,而带状图则可以告诉我们在哪些位置分别有<br />
多少数据点;下图为随机打乱的带状图,作图方法只是将y方向上的固定数<br />
值添加了随机数,使原本重叠在一起的数据重新拥有不同的纵坐标,从而<br />
将重叠的数据分开来。<br />
回顾前面5.20小节中我们曾经用坐标轴须在坐标轴上标记出原始数据,<br />
这与带状图在一条直线上用点表达原始数据的想法有异曲同工之妙,然而<br />
坐标轴须没有堆砌和随机打乱数据的功能 4 ,所以有时候使用不妨视情况向<br />
图中添加带状图作为变量分布的辅助性描述。<br />
5.25 向日葵散点图<br />
向日葵散点图(Sunflower Scatter Plot)是用来克服散点图中数据点重<br />
叠问题的特殊散点图工具。它采用的办法是在有重叠的地方用一朵“向日<br />
葵花”的花瓣数目来表示重叠数据的个数,这样我们就很容易看出来散点<br />
图中哪些地方的数据有重叠,而且能知道重叠的具体数目。向日葵散点图<br />
在数据特别密集或者数据类型为分类数据时很有用,因为这两种情况下都<br />
容易产生重复的数据点,尤其是后一种情况下,数据几乎必然有重复(除<br />
非列联表单元格频数为1)。<br />
4 后者可以通过函数jitter()实现