02.07.2013 Views

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

5.2 茎叶图 63<br />

其中,x为欲估计分布的数值向量;breaks决定了计算分段区间的方法,<br />

它可以是一个向量(依次给出区间端点),或者一个数字(决定拆分为多<br />

少段),或者一个字符串(给出计算划分区间的算法名称),或者一个函数<br />

(给出划分区间个数的方法),区间的划分直接决定了直方图的形状,因此<br />

这个参数是非常关键的;freq和probability参数均取逻辑值(二者互斥),前<br />

者决定是否以频数作图,后者决定是否以概率密度作图(这种情况下矩形<br />

面积为1);labels为逻辑值,决定是否将频数的数值添加到矩形条的上方;<br />

其它参数诸如density、angle、border均可参见低层作图函数“矩形”(rect(),<br />

4.4节)。<br />

我们以黄石国家公园喷泉数据geyser(Venables and Ripley, 2002)为例。<br />

图5.1展示了喷泉喷发间隔时间的分布情况。(1)和(2)中的直方图看起来<br />

形状完全一样,区别仅仅是前者为频数图,后者为密度图,二者在统计量<br />

上仅相差一个常数倍,但密度直方图的一个便利之处在于它可以方便地添<br />

加密度曲线,用以辅助展示数据的统计分布(图5.2即为一个示例);(3)和<br />

(4)的区别在于区间划分段数,我们可以很清楚看出区间划分的多少对直<br />

方图的直接影响。关于区间划分的一些讨论可以参考Venables and Ripley<br />

(2002),这里我们需要特别指出的是,直方图的理论并非想象中或看起来的<br />

那么简单,窗宽也并非可以任意选择,不同的窗宽或区间划分方法会导致<br />

不同的估计误差,关于这一点,Excel的直方图可以说是非常不可靠的,因<br />

为它把区间的划分方法完全交给了用户去选择,这样随意制作出来的直方<br />

图很可能会导致大的估计误差、掩盖数据的真实分布情况。另外一点需要<br />

提醒的是关于直方图中的密度曲线,SPSS软件在绘制直方图时会有选项提<br />

示是否添加正态分布密度曲线,这也是完全的误导,因为数据不一定来自<br />

正态分布,添加正态分布的密度曲线显然是不合理的,相比之下,图5.2的<br />

做法才是真正从数据本来的分布出发得到的密度曲线。<br />

直方图函数在作图完毕之后会有一些计算返回值,这些值对于进一步<br />

的作图或者分析很有用,例如区间划分端点、频数(或密度)、区间中点等<br />

等,这些信息可以被灵活应用在图形定制上(例如图B.3)。<br />

5.2 茎叶图<br />

茎叶图(Stem-and-Leaf Plot)与直方图的功能类似,也是展示数据<br />

密度的一种工具,但相比之下茎叶图对密度的刻画显得非常粗略,而且

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!