现代统计图形 - 科学网—博客

More documents

Recommendations

Info

62 第五章图库 f(x) = F ′ F (x + h) − F (x) (x) = lim h→0 h (5.1) 因此我们不妨自然而然地从分布函数的估计出发得到密度函数的估计。当我们拿到一批数据X1, X2, . . . , Xn时,我们最容易想到的分布函数估计就是经验分布函数: ˆFn(x) = 1 n n I(Xi ≤ x) (5.2) i=1 其中I(·)为示性函数;结合公式5.1和5.2以及示性函数的性质,我们可以直接得到以下密度函数估计: ˆfn(x) 1 = lim h→0 n n i=1 I(x < Xi ≤ x + h) h (5.3) 公式5.3实际上已经给出了直方图作为密度函数估计工具的基本思想: 划分区间并计数有多少数据点落入该区间。实际数据不可能无限稠密,因此h → 0的条件往往是不可能实现的,于是我们退而求其次,只是在某一些区间段里面估计区间上的密度。首先我们将实数轴划分为若干宽度为h的区间(我们称h为“窗宽”): 值: b1 < b2 < · · · < bj < bj+1 < · · · ; bj+1 − bj = h, j = 1, 2, · · · (5.4) 然后根据以下直方图密度估计表达式计算区间(bj, bj+1]上的密度估计 ˆfn(x) = 1 nh n I(bj < Xi ≤ bj+1); x ∈ (bj, bj+1] (5.5) i=1 最后我们将密度估计值以矩形的形式表示出来,就完成了直方图的基本制作。当然我们没有必要使用这样原始的方式制作直方图,R中提供了hist()函数,其默认用法如下: 1 > usage(hist, "default") hist(x, breaks = "Sturges", freq = NULL, probability = !freq, include.lowest = TRUE, right = TRUE, density = NULL, angle = 45, col = NULL, border = NULL, main = paste("Histogram of", xname), xlim = range(breaks), ylim = NULL, xlab = xname, ylab, axes = TRUE, plot = TRUE, labels = FALSE, nclass = NULL, ...)
5.2 茎叶图 63 其中,x为欲估计分布的数值向量;breaks决定了计算分段区间的方法, 它可以是一个向量(依次给出区间端点),或者一个数字(决定拆分为多少段),或者一个字符串(给出计算划分区间的算法名称),或者一个函数 (给出划分区间个数的方法),区间的划分直接决定了直方图的形状,因此这个参数是非常关键的;freq和probability参数均取逻辑值(二者互斥),前者决定是否以频数作图,后者决定是否以概率密度作图(这种情况下矩形面积为1);labels为逻辑值,决定是否将频数的数值添加到矩形条的上方; 其它参数诸如density、angle、border均可参见低层作图函数“矩形”(rect(), 4.4节)。我们以黄石国家公园喷泉数据geyser(Venables and Ripley, 2002)为例。图5.1展示了喷泉喷发间隔时间的分布情况。(1)和(2)中的直方图看起来形状完全一样,区别仅仅是前者为频数图,后者为密度图,二者在统计量上仅相差一个常数倍,但密度直方图的一个便利之处在于它可以方便地添加密度曲线,用以辅助展示数据的统计分布(图5.2即为一个示例);(3)和 (4)的区别在于区间划分段数,我们可以很清楚看出区间划分的多少对直方图的直接影响。关于区间划分的一些讨论可以参考Venables and Ripley (2002),这里我们需要特别指出的是,直方图的理论并非想象中或看起来的那么简单,窗宽也并非可以任意选择,不同的窗宽或区间划分方法会导致不同的估计误差,关于这一点,Excel的直方图可以说是非常不可靠的,因为它把区间的划分方法完全交给了用户去选择,这样随意制作出来的直方图很可能会导致大的估计误差、掩盖数据的真实分布情况。另外一点需要提醒的是关于直方图中的密度曲线,SPSS软件在绘制直方图时会有选项提示是否添加正态分布密度曲线,这也是完全的误导,因为数据不一定来自正态分布,添加正态分布的密度曲线显然是不合理的,相比之下,图5.2的做法才是真正从数据本来的分布出发得到的密度曲线。直方图函数在作图完毕之后会有一些计算返回值,这些值对于进一步的作图或者分析很有用,例如区间划分端点、频数(或密度)、区间中点等等,这些信息可以被灵活应用在图形定制上(例如图B.3)。 5.2 茎叶图茎叶图(Stem-and-Leaf Plot)与直方图的功能类似,也是展示数据密度的一种工具,但相比之下茎叶图对密度的刻画显得非常粗略,而且
Page 1 and 2:
现代统计图形谢益辉 2010
Page 3 and 4:
• 自由软件用户往往有某
Page 5 and 6:
目录序言 i 代序一 . . . . .
Page 7 and 8:
5.25 向日葵散点图 . . . . . .
Page 9:
附录 B 作图技巧 163 B.1 添
Page 12 and 13:
5.4 泊松分布随机数茎叶图
Page 15 and 16:
表格 5.1 二维列联表的经典
Page 17 and 18:
序言代序一代序二作者
Page 19:
Coefficients: Estimate Std. Error t
Page 22 and 23:
2 第一章历史图 1.1: Playfai
Page 24 and 25:
4 第一章历史吸到了“瘴
Page 26 and 27:
6 第一章历史图 1.4: 南丁
Page 28 and 29:
8 第一章历史图 1.5: Minard
Page 30 and 31:
10 第一章历史总的说来,
Page 32 and 33: 12 第二章工具大小,如条
Page 34 and 35: 14 第二章工具 Type contributo
Page 36 and 37: 16 第二章工具百K的一个
Page 38 and 39: 18 第二章工具其实没有必
Page 40 and 41: 20 第二章工具
Page 42 and 43: 22 第三章细节 3.1 par()函数
Page 44 and 45: 24 第三章细节 1:10 2 4 6 8 10
Page 46 and 47: 26 第三章细节 las 坐标轴
Page 48 and 49: 28 第三章细节 oma[2] mar[2] O
Page 50 and 51: 30 第三章细节 3.2 plot()及
Page 52 and 53: 32 第三章细节 xlim, ylim 设
Page 54 and 55: 34 第四章元素 4.1 颜色默
Page 56 and 57: 36 第四章元素 4.1.2 颜色生
Page 58 and 59: 38 第四章元素 [,1] [,2] [,3]
Page 60 and 61: 40 第四章元素每一类调色
Page 62 and 63: 42 第四章元素 1 > xx = c(1912
Page 64 and 65: 44 第四章元素 0 1 2 3 4 5 6 7
Page 66 and 67: 46 第四章元素图2.1已经使
Page 68 and 69: 48 第四章元素 1 > usage(arrow
Page 70 and 71: 50 第四章元素一个多边形
Page 72 and 73: 52 第四章元素可以看到,
Page 74 and 75: 54 第四章元素 1 > par(mar = c
Page 76 and 77: 56 第四章元素 1 > data(Export
Page 78 and 79: 58 第四章元素 12 72.48 2003 U
Page 80 and 81: 60 第五章图库 1 > par(mfrow =
Page 84 and 85: 64 第五章图库 1 > stem(island
Page 86 and 87: 66 第五章图库对原始数据
Page 88 and 89: 68 第五章图库 names, plot = T
Page 90 and 91: 70 第五章图库 1 > par(mar = c
Page 92 and 93: 72 第五章图库 1 > # 用分类
Page 94: 74 第五章图库 1 > library(MSG
Page 97 and 98: 5.7 条件密度图 77 R中关联
Page 99 and 100: 5.7 条件密度图 79 小到大在
Page 101 and 102: 5.8 等高图 81 1 > data(ChinaLife
Page 103 and 104: 5.8 等高图 83 都必须展示在
Page 105 and 106: 5.9 条件分割图 85 1 > par(mar
Page 107 and 108: 5.10 一元函数曲线图 87 1 > c
Page 109 and 110: 5.12 颜色等高图 89 1 > dotchar
Page 111 and 112: 5.13 四瓣图 91 finite = TRUE), y
Page 113 and 114: 5.13 四瓣图 93 表 5.1: 二维
Page 115 and 116: 5.14 颜色图 95 C和E系的优比
Page 117 and 118: 5.14 颜色图 97 1 > par(mar = rep
Page 119 and 120: 5.15 矩阵图 99 1 > sines = outer
Page 121 and 122: 5.16 马赛克图 101 1 > ftable(Ti
Page 123 and 124: 5.17 散点图矩阵 103 较低。
Page 125 and 126: 5.18 三维透视图 105 倍数;fon
Page 127 and 128: 5.18 三维透视图 107 Sinc( r )
Page 129 and 130: 5.19 因素效应图 109 1 > plot.d
Page 131 and 132: 5.21 平滑散点图 111 1 > par(ma
Page 133 and 134:
5.22 棘状图 113 可将图5.28放
Page 135 and 136:
5.22 棘状图 115 离散化处理,
Page 137 and 138:
5.23 星状图 117 1 > # 预设调
Page 139 and 140:
5.24 带状图 119 1 > layout(matri
Page 141 and 142:
5.25 向日葵散点图 121 1 > sun
Page 143 and 144:
5.26 符号图 123 1 > par(mar = c(
Page 145:
5.27 饼图 125 增长率总人口
Page 148 and 149:
128 第五章图库种以比例
Page 150 and 151:
130 第五章图库 1 > # 真实
Page 152 and 153:
132 第五章图库信用风险
Page 154 and 155:
134 第五章图库 1 > library(rp
Page 156 and 157:
136 第五章图库有时候与
Page 158 and 159:
138 第五章图库数诸如填
Page 160 and 161:
140 第五章图库
Page 162 and 163:
142 第六章系统 8 > plot(0:1,
Page 164 and 165:
144 第七章模型 • 类似回
Page 166 and 167:
146 第七章模型 7.16.1 分类
Page 168 and 169:
148 第八章数据 8.2.1 一维
Page 170 and 171:
150 附录 A 程序初步通常我
Page 172 and 173:
152 附录 A 程序初步 1 > # 冒
Page 174 and 175:
154 附录 A 程序初步 [1] 1 2 3
Page 176 and 177:
156 附录 A 程序初步 [,1] [,2]
Page 178 and 179:
158 附录 A 程序初步 A.1.5 函
Page 180 and 181:
160 附录 A 程序初步 [1] "inte
Page 182 and 183:
162 附录 A 程序初步 2. 变量
Page 184 and 185:
164 附录 B 作图技巧 1 > # 本
Page 186 and 187:
166 附录 B 作图技巧 1 > layou
Page 188 and 189:
168 附录 B 作图技巧 screen(n
Page 190 and 191:
170 附录 B 作图技巧 B.3 交
Page 192 and 193:
172 附录 B 作图技巧 1 > xx =
Page 194 and 195:
174 附录 B 作图技巧正的频
Page 196 and 197:
176 附录 B 作图技巧
Page 198 and 199:
178 附录 C 统计动画
Page 200 and 201:
180 附录 D 本书R包 D.2 数据
Page 202 and 203:
182 参考文献 Minka , URL http:/
Page 204 and 205:
184 参考文献 Meyer D, Zeileis A
Page 206 and 207:
186 参考文献 Wilkinson L (2005)
Page 208 and 209:
188 索引点, 27 玫瑰图, 4 直
Page 210:
190 索引形的一些历史,包
show all

现代统计图形 - 科学网—博客

You also want an ePaper? Increase the reach of your titles

Delete template?

Save as template?