现代统计图形 - 科学网—博客
现代统计图形 - 科学网—博客
现代统计图形 - 科学网—博客
You also want an ePaper? Increase the reach of your titles
YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.
62 第五章 图库<br />
f(x) = F ′ F (x + h) − F (x)<br />
(x) = lim<br />
h→0 h<br />
(5.1)<br />
因此我们不妨自然而然地从分布函数的估计出发得到密度函数的估计。<br />
当我们拿到一批数据X1, X2, . . . , Xn时,我们最容易想到的分布函数估计就<br />
是经验分布函数:<br />
ˆFn(x) = 1<br />
n<br />
n<br />
I(Xi ≤ x) (5.2)<br />
i=1<br />
其中I(·)为示性函数;结合公式5.1和5.2以及示性函数的性质,我们可<br />
以直接得到以下密度函数估计:<br />
ˆfn(x)<br />
1<br />
= lim<br />
h→0 n<br />
n<br />
i=1<br />
I(x < Xi ≤ x + h)<br />
h<br />
(5.3)<br />
公式5.3实际上已经给出了直方图作为密度函数估计工具的基本思想:<br />
划分区间并计数有多少数据点落入该区间。实际数据不可能无限稠密,因<br />
此h → 0的条件往往是不可能实现的,于是我们退而求其次,只是在某一些<br />
区间段里面估计区间上的密度。首先我们将实数轴划分为若干宽度为h的区<br />
间(我们称h为“窗宽”):<br />
值:<br />
b1 < b2 < · · · < bj < bj+1 < · · · ; bj+1 − bj = h, j = 1, 2, · · · (5.4)<br />
然后根据以下直方图密度估计表达式计算区间(bj, bj+1]上的密度估计<br />
ˆfn(x) = 1<br />
nh<br />
n<br />
I(bj < Xi ≤ bj+1); x ∈ (bj, bj+1] (5.5)<br />
i=1<br />
最后我们将密度估计值以矩形的形式表示出来,就完成了直方图的<br />
基本制作。当然我们没有必要使用这样原始的方式制作直方图,R中提供<br />
了hist()函数,其默认用法如下:<br />
1 > usage(hist, "default")<br />
hist(x, breaks = "Sturges", freq = NULL,<br />
probability = !freq, include.lowest = TRUE, right = TRUE,<br />
density = NULL, angle = 45, col = NULL, border = NULL,<br />
main = paste("Histogram of", xname), xlim = range(breaks),<br />
ylim = NULL, xlab = xname, ylab, axes = TRUE, plot = TRUE,<br />
labels = FALSE, nclass = NULL, ...)