02.07.2013 Views

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

SHOW MORE
SHOW LESS

You also want an ePaper? Increase the reach of your titles

YUMPU automatically turns print PDFs into web optimized ePapers that Google loves.

5.5 散点图 73<br />

性,但女性的城乡差异没有明显规律。由于人眼对长度比比例更敏感(例<br />

如在区分城乡和性别差异时,图5.7的上图就不如下图直观),所以我们制图<br />

时要考虑清楚我们想展示的是数据的哪一方面,即:将最关键的信息用最<br />

能激发视觉感知的形式表现出来。<br />

1 > # 弗吉尼亚州死亡数据<br />

2 > VADeaths<br />

Rural Male Rural Female Urban Male Urban Female<br />

50-54 11.7 8.7 15.4 8.4<br />

55-59 18.1 11.7 24.3 13.6<br />

60-64 26.9 20.3 37.0 19.3<br />

65-69 41.0 30.9 54.6 35.1<br />

70-74 66.0 54.3 71.1 50.0<br />

5.5 散点图<br />

散点图通常用来展示两个变量之间的关系,这种关系可能是线性或非<br />

线性的。图中每一个点的横纵坐标都分别对应两个变量各自的观测值,因<br />

此散点所反映出来的趋势也就是两个变量之间的关系。<br />

R中散点图的函数为plot.default(),但由于plot()是泛型函数(参见3.2小<br />

节),通常我们只需要提供两个数值型向量给plot()即可画散点图,或者提供<br />

一个两列的矩阵或数据框。函数plot.default()的用法如下:<br />

1 > usage(plot, "default")<br />

plot(x, y = NULL, type = "p", xlim = NULL,<br />

ylim = NULL, log = "", main = NULL, sub = NULL,<br />

xlab = NULL, ylab = NULL, ann = par("ann"), axes = TRUE,<br />

frame.plot = axes, panel.first = NULL, panel.last = NULL,<br />

asp = NA, ...)<br />

其中若x是一个两列的矩阵或数据框,则无需再提供y,否则x和y都必<br />

须是数值型向量;其它参数均已在3.2小节中介绍。<br />

图5.8展示了一个人造数据的散点图:我们设计了2万个样本,其中<br />

有1万个样本点来自于两个独立的标准正态分布,另1万个样本点的坐标落<br />

在半径为0.5的圆上,最后将这2万个样本拼起来并打乱顺序。该数据收录<br />

在MSG包(Xie, 2010b)中,名为BinormCircle。虽然数据只有两个变量,但<br />

我们用普通的统计模型和数值分析几乎无法找出数据的特征,例如线性回<br />

归显示两个变量V1和V2的回归系数非常不显著:

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!