02.07.2013 Views

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

现代统计图形 - 科学网—博客

SHOW MORE
SHOW LESS

Create successful ePaper yourself

Turn your PDF publications into a flip-book with our unique Google optimized e-Paper software.

102 第五章 图库<br />

残差反映的是某个单元格拟合的好坏,马赛克图用5级颜色表达了残差<br />

的大小,后面我们结合具体例子说明。<br />

R中马赛克图的函数为mosaicplot(),其用法如下:<br />

1 > usage(mosaicplot, "default")<br />

mosaicplot(x, main = deparse(substitute(x)),<br />

sub = NULL, xlab = NULL, ylab = NULL, sort = NULL,<br />

off = NULL, dir = NULL, color = NULL, shade = FALSE,<br />

margin = NULL, cex.axis = 0.66, las = par("las"),<br />

type = c("pearson", "deviance", "FT"), ...)<br />

1 > usage(mosaicplot, "formula", 0.7)<br />

mosaicplot(formula, data = NULL, ...,<br />

main = deparse(substitute(data)), subset,<br />

na.action = stats::na.omit)<br />

马赛克图函数是泛型函数,可以直接接受列联表数据或者公式作<br />

为参数,这里我们只介绍前一种情况。 x为一个列联表数据(可以用函<br />

数table()生成);main、sub、xlab和ylab分别设定主标题、副标题和坐标轴<br />

标题;sort指定展示变量的顺序;dir指定马赛克图的拆分方向(横向拆分或<br />

纵向拆分);type给定残差的类型,即如前所述的三种残差。<br />

下面我们结合泰坦尼克号数据Titanic来说明马赛克图的用法。泰坦尼<br />

克号乘客生存情况的原始数据参见图5.22的代码输出,该数据给出了分舱<br />

位(一二三等舱和船员舱)、分性别(男女)、分年龄(大人小孩)的生存<br />

情况。泰坦尼克号的沉没是一件著名的历史事件,至今仍然有很多人在研<br />

究它。我们所关心的问题主要是通过一些比例看出当时救援的侧重性,如:<br />

是否头等舱的乘客生还比例最高?“女士和孩子优先”的原则在各船舱有没<br />

有被很好遵守?……<br />

图5.22以马赛克图的形式将这个4 × 2 × 2 × 2的列联表数据展示在了同<br />

一张图中,通过矩形块(马赛克)的大小,我们可以清楚看出各舱位、不<br />

同性别、年龄的人群的生还状况。例如,对头等舱来说,无论是大人小孩<br />

或男女,下方的矩形都比上方的矩形要高(尤其是女性和小孩),这说明头<br />

等舱的生还率相对来说都比较高,很可能当时的救援是偏向头等舱的;从<br />

年龄来说,头等舱和二等舱中小孩的生存率要远高于大人,但三等舱中小<br />

孩的生存率和大人相比差异并不是太显著;但从性别角度来看,各舱位基<br />

本上还是将生存机会优先让给女性了,男性的生还率在各舱位来说都相对

Hooray! Your file is uploaded and ready to be published.

Saved successfully!

Ooh no, something went wrong!