1702631055
统计学的世界(第8版) 第4章 真实世界中的抽样调查
1702631056
1702631057
案例分析
1702631058
1702631059
某项民意调查访问了随机抽样的1000个人后,公布了调查结果,其中包括误差范围。我们对此是不是应该满足了呢?恐怕不行,因为有许多调查并没有把和样本相关的信息全部告诉我们。皮尤研究中心(Pew Research Center)效仿几家较好的民意调查机构的做法,然后把调查过程的细节详述如下。
1702631060
1702631061
大部分民意调查是利用电话进行的,用随机拨号的方式取得所有住户的一个随机样本。在剔除传真号码和公司的办公电话之后,皮尤必须拨打2879个住宅电话,才能得到一个1000人的样本。这2879个电话可以分成以下几种情况。
1702631062
1702631063
1702631064
1702631065
1702631066
在2879个有效的住宅电话当中,有33%的电话无人接听。在接听电话的人里面,有35%的人不愿接受访问。无回应(nonresponse)的人(包括不接听电话、不愿接受访谈、未完成访谈的人)为1658人,占2879人的58%。皮尤在5天里,选一个星期中的不同日子和每天的不同时段,每个号码都拨打5次。其他很多调查一般只拨打一次电话,而且在接听电话的人当中,常常有超过一半人不愿接受访问。尽管皮尤研究中心成功地访谈了1000人,我们可以信任这个调查结果吗?学完本章,你就会知道这个问题的答案。
1702631067
1702631068
抽样误差
1702631069
1702631070
随机抽样方法在选取样本时可以消除偏差,也可以控制变异性的大小。那么,是不是只要我们看到“随机抽样”和“误差范围”这两个关键词时,就可以信任调查结果了呢?它当然好于自愿回应的调查方法,但是否像我们期望的那么好,就不一定了。在真实世界里抽样,比起从教科书练习里的名单当中抽一个简单随机样本要复杂得多,结果也较不可靠。置信度说明并不能把真实抽样的所有误差来源都反映出来。
1702631071
1702631072
抽样中发生的误差
1702631073
1702631074
抽样误差(sampling error)是抽样所造成的误差。抽样误差使得样本结果和普查结果不同。
1702631075
1702631076
随机抽样误差(random sampling error)是样本统计量和总体参数之间的差距,是在选取样本时由随机性造成的。置信度说明中的误差范围指的是随机抽样误差。
1702631077
1702631078
非抽样误差(nonsampling error)是和“从总体中抽取样本”这个做法无关的误差。非抽样误差即使在人口普查中也有可能出现。
1702631079
1702631080
大部分的抽样调查都会遇到随机抽样误差以外的误差。这些误差可能导致偏差的产生,使得置信度说明失去意义。好的抽样方法中包含减少各种误差来源的技术。这种技术有一部分是统计科学,因为随机样本与置信度说明都属于统计科学的范畴。然而在实际应用中,要得到好的样本,光靠好的统计方法是不够的。我们来看看抽样调查有些什么样的误差来源,以及调查人员该如何解决。
1702631081
1702631082
抽样误差
1702631083
1702631084
随机抽样误差是抽样误差的一种。误差范围可以告诉我们随机抽样误差的严重程度,而我们可以通过选择随机样本的大小,来控制随机抽样误差。另一个抽样误差的来源是使用了糟糕的抽样方法,比如自愿回应。糟糕的方法是可以避免的,但其他的抽样误差可就没那么好对付了。抽样之前必须先有一份“清单”,上面列出总体中的所有个体,以便我们从中抽取样本,我们称为“抽样框架”(sampling frame)。从理论上说,抽样框架应该包括总体当中的每一个个体。但是,总体的清单通常很难取得,所以大部分的样本都会存在涵盖不全的问题。
1702631085
1702631086
如果抽样框架原本就漏掉了某些群体,那么即使我们从中抽取随机样本,所得结果还是有偏的。比如,假设我们用电话黄页作为抽样框架进行电话调查,就会漏掉那些未登记的住户。在大城市里,超过一半的住户都没有登记电话号码,所以对于城市电话黄页来说,就会存在严重的涵盖不全和偏差问题。实际上,电话抽样调查用的是随机数字拨号设备,在指定区域内随机拨打电话。从效果上看,这个抽样框架包含了所有住户的电话号码。
1702631087
1702631088
1702631089
1702631090
1702631091
虽然退出现代社会有时会让人觉得无聊,不过只要能加剧民意调查的涵盖不全问题,泰德就觉得这样做是值得的。
1702631092
1702631093
涵盖不全
1702631094
1702631095
在抽取样本的过程中,如果总体当中的有些部分根本未被纳入选择范围,就会发生涵盖不全的问题。
1702631096
1702631097
例1 我们的确做不到全面涵盖
1702631098
1702631099
大部分民意调查都无力做到全面涵盖美国所有成年人这样庞大的总体。如果进行电话访谈,就漏掉未安装电话的2%的住户。如果只访谈普通住户,住在宿舍的学生、监狱里的犯人以及大部分军人就会被排除在外,也会遗漏无家可归或住在收容所里的人。由于打电话到阿拉斯加和夏威夷的成本很高,所以大多数民意调查的抽样范围都局限在邻近的州。很多民意调查只用英语进行,这使得某些移民住户被排除在样本之外。
1702631100
1702631101
存在于大部分抽样调查中的涵盖不全问题,最常见的就是漏掉了年轻人、穷人或居无定所的人。随机拨号系统所生成的样本,可以说很接近于有电话住户的随机样本,但并不包含阿拉斯加和夏威夷地区。在谨慎执行的抽样调查中,误差通常不大。真正的问题出现在有人接听电话(或无人接听电话)的时候,现在该非抽样误差登场了。
1702631102
1702631103
非抽样误差
[
上一页 ]
[ :1.702631054e+09 ]
[
下一页 ]