打字猴:1.70263107e+09
1702631070 随机抽样方法在选取样本时可以消除偏差,也可以控制变异性的大小。那么,是不是只要我们看到“随机抽样”和“误差范围”这两个关键词时,就可以信任调查结果了呢?它当然好于自愿回应的调查方法,但是否像我们期望的那么好,就不一定了。在真实世界里抽样,比起从教科书练习里的名单当中抽一个简单随机样本要复杂得多,结果也较不可靠。置信度说明并不能把真实抽样的所有误差来源都反映出来。
1702631071
1702631072 抽样中发生的误差
1702631073
1702631074 抽样误差(sampling error)是抽样所造成的误差。抽样误差使得样本结果和普查结果不同。
1702631075
1702631076 随机抽样误差(random sampling error)是样本统计量和总体参数之间的差距,是在选取样本时由随机性造成的。置信度说明中的误差范围指的是随机抽样误差。
1702631077
1702631078 非抽样误差(nonsampling error)是和“从总体中抽取样本”这个做法无关的误差。非抽样误差即使在人口普查中也有可能出现。
1702631079
1702631080 大部分的抽样调查都会遇到随机抽样误差以外的误差。这些误差可能导致偏差的产生,使得置信度说明失去意义。好的抽样方法中包含减少各种误差来源的技术。这种技术有一部分是统计科学,因为随机样本与置信度说明都属于统计科学的范畴。然而在实际应用中,要得到好的样本,光靠好的统计方法是不够的。我们来看看抽样调查有些什么样的误差来源,以及调查人员该如何解决。
1702631081
1702631082 抽样误差
1702631083
1702631084 随机抽样误差是抽样误差的一种。误差范围可以告诉我们随机抽样误差的严重程度,而我们可以通过选择随机样本的大小,来控制随机抽样误差。另一个抽样误差的来源是使用了糟糕的抽样方法,比如自愿回应。糟糕的方法是可以避免的,但其他的抽样误差可就没那么好对付了。抽样之前必须先有一份“清单”,上面列出总体中的所有个体,以便我们从中抽取样本,我们称为“抽样框架”(sampling frame)。从理论上说,抽样框架应该包括总体当中的每一个个体。但是,总体的清单通常很难取得,所以大部分的样本都会存在涵盖不全的问题。
1702631085
1702631086 如果抽样框架原本就漏掉了某些群体,那么即使我们从中抽取随机样本,所得结果还是有偏的。比如,假设我们用电话黄页作为抽样框架进行电话调查,就会漏掉那些未登记的住户。在大城市里,超过一半的住户都没有登记电话号码,所以对于城市电话黄页来说,就会存在严重的涵盖不全和偏差问题。实际上,电话抽样调查用的是随机数字拨号设备,在指定区域内随机拨打电话。从效果上看,这个抽样框架包含了所有住户的电话号码。
1702631087
1702631088
1702631089
1702631090
1702631091 虽然退出现代社会有时会让人觉得无聊,不过只要能加剧民意调查的涵盖不全问题,泰德就觉得这样做是值得的。
1702631092
1702631093 涵盖不全
1702631094
1702631095 在抽取样本的过程中,如果总体当中的有些部分根本未被纳入选择范围,就会发生涵盖不全的问题。
1702631096
1702631097 例1 我们的确做不到全面涵盖
1702631098
1702631099 大部分民意调查都无力做到全面涵盖美国所有成年人这样庞大的总体。如果进行电话访谈,就漏掉未安装电话的2%的住户。如果只访谈普通住户,住在宿舍的学生、监狱里的犯人以及大部分军人就会被排除在外,也会遗漏无家可归或住在收容所里的人。由于打电话到阿拉斯加和夏威夷的成本很高,所以大多数民意调查的抽样范围都局限在邻近的州。很多民意调查只用英语进行,这使得某些移民住户被排除在样本之外。
1702631100
1702631101 存在于大部分抽样调查中的涵盖不全问题,最常见的就是漏掉了年轻人、穷人或居无定所的人。随机拨号系统所生成的样本,可以说很接近于有电话住户的随机样本,但并不包含阿拉斯加和夏威夷地区。在谨慎执行的抽样调查中,误差通常不大。真正的问题出现在有人接听电话(或无人接听电话)的时候,现在该非抽样误差登场了。
1702631102
1702631103 非抽样误差
1702631104
1702631105 非抽样误差是连人口普查都可能无法避免的问题。非抽样误差中的一种是“处理误差”(processing error),也就是在机械化工作时犯的错误,例如,计算错误或将受访者的回答输入电脑时犯的错误。电脑的普及使得处理误差比以前大大减少了。
1702631106
1702631107 例2 电脑辅助访谈
1702631108
1702631109 调查人员手持写字板的日子已经成为过去,现在的调查人员都是用笔记本电脑进行面对面访谈,或者一边做电话访谈,一边看着电脑屏幕。调查人员从电脑屏幕上读取问题,再用键盘输入答案。电脑会自动跳过不相干的问题,例如,只要受访者说自己没有小孩,后续就不会出现有关孩子的问题。电脑可以检查有关问题的答案是否一致,还可以随机排列问题的顺序,以避免用相同顺序提问所导致的偏差。
1702631110
1702631111 电脑软件也可以做记录管理,记录哪些人已经回答过了,并将答案存档。在以前,要把答案从纸上转录入电脑是一项很烦琐的工作,也是处理误差的一个主要来源,而现在这些已经成为历史。电脑甚至可以安排电话调查的致电时间,并考虑到受访者所在的时区。如果有人在第一次接听电话时有意接受访谈却没有时间,电脑还会重新约定致电时间。
1702631112
1702631113 另一种非抽样误差是“回应误差”(response error),它出现在受访者给出不正确的回答时。受访者也许会谎报年龄或收入,对于是否使用过禁药没有如实回答。在被问到上个星期一共抽了几包烟时,他很可能记错。受访者也许没听懂问题,但他宁愿胡乱回答,也不愿显得自己无知。若被问到在一段固定时间内的行为,受访者尤其容易因记忆错误而造成回应误差。比如,美国“全国健康调查”(National Health Survey)问大家去年总共去医院看了几次病,翻看健康记录之后,调查人员发现,受访者会忘掉60%的看病次数。有关敏感话题的调查也容易出现回应误差,从以下的例子即可看出。
1702631114
1702631115 例3 种族效应
1702631116
1702631117 1989年,纽约市有了第一位黑人市长,弗吉尼亚州也有了第一位黑人州长。在这两件事情发生时,在投票点访问刚投完票的选民后估算出的胜负差距,都比官方公布的实际差距大。调查机构相当肯定,一部分选民在接受访谈时说了谎,因为他们不愿承认自己反对黑人候选人。这个现象被称作“社会合意性偏误”(social desirability bias)或“布拉德利效应”。这个说法来自洛杉矶前黑人市长汤姆·布拉德利,即使在选举前最后一天的民意调查中领先,他仍在1982年的加州州长选举中落败了。
1702631118
1702631119 这一效应在2008年美国总统大选期间受到了媒体的青睐。在选举前几周,民意调查显示巴拉克·奥巴马有可能大幅领先。即便如此,民主党仍担心这些民意调查的结果可能因为“布拉德利效应”而过度乐观。事实证明,他们的担心是多余的。但是,一些政治学者声称在预测初选结果时,发现巴拉克·奥巴马和希拉里·克林顿之间在种族问题上存在“布拉德利效应”(例如,在新罕布什尔州初选时,民意调查结果预测奥巴马将领先希拉里8%的票数,而实际上希拉里领先奥巴马3%的票数)。
[ 上一页 ]  [ :1.70263107e+09 ]  [ 下一页 ]