1702644028
首先,你的制片人面对这样的一个结果肯定会印象深刻并且兴奋不已,很大程度上是因为上面的这张统计图竟然是彩色3D版的,而且还能在屏幕上进行360°旋转。但是,当你向她解释道,“选举后测试”的结果约有68%的概率落在真实情况一个标准误差的范围内时,这位两次被法庭强制要求参加愤怒管理课程的制片人在脑子里迅速作了一个减法:那剩下的32%是什么情况?
1702644029
1702644030
接下来,你解释说会有两种可能:(1)共和党的支持率比民调结果更高,在这种情况下我们的预测依旧是正确的;(2)也有一定的可能性是民主党获得了比民调高得多的支持率,如果是这种情况,就意味着之前彩色的、可以旋转的3D图错误地预测了选举的获胜方。
1702644031
1702644032
制片人听完后一言不发,随手将桌上的一个咖啡杯扔了出去,杯子在空中划出了一条完美的弧线,并最终落在了房间的另一端,摔得粉碎。接着,她大声呵斥道:“我们怎么才能保证播出的是一个正确的结果?”
1702644033
1702644034
作为统计学专家,你指出,除非将所有选票都清点出来,否则没有人能够准确无误地预测选举结果。但你还是将置信区间扩大到了95%,在这种情况下,那张3D统计图出错的概率就降到了5%。
1702644035
1702644036
制片人点上了一支烟,看上去比刚才放松了一些。你决定还是不提醒她办公场所禁止抽烟的规定,因为上一次就是因为这句善意的提醒而引发了一场灾难。但是,有一些坏消息是不得不说的。电视台在播出新闻时如果要让自己的可信度提升,就必须扩大“误差幅度”,一旦这样做了,就意味着选举结果中不再有一个清晰的赢家了。你将新制作好的统计图拿给你的制片人看:
1702644037
1702644038
共和党53%
1702644039
1702644040
民主党45%
1702644041
1702644042
独立党派2%
1702644043
1702644044
(误差幅度±4%)
1702644045
1702644046
由中心极限定理我们得知,样本比例约有95%的概率会落在真实群体比例的两个标准误差(这个例子中这一比例为4%)的范围内。因此,假如我们想要增加“选举后测试”的可信度,就必须减少我们对结果准确度的野心。如上述所示(请原谅我没有为大家展示炫目的彩色3D和旋转效果),电视台可以有95%的把握向观众播报,美国共和党候选人的得票率为53%±4%,即在49%〜57%的区间范围内,与此同时,美国民主党候选人的得票率为45%±4%,占全体选票的41%~49%。
1702644047
1702644048
是的,我们现在又有了一个新问题。如果置信区间扩大到了95%,我们就无法推翻两党候选人打成平手(各获得49%选票)的可能性。这是一个无法避免的妥协,在没有新数据补充的情况下,如果想要提高民调结果的正确率,就只能降低预测的精度。举一个与统计学无关的例子,假如你告诉你的朋友,你“确定”托马斯•杰斐逊是美国的第三或第四任总统,你如何让自己的历史知识可信度更高?扩大范围吧!你可以“绝对肯定”地说托马斯•杰斐逊是美国前5位总统中的一位。
1702644049
1702644050
制片人让你打电话订一个比萨,作好通宵加班的准备吧。就在这个时候,统计学的“万丈光芒”又照在了你的身上。第二次“选举后测试”的结果出现在你的办公桌上,这一次的样本数量为2000人,占比结果是:共和党(52%)、民主党(45%)、独立党派(3%)。你的制片人已经彻底发疯了,因为这一次的民意测验显示两个主要党派之间的差距进一步缩小了,也就是说,在官方结果出来之前对选举进行预测变得难上加难。但此时你(英勇地)指出,这次的样本数量是上一次的4倍,因此标准误差会大大缩小,共和党候选人的新标准误差为;0.52x0.48/2000=0.1。
1702644051
1702644052
假如制片人此时还愿意接受95%的正确率,那么你便可以大声地宣布共和党将会赢得选举。在新的0.1的标准误差的前提下,95%的置信区间意味着共和党候选人获得了52%±2%,即50%〜54%的选票,民主党获得了45%±2%,即43%〜47%的选票。两个置信区间之间不再有重叠,你可以在电视上恭喜美国共和党候选人了,而且这次预测正确的概率超过95%。
1702644053
1702644054
但在这个例子中,你还可以做得更加完美。中心极限定理告诉我们,样本结果位于真实情况3个标准误差范围以内的概率为99.7%。如果将置信区间扩大到99.7%,那么两党的投票情况是:共和党获得的选票为52%±3%,即49%〜55%;
1702644055
1702644056
民主党获得的选票为45%±3%,即42%〜48%。介于两党的结果依然没有重叠,你便放心地在电视上预测共和党的胜利,你和制片人基本上不可能因为误播而被辞退,所以记得一定要请组织那次2000人民意测验的同事吃饭。
1702644057
1702644058
你可以看到,样本数量越大,标准误差就越小,这也是为什么大型的全美民意测验的结果往往准得惊人。同理,一个小容量的样本会使得标准误差变大,从而导致一个更大的置信区间(用民意测验的专业术语来说,就是“抽样误差范围”)。《纽约时报》和CBS联合民意测验报告的小字部分内容指出,有关美国共和党初选问题的抽样误差为5%,而其他问题的抽样误差只有3%。由于报名参加共和党初选的选民数量有限,因此该问题组的抽样人数只有455人(而其他问题组的抽样人数都达到了1650人)。
1702644059
1702644060
1702644061
1702644062
1702644063
与前几章的内容一样,我在本章中对很多内容进行了简化处理。可能大家已经意识到了,在上述的选举例子中,共和党和民主党按理来说应该有着各自不同的标准误差。再来看一下这个公式:两党候选人的样本数量n是一样的,但P与(1-P)会有所差别。在第二次选举后测试(有2000名参与者)中,共和党的标准误差为,民主党的标准误差应该是。当然,无论是用作什么,这两个数字都不会对结果产生不同的影响。因此,我采取了一个比较常用的做法,就是取两者中略大的那个标准误差作为所有候选人的共同标准误差,假如真有什么不妥之处,那也只会让我们的置信区间更加严格。
1702644064
1702644065
许多涉及多个问题的全美国性民意测验还会更进一步。以《纽约时报》和CBS联合民调为例,严格来说,根据受访者的答案,每一个问题的标准误差都应该是不同的。例如,在9%的公众认可美国国会处理国家事务的能力和46%的公众认可美国总统奥巴马的工作表现这两个结论中,前者的标准误差应该低于后者,因为0.09x0.91的结果要小于0.46x0.54——0.0819<0.2484。
1702644066
1702644067
如果每一个问题都搭配一个不同的标准误差,那么整个报告就会变得混乱不堪,不利于结论的提取,因此像这类民意测验,通常都会假设所有问题的样本比例为0.5(50%)——让标准误差达到一个最大值,然后再用这个标准误差计算出整个民意测验的样本误差范围。
1702644068
1702644069
如果处理得当,民意测验会是一个不可思议的统计工具。盖洛普民意测验机构的主编弗兰克·纽波特说,一个针对1000人的民意测验能够为我们提供有关整个国家的有意义的和准确的信息。从统计学的角度,他的说法是正确的。但是,为了能够获得那些有意义的和准确的结果,我们必须合理设计民调流程,正确分析数据并得出结论,这两件事都是说起来容易做起来难。一个错得离谱儿的民调结果通常并不是因为数学不好而导致标准误差计算错误,而是因为一个有偏见的样本或不合理的问题设计,或者二者均有。当进行一项民意测验或采用别人的民调成果时,我们应该问问自己如下这几个涉及方法论的关键性问题。
1702644070
1702644071
这个样本能正确地反映目标群体的真实观点吗?许多与数据有关的常见挑战都已经在前文中介绍过了。然而,我还是孜孜不倦地指出选择性偏见的危害,尤其是自我选择。有一些民意测验依赖的是那些选择进入样本的个人,如听众来电类广播节目或自愿填写的网上调查问卷,这些民意测验只能获取那些愿意花时间和精力来表达观点的人的信息。他们有可能是对某个问题有着强烈看法的人,或者是正好拥有大量空闲时间的人。无论是哪一种人,都不太可能代表广大公众的观点。我有一次被邀请作为嘉宾参加某听众来电节目,有一位打进电话的听众大声地批评我的观点是“多么不正确”,为了表达他的异议,他是特地将车驶离高速公路后将车停在路边,在一个电话亭拨打的电话。我更愿意假设的是,其他那些选择继续开车的听众之所以没有驶离高速公路并打进电话,是因为他们的看法与之前的那位听众不一样。
1702644072
1702644073
任何一种将群体中的某类人排除在外的观点收集方法,都有可能造成偏见。举例来说,手机的出现给取样方法论增添了新的内容,但同时也让这个过程变得更加复杂。专业的民意测验机构在目标人群的代表性样本的抽样方面,可以说是不遗余力。《纽约时报》和CBS的联合民调就是基于电话访问,在6天的时间里,他们通过电话调查了1650名美国成年人,其中有1475名美国成年人声称自己是登记选民。
1702644074
1702644075
至于具体是如何抽样的,我只能进行一个大概的猜测,绝大多数的民意测验采用的都是如下的技术。为了保证接电话的人能够代表美国人口,抽样过程是从概率开始的——相当于从口袋中摸彩球。电脑会随机抽取一个座机电话交换机组(电话交换机是汇集电话线路并完成用户之间通话的设备,在美国,一个电话交换机包含一个区号以及电话号码的前3位)’通过在美国约6.9万个家庭交换机组里随机选取与电话人口比例一致的用户样本,就能大体上形成一个具有人口地域代表性的样本分布。请看说明:“电话交换机的选择考虑了每个地区的电话用户占美国电话用户数量的比例。”每组被抽中的交换机由电脑随机加上4位数字,以形成一个完整的电话号码,最后出现在被呼叫家庭的名单里。同时,该调查还包括了“手机号码的随机拨打”。
1702644076
1702644077
每一个拨出去的号码都应该有一位对应的成年人接听,但如何选取也应该有一个“随机的程序”,如要求让当前家中年纪最小的成年人来回答问题。这一个程序经过优化,能够让接听人的年龄、性别比例更加接近真实的成年人口。最重要的是,调查人员会尝试在一天的不同时刻拨打电话,以确保被挑中的电话号码能够打通。这些不断重复的操作一包括重拨某个电话多达10多遍——都是获得一个平衡样本不可缺少的重要组成部分。如果只是在工作时间随机拨打电话,能打通最好,打不通就更换其他号码,直到凑齐所需的样本数量,这样做当然在操作上更加容易实现,也更省钱,但这样的一个样本很有可能会存在偏差,在家接听电话的人很有可能大多是失业者或老人等。如果你只是想证明民意测验结果是美国总统奥巴马在失业人口、老人以及热心接听陌生来电人群中的支持率为46%的话,那你这样做是可以的。
[
上一页 ]
[ :1.702644028e+09 ]
[
下一页 ]