1702644020
共和党53%
1702644021
1702644022
民主党45%
1702644023
1702644024
独立党派2%
1702644025
1702644026
(误差幅度±2%)
1702644027
1702644028
首先,你的制片人面对这样的一个结果肯定会印象深刻并且兴奋不已,很大程度上是因为上面的这张统计图竟然是彩色3D版的,而且还能在屏幕上进行360°旋转。但是,当你向她解释道,“选举后测试”的结果约有68%的概率落在真实情况一个标准误差的范围内时,这位两次被法庭强制要求参加愤怒管理课程的制片人在脑子里迅速作了一个减法:那剩下的32%是什么情况?
1702644029
1702644030
接下来,你解释说会有两种可能:(1)共和党的支持率比民调结果更高,在这种情况下我们的预测依旧是正确的;(2)也有一定的可能性是民主党获得了比民调高得多的支持率,如果是这种情况,就意味着之前彩色的、可以旋转的3D图错误地预测了选举的获胜方。
1702644031
1702644032
制片人听完后一言不发,随手将桌上的一个咖啡杯扔了出去,杯子在空中划出了一条完美的弧线,并最终落在了房间的另一端,摔得粉碎。接着,她大声呵斥道:“我们怎么才能保证播出的是一个正确的结果?”
1702644033
1702644034
作为统计学专家,你指出,除非将所有选票都清点出来,否则没有人能够准确无误地预测选举结果。但你还是将置信区间扩大到了95%,在这种情况下,那张3D统计图出错的概率就降到了5%。
1702644035
1702644036
制片人点上了一支烟,看上去比刚才放松了一些。你决定还是不提醒她办公场所禁止抽烟的规定,因为上一次就是因为这句善意的提醒而引发了一场灾难。但是,有一些坏消息是不得不说的。电视台在播出新闻时如果要让自己的可信度提升,就必须扩大“误差幅度”,一旦这样做了,就意味着选举结果中不再有一个清晰的赢家了。你将新制作好的统计图拿给你的制片人看:
1702644037
1702644038
共和党53%
1702644039
1702644040
民主党45%
1702644041
1702644042
独立党派2%
1702644043
1702644044
(误差幅度±4%)
1702644045
1702644046
由中心极限定理我们得知,样本比例约有95%的概率会落在真实群体比例的两个标准误差(这个例子中这一比例为4%)的范围内。因此,假如我们想要增加“选举后测试”的可信度,就必须减少我们对结果准确度的野心。如上述所示(请原谅我没有为大家展示炫目的彩色3D和旋转效果),电视台可以有95%的把握向观众播报,美国共和党候选人的得票率为53%±4%,即在49%〜57%的区间范围内,与此同时,美国民主党候选人的得票率为45%±4%,占全体选票的41%~49%。
1702644047
1702644048
是的,我们现在又有了一个新问题。如果置信区间扩大到了95%,我们就无法推翻两党候选人打成平手(各获得49%选票)的可能性。这是一个无法避免的妥协,在没有新数据补充的情况下,如果想要提高民调结果的正确率,就只能降低预测的精度。举一个与统计学无关的例子,假如你告诉你的朋友,你“确定”托马斯•杰斐逊是美国的第三或第四任总统,你如何让自己的历史知识可信度更高?扩大范围吧!你可以“绝对肯定”地说托马斯•杰斐逊是美国前5位总统中的一位。
1702644049
1702644050
制片人让你打电话订一个比萨,作好通宵加班的准备吧。就在这个时候,统计学的“万丈光芒”又照在了你的身上。第二次“选举后测试”的结果出现在你的办公桌上,这一次的样本数量为2000人,占比结果是:共和党(52%)、民主党(45%)、独立党派(3%)。你的制片人已经彻底发疯了,因为这一次的民意测验显示两个主要党派之间的差距进一步缩小了,也就是说,在官方结果出来之前对选举进行预测变得难上加难。但此时你(英勇地)指出,这次的样本数量是上一次的4倍,因此标准误差会大大缩小,共和党候选人的新标准误差为;0.52x0.48/2000=0.1。
1702644051
1702644052
假如制片人此时还愿意接受95%的正确率,那么你便可以大声地宣布共和党将会赢得选举。在新的0.1的标准误差的前提下,95%的置信区间意味着共和党候选人获得了52%±2%,即50%〜54%的选票,民主党获得了45%±2%,即43%〜47%的选票。两个置信区间之间不再有重叠,你可以在电视上恭喜美国共和党候选人了,而且这次预测正确的概率超过95%。
1702644053
1702644054
但在这个例子中,你还可以做得更加完美。中心极限定理告诉我们,样本结果位于真实情况3个标准误差范围以内的概率为99.7%。如果将置信区间扩大到99.7%,那么两党的投票情况是:共和党获得的选票为52%±3%,即49%〜55%;
1702644055
1702644056
民主党获得的选票为45%±3%,即42%〜48%。介于两党的结果依然没有重叠,你便放心地在电视上预测共和党的胜利,你和制片人基本上不可能因为误播而被辞退,所以记得一定要请组织那次2000人民意测验的同事吃饭。
1702644057
1702644058
你可以看到,样本数量越大,标准误差就越小,这也是为什么大型的全美民意测验的结果往往准得惊人。同理,一个小容量的样本会使得标准误差变大,从而导致一个更大的置信区间(用民意测验的专业术语来说,就是“抽样误差范围”)。《纽约时报》和CBS联合民意测验报告的小字部分内容指出,有关美国共和党初选问题的抽样误差为5%,而其他问题的抽样误差只有3%。由于报名参加共和党初选的选民数量有限,因此该问题组的抽样人数只有455人(而其他问题组的抽样人数都达到了1650人)。
1702644059
1702644060
1702644061
1702644062
1702644063
与前几章的内容一样,我在本章中对很多内容进行了简化处理。可能大家已经意识到了,在上述的选举例子中,共和党和民主党按理来说应该有着各自不同的标准误差。再来看一下这个公式:两党候选人的样本数量n是一样的,但P与(1-P)会有所差别。在第二次选举后测试(有2000名参与者)中,共和党的标准误差为,民主党的标准误差应该是。当然,无论是用作什么,这两个数字都不会对结果产生不同的影响。因此,我采取了一个比较常用的做法,就是取两者中略大的那个标准误差作为所有候选人的共同标准误差,假如真有什么不妥之处,那也只会让我们的置信区间更加严格。
1702644064
1702644065
许多涉及多个问题的全美国性民意测验还会更进一步。以《纽约时报》和CBS联合民调为例,严格来说,根据受访者的答案,每一个问题的标准误差都应该是不同的。例如,在9%的公众认可美国国会处理国家事务的能力和46%的公众认可美国总统奥巴马的工作表现这两个结论中,前者的标准误差应该低于后者,因为0.09x0.91的结果要小于0.46x0.54——0.0819<0.2484。
1702644066
1702644067
如果每一个问题都搭配一个不同的标准误差,那么整个报告就会变得混乱不堪,不利于结论的提取,因此像这类民意测验,通常都会假设所有问题的样本比例为0.5(50%)——让标准误差达到一个最大值,然后再用这个标准误差计算出整个民意测验的样本误差范围。
1702644068
1702644069
如果处理得当,民意测验会是一个不可思议的统计工具。盖洛普民意测验机构的主编弗兰克·纽波特说,一个针对1000人的民意测验能够为我们提供有关整个国家的有意义的和准确的信息。从统计学的角度,他的说法是正确的。但是,为了能够获得那些有意义的和准确的结果,我们必须合理设计民调流程,正确分析数据并得出结论,这两件事都是说起来容易做起来难。一个错得离谱儿的民调结果通常并不是因为数学不好而导致标准误差计算错误,而是因为一个有偏见的样本或不合理的问题设计,或者二者均有。当进行一项民意测验或采用别人的民调成果时,我们应该问问自己如下这几个涉及方法论的关键性问题。
[
上一页 ]
[ :1.70264402e+09 ]
[
下一页 ]