打字猴:1.70264404e+09

1702644040 民主党45%

1702644041

1702644042 独立党派2%

1702644043

1702644044 （误差幅度±4%）

1702644045

1702644046 由中心极限定理我们得知，样本比例约有95%的概率会落在真实群体比例的两个标准误差（这个例子中这一比例为4%）的范围内。因此，假如我们想要增加“选举后测试”的可信度，就必须减少我们对结果准确度的野心。如上述所示（请原谅我没有为大家展示炫目的彩色3D和旋转效果），电视台可以有95%的把握向观众播报，美国共和党候选人的得票率为53%±4%,即在49%〜57%的区间范围内，与此同时，美国民主党候选人的得票率为45%±4%,占全体选票的41%~49%。

1702644047

1702644048 是的，我们现在又有了一个新问题。如果置信区间扩大到了95%，我们就无法推翻两党候选人打成平手（各获得49%选票）的可能性。这是一个无法避免的妥协，在没有新数据补充的情况下，如果想要提高民调结果的正确率，就只能降低预测的精度。举一个与统计学无关的例子，假如你告诉你的朋友，你“确定”托马斯•杰斐逊是美国的第三或第四任总统，你如何让自己的历史知识可信度更高？扩大范围吧！你可以“绝对肯定”地说托马斯•杰斐逊是美国前5位总统中的一位。

1702644049

1702644050 制片人让你打电话订一个比萨，作好通宵加班的准备吧。就在这个时候，统计学的“万丈光芒”又照在了你的身上。第二次“选举后测试”的结果出现在你的办公桌上，这一次的样本数量为2000人，占比结果是：共和党（52%）、民主党（45%）、独立党派（3%）。你的制片人已经彻底发疯了，因为这一次的民意测验显示两个主要党派之间的差距进一步缩小了，也就是说，在官方结果出来之前对选举进行预测变得难上加难。但此时你（英勇地）指出，这次的样本数量是上一次的4倍，因此标准误差会大大缩小，共和党候选人的新标准误差为；0.52x0.48/2000=0.1。

1702644051

1702644052 假如制片人此时还愿意接受95%的正确率，那么你便可以大声地宣布共和党将会赢得选举。在新的0.1的标准误差的前提下，95%的置信区间意味着共和党候选人获得了52%±2%,即50%〜54%的选票，民主党获得了45%±2%，即43%〜47%的选票。两个置信区间之间不再有重叠，你可以在电视上恭喜美国共和党候选人了，而且这次预测正确的概率超过95%。

1702644053

1702644054 但在这个例子中，你还可以做得更加完美。中心极限定理告诉我们，样本结果位于真实情况3个标准误差范围以内的概率为99.7%。如果将置信区间扩大到99.7%,那么两党的投票情况是：共和党获得的选票为52%±3%,即49%〜55%;

1702644055

1702644056 民主党获得的选票为45%±3%，即42%〜48%。介于两党的结果依然没有重叠，你便放心地在电视上预测共和党的胜利，你和制片人基本上不可能因为误播而被辞退，所以记得一定要请组织那次2000人民意测验的同事吃饭。

1702644057

1702644058 你可以看到，样本数量越大，标准误差就越小，这也是为什么大型的全美民意测验的结果往往准得惊人。同理，一个小容量的样本会使得标准误差变大，从而导致一个更大的置信区间（用民意测验的专业术语来说，就是“抽样误差范围”）。《纽约时报》和CBS联合民意测验报告的小字部分内容指出，有关美国共和党初选问题的抽样误差为5%,而其他问题的抽样误差只有3%。由于报名参加共和党初选的选民数量有限，因此该问题组的抽样人数只有455人（而其他问题组的抽样人数都达到了1650人）。

1702644059

1702644060

1702644061

1702644062

1702644063 与前几章的内容一样，我在本章中对很多内容进行了简化处理。可能大家已经意识到了，在上述的选举例子中，共和党和民主党按理来说应该有着各自不同的标准误差。再来看一下这个公式：两党候选人的样本数量n是一样的，但P与（1-P）会有所差别。在第二次选举后测试（有2000名参与者）中，共和党的标准误差为,民主党的标准误差应该是。当然，无论是用作什么，这两个数字都不会对结果产生不同的影响。因此，我采取了一个比较常用的做法，就是取两者中略大的那个标准误差作为所有候选人的共同标准误差，假如真有什么不妥之处，那也只会让我们的置信区间更加严格。

1702644064

1702644065 许多涉及多个问题的全美国性民意测验还会更进一步。以《纽约时报》和CBS联合民调为例，严格来说，根据受访者的答案，每一个问题的标准误差都应该是不同的。例如，在9%的公众认可美国国会处理国家事务的能力和46%的公众认可美国总统奥巴马的工作表现这两个结论中，前者的标准误差应该低于后者，因为0.09x0.91的结果要小于0.46x0.54——0.0819<0.2484。

1702644066

1702644067 如果每一个问题都搭配一个不同的标准误差，那么整个报告就会变得混乱不堪，不利于结论的提取，因此像这类民意测验，通常都会假设所有问题的样本比例为0.5（50%）——让标准误差达到一个最大值，然后再用这个标准误差计算出整个民意测验的样本误差范围。

1702644068

1702644069 如果处理得当，民意测验会是一个不可思议的统计工具。盖洛普民意测验机构的主编弗兰克·纽波特说，一个针对1000人的民意测验能够为我们提供有关整个国家的有意义的和准确的信息。从统计学的角度，他的说法是正确的。但是，为了能够获得那些有意义的和准确的结果，我们必须合理设计民调流程，正确分析数据并得出结论，这两件事都是说起来容易做起来难。一个错得离谱儿的民调结果通常并不是因为数学不好而导致标准误差计算错误，而是因为一个有偏见的样本或不合理的问题设计，或者二者均有。当进行一项民意测验或采用别人的民调成果时，我们应该问问自己如下这几个涉及方法论的关键性问题。

1702644070

1702644071 这个样本能正确地反映目标群体的真实观点吗？许多与数据有关的常见挑战都已经在前文中介绍过了。然而，我还是孜孜不倦地指出选择性偏见的危害，尤其是自我选择。有一些民意测验依赖的是那些选择进入样本的个人，如听众来电类广播节目或自愿填写的网上调查问卷，这些民意测验只能获取那些愿意花时间和精力来表达观点的人的信息。他们有可能是对某个问题有着强烈看法的人，或者是正好拥有大量空闲时间的人。无论是哪一种人，都不太可能代表广大公众的观点。我有一次被邀请作为嘉宾参加某听众来电节目，有一位打进电话的听众大声地批评我的观点是“多么不正确”，为了表达他的异议，他是特地将车驶离高速公路后将车停在路边，在一个电话亭拨打的电话。我更愿意假设的是，其他那些选择继续开车的听众之所以没有驶离高速公路并打进电话，是因为他们的看法与之前的那位听众不一样。

1702644072

1702644073 任何一种将群体中的某类人排除在外的观点收集方法，都有可能造成偏见。举例来说，手机的出现给取样方法论增添了新的内容，但同时也让这个过程变得更加复杂。专业的民意测验机构在目标人群的代表性样本的抽样方面，可以说是不遗余力。《纽约时报》和CBS的联合民调就是基于电话访问，在6天的时间里，他们通过电话调查了1650名美国成年人，其中有1475名美国成年人声称自己是登记选民。

1702644074

1702644075 至于具体是如何抽样的，我只能进行一个大概的猜测，绝大多数的民意测验采用的都是如下的技术。为了保证接电话的人能够代表美国人口，抽样过程是从概率开始的——相当于从口袋中摸彩球。电脑会随机抽取一个座机电话交换机组（电话交换机是汇集电话线路并完成用户之间通话的设备，在美国，一个电话交换机包含一个区号以及电话号码的前3位）’通过在美国约6.9万个家庭交换机组里随机选取与电话人口比例一致的用户样本，就能大体上形成一个具有人口地域代表性的样本分布。请看说明：“电话交换机的选择考虑了每个地区的电话用户占美国电话用户数量的比例。”每组被抽中的交换机由电脑随机加上4位数字，以形成一个完整的电话号码，最后出现在被呼叫家庭的名单里。同时，该调查还包括了“手机号码的随机拨打”。

1702644076

1702644077 每一个拨出去的号码都应该有一位对应的成年人接听，但如何选取也应该有一个“随机的程序”，如要求让当前家中年纪最小的成年人来回答问题。这一个程序经过优化，能够让接听人的年龄、性别比例更加接近真实的成年人口。最重要的是，调查人员会尝试在一天的不同时刻拨打电话，以确保被挑中的电话号码能够打通。这些不断重复的操作一包括重拨某个电话多达10多遍——都是获得一个平衡样本不可缺少的重要组成部分。如果只是在工作时间随机拨打电话，能打通最好，打不通就更换其他号码，直到凑齐所需的样本数量，这样做当然在操作上更加容易实现，也更省钱，但这样的一个样本很有可能会存在偏差，在家接听电话的人很有可能大多是失业者或老人等。如果你只是想证明民意测验结果是美国总统奥巴马在失业人口、老人以及热心接听陌生来电人群中的支持率为46%的话，那你这样做是可以的。

1702644078

1702644079 检验民意测验是否正确有效的另一个指标是：被选中的电话号码中有多少接听者最终能够完成电话调查？假如完成率很低，那么就要小心会出现样本偏见了。不接受电话调查的人越多，或者家中电话一直处于无人接听的状态，那么这些人就越有可能与那些完成调查的人存在本质区别。民调策划人可以通过分析那些无法联系上的电话用户的已知信息来决定是否存在“无应答偏见”，这些人是否都住在同一个地区？他们拒绝采访的原因是不是都是类似的？他们是不是大多来自同一个种族、民族或收入群体？通过此类分析，我们便能够知道较低的回应率是否会影响到某次民意测验的结果。

1702644080

1702644081 采访过程中的问题设置能得出对研究课题有用的信息吗？探析公众观点可比计算考试成绩或测量身高和体重要复杂、细致得多了。民意测验的结果对于问题的设置和提问方式极其敏感。让我们来举一个简单的例子：有多少比例的美国人支持死刑？正如本章内容所示，有很大一部分观点坚定的美国人支持死刑。根据盖洛普民调机构的调查，从2002年起，每年的民意测试都显示有超过60%的美国人支持对谋杀犯判处死刑。美国人对死刑判决的支持率一直在一个很小的范围内变动，最高时的支持率为2003年的70%,其他时候支持率也曾低至64%。但民调数据的结果是很清楚的：大多数美国人都支持死刑。

1702644082

1702644083 事实是这样的吗？当把无假释终身监禁作为选项放人问题中去之后，美国人对于死刑的支持率就大大下降了。2006年的盖洛普民调发现，只有47%的美国人认为对谋杀犯判处死刑是合适的，而有48%的受访者选择了终身监禁。这可并非某场晚宴上的统计学玩笑，这意味着当无假释终身监禁作为一个可靠的选择时，多数美国人将不再支持死刑。在作公众调查的过程中，问题的设置以及提问的方式都会对结果产生巨大影响。

1702644084

1702644085 政客们就常常利用这一点来获得对自己有利的民调结果。例如，选民们对“免税”一词的好感度就高于“减税”，其实这两个词说的是同一个含义。同样的，相比起“气候变化”，选民们更加关心“全球变暖”，虽然后者只是前者的形式之一。政客们总是通过非中性词的使用来操纵选民的反应。如果一个中立、正直的民调机构想要获得正确有效的结果，它们必须警惕那些可能会影响反馈信息准确性的用语。同样的，如果想要比较在不同时间点获得的调查结果，比如2012年和2013年消费者对经济的看法，那么这两个时段的采访问题就应该保持相同或相似。

1702644086

1702644087 像盖洛普这样的机构会经常组织开展“分离样本测试”，也就是将同一个问题的不同问法用在不同的样本人群里，以便判断用词上的小小变化到底会不会影响回应者的答案。对于盖洛普民调机构专家弗兰克•纽波特而言，每一个问题的答案都是有意义的数据，就连那些看上去似乎有些矛盾的答案也不例外。美国人对于死刑的态度在终身监禁的刑罚颁布之后发生了剧烈改变，这其中就透露了一些重要的信息。纽波特说，关键在于要在一个大背景下看待民意测验的结果。对于一个复杂的话题，只看一个问题或一次民调结果是不可能完全看透公众的心理的，此时更需要有大局观和联想力。

1702644088

1702644089 受访者说的就一定是真的吗？民意测验就像是网恋，在对方所提供的信息里总是有那么一点儿“言不由衷”的成分。我们都知道，人都有撒谎的时候，尤其是当问题比较尴尬或敏感时。受访者可能会夸大他们的收入，或在某个月的做爱次数上“修饰一番”；他们可能会不好意思地承认自己没有投票，在表达不受欢迎或社会认可度低的观点之前他们还会犹豫。正是因为这些，一个民意测验先期准备得再充分、设计得再合理，也依然需要受访者的诚实回答。

[ 上一页 ] [ :1.70264404e+09 ] [ 下一页 ]