打字猴:1.70264406e+09

1702644060

1702644061

1702644062

1702644063 与前几章的内容一样，我在本章中对很多内容进行了简化处理。可能大家已经意识到了，在上述的选举例子中，共和党和民主党按理来说应该有着各自不同的标准误差。再来看一下这个公式：两党候选人的样本数量n是一样的，但P与（1-P）会有所差别。在第二次选举后测试（有2000名参与者）中，共和党的标准误差为,民主党的标准误差应该是。当然，无论是用作什么，这两个数字都不会对结果产生不同的影响。因此，我采取了一个比较常用的做法，就是取两者中略大的那个标准误差作为所有候选人的共同标准误差，假如真有什么不妥之处，那也只会让我们的置信区间更加严格。

1702644064

1702644065 许多涉及多个问题的全美国性民意测验还会更进一步。以《纽约时报》和CBS联合民调为例，严格来说，根据受访者的答案，每一个问题的标准误差都应该是不同的。例如，在9%的公众认可美国国会处理国家事务的能力和46%的公众认可美国总统奥巴马的工作表现这两个结论中，前者的标准误差应该低于后者，因为0.09x0.91的结果要小于0.46x0.54——0.0819<0.2484。

1702644066

1702644067 如果每一个问题都搭配一个不同的标准误差，那么整个报告就会变得混乱不堪，不利于结论的提取，因此像这类民意测验，通常都会假设所有问题的样本比例为0.5（50%）——让标准误差达到一个最大值，然后再用这个标准误差计算出整个民意测验的样本误差范围。

1702644068

1702644069 如果处理得当，民意测验会是一个不可思议的统计工具。盖洛普民意测验机构的主编弗兰克·纽波特说，一个针对1000人的民意测验能够为我们提供有关整个国家的有意义的和准确的信息。从统计学的角度，他的说法是正确的。但是，为了能够获得那些有意义的和准确的结果，我们必须合理设计民调流程，正确分析数据并得出结论，这两件事都是说起来容易做起来难。一个错得离谱儿的民调结果通常并不是因为数学不好而导致标准误差计算错误，而是因为一个有偏见的样本或不合理的问题设计，或者二者均有。当进行一项民意测验或采用别人的民调成果时，我们应该问问自己如下这几个涉及方法论的关键性问题。

1702644070

1702644071 这个样本能正确地反映目标群体的真实观点吗？许多与数据有关的常见挑战都已经在前文中介绍过了。然而，我还是孜孜不倦地指出选择性偏见的危害，尤其是自我选择。有一些民意测验依赖的是那些选择进入样本的个人，如听众来电类广播节目或自愿填写的网上调查问卷，这些民意测验只能获取那些愿意花时间和精力来表达观点的人的信息。他们有可能是对某个问题有着强烈看法的人，或者是正好拥有大量空闲时间的人。无论是哪一种人，都不太可能代表广大公众的观点。我有一次被邀请作为嘉宾参加某听众来电节目，有一位打进电话的听众大声地批评我的观点是“多么不正确”，为了表达他的异议，他是特地将车驶离高速公路后将车停在路边，在一个电话亭拨打的电话。我更愿意假设的是，其他那些选择继续开车的听众之所以没有驶离高速公路并打进电话，是因为他们的看法与之前的那位听众不一样。

1702644072

1702644073 任何一种将群体中的某类人排除在外的观点收集方法，都有可能造成偏见。举例来说，手机的出现给取样方法论增添了新的内容，但同时也让这个过程变得更加复杂。专业的民意测验机构在目标人群的代表性样本的抽样方面，可以说是不遗余力。《纽约时报》和CBS的联合民调就是基于电话访问，在6天的时间里，他们通过电话调查了1650名美国成年人，其中有1475名美国成年人声称自己是登记选民。

1702644074

1702644075 至于具体是如何抽样的，我只能进行一个大概的猜测，绝大多数的民意测验采用的都是如下的技术。为了保证接电话的人能够代表美国人口，抽样过程是从概率开始的——相当于从口袋中摸彩球。电脑会随机抽取一个座机电话交换机组（电话交换机是汇集电话线路并完成用户之间通话的设备，在美国，一个电话交换机包含一个区号以及电话号码的前3位）’通过在美国约6.9万个家庭交换机组里随机选取与电话人口比例一致的用户样本，就能大体上形成一个具有人口地域代表性的样本分布。请看说明：“电话交换机的选择考虑了每个地区的电话用户占美国电话用户数量的比例。”每组被抽中的交换机由电脑随机加上4位数字，以形成一个完整的电话号码，最后出现在被呼叫家庭的名单里。同时，该调查还包括了“手机号码的随机拨打”。

1702644076

1702644077 每一个拨出去的号码都应该有一位对应的成年人接听，但如何选取也应该有一个“随机的程序”，如要求让当前家中年纪最小的成年人来回答问题。这一个程序经过优化，能够让接听人的年龄、性别比例更加接近真实的成年人口。最重要的是，调查人员会尝试在一天的不同时刻拨打电话，以确保被挑中的电话号码能够打通。这些不断重复的操作一包括重拨某个电话多达10多遍——都是获得一个平衡样本不可缺少的重要组成部分。如果只是在工作时间随机拨打电话，能打通最好，打不通就更换其他号码，直到凑齐所需的样本数量，这样做当然在操作上更加容易实现，也更省钱，但这样的一个样本很有可能会存在偏差，在家接听电话的人很有可能大多是失业者或老人等。如果你只是想证明民意测验结果是美国总统奥巴马在失业人口、老人以及热心接听陌生来电人群中的支持率为46%的话，那你这样做是可以的。

1702644078

1702644079 检验民意测验是否正确有效的另一个指标是：被选中的电话号码中有多少接听者最终能够完成电话调查？假如完成率很低，那么就要小心会出现样本偏见了。不接受电话调查的人越多，或者家中电话一直处于无人接听的状态，那么这些人就越有可能与那些完成调查的人存在本质区别。民调策划人可以通过分析那些无法联系上的电话用户的已知信息来决定是否存在“无应答偏见”，这些人是否都住在同一个地区？他们拒绝采访的原因是不是都是类似的？他们是不是大多来自同一个种族、民族或收入群体？通过此类分析，我们便能够知道较低的回应率是否会影响到某次民意测验的结果。

1702644080

1702644081 采访过程中的问题设置能得出对研究课题有用的信息吗？探析公众观点可比计算考试成绩或测量身高和体重要复杂、细致得多了。民意测验的结果对于问题的设置和提问方式极其敏感。让我们来举一个简单的例子：有多少比例的美国人支持死刑？正如本章内容所示，有很大一部分观点坚定的美国人支持死刑。根据盖洛普民调机构的调查，从2002年起，每年的民意测试都显示有超过60%的美国人支持对谋杀犯判处死刑。美国人对死刑判决的支持率一直在一个很小的范围内变动，最高时的支持率为2003年的70%,其他时候支持率也曾低至64%。但民调数据的结果是很清楚的：大多数美国人都支持死刑。

1702644082

1702644083 事实是这样的吗？当把无假释终身监禁作为选项放人问题中去之后，美国人对于死刑的支持率就大大下降了。2006年的盖洛普民调发现，只有47%的美国人认为对谋杀犯判处死刑是合适的，而有48%的受访者选择了终身监禁。这可并非某场晚宴上的统计学玩笑，这意味着当无假释终身监禁作为一个可靠的选择时，多数美国人将不再支持死刑。在作公众调查的过程中，问题的设置以及提问的方式都会对结果产生巨大影响。

1702644084

1702644085 政客们就常常利用这一点来获得对自己有利的民调结果。例如，选民们对“免税”一词的好感度就高于“减税”，其实这两个词说的是同一个含义。同样的，相比起“气候变化”，选民们更加关心“全球变暖”，虽然后者只是前者的形式之一。政客们总是通过非中性词的使用来操纵选民的反应。如果一个中立、正直的民调机构想要获得正确有效的结果，它们必须警惕那些可能会影响反馈信息准确性的用语。同样的，如果想要比较在不同时间点获得的调查结果，比如2012年和2013年消费者对经济的看法，那么这两个时段的采访问题就应该保持相同或相似。

1702644086

1702644087 像盖洛普这样的机构会经常组织开展“分离样本测试”，也就是将同一个问题的不同问法用在不同的样本人群里，以便判断用词上的小小变化到底会不会影响回应者的答案。对于盖洛普民调机构专家弗兰克•纽波特而言，每一个问题的答案都是有意义的数据，就连那些看上去似乎有些矛盾的答案也不例外。美国人对于死刑的态度在终身监禁的刑罚颁布之后发生了剧烈改变，这其中就透露了一些重要的信息。纽波特说，关键在于要在一个大背景下看待民意测验的结果。对于一个复杂的话题，只看一个问题或一次民调结果是不可能完全看透公众的心理的，此时更需要有大局观和联想力。

1702644088

1702644089 受访者说的就一定是真的吗？民意测验就像是网恋，在对方所提供的信息里总是有那么一点儿“言不由衷”的成分。我们都知道，人都有撒谎的时候，尤其是当问题比较尴尬或敏感时。受访者可能会夸大他们的收入，或在某个月的做爱次数上“修饰一番”；他们可能会不好意思地承认自己没有投票，在表达不受欢迎或社会认可度低的观点之前他们还会犹豫。正是因为这些，一个民意测验先期准备得再充分、设计得再合理，也依然需要受访者的诚实回答。

1702644090

1702644091 选举民调尤其关键的一步是，将那些不会在选举日当天去投票站投票的美国公民筛选出来（因为如果我们想预测某次选举的胜利者，那么那些不打算去投票的人的观点对于我们来说就是无关紧要的）。作为个人而言，他们总是会说自己会去投票，因为他们觉得这是民调公司愿意听到的答案。但是有研究表明，那些自称会去投票的人中有1/4〜1/3的人最终没有投票。为了减小这类抽样偏见对民调结果的影响，一种方法是向受访者提问他们是否参加了上一次或前几次的选举投票，那些每场投票都参加的受访者最有可能在未来的选举中投票。如果担心受访者会羞于表达某个社会接受度不高的观点，例如对某个激进组织或民族群体的负面印象，民调人员会采用迂回的问法，如“你身边有认识的人”持有这种观点吗？

1702644092

1702644093 历史上最触人神经的一次民意测验来自芝加哥大学全美国民意研究中心（NORC）的一个研究项目，课题名称为“性的社会组织：美国人的性行为”，很快便成为人们熟知的“性调查”。这项研究的官方描述包括“构成性交易的行为结构”、“一生中的性伴侣组合过程和行为方式”等用语。用最简单的话来概括这项研究就是：谁在跟谁做爱，以及多长时间做爱一次。这项发表于1995年的研究，其目的不仅仅告诉我们身边人的性行为，同时也是为了预测美国人的性行为是否会以及如何影响到艾滋病的传播。

1702644094

1702644095 倘若美国人连没去投票这类事情都难以承认，那么可以想象他们在描述自己的性行为时内心的那种纠结，尤其是当这些问题涉及不正当行为、不忠以及其他隐私的内容时。他们的调查方法非常引人注目，调查样本为3342名成年人，这些人代表了全体美国成年人群体，每一位受访者都要经过长达90分钟的采访，其中有将近80%的受访者完成了全部问题，研究人员在此基础上得出了一份有关美国人性行为的准确报告（至少在1995年的时候是这样的）。

1702644096

1702644097 鉴于大家已经硬着头皮读完了一整章有关民意测验方法论的内容，而且基本上“啃”完了一本有关统计学的书，到了应该“犒劳”大家的时候了，一起来看看这项“性调查”都发现了什么吧（其实都不是什么“骇人听闻”的结论）。正如一位读过这份报告的人所说：“美国人的性行为比我想象的‘逊色’太多了。”

1702644098

1702644099 •人们通常与自己的“同类”做爱，有90％的夫妻都来自于相同的种族，拥有相同的宗教信仰、社会阶级和相仿的年纪。

1702644100

1702644101 •大多数人的性生活频率为“一个月若干次”，至于“若干次”是几次，这个范围就大了。关于受访者从18岁开始有过的性伴侣数量，有的人没有性伴侣，有的人的性伴侣人数多达1000个，绝大多数人的性伴侣人数在这两者之间。

1702644102

1702644103 •有差不多5%的男性和4%的女性有过同性性行为。

1702644104

1702644105 • 80%的受访者在过去一年里，只有一个甚至没有性伴侣。

1702644106

1702644107 •拥有一个性伴侣的受访者要比那些一个都没有或者同时拥有多个性伴侣的人更快乐。

1702644108

1702644109 • 1/4的已婚男性和10%的已婚女性承认自己曾经“出轨”。

[ 上一页 ] [ :1.70264406e+09 ] [ 下一页 ]