1702644070
1702644071
这个样本能正确地反映目标群体的真实观点吗?许多与数据有关的常见挑战都已经在前文中介绍过了。然而,我还是孜孜不倦地指出选择性偏见的危害,尤其是自我选择。有一些民意测验依赖的是那些选择进入样本的个人,如听众来电类广播节目或自愿填写的网上调查问卷,这些民意测验只能获取那些愿意花时间和精力来表达观点的人的信息。他们有可能是对某个问题有着强烈看法的人,或者是正好拥有大量空闲时间的人。无论是哪一种人,都不太可能代表广大公众的观点。我有一次被邀请作为嘉宾参加某听众来电节目,有一位打进电话的听众大声地批评我的观点是“多么不正确”,为了表达他的异议,他是特地将车驶离高速公路后将车停在路边,在一个电话亭拨打的电话。我更愿意假设的是,其他那些选择继续开车的听众之所以没有驶离高速公路并打进电话,是因为他们的看法与之前的那位听众不一样。
1702644072
1702644073
任何一种将群体中的某类人排除在外的观点收集方法,都有可能造成偏见。举例来说,手机的出现给取样方法论增添了新的内容,但同时也让这个过程变得更加复杂。专业的民意测验机构在目标人群的代表性样本的抽样方面,可以说是不遗余力。《纽约时报》和CBS的联合民调就是基于电话访问,在6天的时间里,他们通过电话调查了1650名美国成年人,其中有1475名美国成年人声称自己是登记选民。
1702644074
1702644075
至于具体是如何抽样的,我只能进行一个大概的猜测,绝大多数的民意测验采用的都是如下的技术。为了保证接电话的人能够代表美国人口,抽样过程是从概率开始的——相当于从口袋中摸彩球。电脑会随机抽取一个座机电话交换机组(电话交换机是汇集电话线路并完成用户之间通话的设备,在美国,一个电话交换机包含一个区号以及电话号码的前3位)’通过在美国约6.9万个家庭交换机组里随机选取与电话人口比例一致的用户样本,就能大体上形成一个具有人口地域代表性的样本分布。请看说明:“电话交换机的选择考虑了每个地区的电话用户占美国电话用户数量的比例。”每组被抽中的交换机由电脑随机加上4位数字,以形成一个完整的电话号码,最后出现在被呼叫家庭的名单里。同时,该调查还包括了“手机号码的随机拨打”。
1702644076
1702644077
每一个拨出去的号码都应该有一位对应的成年人接听,但如何选取也应该有一个“随机的程序”,如要求让当前家中年纪最小的成年人来回答问题。这一个程序经过优化,能够让接听人的年龄、性别比例更加接近真实的成年人口。最重要的是,调查人员会尝试在一天的不同时刻拨打电话,以确保被挑中的电话号码能够打通。这些不断重复的操作一包括重拨某个电话多达10多遍——都是获得一个平衡样本不可缺少的重要组成部分。如果只是在工作时间随机拨打电话,能打通最好,打不通就更换其他号码,直到凑齐所需的样本数量,这样做当然在操作上更加容易实现,也更省钱,但这样的一个样本很有可能会存在偏差,在家接听电话的人很有可能大多是失业者或老人等。如果你只是想证明民意测验结果是美国总统奥巴马在失业人口、老人以及热心接听陌生来电人群中的支持率为46%的话,那你这样做是可以的。
1702644078
1702644079
检验民意测验是否正确有效的另一个指标是:被选中的电话号码中有多少接听者最终能够完成电话调查?假如完成率很低,那么就要小心会出现样本偏见了。不接受电话调查的人越多,或者家中电话一直处于无人接听的状态,那么这些人就越有可能与那些完成调查的人存在本质区别。民调策划人可以通过分析那些无法联系上的电话用户的已知信息来决定是否存在“无应答偏见”,这些人是否都住在同一个地区?他们拒绝采访的原因是不是都是类似的?他们是不是大多来自同一个种族、民族或收入群体?通过此类分析,我们便能够知道较低的回应率是否会影响到某次民意测验的结果。
1702644080
1702644081
采访过程中的问题设置能得出对研究课题有用的信息吗?探析公众观点可比计算考试成绩或测量身高和体重要复杂、细致得多了。民意测验的结果对于问题的设置和提问方式极其敏感。让我们来举一个简单的例子:有多少比例的美国人支持死刑?正如本章内容所示,有很大一部分观点坚定的美国人支持死刑。根据盖洛普民调机构的调查,从2002年起,每年的民意测试都显示有超过60%的美国人支持对谋杀犯判处死刑。美国人对死刑判决的支持率一直在一个很小的范围内变动,最高时的支持率为2003年的70%,其他时候支持率也曾低至64%。但民调数据的结果是很清楚的:大多数美国人都支持死刑。
1702644082
1702644083
事实是这样的吗?当把无假释终身监禁作为选项放人问题中去之后,美国人对于死刑的支持率就大大下降了。2006年的盖洛普民调发现,只有47%的美国人认为对谋杀犯判处死刑是合适的,而有48%的受访者选择了终身监禁。这可并非某场晚宴上的统计学玩笑,这意味着当无假释终身监禁作为一个可靠的选择时,多数美国人将不再支持死刑。在作公众调查的过程中,问题的设置以及提问的方式都会对结果产生巨大影响。
1702644084
1702644085
政客们就常常利用这一点来获得对自己有利的民调结果。例如,选民们对“免税”一词的好感度就高于“减税”,其实这两个词说的是同一个含义。同样的,相比起“气候变化”,选民们更加关心“全球变暖”,虽然后者只是前者的形式之一。政客们总是通过非中性词的使用来操纵选民的反应。如果一个中立、正直的民调机构想要获得正确有效的结果,它们必须警惕那些可能会影响反馈信息准确性的用语。同样的,如果想要比较在不同时间点获得的调查结果,比如2012年和2013年消费者对经济的看法,那么这两个时段的采访问题就应该保持相同或相似。
1702644086
1702644087
像盖洛普这样的机构会经常组织开展“分离样本测试”,也就是将同一个问题的不同问法用在不同的样本人群里,以便判断用词上的小小变化到底会不会影响回应者的答案。对于盖洛普民调机构专家弗兰克•纽波特而言,每一个问题的答案都是有意义的数据,就连那些看上去似乎有些矛盾的答案也不例外。美国人对于死刑的态度在终身监禁的刑罚颁布之后发生了剧烈改变,这其中就透露了一些重要的信息。纽波特说,关键在于要在一个大背景下看待民意测验的结果。对于一个复杂的话题,只看一个问题或一次民调结果是不可能完全看透公众的心理的,此时更需要有大局观和联想力。
1702644088
1702644089
受访者说的就一定是真的吗?民意测验就像是网恋,在对方所提供的信息里总是有那么一点儿“言不由衷”的成分。我们都知道,人都有撒谎的时候,尤其是当问题比较尴尬或敏感时。受访者可能会夸大他们的收入,或在某个月的做爱次数上“修饰一番”;他们可能会不好意思地承认自己没有投票,在表达不受欢迎或社会认可度低的观点之前他们还会犹豫。正是因为这些,一个民意测验先期准备得再充分、设计得再合理,也依然需要受访者的诚实回答。
1702644090
1702644091
选举民调尤其关键的一步是,将那些不会在选举日当天去投票站投票的美国公民筛选出来(因为如果我们想预测某次选举的胜利者,那么那些不打算去投票的人的观点对于我们来说就是无关紧要的)。作为个人而言,他们总是会说自己会去投票,因为他们觉得这是民调公司愿意听到的答案。但是有研究表明,那些自称会去投票的人中有1/4〜1/3的人最终没有投票。为了减小这类抽样偏见对民调结果的影响,一种方法是向受访者提问他们是否参加了上一次或前几次的选举投票,那些每场投票都参加的受访者最有可能在未来的选举中投票。如果担心受访者会羞于表达某个社会接受度不高的观点,例如对某个激进组织或民族群体的负面印象,民调人员会采用迂回的问法,如“你身边有认识的人”持有这种观点吗?
1702644092
1702644093
历史上最触人神经的一次民意测验来自芝加哥大学全美国民意研究中心(NORC)的一个研究项目,课题名称为“性的社会组织:美国人的性行为”,很快便成为人们熟知的“性调查”。这项研究的官方描述包括“构成性交易的行为结构”、“一生中的性伴侣组合过程和行为方式”等用语。用最简单的话来概括这项研究就是:谁在跟谁做爱,以及多长时间做爱一次。这项发表于1995年的研究,其目的不仅仅告诉我们身边人的性行为,同时也是为了预测美国人的性行为是否会以及如何影响到艾滋病的传播。
1702644094
1702644095
倘若美国人连没去投票这类事情都难以承认,那么可以想象他们在描述自己的性行为时内心的那种纠结,尤其是当这些问题涉及不正当行为、不忠以及其他隐私的内容时。他们的调查方法非常引人注目,调查样本为3342名成年人,这些人代表了全体美国成年人群体,每一位受访者都要经过长达90分钟的采访,其中有将近80%的受访者完成了全部问题,研究人员在此基础上得出了一份有关美国人性行为的准确报告(至少在1995年的时候是这样的)。
1702644096
1702644097
鉴于大家已经硬着头皮读完了一整章有关民意测验方法论的内容,而且基本上“啃”完了一本有关统计学的书,到了应该“犒劳”大家的时候了,一起来看看这项“性调查”都发现了什么吧(其实都不是什么“骇人听闻”的结论)。正如一位读过这份报告的人所说:“美国人的性行为比我想象的‘逊色’太多了。”
1702644098
1702644099
•人们通常与自己的“同类”做爱,有90%的夫妻都来自于相同的种族,拥有相同的宗教信仰、社会阶级和相仿的年纪。
1702644100
1702644101
•大多数人的性生活频率为“一个月若干次”,至于“若干次”是几次,这个范围就大了。关于受访者从18岁开始有过的性伴侣数量,有的人没有性伴侣,有的人的性伴侣人数多达1000个,绝大多数人的性伴侣人数在这两者之间。
1702644102
1702644103
•有差不多5%的男性和4%的女性有过同性性行为。
1702644104
1702644105
• 80%的受访者在过去一年里,只有一个甚至没有性伴侣。
1702644106
1702644107
•拥有一个性伴侣的受访者要比那些一个都没有或者同时拥有多个性伴侣的人更快乐。
1702644108
1702644109
• 1/4的已婚男性和10%的已婚女性承认自己曾经“出轨”。
1702644110
1702644111
•绝大多数人在做爱方面还是比较传统的,男女之间最有吸引力的做爱方式依然很传统。
1702644112
1702644113
对于这份知名的“性调查”,有一句简单但却有力的评论:调查结论中的那句 “调查的准确性保证结论能够代表全体美国成年人的性行为”是建立在两个前提之上的,受访者是从全体美国成年人中正确抽取的样本,受访者提供了诚实准确的答案。其实,我们也可以用这句话来概括整章的内容。对民意测验最为直观的感受是,人们会怀疑就凭这样一些人的回答真的能知道大部分群体中的人心里到底是怎么想的?回答这个问题其实很容易,统计学最基本的原则之一就是一个正确抽取的样本相似于其所在的群体。民意测验真正的挑战有两个:设计并选取正确的样本>用恰当的方式从该样本中获取合适的信息,以准确地反映他们的真实感受。
1702644114
1702644115
本章补充知误点
1702644116
1702644117
下面为大家解释一下,为什么当某个回答占所有受访者人数的比例接近50%时(同时意味着1-p也接近50%),标准误差会达到最大。先假设你正在美国的北达科他州进行两项民意测验。第一项民意测验的目的是弄清该州民主党和共和党的人数比例。假设这个州真实的两党人数正好各占50%,但你的民调结果却显示为60%的共和党人和40%的民主党人。因此,你的结果距离真实情况出现了10%的巨大误差。但是,你在这个统计过程中并没有犯下什么难以饶恕的数据收集错误,你只是使共和党人增多了20%,使民主党人减少了20%。这种计算错误时常会发生,有时候即使是一个方法设计良好的民意测验也无法避免。
1702644118
1702644119
你的第二项民意测验旨在获取生活在北达科他州的印第安人占该州总人口的比例。假设真实情况是印第安人占全州人口的10%,非印第安人占90%。那么现在我们就来讨论一下假如你的民调结果也存在10%的误差,那你的样本数据收集必须差到什么地步。有两种情况都可以造成这种误差。第一种,你没有发现任何印第安人,认为100%的人都是非印第安人,第二种,你发现有20%的人口是印第安人,非印第安人占80%。在第一种情况I下,你漏掉了生活在该州的全部印第安人;在第二种情况下,你在计算印第安人数量时多计算了整整一倍。无论是哪种情况,都是极其严重的抽样错误,你的计算结果均偏离了100%:[(0-10)/10]以及[(20-10)/10]。但是,如果你只是错误地计算了20%的印第安人——与第一项共和党民主党人数调查的错误程度一样,则你的结果将会是8%的印第安人和92%的非印第安人,跟该州的真实人口情况只相差20%。
[
上一页 ]
[ :1.70264407e+09 ]
[
下一页 ]