1701777968
1701777969
实际上,巴赫曼给出的样本甚至连一个偶然的样本都比不上。假设巴赫曼说的是实情,那么她本身便有很强的动机想把这个案例公之于众。而她可能没有说出实情,或者给她提供消息的人没说出真相,即提供消息的人说了假话。这个人可能十分确信自己告诉巴赫曼的事实。如果她的女儿注射了疫苗,而之后被诊断出了智力发育迟缓,那么这位母亲很有可能会犯事后归因的错误:A之后发生了B,所以A是产生B的原因。事实上,事件A先于事件B发生,并不一定代表事件A导致了事件B。不过对我而言,巴赫曼的这个例子还不是最糟糕的“恰好是他”的统计谬误。
1701777970
1701777971
我最喜欢的一个结合了“恰好是他”统计偏差的事后归因谬误例子是从一个朋友那里听来的,而他则是听到了两位老人的对话。第一个老人说:“我的医生告诉我,我必须戒烟,否则我会因此而死。”第二个老人说:“不!不要戒!我有两个朋友都听了医生的话戒了烟,然后他俩都在几个月之内就死了。”
1701777972
1701777973
样本和总体
1701777974
1701777975
回想第1章里提到的医院问题的推理。较小的医院里男孩出生比例超过60%的天数超过了较大的医院。唯有大数定律能解释这个问题:随着样本容量的增加,样本的值(例如均值或比例)就越接近总体对应的值。
1701777976
1701777977
在总体的规模达到极端的情况下,很容易就能看出大数定律的效果。假设某一天某家医院有10个婴儿出生。那么有多大概率这其中有60%或以上的婴儿是男婴呢?答案当然是,很有可能。我们当然不会怀疑,如果抛10次硬币,有可能6次正面朝上。假设某一天另一家医院有200个婴儿出生。有多大概率男女婴比例偏离正常值呢?答案很明显,几乎没有可能会偏离50%太远。这就像是抛了200次硬币,你期待有120次或更多的时候硬币正面朝上,而不是100次。
1701777978
1701777979
顺便提一句,我注意到样本统计值(均值、中位数、标准差等)的准确性与总体的规模是无关的。在美国,大多数对于大选的全国性调查仅包括1000个左右的被调查者,而调查者称调查结果与实际结果的偏差不超过±3%。一个1000人的样本就统计出了1亿总人口对某一位总统候选人的确切的支持率,结果几乎和1万人的样本一致。所以,当你支持的候选人的支持率领先对手8%的时候,别在意其他候选人的竞选代理人对民意调查结果的蔑视,他们宣称实际投票者有上百万,而参与民调的只有区区1000人。除非那些参与民调的人在总体中真的是十分不具有代表性(或者说极其小众),只有这样,那些你不支持的候选人才会最终胜利。而这就要引出我们的下一个话题,样本偏差。
1701777980
1701777981
只有当选取的样本没有偏差时,大数定律才是成立的。如果选取样本时允许出现一定概率的样本值错误的话,那么统计的结果可能会有偏差。如果你想调查一家工厂里有多少工人希望采取弹性工作制,而你的样本里只包含了男性工人或是在工厂的自助餐厅工作的工人,那么你得到的结果将会和以全厂所有工人为样本得到的结果有巨大差异,最终得到一个希望采取弹性工作制的工人比例的错误估算值。如果选取的样本本身就有偏差,那么这个样本规模越大,你就越有可能得到错误统计结果。
1701777982
1701777983
这里需要指出的是,实际上,全美民意调查并不是从总人口中随机取样的。如果是随机的,那么美国的所有投票者都应该有均等的机会成为被调查对象,但真实的调查并非如此,调查者是冒着会出现严重偏差的风险而进行取样的。美国历史上第一次对总统竞选进行的全国民意调查是由现今已不再发行的《文学文摘》杂志组织进行的。该调查结果显示,富兰克林·罗斯福将输掉1936年的总统大选,然而最终他以压倒性优势获胜。是《文学文摘》的问题吗?这次调查是通过电话进行的——而当时只有家境较好的人家(这样的富裕人家多半是属于或支持共和党的)才会安装电话。
1701777984
1701777985
而在2012年的美国大选中,相似的样本源偏差再次发生在一些民意调查中。拉斯姆森调查公司在电话调查中并没有通过拨打手机进行调查,他们因此忽略了一点:年轻人大多只使用手机,并且倾向于支持民主党。拉斯姆森公司因为系统性偏差,没有同时在固定电话和手机用户中抽样,最终高估了来自共和党的罗姆尼的支持率。
1701777986
1701777987
过去,只要人们接听调查电话或是开门接受上门调查员的访问,调查者就能得到一个近乎随机采集的样本。而今,民意调查的准确性在一定程度上依赖于调查者得到的数据和他们如何确定样本的直觉——衡量一个样本需要综合各类信息:被访者最终会参与投票的概率、其党派身份、性别、年龄、他们所属的社团成员、信仰的教派信徒在过去的投票情况,以及其他各种零碎古怪的信息。
1701777988
1701777989
找到真分数(true score)
1701777990
1701777991
请思考下面一些问题。
1701777992
1701777993
X大学设立了一个著名的音乐剧项目。该项目只为一小批具有非凡音乐潜质的高中毕业生提供奖学金。简是这个项目的负责人,她有一些朋友是当地高中的戏剧课老师。一天下午,她去斯普林菲尔德高中考察一个学生的情况,这个孩子是由其戏剧课老师强力推荐的,据说是一个十分优秀的年轻女演员。简观看了一出由罗杰斯与汉默斯坦创作的音乐剧的彩排,那个女孩子在剧中担任主角。结果,她说错了好几句台词,看上去她对角色的把握也不好,表现得像是几乎没什么舞台表演经验。简告诉她的同事,她现在十分怀疑她的朋友的判断。这是一个明智的结论吗?
1701777994
1701777995
乔是Y大学橄榄球队的球探,他去美国各地的中学练习赛上观看了比赛,考察那些由教练推荐给他的有潜质的年轻人。一天下午,他也来到了斯普林菲尔德高中考察一个有着出色得分纪录的四分卫。这个孩子有着出众的技术统计记录,并且得到了教练的高度评价。在练习中,这个四分卫传错了几次球,还投丢了几回,总共也没得到多少分。这位球探表示这个四分卫被高估了,并且建议Y大学不再考虑将他吸纳进来。这是一个明智的建议吗?
1701777996
1701777997
如果你认为简是明智的,而乔不是,那么只能说你比较了解体育竞赛的情况,却对戏剧演出知之甚少。如果你的结论正相反,则说明你熟悉戏剧演出而对体育竞赛不太了解。
1701777998
1701777999
我发现,那些不太了解体育的人往往认为乔可能是对的,即那个四分卫或许并没有那么有天赋;而了解体育竞赛的人更倾向于认为乔下的结论可能太过草率。他们认为,乔用于判断那个四分卫的表现的(极其小的)样本更可能是一种极端的情况,而给乔推荐那个孩子的教练的评价可能更接近实际情况。
1701778000
1701778001
那些不太了解戏剧表演的人可能会说那个女孩或许没有那么出色,然而了解戏剧的人会认为简对女孩的判断有些轻率。在其他条件都一样的情况下,你对某个特定领域了解得越多,你就更可能成功运用统计学概念来考虑相关问题。在这个例子中,重要的概念便是大数定律。
1701778002
1701778003
为什么这与大数定律有关呢?一个四分卫在一个或更多赛季的表现可以被看作评判其技术的可信依据。如果他的教练坚持认为他的确出色,那么我们有大量证据——众多技术统计数据——推断乔考察的这位球员真的特别优秀,乔自己的证据——一天中的一场比赛的表现与之相比就显得太不可信了。
1701778004
1701778005
一个球员自身表现的可变性,甚至是一支球队表现的可变性,就像一句老话形容的那样,在某一个星期日,美国全国橄榄球联盟中的任何一支球队都可以击败其他任何一支球队。这当然不是说所有球队的水平完全一样,这只是表明你需要一个相当大的样本量来准确评断不同球队的水平。
1701778006
1701778007
同样的推断逻辑也可以应用于那位戏剧项目负责人的判断。如果有好几位了解那位女演员的人都表示她有很高的才华,那么这位负责人就要对自己的判断三思。我发现很少有人意识到这一点,除了那些有一些戏剧表演经验或对表演领域十分熟悉的人。喜剧演员史蒂夫·马丁在自传中曾提到,几乎所有喜剧演员都有奉献出伟大演出的时刻。那些成功者不过是能时时保持良好水平以上的人。
1701778008
1701778009
用统计学术语来讲,球探和音乐剧项目负责人试图寻找的是他们考察的候选人的“真分数”。考察结果包括真分数和偏误。这个公式适用于几乎所有类型的测量项目,无论是人的身高,还是某一地的气温,都是如此。有两种途径可以提高分数的准确性。一种是应用更好的观测法——更好的码尺或是温度计。另一种是“消除”你在测量过程中可能出现的各种偏误,这可以用大数定律或是求取平均值来解决。大数定律这样发挥作用:你进行的测量越多,便会越接近于真分数。
1701778010
1701778011
访谈错觉
1701778012
1701778013
即使我们对一些领域有丰富的知识,也掌握了大量统计学原理,但仍有可能忘记大数定律的变化性和相关性。密歇根大学心理系对其顶尖的申请人进行面试,以做出最终的录取决定。我的同事对于和每个候选人进行20~30分钟的面试十分看重。“我认为她不合适。她似乎对我们讨论的课题没有太深的见地。”“他看上去十分合适。他谈到了他出色的荣誉论文,而且清晰地表达了他对如何做学术研究的理解。”
1701778014
1701778015
这里的问题是,我们究竟该依据什么来评判一个人,应该让他在一段很短时间内的表现成为主要依据吗?还是应该综合评估其各项条件:大学里的平均绩点,它总结了一个学生4年中在30门或更多课程中的表现;研究生入学考试(GRE)成绩,它从一个侧面反映了一个学生12年的学习成果和综合知识能力;推荐信,这通常会基于这个学生与推荐人长期的接触和交流。实际上,大学平均绩点在很大程度上能预测出一个学生在研究生院的表现(就像你在下一章节中会看到的,两者的相关性至少能达到0.3),研究生入学考试分数同样重要。这两项标准是相互独立的,因此同时使用这两个标准进行评估比单独使用其中一项要更有效。而加上推荐信之后,对学生评估的准确率就更高了。
1701778016
1701778017
然而,半小时的面试结果与一个学生在本科或研究生阶段的表现仅仅存在不到0.1的相关关系,同样的情况也可见于陆军军官、商务人士、医学院学生、和平队志愿者和其他各类面试中。那是一种相当不准确的预测,不会比投硬币预测好太多。其实人们如果只是以面试该有的价值来看待它,那么结果并不会太糟,只要不将它当作决定性因素就好。然而人们总是在过于看重面试的误区中让自己逐渐偏离准确结果。
[
上一页 ]
[ :1.701777968e+09 ]
[
下一页 ]