打字猴:1.70264342e+09
1702643420
1702643421 概率学提供了一系列强大且实用的工具,其中有许多工具都能为我们所用。如果使用得当,就能更好地辅助我们认识世界;如果使用不当,后果会不堪设想。鉴于全书内容我一直强调的是统计学是“一个强大的武器”,为此我想套用一下美国枪支权利支持者的话:概率学本身不会犯错,犯错的是使用它的人。本章接下来将会介绍一些最为常见的与概率有关的错误、误解和道德困境。
1702643422
1702643423 想当然地认为事件之间不存在联系。抛一次硬币得到正面的概率为1/2,抛两次硬币结果都为正面的概率为1/4,因为这两个事件是独立的,因此两次都得到正面的概率为各自概率的乘积。在领会了这一强大的概率学要点之后,你被正式提升为某大型航空公司的风险管理总监,你的助理告诉你越(大西)洋航班的引擎出现故障的概率为10万分之一,考虑到此类航班的班次较多,因此这样的风险还是应该极力避免。可喜的是,每一架越洋航班都配有至少两个引擎,你的助理计算得出在大西洋上空两个引擎都出现故障的概率为(1/100000)2,即100亿分之一——一个理论上安全的风险。这个时候,你作为风险管理总监,就可以让你的助理收拾东西回家,以后再也不用来了。因为两个引擎发生故障并不是彼此独立的事件,如果飞机在起飞时迎面飞来一群天鹅,那么两个引擎都有可能出现损坏。同样的,许多其他的因素也会对飞机引擎的性能造成影响,如天气变化、维护不当等。如果一个引擎出现了故障,那么第二个引擎出现故障的概率肯定要大大高于10万分之一。
1702643424
1702643425 意识到这一点很难吗?对于20世纪90年代的英国检方来说,恐怕确实很困难,正是因为对概率的不当使用,他们做出了一次严重的司法误判。就像刚刚假设的飞机引擎的例子一样,英国检方所犯的统计学错误正是想当然地认为几个不同事件之间是彼此独立的(跟抛硬币一样),而忽略了它们之间的联系(某个特定结果的出现会增加类似结果发生的可能性)。但这次的事件却是真实的,无辜的人因此蒙受了牢狱之灾。
1702643426
1702643427 错误源自一种名为婴儿猝死综合征(SIDS)的疾病,具体表现为健康的婴儿无明显病症突然死亡。由于死于其他原因的婴儿数量日趋减少,相比之下死于SIDS的婴儿变得越来越常见,因此SIDS越来越受到关注。也因为这些婴儿的死因如此神秘、难以解释,各方的猜测和怀疑始终不绝。有些时候,这一怀疑是有道理的,因为尸检并不能有效地区分自然死亡和疏忽致死,一些不负责任的家长会用SIDS作为挡箭牌,以掩盖他们对孩子的照顾不周和虐待。英国检方和法庭认为,如果一个家庭中先后发生多起婴儿猝死事件,那么就可以认定婴儿是疏忽致死,而非自然死亡。英国著名的儿科医师罗伊•麦都爵士就经常为这一观点做专家证人。英国《经济学人》杂志写道,“一个婴儿的死亡是悲剧,两个婴儿死亡就很可疑,三个婴儿死亡便可断定为谋杀,这就是大名鼎鼎的‘麦都定律’。其依据是如果某个事件的发生概率本来不高,但在相同家庭里发生两次甚至多次则不可能是巧合。”
1702643428
1702643429 麦都爵士在法庭上常常会向法官解释说,一个家庭先后有两个婴儿由于自然原因猝死的概率微乎其微,只有7300万分之一。具体计算过程是:婴儿猝死本身就比较罕见,发生概率为1/8500,那么相同家庭里两个婴儿猝死的概率就为(1/8500)2,也就是约7300万分之一。如果一个家庭有两个婴儿猝死,基本上可以断定孩子的父母是极不负责任的家长,判他们过失致死罪一点儿都不为过。在没有任何医学证据表明存在虐待或过失行为的前提下,法官一般都会采纳麦都爵士的专家意见,家长因此锒铛人狱。甚至有时候在出现过婴儿猝死的家庭,刚出生的婴儿会被强制送往其他地方抚养,以远离其亲生父母的“迫害”。
1702643430
1702643431 对统计事件独立性的错误理解,致使麦都爵士证词的严密性受到挑战,《经济学人》就此写道:
1702643432
1702643433 英国皇家统计学会指出,麦都爵士的逻辑存在一个明显的漏洞。概率计算本身没有问题,但前提是必须保证婴儿猝死事件是完全随机的,相互之间不存在任何未知的联系。但由于医学界对婴儿猝死综合征还未完全了解,同一家庭中先后猝死的婴儿之间非常有可能存在某种联系,例如基因等,从而让一个已经遭受婴儿夭折打击的家庭再次遭受打击。但由于那些家长已经被定罪,为了维护司法的严肃性,科学家们的建议是可能存在某种联系,仅此而已。
1702643434
1702643435 2004年,英国政府宣布对258起已经结案的家长谋杀婴儿的案件进行重审。
1702643436
1702643437 对两个事件的统计独立一无所知。人们犯的另一种常见错误是,面对相互独立的事件浑然不觉,甚至还将它们作为相关事件进行处理。假设你正在一家赌场里(虽然从统计学的角度看,你根本就不应该出现在这种地方),你会看到赌客们红着眼睛盯着骰子或扑克牌,嘴里念念有词“总该轮到我赢了吧”。如果轮盘球已经连续5次停在黑色区域了,有人就会想当然地认为下一次肯定会停在红色区域,大错特错!轮盘球停在红色区域的概率一直都没变,应该是16/38,这就是“赌徒谬论”。事实上,就算你连续抛1000000次硬币,并且结果全都是正面朝上,第1000001次抛硬币出现反面的概率依然为1/2。两个事件的统计独立性的定义正是其中一个事件的结果对另一个事件的结果不存在任何影响。就算你觉得从统计学的角度来解释不够有说服力,你也可以从物理的角度问问自己:一枚硬币连续抛几次的结果都是反面朝上,怎么做才能使它下一次抛出的结果是正面朝上?
1702643438
1702643439 即使在体育领域,这种线性思维也同样会给人带来错觉。有一篇广为人知、妙趣横生的与概率学相关的学术论文就驳斥了体育迷头脑中一个根深蒂固的观念,那就是篮球运动员存在“手感”这一现象,即手感来了,怎么投都能中,一投一个准,但手感一走,投篮命中率立即下降。绝大多数的体育迷们都相信,一个刚刚投篮得分的球员再次投中的概率要大于刚刚投篮失手的球员。但对于托马斯•季洛维奇、罗伯特•瓦隆和阿莫斯•特韦尔斯基这3位研究者来说,根本不存在所谓的“手感”一说,为此他们用了3种不同的方式来证明。首先,他们分析了费城76人队在1980~1981赛季主场的得分数据(当时,美国篮球职业联盟NBA的其他球队还没有类似的数据统计),发现“没有证据表明连续进球之间存在正相关关系”。随后,他们分析了波士顿凯尔特人队的罚球数据,也得出了相同的结论。最后,他们邀请了康奈尔大学男篮和女篮成员队参与控制试验,这些篮球队队员在上一个投球命中的情况下再进一球的概率为48%,上一个投球未中的情况下投球命中率为47%。对于年龄区间在14~26岁的运动员来说,一次投篮命中和再次投篮命中之间的关联是负相关的。在这一点上,全场只有一位运动员表现出了强烈的正相关关系。
1702643440
1702643441 这和绝大部分篮球迷告诉你的情况大相径庭。举个例子,一篇论文的写作者在斯坦福大学和康奈尔大学进行的问卷调查显示,有91%的篮球迷认为,当球员连续两三次投篮成功后再次投中的概率要高于他连续投失两三次球后投篮命中的概率。这篇关于“手感”的论文告诉我们,人们脑海里的观念和事实往往存在差异,论文作者写道:“人们对于随机性的直观感受与概率的相关定律之间存在着鸿沟。”我们自认为看到了规律,可实际上或许根本不存在规律。
1702643442
1702643443 比如,成群癌症病例。
1702643444
1702643445 成群病例的发生。你或许从报纸或电视上看到过,某些地区的居民接连被查出患有某种罕见的癌症,而这在统计学上被认为是几乎不可能发生的事,于是所有人都把矛头指向了当地的水源、发电厂或移动信号发射塔。当然,我们不能排除这其中的某个因素就是罪魁祸首的可能性(后面的章节会为大家介绍,统计学是如何在众多干扰因素中辨识出存在关联的因素的)。但成群病例同样有可能只是单纯的巧合,不管发生的概率有多低。的确,在同一个学校、教区或工厂里同时有5个人患有某种罕见白血病的概率可能只有百万分之一,但不要忘记,学校、教区和工厂的数量也有好几百万。在其中的一个地方出现5位罕见白血病患者的概率并没有想象中的那么低,我们只是没有考虑到未出现白血病病例的学校、教区和工厂。换一个例子,中彩票大奖的概率可能只有两千万分之一,但当有人中奖的消息传开后,我们没有人会感到惊奇,因为毕竟彩票中心已经卖出了好几百万张彩票。虽然我个人对买彩票的行为比较反感,但伊利诺伊州彩票的广告词却深得我心:“总有人会中头彩,那个人有可能就是你。”
1702643446
1702643447 为了证明这一相同的论点,我还和我的学生进行过一个实验。班级的人数越多,效果越好。我让班上所有人都拿出一枚硬币,并从座位上站起来,我们一起抛硬币,硬币正面朝上的学生必须坐下。假设我们一开始有100位学生,在第一次抛硬币结束之后,有大约50人坐下;然后我们开始第二次抛硬币,之后还剩下约25位学生站着;然后是第三次、第四次……通常最后总是会剩下一位学生在连续5次或6次得到硬币反面朝上的结果后,依然站在那里,我会在这个时候走到这位同学的身边问他“你是怎么做到的?”、“你平时都做些什么特殊训练,可以连续这么多次都做到反面朝上?”、“你是不是吃了什么特别的东西?”等,这些问题惹得全班同学哈哈大笑,因为他们目睹了整个过程,他们知道这位抛硬币得到6次都是反面结果的同学并没有什么特殊的技能,一切只是巧合。但如果脱离了这样一个环境,当我们目睹一些异常的事件发生时,我们总是会想:“没那么巧吧?背后肯定有什么原因。”但事情偏偏就是这么巧。
1702643448
1702643449 检方谬误。假设你是法庭陪审团的一名成员,听到如下事实:(1)犯罪现场找到的DNA样本与被告的DNA相吻合;(2)除了被告以外,该DNA样本与其他人相吻合的概率为百万分之一(在这个例子中,我们姑且认为检方提供的概率是准确的)。在这些证据的基础上,你会认为被告人有罪吗?
1702643450
1702643451 但愿你投的不是赞成票。
1702643452
1702643453 当统计证据的存在背景遭到忽视时,检方谬误就成了不可避免的事实。下面的两个场景分别解释了DNA证据是如何被用来指证被告的。
1702643454
1702643455 被告一:该被告是被害人生前的恋人,但被后者抛弃,在离犯罪现场3个街区以外的地方被捕,身上携带着杀人工具。在被捕之后,法医从他身上强行提取了DNA样本,后被证实与犯罪现场的一根头发相吻合。
1702643456
1702643457 被告二:该被告于几年前在另一个州以相同的罪名遭到起诉。一个囊括100多万名暴力罪犯DNA信息的国家级数据库里恰好收集了该被告的DNA样本,警方在犯罪现场找到了一根头发,提取了其DNA信息并在这个数据库中进行自动比对,比对结果最终指向了这名被告,而根据调查,他与被害者并无任何关系。
1702643458
1702643459 正如之前所说的,在这两个案例中,检方都可以义正词严地宣称,犯罪现场找到的DNA样本与被告相吻合,且该DNA样本与除被告以外的第二人相吻合的概率仅为百万分之一。但是在第二个案例中,被告完全有可能就是那个“第二人”,即100多万名DNA信息所有者中恰好与真正的杀人凶手的DNA相似的那个人。这是因为通过100万次的数据库样本对比,找到“第二人”的概率相对提升了。
1702643460
1702643461 回归平均数(或趋均数回归)。你或许曾经听到过一个叫作“《体育画报》封面诅咒”的说法,即成为《体育画报》封面人物的运动员或团队,在之后比赛中的成绩会出现不同程度的下滑。一种解释是,成为该杂志的封面人物会对接下来的表现产生不利影响。而另一个在统计学上更加说得过去的解释是,能上杂志封面的通常都是那些近期表现尤为出色的运动员或队伍,如20连胜之类的异乎寻常的竞技
1702643462
1702643463 表现,而他们之后的比赛成绩只不过是回归正常水平,这一现象就叫作回归平均数。概率学告诉我们,跟在异常值——在某个方向上远离平均数的数据——之后的更有可能是那些接近(长期积累得出的)平均数的数据。
1702643464
1702643465 回归平均数现象可以用来解释为什么芝加哥小熊队总是花大笔的“冤枉钱”,请一些让球迷们失望的自由球员为其效力。通常,棒球运动员在完成了一个或两个成绩极佳的赛季之后,便获得了谈判加薪的资本,换上一身小熊队的球服并不一定会让这些球员的表现变差(虽然球员表现与球队的训练和管理十分有关),但是小熊队花了大价钱买来的却是这些超级明星超常发挥的“尾端”,每个球星超水平发挥的时间段都是有限的,也就是那么一两年,过了超水平发挥的时间之后,他们的表现便会趋于正常,这也是为什么他们在小熊队效力时会让球迷大失所望——并非因为他们的技术很差,只不过是正常水平而已。
1702643466
1702643467 同样的现象还可以用来解释为什么有些学生在考试中会超常发挥,有时候又会不尽如人意;有些学生明明考得没有平时好,但重考的成绩却又稍稍提升了。要解释这一回归现象,一种思路是学生的考试成绩(无论是文化课还是体育课)基本上是由个人的努力和运气(统计学家称之为“随机误差”)构成的。也就是说,那些在某次考试中超常发挥的学生只不过是交好运了,而那些考试成绩与平时相比大失水准的考生只是运气差了一些。当好运或厄运终于结束时(总有结束的那一天),随之而来的表现就会更加接近平均值。
1702643468
1702643469 假设我正在组建一支抛硬币的明星团队(在认为扔硬币与天赋和能力有关的错误观念的驱使下),我发现了一名连续6次抛硬币都反面朝上的学生,于是我向他伸出了“橄榄枝”——一份价值5000万美元、为期10年的合约。不用说,10年之后我一定会失望至极,因为这名学生在这10年里抛出的硬币只有50%的情况是反面朝上。
[ 上一页 ]  [ :1.70264342e+09 ]  [ 下一页 ]