1702643440
1702643441
这和绝大部分篮球迷告诉你的情况大相径庭。举个例子,一篇论文的写作者在斯坦福大学和康奈尔大学进行的问卷调查显示,有91%的篮球迷认为,当球员连续两三次投篮成功后再次投中的概率要高于他连续投失两三次球后投篮命中的概率。这篇关于“手感”的论文告诉我们,人们脑海里的观念和事实往往存在差异,论文作者写道:“人们对于随机性的直观感受与概率的相关定律之间存在着鸿沟。”我们自认为看到了规律,可实际上或许根本不存在规律。
1702643442
1702643443
比如,成群癌症病例。
1702643444
1702643445
成群病例的发生。你或许从报纸或电视上看到过,某些地区的居民接连被查出患有某种罕见的癌症,而这在统计学上被认为是几乎不可能发生的事,于是所有人都把矛头指向了当地的水源、发电厂或移动信号发射塔。当然,我们不能排除这其中的某个因素就是罪魁祸首的可能性(后面的章节会为大家介绍,统计学是如何在众多干扰因素中辨识出存在关联的因素的)。但成群病例同样有可能只是单纯的巧合,不管发生的概率有多低。的确,在同一个学校、教区或工厂里同时有5个人患有某种罕见白血病的概率可能只有百万分之一,但不要忘记,学校、教区和工厂的数量也有好几百万。在其中的一个地方出现5位罕见白血病患者的概率并没有想象中的那么低,我们只是没有考虑到未出现白血病病例的学校、教区和工厂。换一个例子,中彩票大奖的概率可能只有两千万分之一,但当有人中奖的消息传开后,我们没有人会感到惊奇,因为毕竟彩票中心已经卖出了好几百万张彩票。虽然我个人对买彩票的行为比较反感,但伊利诺伊州彩票的广告词却深得我心:“总有人会中头彩,那个人有可能就是你。”
1702643446
1702643447
为了证明这一相同的论点,我还和我的学生进行过一个实验。班级的人数越多,效果越好。我让班上所有人都拿出一枚硬币,并从座位上站起来,我们一起抛硬币,硬币正面朝上的学生必须坐下。假设我们一开始有100位学生,在第一次抛硬币结束之后,有大约50人坐下;然后我们开始第二次抛硬币,之后还剩下约25位学生站着;然后是第三次、第四次……通常最后总是会剩下一位学生在连续5次或6次得到硬币反面朝上的结果后,依然站在那里,我会在这个时候走到这位同学的身边问他“你是怎么做到的?”、“你平时都做些什么特殊训练,可以连续这么多次都做到反面朝上?”、“你是不是吃了什么特别的东西?”等,这些问题惹得全班同学哈哈大笑,因为他们目睹了整个过程,他们知道这位抛硬币得到6次都是反面结果的同学并没有什么特殊的技能,一切只是巧合。但如果脱离了这样一个环境,当我们目睹一些异常的事件发生时,我们总是会想:“没那么巧吧?背后肯定有什么原因。”但事情偏偏就是这么巧。
1702643448
1702643449
检方谬误。假设你是法庭陪审团的一名成员,听到如下事实:(1)犯罪现场找到的DNA样本与被告的DNA相吻合;(2)除了被告以外,该DNA样本与其他人相吻合的概率为百万分之一(在这个例子中,我们姑且认为检方提供的概率是准确的)。在这些证据的基础上,你会认为被告人有罪吗?
1702643450
1702643451
但愿你投的不是赞成票。
1702643452
1702643453
当统计证据的存在背景遭到忽视时,检方谬误就成了不可避免的事实。下面的两个场景分别解释了DNA证据是如何被用来指证被告的。
1702643454
1702643455
被告一:该被告是被害人生前的恋人,但被后者抛弃,在离犯罪现场3个街区以外的地方被捕,身上携带着杀人工具。在被捕之后,法医从他身上强行提取了DNA样本,后被证实与犯罪现场的一根头发相吻合。
1702643456
1702643457
被告二:该被告于几年前在另一个州以相同的罪名遭到起诉。一个囊括100多万名暴力罪犯DNA信息的国家级数据库里恰好收集了该被告的DNA样本,警方在犯罪现场找到了一根头发,提取了其DNA信息并在这个数据库中进行自动比对,比对结果最终指向了这名被告,而根据调查,他与被害者并无任何关系。
1702643458
1702643459
正如之前所说的,在这两个案例中,检方都可以义正词严地宣称,犯罪现场找到的DNA样本与被告相吻合,且该DNA样本与除被告以外的第二人相吻合的概率仅为百万分之一。但是在第二个案例中,被告完全有可能就是那个“第二人”,即100多万名DNA信息所有者中恰好与真正的杀人凶手的DNA相似的那个人。这是因为通过100万次的数据库样本对比,找到“第二人”的概率相对提升了。
1702643460
1702643461
回归平均数(或趋均数回归)。你或许曾经听到过一个叫作“《体育画报》封面诅咒”的说法,即成为《体育画报》封面人物的运动员或团队,在之后比赛中的成绩会出现不同程度的下滑。一种解释是,成为该杂志的封面人物会对接下来的表现产生不利影响。而另一个在统计学上更加说得过去的解释是,能上杂志封面的通常都是那些近期表现尤为出色的运动员或队伍,如20连胜之类的异乎寻常的竞技
1702643462
1702643463
表现,而他们之后的比赛成绩只不过是回归正常水平,这一现象就叫作回归平均数。概率学告诉我们,跟在异常值——在某个方向上远离平均数的数据——之后的更有可能是那些接近(长期积累得出的)平均数的数据。
1702643464
1702643465
回归平均数现象可以用来解释为什么芝加哥小熊队总是花大笔的“冤枉钱”,请一些让球迷们失望的自由球员为其效力。通常,棒球运动员在完成了一个或两个成绩极佳的赛季之后,便获得了谈判加薪的资本,换上一身小熊队的球服并不一定会让这些球员的表现变差(虽然球员表现与球队的训练和管理十分有关),但是小熊队花了大价钱买来的却是这些超级明星超常发挥的“尾端”,每个球星超水平发挥的时间段都是有限的,也就是那么一两年,过了超水平发挥的时间之后,他们的表现便会趋于正常,这也是为什么他们在小熊队效力时会让球迷大失所望——并非因为他们的技术很差,只不过是正常水平而已。
1702643466
1702643467
同样的现象还可以用来解释为什么有些学生在考试中会超常发挥,有时候又会不尽如人意;有些学生明明考得没有平时好,但重考的成绩却又稍稍提升了。要解释这一回归现象,一种思路是学生的考试成绩(无论是文化课还是体育课)基本上是由个人的努力和运气(统计学家称之为“随机误差”)构成的。也就是说,那些在某次考试中超常发挥的学生只不过是交好运了,而那些考试成绩与平时相比大失水准的考生只是运气差了一些。当好运或厄运终于结束时(总有结束的那一天),随之而来的表现就会更加接近平均值。
1702643468
1702643469
假设我正在组建一支抛硬币的明星团队(在认为扔硬币与天赋和能力有关的错误观念的驱使下),我发现了一名连续6次抛硬币都反面朝上的学生,于是我向他伸出了“橄榄枝”——一份价值5000万美元、为期10年的合约。不用说,10年之后我一定会失望至极,因为这名学生在这10年里抛出的硬币只有50%的情况是反面朝上。
1702643470
1702643471
乍一看,回归平均数可能会与“赌徒悖论”相排斥。当学生连续6次抛出的硬币都是反面朝上之后,下一次是不是“应该”正面朝上?他再次抛硬币得到正面向上的概率依旧没变:1/2。他已经连续多次抛出反面朝上的事实并不能增加他下一次抛出正面朝上的概率,每一次抛硬币都是一个独立事件。但是,我们可以期望接下来抛硬币的结果在总体上会和概率学所预测的一致,即半数是正面朝上、半数是反面朝上,而非之前出现的所有结果都是反面朝上。如果一个人一开始抛硬币的结果全都是反面朝上,那么在接下来的10次、20次或100次抛硬币的过程中肯定会出现更多的正面朝上的情况。大数定律告诉我们,抛的次数越多,得到的结果就越接近平均值(如果情况相反,那我们就应该开始怀疑是不是有人作弊)。
1702643472
1702643473
最后还有一个有趣的情况,研究者们发现了一个《商业周刊》现象。当公司高管获得了备受瞩目的高级别奖项,包括被提名为《商业周刊》的“最佳经理人”,他们的公司会在接下来的3年内遭受利润和股价的双重下挫。但是与《体育画报》效应不同的是,这一现象要比回归平均数复杂得多。根据加利福尼亚大学伯克利分校和洛杉矶分校的两位经济学家乌尔里克•马尔门迪尔和杰弗瑞·塔特的研究,当公司CEO们坐到了“超级明星”的位置,他们会被自身的“光环”所影响。他们开始写回忆录,被邀请成为外部董事,甚至开始物色美女为自己的终身幸福作打算(其实两位经济学家只给出了前面两个解释,第三个解释是我自己加的,而且我觉得这个解释同样具有说服力)。马尔门迪尔和塔特写道:“我们的研究表明,媒体主导的超级明星文化会导致行为扭曲,而且扭曲程度要超过单纯的平均值回归。”换言之,如果某位CEO成为《商业周刊》封面人物,请马上抛售其公司的股票。
1702643474
1702643475
统计性歧视。概率会告诉我们某个事件发生的可能性有多大,那么面对一个很有可能会发生的情况,我们到底应不应该做出反应?或者说,什么时候做出反应是可以的,而什么时候做出反应又是不可以的?2003年,欧盟就业社会事务专员安娜•迪曼托波罗提出,保险公司的保费政策不得因为客户的性别不同而有所差别,因为这违反了欧盟的平等对待原则。然而,对于保险公司来说,以性别区分保费的做法仅仅是出于统计学的考虑,与性别歧视无关。男性的车险费用要高一些,这是因为他们出事故的情况较多;女性需要多缴纳养老保险,这是因为她们活的时间更久些。当然,有的女性发生交通事故的比例高于男性,有的男性活得比女性久,但正如上一章所提到的,保险公司并不关心这些,它们只关心统计学意义上的现实,因为只要它们把平均值弄对了,公司就会挣钱。对于欧盟委员会于2012年实施的禁止保费男女有别的政策,有趣的地方在于,相关部门并没有否认性别与保险所承担的风险之间存在关联,但它们只是一直在强调这一基于性别的保费差异是不可能接受的。
1702643476
1702643477
这样的一个政策乍看上去会让我觉得反感,因为政策制定者们似乎眼里只有政治的正确性,对其他一概视而不见。但仔细一想,我又对自己的立场没那么确定了。还记得之前介绍的有关预防犯罪的知识吗?在这个领域,概率学既可以给我们带来神奇,也会增添很多烦恼。通过概率模型,我们得知从墨西哥进入美国的冰毒贩毒者最有可能是年龄为18〜30岁、21点至凌晨驾驶红色皮卡车的西班牙裔男子,但同时我们也知道符合上述标准的绝大多数西班牙裔男子都不是毒贩,那我们应该怎么办?这就是我在上一章描述得天花乱坠的预测分析方法的缺陷所在,至少是缺陷的一个方面。
1702643478
1702643479
概率学告诉我们什么情况更有可能发生、什么情况更不可能发生,这仅仅是概率学的基础,也就是我们在之前几章里一直探讨的,但我们还不能忽视统计学的社会影响。如果我们想要捉拿暴力犯、恐怖分子、贩毒人员,以及其他有可能对社会造成巨大损害的个人,我们就必须动用手中的一切工具,概率只是其中的一种,如果在执法过程中死守着概率不放,而忽略了性别、年龄、种族、家庭、宗教以及国籍等综合因素,那将会犯下幼稚的错误。
1702643480
1702643481
对于这些信息(假设它们在某种程度上具有预测价值)的处理,我们能做什么、应该做什么将会是一个复杂的法律问题,而非单纯的统计问题。每天,我们都会收集到有关更多事物的信息,如果这些数据告诉我们正确的概率要比错误的概率高,我们是否就能堂而皇之地进行歧视了(这就是“统计性歧视”或“理性歧视”概念的由来)?那些会买鸟食的人逾期不还信用卡的概率较低(这是真的!),诸如此类的分析可以应用到生活的方方面面,但是分析应该做到哪种程度?如果我们建立一个能够识别毒贩的模型,正确率为80%,那剩下的20%的无辜的人该怎么办?因为这些人将会无止境地遭到这一模型的骚扰。
1702643482
1702643483
摆在我们面前的一个更大的问题是,数据分析对人们的行为和事件结果的影响已经大大超出了分析人员的想象。对欧盟委员会禁止男女有别的保险费的决定,你可以表示赞成,也可以表示反对,但我可以保证这绝对不会是最后一个让人左右为难的决策。我们总是习惯性地认为数字是“冰冷、确凿的事实”,如果计算无误,那么我们就一定能够得到正确的答案。但一个更为纠结和危险的现实是,有时候正确无误的计算也会将我们带往一个危险、浮躁的方向:我们可以摧毁金融体系,也可以骚扰一个恰好在某个时间出现在某个街头的22岁白人男子,因为根据我们的统计模型,几乎可以确定他打算去买毒品。尽管概率有再多的简洁特性和精准优点,也不能替代人类作为行为主体对其所进行的计算、进行计算的原因所作的思考。
1702643484
1702643485
1702643486
1702643487
1702643489
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第8章 数据与偏见
[
上一页 ]
[ :1.70264344e+09 ]
[
下一页 ]