1701003400
1701003401
我提出这个问题以后,这位医生显得很紧张,他很努力地想要算出正确的数值。在仔细研究过我给出的数据以后,这位医生判断,在乳房X射线检查结果呈阳性的前提下,这位妇女实际患有乳腺癌的概率是90%。回答完这个问题以后,这位医生又立刻推翻了自己的答案,他紧张地说:“我肯定搞错了,我根本不会算。你应该去问我的女儿,她正在医学院读书。”显然,这位医生很清楚自己的答案是错误的,但是他却不知道怎么才能算对。虽然他对这个问题冥思苦想了足有10分钟,但他却根本不清楚应该怎样使用概率。
1701003402
1701003403
同样的问题,盖格瑞泽又询问了24位德国医生,这些医生给出的答案五花八门。有8位医生认为,这位妇女实际患有乳腺癌的概率应该为10%或者更低;另有8个医生认为,这位妇女实际患有乳腺癌的概率是90%;剩下的8名医生认为,这位妇女实际患有乳腺癌的概率为50%~80%。想象一下,如果你是一位病人,听到这些结果不一的诊断意见,你的心里会有多么痛苦。
1701003404
1701003405
那么,美国医生的表现又如何呢?85%的受访医生认为,该妇女罹患乳癌的概率应该约为75%。
1701003406
1701003407
其实,这道题的正确答案是9%。
1701003408
1701003409
为什么这位妇女实际患乳癌的概率这么低?盖格瑞泽指出,只要把题目的说法从概率和百分比“翻译”成事件发生的次数,这道题就会变得非常简单。具体翻译如下:
1701003410
1701003411
在年龄为40~50岁、无家族乳腺癌病史、本人无乳腺癌症状的每1 000位妇女中,就会有8人罹患乳腺癌。这8个人中有7个人的乳房X射线检查结果呈阳性。在没有患上乳腺癌的992人中,大约有70人的乳房X射线检查结果会错误地显示为阳性。现在有一个乳房X射线检查结果呈阳性的妇女,请问她实际患有乳腺癌的概率是多少?
1701003412
1701003413
非常简单。1 000人中检查结果呈阳性的一共有7+70=77个人。这77个人中,只有7个人确实是乳腺癌患者,剩下的70人并没有患上乳腺癌。所以,在检查结果呈阳性的前提下,实际患有乳腺癌的概率是7除以77,也就是1/11或者约9%。
1701003414
1701003415
在上面的计算中,我们做了两处简化。
1701003416
1701003417
第一,我们把所有小数四舍五入为整数。比如,“这8个人中有7个人的乳房X射线检查结果呈阳性”。准确地说,8个患乳腺癌的人乳房X射线检查结果呈阳性的概率为90%,也就是说有8×0.9=7.2个人乳房X射线的检查结果呈阳性。此处,我们把7.2直接四舍五入为7,虽然精确度有所下降,但是整数会比小数更清楚易懂。
1701003418
1701003419
第二,我们假设实际情况和统计数据是完全相符的。比如,低风险人群的乳腺癌发病率是0.8%,那么假设1 000人样本中正好有8个人患病。现实中,情况往往不是这样,你抛1 000次硬币,不一定正好有500次的结果是正面朝上的。但是,我们需要假设样本完全服从统计数据的分布规律,否则我们就没办法计算了。
1701003420
1701003421
不得不承认,这个方法在逻辑上并不是很严密,所以,任何一本概率学教科书都不会采用这种方法。但是,与复杂的贝叶斯定理相比,我们的这种方法既简单又清楚,光这两个优点其实已经足够了。作为上述实验的对照,盖格瑞泽又找了另外24位医生,向他们提出同样的问题,只不过这次的数据不是以概率和百分比的形式给出,而是以事件发生的自然频率的形式给出(即直接给出翻译过后的题目)。结果是,几乎所有受访医生都给出了正确的答案(或者答案与正确答案很接近)。
1701003422
1701003423
把概率从百分比简化成事件发生次数,确实使问题解决起来容易许多,但是条件概率仍然是一个比较复杂的内容。有时候,我们甚至连问题都问错了;还有的时候,我们算出了正确的结果,却又被结果所误导,给出了错误的解释。
1701003424
1701003425
在1994~1995年辛普森杀妻案的庭审过程中,控方和辩方都犯了这类错误。在法庭上,双方律师都用错误的条件概率误导过陪审团。
1701003426
1701003427
在庭审的最初10天内,控方举出了无数证据说明辛普森常对前妻妮可尔·布朗实施家庭暴力。这几乎是控方这10天诉讼的唯一主题。控方声称,辛普森曾多次殴打前妻,把她往墙上推,甚至当众指着妮可尔对围观群众说:“看,这是属于我的东西!”但问题是,辛普森虐待前妻与他有没有谋杀她有什么关系呢?控方的观点是,长期对前妻实施家庭暴力说明辛普森有谋杀前妻的动机。按照控方自己的说法就是:“一个巴掌可能就是谋杀的前兆。”
1701003428
1701003429
而辩方律师阿兰·德尔绍维茨则反驳说,就算这些家暴事件全部属实,也和谋杀没有必然关系,所以不应该被采纳。阿兰·德尔绍维茨后来写道:“殴打配偶的男性中,只有非常少的人最后真的会谋杀配偶,这个概率低于1/2 500。如果庭审需要,我们可以轻松地明确证实这一点。”
1701003430
1701003431
实际上,不管是控方还是辩方,都在诱导陪审团考虑这样一个条件概率:在已知丈夫曾经殴打妻子的前提下,丈夫谋杀妻子的概率是多少。但是,正如统计学家I·J·古德所指出的那样,这个问题其实是错误的,陪审团应该考虑的并不是这个条件概率。
1701003432
1701003433
正确的问题应该是:在已知丈夫曾经殴打妻子,并且妻子确实死于谋杀的双重前提下,丈夫谋杀妻子的概率是多少。经过调查和计算,这个条件概率远远高于1/2 500。
1701003434
1701003435
为什么呢?让我们再次使用自然频率法,把概率和百分比转换成事件发生的次数。想象我们的样本是100 000个被丈夫殴打过的妇女。假设阿兰·德尔绍维茨的数据属实,那么这其中大概有40个妇女最终会被丈夫谋杀(100 000×1/2 500 = 40)。我们再假设,另外还有3个妇女被丈夫以外的人谋杀了(这是根据美国联邦调查局于1992年发布的女性被谋杀的数据算出来的)。也就是说,被谋杀的43位女性中,有40个妇女是被对她们实施家暴行为的丈夫杀掉的。因此,在已知丈夫曾经殴打妻子,并且妻子确实被人谋杀的双重前提下,丈夫谋杀妻子的概率高达93%!
1701003436
1701003437
当然,这个概率并不是辛普森杀妻的概率。辛普森是本案凶手的概率到底有多大,还取决于很多其他的证据(包括对他有利的证据和对他不利的证据)。比如,辩方称警方曾陷害过辛普森,控方则称凶手的鞋印、手套、DNA都与辛普森相吻合等。
1701003438
1701003439
但是,这些证据影响你对最终判决看法的概率又是多少呢?我想这个概率可能是零。
1701003440
1701003441
1701003442
1701003443
1701003445
X的奇幻之旅:在现实生活中发现数学思维之美 第24章 线性代数与强大的谷歌搜索引擎
1701003446
1701003447
在谷歌搜索引擎问世之前,网络搜索是一件很让人崩溃的事情。那时的搜索引擎常常给出一些不相关的搜索结果。而你想找的网站不是排在网站列表的第50页,就是显示根本找不到。
1701003448
1701003449
由于有了“链接分析”的算法,上述问题如今已被解决。“链接分析”算法的原理听起来像是一条似是而非的禅理:网络搜索应该反馈最佳网页。那么,什么样的网页是最佳网页呢?最佳网页是那些链接着其他最佳网页的网页。
[
上一页 ]
[ :1.7010034e+09 ]
[
下一页 ]