1701003394
1701003395
在其中一项研究中,盖格瑞泽和他的同事请德国和美国的医生们来解答这样一个问题:如果一位妇女的乳房X射线检查结果呈阳性,但是这位妇女又属于乳腺癌发病风险较低的人群(年龄在40~50岁,无家族乳腺癌病史,本人无乳腺癌症状),那么她罹患乳腺癌的概率到底有多大?为了把问题进一步具体化,盖格瑞泽给受访的医生们提供了如下信息:一是这个人群中乳癌的发病率,二是乳房X射线检查的灵敏度和阴性被误判为阳性的概率。这些信息都是以概率和百分比的形式给出的,具体数据如下:
1701003396
1701003397
在年龄为40~50岁、无家族乳腺癌病史、本人无乳腺癌症状的妇女中,乳腺癌发病率是0.8%。如果一位妇女确实患有乳腺癌,那么乳房X射线检查呈阳性的概率是90%。如果一位妇女没有患上乳腺癌,但乳房X射线检查结果呈阳性的概率为7%。现在,有一位妇女,她属于乳腺癌发病风险较低的人群,但是她的乳房X射线检查结果呈阳性,请问她实际患有乳腺癌的概率是多少?
1701003398
1701003399
盖格瑞泽询问的第一位医生是一所大学附属医院某部门的主任,对于乳腺癌的诊断,这位医生有着超过30年的专业经验。根据盖格瑞泽的描述,这位医生对上述问题的反应是这样的:
1701003400
1701003401
我提出这个问题以后,这位医生显得很紧张,他很努力地想要算出正确的数值。在仔细研究过我给出的数据以后,这位医生判断,在乳房X射线检查结果呈阳性的前提下,这位妇女实际患有乳腺癌的概率是90%。回答完这个问题以后,这位医生又立刻推翻了自己的答案,他紧张地说:“我肯定搞错了,我根本不会算。你应该去问我的女儿,她正在医学院读书。”显然,这位医生很清楚自己的答案是错误的,但是他却不知道怎么才能算对。虽然他对这个问题冥思苦想了足有10分钟,但他却根本不清楚应该怎样使用概率。
1701003402
1701003403
同样的问题,盖格瑞泽又询问了24位德国医生,这些医生给出的答案五花八门。有8位医生认为,这位妇女实际患有乳腺癌的概率应该为10%或者更低;另有8个医生认为,这位妇女实际患有乳腺癌的概率是90%;剩下的8名医生认为,这位妇女实际患有乳腺癌的概率为50%~80%。想象一下,如果你是一位病人,听到这些结果不一的诊断意见,你的心里会有多么痛苦。
1701003404
1701003405
那么,美国医生的表现又如何呢?85%的受访医生认为,该妇女罹患乳癌的概率应该约为75%。
1701003406
1701003407
其实,这道题的正确答案是9%。
1701003408
1701003409
为什么这位妇女实际患乳癌的概率这么低?盖格瑞泽指出,只要把题目的说法从概率和百分比“翻译”成事件发生的次数,这道题就会变得非常简单。具体翻译如下:
1701003410
1701003411
在年龄为40~50岁、无家族乳腺癌病史、本人无乳腺癌症状的每1 000位妇女中,就会有8人罹患乳腺癌。这8个人中有7个人的乳房X射线检查结果呈阳性。在没有患上乳腺癌的992人中,大约有70人的乳房X射线检查结果会错误地显示为阳性。现在有一个乳房X射线检查结果呈阳性的妇女,请问她实际患有乳腺癌的概率是多少?
1701003412
1701003413
非常简单。1 000人中检查结果呈阳性的一共有7+70=77个人。这77个人中,只有7个人确实是乳腺癌患者,剩下的70人并没有患上乳腺癌。所以,在检查结果呈阳性的前提下,实际患有乳腺癌的概率是7除以77,也就是1/11或者约9%。
1701003414
1701003415
在上面的计算中,我们做了两处简化。
1701003416
1701003417
第一,我们把所有小数四舍五入为整数。比如,“这8个人中有7个人的乳房X射线检查结果呈阳性”。准确地说,8个患乳腺癌的人乳房X射线检查结果呈阳性的概率为90%,也就是说有8×0.9=7.2个人乳房X射线的检查结果呈阳性。此处,我们把7.2直接四舍五入为7,虽然精确度有所下降,但是整数会比小数更清楚易懂。
1701003418
1701003419
第二,我们假设实际情况和统计数据是完全相符的。比如,低风险人群的乳腺癌发病率是0.8%,那么假设1 000人样本中正好有8个人患病。现实中,情况往往不是这样,你抛1 000次硬币,不一定正好有500次的结果是正面朝上的。但是,我们需要假设样本完全服从统计数据的分布规律,否则我们就没办法计算了。
1701003420
1701003421
不得不承认,这个方法在逻辑上并不是很严密,所以,任何一本概率学教科书都不会采用这种方法。但是,与复杂的贝叶斯定理相比,我们的这种方法既简单又清楚,光这两个优点其实已经足够了。作为上述实验的对照,盖格瑞泽又找了另外24位医生,向他们提出同样的问题,只不过这次的数据不是以概率和百分比的形式给出,而是以事件发生的自然频率的形式给出(即直接给出翻译过后的题目)。结果是,几乎所有受访医生都给出了正确的答案(或者答案与正确答案很接近)。
1701003422
1701003423
把概率从百分比简化成事件发生次数,确实使问题解决起来容易许多,但是条件概率仍然是一个比较复杂的内容。有时候,我们甚至连问题都问错了;还有的时候,我们算出了正确的结果,却又被结果所误导,给出了错误的解释。
1701003424
1701003425
在1994~1995年辛普森杀妻案的庭审过程中,控方和辩方都犯了这类错误。在法庭上,双方律师都用错误的条件概率误导过陪审团。
1701003426
1701003427
在庭审的最初10天内,控方举出了无数证据说明辛普森常对前妻妮可尔·布朗实施家庭暴力。这几乎是控方这10天诉讼的唯一主题。控方声称,辛普森曾多次殴打前妻,把她往墙上推,甚至当众指着妮可尔对围观群众说:“看,这是属于我的东西!”但问题是,辛普森虐待前妻与他有没有谋杀她有什么关系呢?控方的观点是,长期对前妻实施家庭暴力说明辛普森有谋杀前妻的动机。按照控方自己的说法就是:“一个巴掌可能就是谋杀的前兆。”
1701003428
1701003429
而辩方律师阿兰·德尔绍维茨则反驳说,就算这些家暴事件全部属实,也和谋杀没有必然关系,所以不应该被采纳。阿兰·德尔绍维茨后来写道:“殴打配偶的男性中,只有非常少的人最后真的会谋杀配偶,这个概率低于1/2 500。如果庭审需要,我们可以轻松地明确证实这一点。”
1701003430
1701003431
实际上,不管是控方还是辩方,都在诱导陪审团考虑这样一个条件概率:在已知丈夫曾经殴打妻子的前提下,丈夫谋杀妻子的概率是多少。但是,正如统计学家I·J·古德所指出的那样,这个问题其实是错误的,陪审团应该考虑的并不是这个条件概率。
1701003432
1701003433
正确的问题应该是:在已知丈夫曾经殴打妻子,并且妻子确实死于谋杀的双重前提下,丈夫谋杀妻子的概率是多少。经过调查和计算,这个条件概率远远高于1/2 500。
1701003434
1701003435
为什么呢?让我们再次使用自然频率法,把概率和百分比转换成事件发生的次数。想象我们的样本是100 000个被丈夫殴打过的妇女。假设阿兰·德尔绍维茨的数据属实,那么这其中大概有40个妇女最终会被丈夫谋杀(100 000×1/2 500 = 40)。我们再假设,另外还有3个妇女被丈夫以外的人谋杀了(这是根据美国联邦调查局于1992年发布的女性被谋杀的数据算出来的)。也就是说,被谋杀的43位女性中,有40个妇女是被对她们实施家暴行为的丈夫杀掉的。因此,在已知丈夫曾经殴打妻子,并且妻子确实被人谋杀的双重前提下,丈夫谋杀妻子的概率高达93%!
1701003436
1701003437
当然,这个概率并不是辛普森杀妻的概率。辛普森是本案凶手的概率到底有多大,还取决于很多其他的证据(包括对他有利的证据和对他不利的证据)。比如,辩方称警方曾陷害过辛普森,控方则称凶手的鞋印、手套、DNA都与辛普森相吻合等。
1701003438
1701003439
但是,这些证据影响你对最终判决看法的概率又是多少呢?我想这个概率可能是零。
1701003440
1701003441
1701003442
1701003443
[
上一页 ]
[ :1.701003394e+09 ]
[
下一页 ]