打字猴:1.701003414e+09
1701003414
1701003415 在上面的计算中,我们做了两处简化。
1701003416
1701003417 第一,我们把所有小数四舍五入为整数。比如,“这8个人中有7个人的乳房X射线检查结果呈阳性”。准确地说,8个患乳腺癌的人乳房X射线检查结果呈阳性的概率为90%,也就是说有8×0.9=7.2个人乳房X射线的检查结果呈阳性。此处,我们把7.2直接四舍五入为7,虽然精确度有所下降,但是整数会比小数更清楚易懂。
1701003418
1701003419 第二,我们假设实际情况和统计数据是完全相符的。比如,低风险人群的乳腺癌发病率是0.8%,那么假设1 000人样本中正好有8个人患病。现实中,情况往往不是这样,你抛1 000次硬币,不一定正好有500次的结果是正面朝上的。但是,我们需要假设样本完全服从统计数据的分布规律,否则我们就没办法计算了。
1701003420
1701003421 不得不承认,这个方法在逻辑上并不是很严密,所以,任何一本概率学教科书都不会采用这种方法。但是,与复杂的贝叶斯定理相比,我们的这种方法既简单又清楚,光这两个优点其实已经足够了。作为上述实验的对照,盖格瑞泽又找了另外24位医生,向他们提出同样的问题,只不过这次的数据不是以概率和百分比的形式给出,而是以事件发生的自然频率的形式给出(即直接给出翻译过后的题目)。结果是,几乎所有受访医生都给出了正确的答案(或者答案与正确答案很接近)。
1701003422
1701003423 把概率从百分比简化成事件发生次数,确实使问题解决起来容易许多,但是条件概率仍然是一个比较复杂的内容。有时候,我们甚至连问题都问错了;还有的时候,我们算出了正确的结果,却又被结果所误导,给出了错误的解释。
1701003424
1701003425 在1994~1995年辛普森杀妻案的庭审过程中,控方和辩方都犯了这类错误。在法庭上,双方律师都用错误的条件概率误导过陪审团。
1701003426
1701003427 在庭审的最初10天内,控方举出了无数证据说明辛普森常对前妻妮可尔·布朗实施家庭暴力。这几乎是控方这10天诉讼的唯一主题。控方声称,辛普森曾多次殴打前妻,把她往墙上推,甚至当众指着妮可尔对围观群众说:“看,这是属于我的东西!”但问题是,辛普森虐待前妻与他有没有谋杀她有什么关系呢?控方的观点是,长期对前妻实施家庭暴力说明辛普森有谋杀前妻的动机。按照控方自己的说法就是:“一个巴掌可能就是谋杀的前兆。”
1701003428
1701003429 而辩方律师阿兰·德尔绍维茨则反驳说,就算这些家暴事件全部属实,也和谋杀没有必然关系,所以不应该被采纳。阿兰·德尔绍维茨后来写道:“殴打配偶的男性中,只有非常少的人最后真的会谋杀配偶,这个概率低于1/2 500。如果庭审需要,我们可以轻松地明确证实这一点。”
1701003430
1701003431 实际上,不管是控方还是辩方,都在诱导陪审团考虑这样一个条件概率:在已知丈夫曾经殴打妻子的前提下,丈夫谋杀妻子的概率是多少。但是,正如统计学家I·J·古德所指出的那样,这个问题其实是错误的,陪审团应该考虑的并不是这个条件概率。
1701003432
1701003433 正确的问题应该是:在已知丈夫曾经殴打妻子,并且妻子确实死于谋杀的双重前提下,丈夫谋杀妻子的概率是多少。经过调查和计算,这个条件概率远远高于1/2 500。
1701003434
1701003435 为什么呢?让我们再次使用自然频率法,把概率和百分比转换成事件发生的次数。想象我们的样本是100 000个被丈夫殴打过的妇女。假设阿兰·德尔绍维茨的数据属实,那么这其中大概有40个妇女最终会被丈夫谋杀(100 000×1/2 500 = 40)。我们再假设,另外还有3个妇女被丈夫以外的人谋杀了(这是根据美国联邦调查局于1992年发布的女性被谋杀的数据算出来的)。也就是说,被谋杀的43位女性中,有40个妇女是被对她们实施家暴行为的丈夫杀掉的。因此,在已知丈夫曾经殴打妻子,并且妻子确实被人谋杀的双重前提下,丈夫谋杀妻子的概率高达93%!
1701003436
1701003437 当然,这个概率并不是辛普森杀妻的概率。辛普森是本案凶手的概率到底有多大,还取决于很多其他的证据(包括对他有利的证据和对他不利的证据)。比如,辩方称警方曾陷害过辛普森,控方则称凶手的鞋印、手套、DNA都与辛普森相吻合等。
1701003438
1701003439 但是,这些证据影响你对最终判决看法的概率又是多少呢?我想这个概率可能是零。
1701003440
1701003441
1701003442
1701003443
1701003444 X的奇幻之旅:在现实生活中发现数学思维之美 [:1701001378]
1701003445 X的奇幻之旅:在现实生活中发现数学思维之美 第24章 线性代数与强大的谷歌搜索引擎
1701003446
1701003447 在谷歌搜索引擎问世之前,网络搜索是一件很让人崩溃的事情。那时的搜索引擎常常给出一些不相关的搜索结果。而你想找的网站不是排在网站列表的第50页,就是显示根本找不到。
1701003448
1701003449 由于有了“链接分析”的算法,上述问题如今已被解决。“链接分析”算法的原理听起来像是一条似是而非的禅理:网络搜索应该反馈最佳网页。那么,什么样的网页是最佳网页呢?最佳网页是那些链接着其他最佳网页的网页。
1701003450
1701003451 这听起来有点儿循环论证的意味。事实上,这就是一个循环论证,而且这个理念的深刻之处就在于它的循环论证性。“链接分析”征服了这个循环论证,把劣势变成了优势,最终,一种柔术般的网络搜索方法横空出世了。
1701003452
1701003453 这种算法的数学基础是线性代数。线性代数是处理向量和矩阵的一种数学工具,当你想从大量数据中发现规律,或者进行含有数百万个变量的超大型计算的时候,你就需要用到线性代数。线性代数除了可以帮谷歌公司设计出“网页排序号”的搜索算法,还可用于人脸识别技术、分析高等法院的判决规律、赢得网飞(Netflix)公司的百万美元大奖等。
1701003454
1701003455 为了解释线性代数的工作原理,我们以谷歌的网页链接搜索技术为实例进行说明。当然,现实中这个技术是非常复杂的,但此处我们只看一个极度简化的模型。假设有一个迷你网络,这个网络只含有3个页面X、Y和Z,这3个页面的链接方式如下图所示。
1701003456
1701003457
1701003458
1701003459
1701003460 上图中的箭头含义如下:页面X含有页面Y的链接,但是页面Y却不含有页面X的链接。页面Y含有页面Z的链接。页面X和Z互相链接。
1701003461
1701003462 下面,我们考虑这样一个问题:在这个迷你网络中,哪个网页最重要,哪个网页最不重要?你可能会说,信息不足回答不了这个问题,因为我们完全不知道这3个网页的内容。抱歉,你的这种说法已经过时了。事实证明,通过研究网页的内容来研究网络搜索是行不通的,这种方法现在基本被淘汰了。计算机不大善于评判一个网页的内容,而我们也不可能人为地去做这件事情,毕竟每天都有成千上万的新网络页面产生。
1701003463
[ 上一页 ]  [ :1.701003414e+09 ]  [ 下一页 ]