1701003420
1701003421
不得不承认,这个方法在逻辑上并不是很严密,所以,任何一本概率学教科书都不会采用这种方法。但是,与复杂的贝叶斯定理相比,我们的这种方法既简单又清楚,光这两个优点其实已经足够了。作为上述实验的对照,盖格瑞泽又找了另外24位医生,向他们提出同样的问题,只不过这次的数据不是以概率和百分比的形式给出,而是以事件发生的自然频率的形式给出(即直接给出翻译过后的题目)。结果是,几乎所有受访医生都给出了正确的答案(或者答案与正确答案很接近)。
1701003422
1701003423
把概率从百分比简化成事件发生次数,确实使问题解决起来容易许多,但是条件概率仍然是一个比较复杂的内容。有时候,我们甚至连问题都问错了;还有的时候,我们算出了正确的结果,却又被结果所误导,给出了错误的解释。
1701003424
1701003425
在1994~1995年辛普森杀妻案的庭审过程中,控方和辩方都犯了这类错误。在法庭上,双方律师都用错误的条件概率误导过陪审团。
1701003426
1701003427
在庭审的最初10天内,控方举出了无数证据说明辛普森常对前妻妮可尔·布朗实施家庭暴力。这几乎是控方这10天诉讼的唯一主题。控方声称,辛普森曾多次殴打前妻,把她往墙上推,甚至当众指着妮可尔对围观群众说:“看,这是属于我的东西!”但问题是,辛普森虐待前妻与他有没有谋杀她有什么关系呢?控方的观点是,长期对前妻实施家庭暴力说明辛普森有谋杀前妻的动机。按照控方自己的说法就是:“一个巴掌可能就是谋杀的前兆。”
1701003428
1701003429
而辩方律师阿兰·德尔绍维茨则反驳说,就算这些家暴事件全部属实,也和谋杀没有必然关系,所以不应该被采纳。阿兰·德尔绍维茨后来写道:“殴打配偶的男性中,只有非常少的人最后真的会谋杀配偶,这个概率低于1/2 500。如果庭审需要,我们可以轻松地明确证实这一点。”
1701003430
1701003431
实际上,不管是控方还是辩方,都在诱导陪审团考虑这样一个条件概率:在已知丈夫曾经殴打妻子的前提下,丈夫谋杀妻子的概率是多少。但是,正如统计学家I·J·古德所指出的那样,这个问题其实是错误的,陪审团应该考虑的并不是这个条件概率。
1701003432
1701003433
正确的问题应该是:在已知丈夫曾经殴打妻子,并且妻子确实死于谋杀的双重前提下,丈夫谋杀妻子的概率是多少。经过调查和计算,这个条件概率远远高于1/2 500。
1701003434
1701003435
为什么呢?让我们再次使用自然频率法,把概率和百分比转换成事件发生的次数。想象我们的样本是100 000个被丈夫殴打过的妇女。假设阿兰·德尔绍维茨的数据属实,那么这其中大概有40个妇女最终会被丈夫谋杀(100 000×1/2 500 = 40)。我们再假设,另外还有3个妇女被丈夫以外的人谋杀了(这是根据美国联邦调查局于1992年发布的女性被谋杀的数据算出来的)。也就是说,被谋杀的43位女性中,有40个妇女是被对她们实施家暴行为的丈夫杀掉的。因此,在已知丈夫曾经殴打妻子,并且妻子确实被人谋杀的双重前提下,丈夫谋杀妻子的概率高达93%!
1701003436
1701003437
当然,这个概率并不是辛普森杀妻的概率。辛普森是本案凶手的概率到底有多大,还取决于很多其他的证据(包括对他有利的证据和对他不利的证据)。比如,辩方称警方曾陷害过辛普森,控方则称凶手的鞋印、手套、DNA都与辛普森相吻合等。
1701003438
1701003439
但是,这些证据影响你对最终判决看法的概率又是多少呢?我想这个概率可能是零。
1701003440
1701003441
1701003442
1701003443
1701003445
X的奇幻之旅:在现实生活中发现数学思维之美 第24章 线性代数与强大的谷歌搜索引擎
1701003446
1701003447
在谷歌搜索引擎问世之前,网络搜索是一件很让人崩溃的事情。那时的搜索引擎常常给出一些不相关的搜索结果。而你想找的网站不是排在网站列表的第50页,就是显示根本找不到。
1701003448
1701003449
由于有了“链接分析”的算法,上述问题如今已被解决。“链接分析”算法的原理听起来像是一条似是而非的禅理:网络搜索应该反馈最佳网页。那么,什么样的网页是最佳网页呢?最佳网页是那些链接着其他最佳网页的网页。
1701003450
1701003451
这听起来有点儿循环论证的意味。事实上,这就是一个循环论证,而且这个理念的深刻之处就在于它的循环论证性。“链接分析”征服了这个循环论证,把劣势变成了优势,最终,一种柔术般的网络搜索方法横空出世了。
1701003452
1701003453
这种算法的数学基础是线性代数。线性代数是处理向量和矩阵的一种数学工具,当你想从大量数据中发现规律,或者进行含有数百万个变量的超大型计算的时候,你就需要用到线性代数。线性代数除了可以帮谷歌公司设计出“网页排序号”的搜索算法,还可用于人脸识别技术、分析高等法院的判决规律、赢得网飞(Netflix)公司的百万美元大奖等。
1701003454
1701003455
为了解释线性代数的工作原理,我们以谷歌的网页链接搜索技术为实例进行说明。当然,现实中这个技术是非常复杂的,但此处我们只看一个极度简化的模型。假设有一个迷你网络,这个网络只含有3个页面X、Y和Z,这3个页面的链接方式如下图所示。
1701003456
1701003457
1701003458
1701003459
1701003460
上图中的箭头含义如下:页面X含有页面Y的链接,但是页面Y却不含有页面X的链接。页面Y含有页面Z的链接。页面X和Z互相链接。
1701003461
1701003462
下面,我们考虑这样一个问题:在这个迷你网络中,哪个网页最重要,哪个网页最不重要?你可能会说,信息不足回答不了这个问题,因为我们完全不知道这3个网页的内容。抱歉,你的这种说法已经过时了。事实证明,通过研究网页的内容来研究网络搜索是行不通的,这种方法现在基本被淘汰了。计算机不大善于评判一个网页的内容,而我们也不可能人为地去做这件事情,毕竟每天都有成千上万的新网络页面产生。
1701003463
1701003464
谷歌的创始人拉里·佩奇和谢尔盖·布林当时还是研究生院的两个学生,他们发明了一种新的网络搜索算法:让网页自己给自己投票,不是举手投票,而是用实际行动(链接)投票。在上面的例子中,页面X和页面Y都链向页面Z,页面Z是这个迷你网络中唯一有两个外链接指向它的页面。所以,页面Z是这个迷你网络中最“流行”的网页。“流行度”是有信息含量的。但是,如果一个可疑网页链向另一个网页,那么另一个网页也应该被扣分,就像一个不可靠的人推荐的人不值得别人信任一样。“流行度”本身不说明问题,只有被好的网页“推荐”(好的网页里含有你的链接),才能获得加分。
1701003465
1701003466
于是,我们又回到了那句禅语:最佳网页是那些链接其他最佳网页的网页。但是,一开始,谁来决定哪些网页是最佳网页呢?
1701003467
1701003468
我们让网络自己来决定,具体方式如下:
1701003469
[
上一页 ]
[ :1.70100342e+09 ]
[
下一页 ]