1704438386
1704438387
恐怖分子未驾机袭击曼哈顿世贸中心大楼的概率(意外事故)
1704438388
1704438389
z
1704438390
1704438391
0.008%
1704438392
1704438393
后验概率
1704438394
1704438395
在第二架飞机袭击世贸中心大楼的情况下,恐怖分子第三次袭击
1704438396
1704438397
世贸中心大楼的概率
1704438398
1704438399
x y
1704438400
1704438401
xy + z(1- x)
1704438402
1704438403
99.99%
1704438404
1704438405
恐怖袭击、癌症、出轨等,这些富有挑战性的例子都是我精心挑选的,因为它们更能体现出贝叶斯定理的应用十分广泛。贝叶斯定理不是什么神奇的公式,在本书使用的简单形式中,无非是加、减、乘、除这些运算。我们还需要添加更多信息,特别是对先验概率的估计值,这样才能得出有用的结果。
1704438406
1704438407
即使是涉及我们不愿称为“偶然事件”的事件,贝叶斯定理也会要求我们用概率的方法思考问题。拉普拉斯认为,世间万物,不论是行星的运行轨迹,还是最小的分子运动,都是受牛顿定律支配的,这对于发展贝叶斯定理也是极有帮助的。不同的是,贝叶斯定理并不是要求我们认为世界在本质上和理论上都是不确定的,这一定理研究的是认识论的不确定性,也就是我们认识的局限性。
1704438408
1704438409
为什么大数据时代的预测更容易失败?
1704438410
1704438411
如果不能按照贝叶斯定理来思考问题,不单是乳房 X 光片会出现“假阳性”报告,所有科学都会出问题。2005年,埃尼迪斯发表了一篇非常有影响力的文章,题为“为什么大多数发表的研究成果都是骗人的”。埃尼迪斯在文中引用了大量统计论据和理论论据,就是为了说明医学期刊和其他学术或科学领域中,大量被视为真实的假设实际上都是不真实的。
1704438412
1704438413
正如我们提到的那样,埃尼迪斯的假设看上去还算是真实的。拜耳实验室发现,当他们试图利用实验再现医学期刊中的阳性结果时,却发现约2/3的结果都无法复制。检查一项研究发现是否真实的另一条途径是,看其在真实世界中能否做出准确的预测,正如本书所示,大多数情况下,这些发现都无法做出准确的预测。各个领域,从地震学到政治科学,预测的失败率实际上相当高。
1704438414
1704438415
埃尼迪斯告诉我:“过去20年里,可供使用的信息、基因组学和其他技术皆呈指数增长,有几百万个有趣的变量供我们测量。因此,我们希望利用这些信息和技术使预测成真,我这样讲并不是说我们过去没有取得多少进步,几百万份论文铺天盖地,如果真是没有什么进步,那将多么令人惭愧。但我们的新发现的数量明显比不上论文的数量,在创造新知识方面,大部分论文所做出的贡献真是微不足道。”
1704438416
1704438417
这也是为什么我们的预测在大数据时代更容易失败。拥有的信息量呈指数增长,需要验证的假设也正在以同样的速度增长。比如,美国政府现在发布了约45000份关于经济的统计数据,如果你想要探究这些统计中所有两两组合之间的关系,比如亚拉巴马州的银行优惠贷款利率和失业率之间是否存在因果关系,则需要对10亿个假设进行验证。
1704438418
1704438419
但是,数据中那些有意义的关系组合——这里指的是因果关系而非相关性组合,而且这些组合能够证实这个世界是如何运转的——少之又少,增长的速度也不及信息本身的增长速度快,如今的真实信息也并不比互联网和印刷机问世之前多多少。大多数数据都只是噪声,就像宇宙的大部分都是真空区一样。
1704438420
1704438421
与此同时,就像贝叶斯定理所讲的那样,在某一个群体中,当某事的潜在发生率很低时(如年轻女性患乳腺癌的概率或庞大数据的真实性),如果我们不够小心,错误的判断就会主导事件的结果。图8–3生动地体现了这一点。在图中,80%的“真实”科学假设都被视为正确,而90%的错误假设则遭到抵制,这看似没问题。然而,因为真实的发现非常少有,而其中却大约有2/3的发现被认为是真实的发现,其实是错误的。
1704438422
1704438423
不幸的是,就像埃尼迪斯指出的那样,大部分进行统计学检验的领域所发表的研究著作,大概都如图8–3所示。错误率为什么这么高?本书在一定程度上解答了这个问题。原因有很多,有些与我们的心理偏见有关,有些与普遍的错误方法有关,还有一些与错误的动机有关。然而,归根结底是因为这些研究应用的统计学思维方式存在缺陷。
1704438424
1704438425
1704438426
1704438427
1704438428
图8–3 错误的判断图解
1704438429
1704438430
当统计数据偏离了贝叶斯定理
1704438431
1704438432
托马斯·贝叶斯最主要的思想劲敌大概要数英国统计学家及生物学家罗纳德·艾尔默·费希尔了。费希尔在贝叶斯去世将近120年后(1890年)才出生,他天性活泼,几乎可以成为克里斯托弗·希钦斯笔下的英国传统智慧型人物。费希尔长相清秀却衣衫不整,不是叼着烟斗,就是抽着香烟,还时不时地与真实存在的竞争对手或假想敌发生冲突。他在讲课方面平淡无奇,可做起文章来却深刻透彻,在戏剧创作上也极具天赋,另外大家都很喜欢和他共同进餐。费希尔兴趣广泛,是当时最杰出的生物学家和遗传学家之一,但作为精英人物,他却毫不掩饰地抱怨社会贫困阶层的生育率高于知识分子阶层的生育率。(而他本人就有8个孩子。)
1704438433
1704438434
统计学方法在当今之所以能够得到广泛使用,费希尔功不可没。他提出了“统计学显著性检测”的术语及方法论。虽然费希尔在他发表的一篇论文中第一次使用了“贝叶斯定理”这个术语,但其本意是想贬损贝叶斯。费希尔的另外一个主张是“将贝叶斯定理完全摒弃”,也可以说,他对贝叶斯和拉普拉斯完全不感兴趣。
1704438435
[
上一页 ]
[ :1.704438386e+09 ]
[
下一页 ]