1704438399
x y
1704438400
1704438401
xy + z(1- x)
1704438402
1704438403
99.99%
1704438404
1704438405
恐怖袭击、癌症、出轨等,这些富有挑战性的例子都是我精心挑选的,因为它们更能体现出贝叶斯定理的应用十分广泛。贝叶斯定理不是什么神奇的公式,在本书使用的简单形式中,无非是加、减、乘、除这些运算。我们还需要添加更多信息,特别是对先验概率的估计值,这样才能得出有用的结果。
1704438406
1704438407
即使是涉及我们不愿称为“偶然事件”的事件,贝叶斯定理也会要求我们用概率的方法思考问题。拉普拉斯认为,世间万物,不论是行星的运行轨迹,还是最小的分子运动,都是受牛顿定律支配的,这对于发展贝叶斯定理也是极有帮助的。不同的是,贝叶斯定理并不是要求我们认为世界在本质上和理论上都是不确定的,这一定理研究的是认识论的不确定性,也就是我们认识的局限性。
1704438408
1704438409
为什么大数据时代的预测更容易失败?
1704438410
1704438411
如果不能按照贝叶斯定理来思考问题,不单是乳房 X 光片会出现“假阳性”报告,所有科学都会出问题。2005年,埃尼迪斯发表了一篇非常有影响力的文章,题为“为什么大多数发表的研究成果都是骗人的”。埃尼迪斯在文中引用了大量统计论据和理论论据,就是为了说明医学期刊和其他学术或科学领域中,大量被视为真实的假设实际上都是不真实的。
1704438412
1704438413
正如我们提到的那样,埃尼迪斯的假设看上去还算是真实的。拜耳实验室发现,当他们试图利用实验再现医学期刊中的阳性结果时,却发现约2/3的结果都无法复制。检查一项研究发现是否真实的另一条途径是,看其在真实世界中能否做出准确的预测,正如本书所示,大多数情况下,这些发现都无法做出准确的预测。各个领域,从地震学到政治科学,预测的失败率实际上相当高。
1704438414
1704438415
埃尼迪斯告诉我:“过去20年里,可供使用的信息、基因组学和其他技术皆呈指数增长,有几百万个有趣的变量供我们测量。因此,我们希望利用这些信息和技术使预测成真,我这样讲并不是说我们过去没有取得多少进步,几百万份论文铺天盖地,如果真是没有什么进步,那将多么令人惭愧。但我们的新发现的数量明显比不上论文的数量,在创造新知识方面,大部分论文所做出的贡献真是微不足道。”
1704438416
1704438417
这也是为什么我们的预测在大数据时代更容易失败。拥有的信息量呈指数增长,需要验证的假设也正在以同样的速度增长。比如,美国政府现在发布了约45000份关于经济的统计数据,如果你想要探究这些统计中所有两两组合之间的关系,比如亚拉巴马州的银行优惠贷款利率和失业率之间是否存在因果关系,则需要对10亿个假设进行验证。
1704438418
1704438419
但是,数据中那些有意义的关系组合——这里指的是因果关系而非相关性组合,而且这些组合能够证实这个世界是如何运转的——少之又少,增长的速度也不及信息本身的增长速度快,如今的真实信息也并不比互联网和印刷机问世之前多多少。大多数数据都只是噪声,就像宇宙的大部分都是真空区一样。
1704438420
1704438421
与此同时,就像贝叶斯定理所讲的那样,在某一个群体中,当某事的潜在发生率很低时(如年轻女性患乳腺癌的概率或庞大数据的真实性),如果我们不够小心,错误的判断就会主导事件的结果。图8–3生动地体现了这一点。在图中,80%的“真实”科学假设都被视为正确,而90%的错误假设则遭到抵制,这看似没问题。然而,因为真实的发现非常少有,而其中却大约有2/3的发现被认为是真实的发现,其实是错误的。
1704438422
1704438423
不幸的是,就像埃尼迪斯指出的那样,大部分进行统计学检验的领域所发表的研究著作,大概都如图8–3所示。错误率为什么这么高?本书在一定程度上解答了这个问题。原因有很多,有些与我们的心理偏见有关,有些与普遍的错误方法有关,还有一些与错误的动机有关。然而,归根结底是因为这些研究应用的统计学思维方式存在缺陷。
1704438424
1704438425
1704438426
1704438427
1704438428
图8–3 错误的判断图解
1704438429
1704438430
当统计数据偏离了贝叶斯定理
1704438431
1704438432
托马斯·贝叶斯最主要的思想劲敌大概要数英国统计学家及生物学家罗纳德·艾尔默·费希尔了。费希尔在贝叶斯去世将近120年后(1890年)才出生,他天性活泼,几乎可以成为克里斯托弗·希钦斯笔下的英国传统智慧型人物。费希尔长相清秀却衣衫不整,不是叼着烟斗,就是抽着香烟,还时不时地与真实存在的竞争对手或假想敌发生冲突。他在讲课方面平淡无奇,可做起文章来却深刻透彻,在戏剧创作上也极具天赋,另外大家都很喜欢和他共同进餐。费希尔兴趣广泛,是当时最杰出的生物学家和遗传学家之一,但作为精英人物,他却毫不掩饰地抱怨社会贫困阶层的生育率高于知识分子阶层的生育率。(而他本人就有8个孩子。)
1704438433
1704438434
统计学方法在当今之所以能够得到广泛使用,费希尔功不可没。他提出了“统计学显著性检测”的术语及方法论。虽然费希尔在他发表的一篇论文中第一次使用了“贝叶斯定理”这个术语,但其本意是想贬损贝叶斯。费希尔的另外一个主张是“将贝叶斯定理完全摒弃”,也可以说,他对贝叶斯和拉普拉斯完全不感兴趣。
1704438435
1704438436
费希尔和他的同代人在本质上对所谓的贝叶斯定理没有异议,因为贝叶斯定理不过是一个简单的数学公式。可贝叶斯定理的应用却让他们十分担忧,对贝叶斯先验概率这一概念格外忧心,他们认为这一概念似乎过于主观。
1704438437
1704438438
于是,费希尔等人力图建立一套统计学方法,为的是让我们不再受到主观偏见的干扰。现在,尽管这种统计学方法偶尔才会用到,但人们通常称之为“频率主义”。
1704438439
1704438440
“频率主义”的隐含意思就是,仅从人口样本(而非所有人口)中收集数据是导致统计学问题中出现不确定性的原因。这一点在政治民调中体现得淋漓尽致。在加利福尼亚州,有800万人要为即将到来的选举投票,如果只选出其中的800人进行抽样调查,结果就会出现人们所说的抽样误差。你在政治民调中看到的误差幅度就是用来量化抽样误差的:从800万人的投票结果中取出800份样本,究竟会出现多大的误差。“频率主义”的统计学方法正是用来量化误差的。
1704438441
1704438442
然而,即使是在政治民调中,抽样误差也并不总能反映事情的全貌。2008年,艾奥瓦州民主党举行了决策会议,而新罕布什尔州进行了美国民主党初选,短暂的间歇时间里,在新罕布什尔州约有15000人接受了调查——对于这个面积比较小的州来说,这个数目实在算得上巨大了,从理论上来讲,这个受访者的数量足以将误差幅度控制在±0.8%。然而,实际的误差却达到了8%左右:民调显示希拉里在这个州的选票数会输给奥巴马8个点,而实际上,希拉里却以领先3个点的优势获胜了。抽样误差——这个“频率主义”唯一可以直接解释的错误类型——在新罕布什尔州的政治民调中可能只是一个小问题。
1704438443
1704438444
同样的,一些民调公司总是显示出对某一党派的倾向:他们可能对2亿美国成年人进行调查,但仍然得不到正确的结果。早在250年前,贝叶斯就解决了这个问题。如果使用的工具本身就带有偏见,那么作了多少测量并不重要,因为你的目标定错了。
1704438445
1704438446
从本质上看,“频率主义”解决统计学问题的方法是极力摆脱使预测出错的最常见原因——人为错误。“频率主义”认为不确定性是实验本身所固有的特质,而非我们认识真实世界的能力中所固有的特质。“频率主义”的方法还意味着,你收集的数据越多,所犯的错误最终就会越趋近于零:这是解决所有问题的充分必要条件。本书中提到的预测问题比较严重的领域中,有用信息都十分稀缺,而收集更多的信息确实非常有价值。然而,如果使用不当,“频率主义”也不一定是通往完美统计的星光大道。正如埃尼迪斯指出的那样,大数据时代似乎只会使研究文献中的假成果问题更加严重。
1704438447
1704438448
不论在理论上还是实践中,“频率主义”的方法都不是很客观,要依赖大量的假设。种种方法总是假定,某一个测量方法中潜在的不确定性遵循贝尔曲线或正态分布,这是正确的假设,却不适用于股票市场。“频率主义”方法要求对样本总体下定义,在政治民调中,这一点十分明确,但在其他许多实际应用中,样本总体却存在很大的随意性。从“9·11”恐怖袭击事件中,人们能得到什么样的样本总体呢?
[
上一页 ]
[ :1.704438399e+09 ]
[
下一页 ]