1702629380
根据到目前为止介绍过的领域,社会调查、流行病学、生物统计学、心理统计学等领域中频率派比较多,计量经济学家则大多数属于贝叶斯派,数据挖掘专家虽然没有特别的分类,但是比较倾向于贝叶斯派。
1702629381
1702629382
虽然同为统计学家,但频率派与贝叶斯派之间的对立却是根深蒂固的。在频率派看来,“设定事前概率”这种思考方法本身就非常愚蠢,因为如果假设了不同的事前概率,那么最后得到的事后概率也会不同。这种可以随时改变的概率,究竟有何意义呢?
1702629383
1702629384
但是,贝叶斯派却认为,就算最开始假设这枚硬币有90%的概率是真的,那么从“10次全部都是正面朝上”的数据所计算出的事后概率还有“92.43%的可能为‘老千硬币’”由此可见事前概率的数值对结果的影响很小(表6–5)。
1702629385
1702629386
表6–5 贝叶斯派的概率计算②
1702629387
1702629388
真正的硬币 “老千硬币” 合计 事前概率 90.00% 10.00% 100.00% 附加条件的概率 0.10% 10.74% 事前概率×附加条件的概率 0.09% 1.07% 1.16% 事后概率 7.57% 92.43% 100.00% 另外,如果只能对硬币进行3次投掷,那么频率派的方法就无法对硬币进行判断,而贝叶斯派则至少能够判断出硬币究竟属于哪一种的可能性更大。
1702629389
1702629390
因此,在进行“不允许出现错误”的保守判断时,基本上都会选择频率派的方法。比如说在医疗领域,“是否应该认可新药品的使用”就是绝对不允许出现错误的判断之一。没有任何效果的药品会导致医疗保险的浪费,而浪费医疗保险在某些情况下就等于扼杀病人的生命。
1702629391
1702629392
在这种情况下,回归模型和倾向指数都是不允许使用的,只有随机对照试验的结果能够得到承认,这也是国际上的一贯做法。在这种不允许出现错误的判断之中,假设“有50%的概率有效”的事前概率是非常不明智的,因为所有可能导致因果推论出现错误的假设,都应该极力避免。
1702629393
1702629394
对于长年致力于国家范围内的数据挖掘的社会调查统计学家们来说,“假设失业率为3%”这样的条件容易导致最后计算出错误的结果,而且在拥有大量抽样调查数据的社会调查领域之中,贝叶斯派的思考方法所带来的优点也是非常有限的。只有在人口十分稀少的地区或者以少数民族为对象的调查中,才可能用到一部分贝叶斯派的方法。
1702629395
1702629396
另外,要说频率派和贝叶斯派究竟哪一个更加适合演绎的推论,近年来的计量经济学家们或许会更加支持贝叶斯派。因为根据贝叶斯派的思考方法,在“事前概率”这个假设的前提下,就可以根据数据进行演绎。
1702629397
1702629398
经济学在100余年的演绎历史中诞生出许许多多的理论模型。对于经济学家们来说,虽然现实存在的数据本身非常重要,但拥有100余年历史的理论也同样值得信赖。所以,通过贝叶斯派的方法假设“确定回归系数在某种范围的值有多少概率”,可以更加有效地利用那些理论。
1702629399
1702629400
更进一步地说,经济学理论本身考虑的就是曲线模型,并且能够得到“理论上图表只能够得到这些数值”这样一个演绎的结论。在推测出这些模型的基础上,即便是在单纯的数理性质上,贝叶斯派的推测也能够发挥足够的威力。
1702629401
1702629402
在判断垃圾邮件时发挥威力的贝叶斯派统计方法
1702629403
1702629404
在数据挖掘领域中,也存在着贝叶斯派的方法,最著名的当属判断垃圾邮件的计算方法。
1702629405
1702629406
比如说,一般人收到的电子邮件中约有1成都是垃圾邮件。而对普通邮件和垃圾邮件的文件名进行对比后发现,垃圾邮件中约有1成都是以“Britney”也就是布兰妮的色情信息为主的内容。当然,普通邮件中可能也包括有布兰妮的信息,但日本人特意用英语发送邮件的数量还不及所有邮件数量的0.01%。
1702629407
1702629408
在这种情况下,针对“文件名中包含Britney这一单词的邮件”进行判断,如表6–6所示,得到结果是有99.991%的事后概率表明这封邮件是垃圾邮件。
1702629409
1702629410
表6–6 对垃圾邮件进行贝叶斯派的分析
1702629411
1702629412
真正的硬币 “老千硬币” 合计 ①事前概率 90% 10% 100% ②文件名中包含Britney 0.01% 10% ①×② 0.009% 1% 1.009% 事后概率 0.009% 99.991% 100% 与医疗领域的例子不同,这种情况属于“就算稍微有差错也无所谓,只要能够迅速地进行判断就好”,因此使用贝叶斯派的方法更加合适。
1702629413
1702629414
如果用频率派的方法,需要将邮件积攒到一定程度之后,才能够判断出“文件名中带有Britney这一单词的邮件属于普通邮件的概率很低”,而贝叶斯派的方法则可以在接到邮件的1秒钟就完成了判断。随着在不断的应用中对事后概率逐渐进行修正,分类错误的情况也能够逐渐减少。
1702629415
1702629416
与之前所提到的那些不同领域间的思考方法一样,贝叶斯派与频率派之间也没有对错之分。通过对有限的信息与假设进行组合,追求“效率”的时候使用贝叶斯派的思考方法,追求“准确性”或者“拥有足够数据”的时候使用频率派的方法求p值更好。
1702629417
1702629418
要想将统计学应用在许许多多的领域之中,需要理解与自己不同领域的不同的思考方法和统计方法,这个过程是非常辛苦的。但是,仅仅因为与自己学过的统计学方法和思考方法不同就拒绝接受,甚至对其进行批判的话,则是非常错误的行为。能够理解本章内容中介绍的统计学家们不同的思考方式,站在不同的立场上增加自己的知识积累,才是正确的选择。
1702629419
1702629420
虽然统计学本身是最强的学问,但是要想使其变得更加无懈可击,就要尽可能地掌握所有统计学的思考方法,并且根据实际情况进行最适合的应用。
1702629421
1702629422
1702629423
1702629424
1702629426
看穿一切数字的统计学 第七章 帮你站在巨人肩膀上的统计学
1702629427
1702629428
1702629429
[
上一页 ]
[ :1.70262938e+09 ]
[
下一页 ]