1702629390
因此,在进行“不允许出现错误”的保守判断时,基本上都会选择频率派的方法。比如说在医疗领域,“是否应该认可新药品的使用”就是绝对不允许出现错误的判断之一。没有任何效果的药品会导致医疗保险的浪费,而浪费医疗保险在某些情况下就等于扼杀病人的生命。
1702629391
1702629392
在这种情况下,回归模型和倾向指数都是不允许使用的,只有随机对照试验的结果能够得到承认,这也是国际上的一贯做法。在这种不允许出现错误的判断之中,假设“有50%的概率有效”的事前概率是非常不明智的,因为所有可能导致因果推论出现错误的假设,都应该极力避免。
1702629393
1702629394
对于长年致力于国家范围内的数据挖掘的社会调查统计学家们来说,“假设失业率为3%”这样的条件容易导致最后计算出错误的结果,而且在拥有大量抽样调查数据的社会调查领域之中,贝叶斯派的思考方法所带来的优点也是非常有限的。只有在人口十分稀少的地区或者以少数民族为对象的调查中,才可能用到一部分贝叶斯派的方法。
1702629395
1702629396
另外,要说频率派和贝叶斯派究竟哪一个更加适合演绎的推论,近年来的计量经济学家们或许会更加支持贝叶斯派。因为根据贝叶斯派的思考方法,在“事前概率”这个假设的前提下,就可以根据数据进行演绎。
1702629397
1702629398
经济学在100余年的演绎历史中诞生出许许多多的理论模型。对于经济学家们来说,虽然现实存在的数据本身非常重要,但拥有100余年历史的理论也同样值得信赖。所以,通过贝叶斯派的方法假设“确定回归系数在某种范围的值有多少概率”,可以更加有效地利用那些理论。
1702629399
1702629400
更进一步地说,经济学理论本身考虑的就是曲线模型,并且能够得到“理论上图表只能够得到这些数值”这样一个演绎的结论。在推测出这些模型的基础上,即便是在单纯的数理性质上,贝叶斯派的推测也能够发挥足够的威力。
1702629401
1702629402
在判断垃圾邮件时发挥威力的贝叶斯派统计方法
1702629403
1702629404
在数据挖掘领域中,也存在着贝叶斯派的方法,最著名的当属判断垃圾邮件的计算方法。
1702629405
1702629406
比如说,一般人收到的电子邮件中约有1成都是垃圾邮件。而对普通邮件和垃圾邮件的文件名进行对比后发现,垃圾邮件中约有1成都是以“Britney”也就是布兰妮的色情信息为主的内容。当然,普通邮件中可能也包括有布兰妮的信息,但日本人特意用英语发送邮件的数量还不及所有邮件数量的0.01%。
1702629407
1702629408
在这种情况下,针对“文件名中包含Britney这一单词的邮件”进行判断,如表6–6所示,得到结果是有99.991%的事后概率表明这封邮件是垃圾邮件。
1702629409
1702629410
表6–6 对垃圾邮件进行贝叶斯派的分析
1702629411
1702629412
真正的硬币 “老千硬币” 合计 ①事前概率 90% 10% 100% ②文件名中包含Britney 0.01% 10% ①×② 0.009% 1% 1.009% 事后概率 0.009% 99.991% 100% 与医疗领域的例子不同,这种情况属于“就算稍微有差错也无所谓,只要能够迅速地进行判断就好”,因此使用贝叶斯派的方法更加合适。
1702629413
1702629414
如果用频率派的方法,需要将邮件积攒到一定程度之后,才能够判断出“文件名中带有Britney这一单词的邮件属于普通邮件的概率很低”,而贝叶斯派的方法则可以在接到邮件的1秒钟就完成了判断。随着在不断的应用中对事后概率逐渐进行修正,分类错误的情况也能够逐渐减少。
1702629415
1702629416
与之前所提到的那些不同领域间的思考方法一样,贝叶斯派与频率派之间也没有对错之分。通过对有限的信息与假设进行组合,追求“效率”的时候使用贝叶斯派的思考方法,追求“准确性”或者“拥有足够数据”的时候使用频率派的方法求p值更好。
1702629417
1702629418
要想将统计学应用在许许多多的领域之中,需要理解与自己不同领域的不同的思考方法和统计方法,这个过程是非常辛苦的。但是,仅仅因为与自己学过的统计学方法和思考方法不同就拒绝接受,甚至对其进行批判的话,则是非常错误的行为。能够理解本章内容中介绍的统计学家们不同的思考方式,站在不同的立场上增加自己的知识积累,才是正确的选择。
1702629419
1702629420
虽然统计学本身是最强的学问,但是要想使其变得更加无懈可击,就要尽可能地掌握所有统计学的思考方法,并且根据实际情况进行最适合的应用。
1702629421
1702629422
1702629423
1702629424
1702629426
看穿一切数字的统计学 第七章 帮你站在巨人肩膀上的统计学
1702629427
1702629428
1702629429
1702629431
30 用统计学寻找“最佳答案”
1702629432
1702629433
1702629434
1702629435
如果你到目前为止能够将这本书中的内容全都掌握的话,那么你就可以很好地理解几乎所有涉及统计学的信息之中所包含的意义和极限。
1702629436
1702629437
开创了近代物理学的艾萨克·牛顿曾经说过:“如果说我比别人看得更远些,那是因为我站在了巨人的肩上。”这里所说的巨人,指的就是“前人们的智慧”。学习前人们总结出来的经验和智慧,并且以此为基础进行研究远比自己绞尽脑汁地去思考要看得更远。像牛顿这样伟大的天才尚且如此,我们又何不向他学习一下呢?
1702629438
1702629439
在这个世界上有许许多多由专家、学者们耗尽毕生精力所研究出来的智慧成果。在本书中我已经介绍过许多次,现在社会对于这些智慧大多都可以用回归系数和p值来表现。统计能力可以使你更加迅速而且准确地利用这些前人的智慧,从而站在巨人的肩膀之上。
[
上一页 ]
[ :1.70262939e+09 ]
[
下一页 ]