打字猴:1.70262938e+09
1702629380 根据到目前为止介绍过的领域,社会调查、流行病学、生物统计学、心理统计学等领域中频率派比较多,计量经济学家则大多数属于贝叶斯派,数据挖掘专家虽然没有特别的分类,但是比较倾向于贝叶斯派。
1702629381
1702629382 虽然同为统计学家,但频率派与贝叶斯派之间的对立却是根深蒂固的。在频率派看来,“设定事前概率”这种思考方法本身就非常愚蠢,因为如果假设了不同的事前概率,那么最后得到的事后概率也会不同。这种可以随时改变的概率,究竟有何意义呢?
1702629383
1702629384 但是,贝叶斯派却认为,就算最开始假设这枚硬币有90%的概率是真的,那么从“10次全部都是正面朝上”的数据所计算出的事后概率还有“92.43%的可能为‘老千硬币’”由此可见事前概率的数值对结果的影响很小(表6–5)。
1702629385
1702629386 表6–5 贝叶斯派的概率计算②
1702629387
1702629388     真正的硬币   “老千硬币”   合计   事前概率   90.00%   10.00%   100.00%   附加条件的概率   0.10%   10.74%      事前概率×附加条件的概率   0.09%   1.07%   1.16%   事后概率   7.57%   92.43%   100.00%  另外,如果只能对硬币进行3次投掷,那么频率派的方法就无法对硬币进行判断,而贝叶斯派则至少能够判断出硬币究竟属于哪一种的可能性更大。
1702629389
1702629390 因此,在进行“不允许出现错误”的保守判断时,基本上都会选择频率派的方法。比如说在医疗领域,“是否应该认可新药品的使用”就是绝对不允许出现错误的判断之一。没有任何效果的药品会导致医疗保险的浪费,而浪费医疗保险在某些情况下就等于扼杀病人的生命。
1702629391
1702629392 在这种情况下,回归模型和倾向指数都是不允许使用的,只有随机对照试验的结果能够得到承认,这也是国际上的一贯做法。在这种不允许出现错误的判断之中,假设“有50%的概率有效”的事前概率是非常不明智的,因为所有可能导致因果推论出现错误的假设,都应该极力避免。
1702629393
1702629394 对于长年致力于国家范围内的数据挖掘的社会调查统计学家们来说,“假设失业率为3%”这样的条件容易导致最后计算出错误的结果,而且在拥有大量抽样调查数据的社会调查领域之中,贝叶斯派的思考方法所带来的优点也是非常有限的。只有在人口十分稀少的地区或者以少数民族为对象的调查中,才可能用到一部分贝叶斯派的方法。
1702629395
1702629396 另外,要说频率派和贝叶斯派究竟哪一个更加适合演绎的推论,近年来的计量经济学家们或许会更加支持贝叶斯派。因为根据贝叶斯派的思考方法,在“事前概率”这个假设的前提下,就可以根据数据进行演绎。
1702629397
1702629398 经济学在100余年的演绎历史中诞生出许许多多的理论模型。对于经济学家们来说,虽然现实存在的数据本身非常重要,但拥有100余年历史的理论也同样值得信赖。所以,通过贝叶斯派的方法假设“确定回归系数在某种范围的值有多少概率”,可以更加有效地利用那些理论。
1702629399
1702629400 更进一步地说,经济学理论本身考虑的就是曲线模型,并且能够得到“理论上图表只能够得到这些数值”这样一个演绎的结论。在推测出这些模型的基础上,即便是在单纯的数理性质上,贝叶斯派的推测也能够发挥足够的威力。
1702629401
1702629402 在判断垃圾邮件时发挥威力的贝叶斯派统计方法
1702629403
1702629404 在数据挖掘领域中,也存在着贝叶斯派的方法,最著名的当属判断垃圾邮件的计算方法。
1702629405
1702629406 比如说,一般人收到的电子邮件中约有1成都是垃圾邮件。而对普通邮件和垃圾邮件的文件名进行对比后发现,垃圾邮件中约有1成都是以“Britney”也就是布兰妮的色情信息为主的内容。当然,普通邮件中可能也包括有布兰妮的信息,但日本人特意用英语发送邮件的数量还不及所有邮件数量的0.01%。
1702629407
1702629408 在这种情况下,针对“文件名中包含Britney这一单词的邮件”进行判断,如表6–6所示,得到结果是有99.991%的事后概率表明这封邮件是垃圾邮件。
1702629409
1702629410 表6–6 对垃圾邮件进行贝叶斯派的分析
1702629411
1702629412     真正的硬币   “老千硬币”   合计   ①事前概率   90%   10%   100%   ②文件名中包含Britney   0.01%   10%      ①×②   0.009%   1%   1.009%   事后概率   0.009%   99.991%   100%  与医疗领域的例子不同,这种情况属于“就算稍微有差错也无所谓,只要能够迅速地进行判断就好”,因此使用贝叶斯派的方法更加合适。
1702629413
1702629414 如果用频率派的方法,需要将邮件积攒到一定程度之后,才能够判断出“文件名中带有Britney这一单词的邮件属于普通邮件的概率很低”,而贝叶斯派的方法则可以在接到邮件的1秒钟就完成了判断。随着在不断的应用中对事后概率逐渐进行修正,分类错误的情况也能够逐渐减少。
1702629415
1702629416 与之前所提到的那些不同领域间的思考方法一样,贝叶斯派与频率派之间也没有对错之分。通过对有限的信息与假设进行组合,追求“效率”的时候使用贝叶斯派的思考方法,追求“准确性”或者“拥有足够数据”的时候使用频率派的方法求p值更好。
1702629417
1702629418 要想将统计学应用在许许多多的领域之中,需要理解与自己不同领域的不同的思考方法和统计方法,这个过程是非常辛苦的。但是,仅仅因为与自己学过的统计学方法和思考方法不同就拒绝接受,甚至对其进行批判的话,则是非常错误的行为。能够理解本章内容中介绍的统计学家们不同的思考方式,站在不同的立场上增加自己的知识积累,才是正确的选择。
1702629419
1702629420 虽然统计学本身是最强的学问,但是要想使其变得更加无懈可击,就要尽可能地掌握所有统计学的思考方法,并且根据实际情况进行最适合的应用。
1702629421
1702629422
1702629423
1702629424
1702629425 看穿一切数字的统计学 [:1702626761]
1702629426 看穿一切数字的统计学 第七章 帮你站在巨人肩膀上的统计学
1702629427
1702629428
1702629429
[ 上一页 ]  [ :1.70262938e+09 ]  [ 下一页 ]