打字猴:1.702629365e+09
1702629365
1702629366 另一方面,“在硬币连续10次出现正面朝上的情况下,是‘老千硬币’的概率”为
1702629367
1702629368 ②÷(①+②)=5.37÷5.42=99.10%
1702629369
1702629370 由此可见,根据10次全部出现正面朝上的数据来进行计算的话,有99.1%的概率是“老千硬币”。这个根据事前概率和数据计算出来的概率被称为事后概率。
1702629371
1702629372 上述计算结果的统计图如表6–4所示。
1702629373
1702629374 表6–4 贝叶斯派的概率计算①
1702629375
1702629376     真正的硬币   老千硬币   合计   事前概率   50.00%   50.00%   100.00%   附加条件的概率   0.10%   10.74%      事前概率×附加条件的概率   0.05%   5.37%   5.42%   事后概率   0.90%   99.10%   100.00%  顺便说一句,之所以叫作贝叶斯派,是因为这种概率的计算方法最早出现于一个名叫贝叶斯的牧师所写的论文。在他死后,数学家们将他的这种思考方法发扬光大,并且以他的名字命名。
1702629377
1702629378 与计量经济学相得益彰的贝叶斯统计
1702629379
1702629380 根据到目前为止介绍过的领域,社会调查、流行病学、生物统计学、心理统计学等领域中频率派比较多,计量经济学家则大多数属于贝叶斯派,数据挖掘专家虽然没有特别的分类,但是比较倾向于贝叶斯派。
1702629381
1702629382 虽然同为统计学家,但频率派与贝叶斯派之间的对立却是根深蒂固的。在频率派看来,“设定事前概率”这种思考方法本身就非常愚蠢,因为如果假设了不同的事前概率,那么最后得到的事后概率也会不同。这种可以随时改变的概率,究竟有何意义呢?
1702629383
1702629384 但是,贝叶斯派却认为,就算最开始假设这枚硬币有90%的概率是真的,那么从“10次全部都是正面朝上”的数据所计算出的事后概率还有“92.43%的可能为‘老千硬币’”由此可见事前概率的数值对结果的影响很小(表6–5)。
1702629385
1702629386 表6–5 贝叶斯派的概率计算②
1702629387
1702629388     真正的硬币   “老千硬币”   合计   事前概率   90.00%   10.00%   100.00%   附加条件的概率   0.10%   10.74%      事前概率×附加条件的概率   0.09%   1.07%   1.16%   事后概率   7.57%   92.43%   100.00%  另外,如果只能对硬币进行3次投掷,那么频率派的方法就无法对硬币进行判断,而贝叶斯派则至少能够判断出硬币究竟属于哪一种的可能性更大。
1702629389
1702629390 因此,在进行“不允许出现错误”的保守判断时,基本上都会选择频率派的方法。比如说在医疗领域,“是否应该认可新药品的使用”就是绝对不允许出现错误的判断之一。没有任何效果的药品会导致医疗保险的浪费,而浪费医疗保险在某些情况下就等于扼杀病人的生命。
1702629391
1702629392 在这种情况下,回归模型和倾向指数都是不允许使用的,只有随机对照试验的结果能够得到承认,这也是国际上的一贯做法。在这种不允许出现错误的判断之中,假设“有50%的概率有效”的事前概率是非常不明智的,因为所有可能导致因果推论出现错误的假设,都应该极力避免。
1702629393
1702629394 对于长年致力于国家范围内的数据挖掘的社会调查统计学家们来说,“假设失业率为3%”这样的条件容易导致最后计算出错误的结果,而且在拥有大量抽样调查数据的社会调查领域之中,贝叶斯派的思考方法所带来的优点也是非常有限的。只有在人口十分稀少的地区或者以少数民族为对象的调查中,才可能用到一部分贝叶斯派的方法。
1702629395
1702629396 另外,要说频率派和贝叶斯派究竟哪一个更加适合演绎的推论,近年来的计量经济学家们或许会更加支持贝叶斯派。因为根据贝叶斯派的思考方法,在“事前概率”这个假设的前提下,就可以根据数据进行演绎。
1702629397
1702629398 经济学在100余年的演绎历史中诞生出许许多多的理论模型。对于经济学家们来说,虽然现实存在的数据本身非常重要,但拥有100余年历史的理论也同样值得信赖。所以,通过贝叶斯派的方法假设“确定回归系数在某种范围的值有多少概率”,可以更加有效地利用那些理论。
1702629399
1702629400 更进一步地说,经济学理论本身考虑的就是曲线模型,并且能够得到“理论上图表只能够得到这些数值”这样一个演绎的结论。在推测出这些模型的基础上,即便是在单纯的数理性质上,贝叶斯派的推测也能够发挥足够的威力。
1702629401
1702629402 在判断垃圾邮件时发挥威力的贝叶斯派统计方法
1702629403
1702629404 在数据挖掘领域中,也存在着贝叶斯派的方法,最著名的当属判断垃圾邮件的计算方法。
1702629405
1702629406 比如说,一般人收到的电子邮件中约有1成都是垃圾邮件。而对普通邮件和垃圾邮件的文件名进行对比后发现,垃圾邮件中约有1成都是以“Britney”也就是布兰妮的色情信息为主的内容。当然,普通邮件中可能也包括有布兰妮的信息,但日本人特意用英语发送邮件的数量还不及所有邮件数量的0.01%。
1702629407
1702629408 在这种情况下,针对“文件名中包含Britney这一单词的邮件”进行判断,如表6–6所示,得到结果是有99.991%的事后概率表明这封邮件是垃圾邮件。
1702629409
1702629410 表6–6 对垃圾邮件进行贝叶斯派的分析
1702629411
1702629412     真正的硬币   “老千硬币”   合计   ①事前概率   90%   10%   100%   ②文件名中包含Britney   0.01%   10%      ①×②   0.009%   1%   1.009%   事后概率   0.009%   99.991%   100%  与医疗领域的例子不同,这种情况属于“就算稍微有差错也无所谓,只要能够迅速地进行判断就好”,因此使用贝叶斯派的方法更加合适。
1702629413
1702629414 如果用频率派的方法,需要将邮件积攒到一定程度之后,才能够判断出“文件名中带有Britney这一单词的邮件属于普通邮件的概率很低”,而贝叶斯派的方法则可以在接到邮件的1秒钟就完成了判断。随着在不断的应用中对事后概率逐渐进行修正,分类错误的情况也能够逐渐减少。
[ 上一页 ]  [ :1.702629365e+09 ]  [ 下一页 ]