1702643800
1702643801
对立假设:犯人在坐牢期间接受戒毒治疗,有助于降低他们出狱后再次被捕入狱的概率。
1702643802
1702643803
数据:犯人被随机分成两组,治疗组接受戒毒治疗,对照组没有接受治疗。(事实上,很多犯人在服刑期间真的接受了戒除毒瘾的医疗帮助。)5年后,两个小组的犯人再次被捕入狱的比例相近。在这个例子中,我们无法推翻零假设。根据这个数据,我们没有理由推翻一开始“戒毒疗法不能有效地阻止犯人再次入狱”的假设。
1702643804
1702643805
研究人员经常会提出一个零假设并希望有朝一日能够推翻它,虽然这听上去有违直觉。在上面的两个例子中,研究的“成功”(寻找到一种新的治疗疟疾的药物以及减少重新犯罪率)都意味着推翻零假设,而真正通过数据做到的只有第一个例子。
1702643806
1702643807
在法庭上,推翻无罪假设的最基本条件是通过定性分析,“在不存在任何疑义的前提下认定被告有罪”,至于法官或陪审团如何理解这句话,那就因人而异了。基本上统计学也是这个道理,但在“排除疑义并定罪”的过程中用到了定量分析。研究人员最常提出的疑问是,如果零假设成立,那么完全是出于巧合的概率有多大?以此类推,医学研究人员会问,如果这一试验药物对治疗心脏病无效(也就是零假设),那么治疗组有91%的病人病情好转且对照组仅有49%的病人病情好转的概率有多大?假如数据显示零假设基本上不可能成立,比如上述的医学例子,那么我们必须推翻它,并承认其备择假设(该药物对治疗心脏病有作用)成立。
1702643808
1702643809
那么,让我们再回过头来看看本书之前提到过多次的亚特兰大统考作弊丑闻。在这次统考中,由于答题纸上出现了大量“由错变对”的更正痕迹,导致这次考试
1702643810
1702643811
的分数出奇的高。当然,不可否认的是,学生们在考试中肯定会对答案进行修改,而且总有一些特别幸运的学生将错误的答案改成正确的,这并不是作弊。因此,我们的零假设为:每一个学区的统考分数都是有效的,而且答题纸上的每一处“由错改对”都是巧合。我们最不愿看到的就是有的学生或学校因为有绝大多数的学生恰好在一场重要统考的最后几分钟内进行了错题修改而无辜受罚。
1702643812
1702643813
但“绝大多数”仅仅是亚特兰大统考作弊丑闻的“冰山一角”。一些考场的学生的答题纸上“由错改对”的痕迹数量高于全州正常水平的20〜50个标准差(请记住,在一个分布中绝大部分数据都会落在平均值的两个标准差范围以内)。因此想想看,有那么多学生在那么短的时间内仅凭“运气”改正了那么多的错题,这个概率能有多大?负责调查此事的官员称,亚特兰大统考没有作弊的概率与同时有7万名身高在7英尺(约2.13米)以上的观众出现在佐治亚穹顶体育场观看足球比赛的概率差不多。这种情况会发生吗?当然会。发生的概率大吗?恐怕不大。
1702643814
1702643815
佐治亚州政府至今仍未对这起丑闻中的任何人定罪,就像我的老师无法(也不应该)因为我的期末考试成绩与期中考试成绩反差太大而将我开除一样。亚特兰大的教育部门无法证明作弊确实发生了。但是,这些官员可以推翻“考试结果是正当有效”的零假设,而且还可以“自信满满”地宣称这一发现,这是因为亚特兰大的情况相比起正常值来说几乎是不可能发生的。因此,他们也明确承认备择假设成立,即考试过程中存在问题(虽然我怀疑他们用的是更官方、更正式的说法,不过基本上就是这个意思)。更为深人的调查最终还是发现了所谓的“影子修改人”,根据相关报告的描述,存在着一部分老师修改学生答案,将答案印在纸上发给学生,让低分学生抄袭高分学生的答题纸,甚至直接在考场内用手将正确答案指给学生的情况。最令人发指的作弊行为是,竟然有一群老师在周末举行了一个比萨派对,在狂欢的时候顺便将所有学生的答题纸都“纠正”了一遍。
1702643816
1702643817
在亚特兰大统考的例子里,我们可以推翻“不存在作弊”的零假设,因为这样的考试结果在不作弊的前提下基本上不可能发生。但是,零假设到底要有多“不合情理”才能让我们将其推翻,并承认其反面假设为真?
1702643818
1702643819
研究人员推翻零假设最常参考的“门槛”之一是5%,经常以十进位小数的形式表示为0.05。如果一个零假设想要为真,其支撑数据的结果必须至少达到0.05这个显着性水平,才能保证该假设具有意义。这一点其实并不复杂,请接着往下看。
1702643820
1702643821
假如我们把“显着性水平”定在0.05,也就意味着如果某个零假设成立的概率还不足5%的话,我们就可以将其推翻。举个例子来看会更加直观,虽然我很不愿意再次拿出失踪客车的例子,但这次就请大家再忍耐一下吧。假设你因为上一章的出色表现,被正式任命为失踪客车“寻找大使”,同时你还是“变化的一生”项目组的全职研究人员,因此便可以趁工作之便收集一些有用的数据来支持你的客车寻找事业。研究组使用的每一辆客车上都载有约60名乘客,因此我们可以将每辆客车上的乘客看作从整个“变化的一生”数据库中随机抽取的样本。某天清晨,你被急促的电话声吵醒,接起电话后你得知在波士顿地区有一辆客车被一个宣扬肥胖主义的恐怖组织劫持。你的任务是乘坐一架直升机空降在这辆客车上,从客车车顶的紧急逃生出口偷偷潜入客车内部,仅凭客车上乘客的体重判断他们是不是“变化的一生”项目组的研究对象(平心而论,比起那些剧情虚假的动作冒险片来说,这个例子其实也没差到哪里去,而且还具有教育意义)。
1702643822
1702643823
1702643824
此刻在直升机上的你,手持一挺机关枪,腰插多枚手榴弹,手腕上还戴着一款能够进行高清摄像的手表,脑子里记下了上一章我们通过计算得出的“变化的一生”项目的全体研究对象的平均体重和样本的标准误差。对于任何一个随机抽取的样本而言,其预期平均体重为162磅,标准差为36磅,这也是全体研究对象的平均体重和标准差。在这两个数据的基础上,我们能够计算出样本平均值的标准误差:。在行动指挥中心,下面的这张分布图通过扫描直入你的右眼视网膜,这样你在成功潜入行进中的客车并偷偷观察乘客体重时就能随时进行参考了。
1702643825
1702643826
1702643827
1702643828
1702643829
图10-1样本平均值分布
1702643830
1702643831
参照上图,我们可以预测,在样本容量为60人的全部随机抽样中,将有约95%的样本的平均体重为153~171磅,与之对应的是,只有约5%的样本的平均值大于171磅或小于153磅。(我们现在正在进行的操作被称为“双尾”假设检验,“双尾”假设检验和“单尾”假设检验的区别在哪里?感兴趣的读者请参阅本章后面的补充内容。)你的上司认定0.05为这次反恐行动的显着性水平,如果在那辆被劫持客车上的60名乘客的平均体重超过了171磅或不足153磅,那么你将推翻“该客车搭载的是‘变化的一生’研究对象”的零假设,承认其备择假设即“客车上的60名乘客与‘变化的一生’研究项目无关”成立,并等待进一步的指令。
1702643832
1702643833
你成功地降落并潜入客车内部,偷偷地对车上的乘客进行了“称重”,这60名乘客的平均体重只有136磅,低于平均值两个标准误差。(还有一个重要的线索是,所有乘客均为孩子,他们身上穿着印有“格兰岱尔市曲棍球营”的T恤。)
1702643834
1702643835
根据你的任务指示,在显着性水平为0.05的前提下,你可以推翻“该客车搭载的是‘变化的一生’研究对象”的零假设。这就意味着(1)如果零假设成立,即该客车上搭载的是“变化的一生”项目的研究对象,那么他们的平均体重所在区间的概率只占到了5%,(2)你可以以零假设成立的概率只有5%为由,推翻零假设;(3)平均来说,在推翻零假设的问题上,你有95%的概率是正确的,只有5%的概率是错误的,后者的情况就是,你觉得这一车人并不是“变化的一生”项目的研究对象,但实际上他们正好是,尽管这一车人的平均体重与整体平均值相比差别较大。
1702643836
1702643837
任务并没有结束。行动指挥中心的负责人(电影版里由安吉丽娜•朱莉扮演)要求你计算出所得结果的假定值,假定值就是在零假设成立的前提下,出现所观察样本结果以及更极端情况的概率。车上乘客的平均体重为136磅,低于“变化的一生”项目的所有研究对象的平均体重5.7个标准误差,如果他们真的是该项目的研究对象,那么得到如此极端结果的概率要小于0.0001(在正式研究报告中可表示为p<0.0001)。任务完成以后,你从这辆行驶的客车上安全跃到正在相邻车道中行驶的敞篷跑车副驾驶座上。
1702643838
1702643839
这个故事同样有个大团圆的结局。当那群“以胖为美”的恐怖分子得知你所在城市正在举办国际香肠节之后,他们一致同意摒弃暴力,通过在全世界范围内推广国际香肠节等手段,以和平的方式促进肥胖主义。
1702643840
1702643841
如果觉得0.05的显着性水平过于任意和武断,那也没办法,因为这个指标是既定的。在推翻零假设这个问题上,并不存在一个标准单一的统计学“门槛”。对于上述分析来说,将显着性水平设为0.01或0.1都是合理和常见的。
1702643842
1702643843
可以想见的是,当显着性水平为0.01(即只有小于1%的概率能够推翻零假设)时,其推翻零假设的难度明显大于显着性水平为0.1的情况(有小于10%的概率能够推翻零假设),因此前者在统计学上的分量自然也会更重。本章后面的段落会讨论不同显着性水平的优势和劣势。当前最需要了解的一点是,当我们能够在某个合理的显着性水平上推翻一个零假设时,其结果可以被认为是具有“统计学意义”的。
1702643844
1702643845
下面来举一个现实生活中的例子。当你在报纸上读到每天吃20个麸皮饼的人患结肠癌的概率要低于那些不爱吃麸皮饼的人时,其背后所进行的学术研究很有可能是:(1)在一个大型数据组中,研究人员发现每天吃至少20个麸皮饼的人患结肠癌的概率要低于那些说自己不爱吃麸皮饼的人;(2)研究人员的零假设是,吃麸皮饼对结肠癌的发病率没有影响;(3)吃麸皮饼和不吃麸皮饼的人之间患结肠癌概率的巨大差别如果仅仅用巧合来解释,似乎并不那么让人信服。具体来说,如果吃麸皮饼与结肠癌之间没有任何联系,那么这两类人在患结肠癌这件事上仅仅是因为巧合就出现如此巨大差别的概率要低于某个“门槛”,如0.05(该显着性水平应该在数据分析开始前确定,这样就可以避免为了得出一个具有统计学意义的研究结果而“量身定制”一个“门槛”;(4)这篇学术论文里可能还会有一个结论,差不多是这样说的:“在每天至少吃20个麸皮饼与结肠癌发病率降低之间,我们发现了一个具有统计学意义的联系,其显着性水平为0.05。”
1702643846
1702643847
后来的某一天,当我早餐吃着培根和鸡蛋时,在《芝加哥太阳报》上读到另一篇类似的研究报道,其标题更加直接和有趣:“每天吃20个麸皮饼,结肠癌就不会来找你”。但是,那份报纸的标题虽然比学术论文更具有可读性和吸引力,但同时也可能在传递一个错误的信息。该研究事实上并没有宣称吃麸皮饼可以降低个
1702643848
1702643849
人患结肠癌的风险,它仅仅是揭示了某个大型数据组中吃麸皮饼与患结肠癌之间的负相关关系。这一统计学关系并不足以证明吃麸皮饼能够、带来健康状况的改善。毕竟,那些吃麸皮饼的人(尤其是每天吃20个以上麸皮饼的人!)有可能还有其他降低癌症发病率的生活习惯,如少吃红色肉类、定期锻炼、常做身体检查等(这就是前面章节里介绍的“健康用户偏见”)。到底是麸皮饼的功劳,还是因为这群爱吃麸皮饼的人恰好具备的其他行为或个人素质?分清楚“相关关系”和“因果关系”将有助于我们更好地理解统计结论。有关“相关关系并不等同于因果关系”的内容,本书将在后面的章节里详细阐述。
[
上一页 ]
[ :1.7026438e+09 ]
[
下一页 ]