打字猴:1.702643778e+09
1702643778
1702643779 南加利福尼亚州的一位名叫琳达•库珀的女士被闪电击中了4次。据美国联邦应急管理局披露的统计数字,被闪电击中一次的概率只有60万分之一。但琳达的保险公司不能因为她受伤的概率在统计学上几乎为零,就拒绝替她支付医疗费。再回到我的统计学课程上来,那位教授的怀疑并非没有道理,他心里清楚,这种情况发生的概率非常低。正是这种思维方式,使得调查人员能够在统考中发现作弊现象,也让美国证券交易委员会嗅到内部交易的蛛丝马迹,并最终将不法的交易人员捉拿归案。但如果一个不太可能发生的事件发生了,在没有其他证据的情况下,我们只能说虽然发生概率很低,但这件不太可能发生的事还是发生了。在本章的后半部分,我们会看到概率也有将人引入歧途的时候。
1702643780
1702643781 至少到目前为止,我们应该对统计推断的功能有一个较为积极的认识,通过对数据的使用,统计推断能够帮助我们解决许多重要的问题。某种新研发的药物在治疗心脏病方面是否有效?手机真的会诱发脑癌吗?必须要注意的是,我并没有声称统计学能够毫不含糊地回答这类问题,而是通过推断,我们可以知道哪些方面是可能的,哪些方面是不太可能的。研究人员无法证明某种新药在治疗心脏病方面确实是有效的,即使他们已经进行了小心谨慎的临床对照试验。毕竟,在治疗组和对照组中,完全有可能出现与药物毫无关系的反应异常的病人。假如治疗组的100位病人中有53位在服用新药之后取到了明显效果,而服用安慰剂的100位对照组病人中只有49位的病情好转,我们就无法立刻得出结论,认为这种新药有效,因为这样的一个结果完全有可能是两个小组自然的概率分配或其他因素所导致的,跟新药没有关系。
1702643782
1702643783 但如果治疗组的100位病人中有91位在服用新药之后取到了明显效果,而服用安慰剂的100位对照组病人中还是只有49位的病情好转,那我们是否就能得出结论呢?治疗组出现的良好效果有可能还是跟新药没有关系,我们也不能排除治疗组的病人们运气实在太好或生命力特别旺盛,但此刻,此类解释正确的可能性要比之前小得多。如果换成统计推断的专业术语,研究人员可能会得出如下结论:(1)假如试验药物没有疗效,则治疗组和对照组之间几乎没有可能会出现如此巨大的差距。(2)因此,试验药物没有积极疗效的可能性很小。(3)那么结论(2)的反面,也就是试验药物具有积极疗效的可能性较大,并且恰巧能解释对照试验的数据结果。
1702643784
1702643785 统计推断是一个让数据说话、让有价值的结论浮出水面的过程。这就是回报!统计学的意义并不是进行无数次高深的数学计算,而是在于更好地洞察社会现象背后的成因。统计推断正是我们之前已经讨论过的两个概念的合体:数据和概率(期间需要来自中心极限定理的一点儿帮助)。在本章的内容中,出于简化计算的目的,我走了一条方法论的“近道”,那就是假设本章出现的所有例子都是数量足够大、正确抽取的样本。这一假设使得中心极限定理能够成立,保证任何一个样本的平均值和标准差与其所在群体的整体平均值和标准差基本相等。
1702643786
1702643787 统计推断绝不仅限于这一简化的假设,但如果从一开始就处理那些规模小或数据不完整的复杂样本,就需要引入过多琐碎的方法论概念和统计工具,这样会分散我们的注意力,反而失去对整体的把握。本章的目标就是单纯地介绍统计推断的巨大作用,并让读者直观地理解其工作原理。一旦大家掌握了这一点,那么在处理更加复杂的问题时也能轻松对待了。
1702643788
1702643789 统计推断过程中最常使用的工具之一就是“假设检验”。事实上,我已经在之前介绍了假设检验的概念,只不过当时还没有将其贴上这一高级的术语标签。如前文所述,就凭数据本身并不能证明任何结论,我们只有通过推理和概率来对可能的解释予以支持或否定。更为精确地说,任何统计推断都是由或含蓄或直接的零假设开始的。先假设一个结论,然后通过统计分析对其进行支持或反驳。如果我们证明零假设不成立,那么相当于承认了其反面结论与真实情况更为接近。举个例子,法庭在审理案件的过程中,首先会假设被告方无罪,而指控方的工作就是说服法官或陪审团来推翻一开始的无罪假设,并接受其反面事实,即被告有罪。从逻辑学来看,如果我们能够证明某个零假设不成立,那么其对立假设(又称备择假设)肯定为真。下面举一个例子。
1702643790
1702643791 零假设:某种新药在预防疟疾方面并没有比安慰剂更加有效。
1702643792
1702643793 对立假设:该新药能够帮助预防疟疾。
1702643794
1702643795 数据:随机选取一个小组服用新药,另一个小组作为对照组服用安慰剂。一段时间过后,服用新药的小组的疟疾发病率要远低于对照组。如果该新药不具备任何疗效,那么出现这一结果的概率是非常低的。因此,我们推翻该新药没有疗效的零假设,承认其对立假设成立,即该新药能够帮助预防疟疾。
1702643796
1702643797 可能这种思维逻辑并不是那么容易理解,没关系,我们再举一个例子。我还是要啰唆一句,零假设和对立假设在逻辑方面是互补的,也就是说,如果其中一个假设为真,则另一个假设为假;如果我们推翻了其中一个假设,那就必须承认另一个假设。
1702643798
1702643799 零假设:为犯人提供戒毒治疗并不能降低他们再次被捕入狱的概率。
1702643800
1702643801 对立假设:犯人在坐牢期间接受戒毒治疗,有助于降低他们出狱后再次被捕入狱的概率。
1702643802
1702643803 数据:犯人被随机分成两组,治疗组接受戒毒治疗,对照组没有接受治疗。(事实上,很多犯人在服刑期间真的接受了戒除毒瘾的医疗帮助。)5年后,两个小组的犯人再次被捕入狱的比例相近。在这个例子中,我们无法推翻零假设。根据这个数据,我们没有理由推翻一开始“戒毒疗法不能有效地阻止犯人再次入狱”的假设。
1702643804
1702643805 研究人员经常会提出一个零假设并希望有朝一日能够推翻它,虽然这听上去有违直觉。在上面的两个例子中,研究的“成功”(寻找到一种新的治疗疟疾的药物以及减少重新犯罪率)都意味着推翻零假设,而真正通过数据做到的只有第一个例子。
1702643806
1702643807 在法庭上,推翻无罪假设的最基本条件是通过定性分析,“在不存在任何疑义的前提下认定被告有罪”,至于法官或陪审团如何理解这句话,那就因人而异了。基本上统计学也是这个道理,但在“排除疑义并定罪”的过程中用到了定量分析。研究人员最常提出的疑问是,如果零假设成立,那么完全是出于巧合的概率有多大?以此类推,医学研究人员会问,如果这一试验药物对治疗心脏病无效(也就是零假设),那么治疗组有91%的病人病情好转且对照组仅有49%的病人病情好转的概率有多大?假如数据显示零假设基本上不可能成立,比如上述的医学例子,那么我们必须推翻它,并承认其备择假设(该药物对治疗心脏病有作用)成立。
1702643808
1702643809 那么,让我们再回过头来看看本书之前提到过多次的亚特兰大统考作弊丑闻。在这次统考中,由于答题纸上出现了大量“由错变对”的更正痕迹,导致这次考试
1702643810
1702643811 的分数出奇的高。当然,不可否认的是,学生们在考试中肯定会对答案进行修改,而且总有一些特别幸运的学生将错误的答案改成正确的,这并不是作弊。因此,我们的零假设为:每一个学区的统考分数都是有效的,而且答题纸上的每一处“由错改对”都是巧合。我们最不愿看到的就是有的学生或学校因为有绝大多数的学生恰好在一场重要统考的最后几分钟内进行了错题修改而无辜受罚。
1702643812
1702643813 但“绝大多数”仅仅是亚特兰大统考作弊丑闻的“冰山一角”。一些考场的学生的答题纸上“由错改对”的痕迹数量高于全州正常水平的20〜50个标准差(请记住,在一个分布中绝大部分数据都会落在平均值的两个标准差范围以内)。因此想想看,有那么多学生在那么短的时间内仅凭“运气”改正了那么多的错题,这个概率能有多大?负责调查此事的官员称,亚特兰大统考没有作弊的概率与同时有7万名身高在7英尺(约2.13米)以上的观众出现在佐治亚穹顶体育场观看足球比赛的概率差不多。这种情况会发生吗?当然会。发生的概率大吗?恐怕不大。
1702643814
1702643815 佐治亚州政府至今仍未对这起丑闻中的任何人定罪,就像我的老师无法(也不应该)因为我的期末考试成绩与期中考试成绩反差太大而将我开除一样。亚特兰大的教育部门无法证明作弊确实发生了。但是,这些官员可以推翻“考试结果是正当有效”的零假设,而且还可以“自信满满”地宣称这一发现,这是因为亚特兰大的情况相比起正常值来说几乎是不可能发生的。因此,他们也明确承认备择假设成立,即考试过程中存在问题(虽然我怀疑他们用的是更官方、更正式的说法,不过基本上就是这个意思)。更为深人的调查最终还是发现了所谓的“影子修改人”,根据相关报告的描述,存在着一部分老师修改学生答案,将答案印在纸上发给学生,让低分学生抄袭高分学生的答题纸,甚至直接在考场内用手将正确答案指给学生的情况。最令人发指的作弊行为是,竟然有一群老师在周末举行了一个比萨派对,在狂欢的时候顺便将所有学生的答题纸都“纠正”了一遍。
1702643816
1702643817 在亚特兰大统考的例子里,我们可以推翻“不存在作弊”的零假设,因为这样的考试结果在不作弊的前提下基本上不可能发生。但是,零假设到底要有多“不合情理”才能让我们将其推翻,并承认其反面假设为真?
1702643818
1702643819 研究人员推翻零假设最常参考的“门槛”之一是5%,经常以十进位小数的形式表示为0.05。如果一个零假设想要为真,其支撑数据的结果必须至少达到0.05这个显着性水平,才能保证该假设具有意义。这一点其实并不复杂,请接着往下看。
1702643820
1702643821 假如我们把“显着性水平”定在0.05,也就意味着如果某个零假设成立的概率还不足5%的话,我们就可以将其推翻。举个例子来看会更加直观,虽然我很不愿意再次拿出失踪客车的例子,但这次就请大家再忍耐一下吧。假设你因为上一章的出色表现,被正式任命为失踪客车“寻找大使”,同时你还是“变化的一生”项目组的全职研究人员,因此便可以趁工作之便收集一些有用的数据来支持你的客车寻找事业。研究组使用的每一辆客车上都载有约60名乘客,因此我们可以将每辆客车上的乘客看作从整个“变化的一生”数据库中随机抽取的样本。某天清晨,你被急促的电话声吵醒,接起电话后你得知在波士顿地区有一辆客车被一个宣扬肥胖主义的恐怖组织劫持。你的任务是乘坐一架直升机空降在这辆客车上,从客车车顶的紧急逃生出口偷偷潜入客车内部,仅凭客车上乘客的体重判断他们是不是“变化的一生”项目组的研究对象(平心而论,比起那些剧情虚假的动作冒险片来说,这个例子其实也没差到哪里去,而且还具有教育意义)。
1702643822
1702643823
1702643824 此刻在直升机上的你,手持一挺机关枪,腰插多枚手榴弹,手腕上还戴着一款能够进行高清摄像的手表,脑子里记下了上一章我们通过计算得出的“变化的一生”项目的全体研究对象的平均体重和样本的标准误差。对于任何一个随机抽取的样本而言,其预期平均体重为162磅,标准差为36磅,这也是全体研究对象的平均体重和标准差。在这两个数据的基础上,我们能够计算出样本平均值的标准误差:。在行动指挥中心,下面的这张分布图通过扫描直入你的右眼视网膜,这样你在成功潜入行进中的客车并偷偷观察乘客体重时就能随时进行参考了。
1702643825
1702643826
1702643827
[ 上一页 ]  [ :1.702643778e+09 ]  [ 下一页 ]