打字猴:1.70264381e+09

1702643810

1702643811 的分数出奇的高。当然，不可否认的是，学生们在考试中肯定会对答案进行修改，而且总有一些特别幸运的学生将错误的答案改成正确的，这并不是作弊。因此，我们的零假设为：每一个学区的统考分数都是有效的，而且答题纸上的每一处“由错改对”都是巧合。我们最不愿看到的就是有的学生或学校因为有绝大多数的学生恰好在一场重要统考的最后几分钟内进行了错题修改而无辜受罚。

1702643812

1702643813 但“绝大多数”仅仅是亚特兰大统考作弊丑闻的“冰山一角”。一些考场的学生的答题纸上“由错改对”的痕迹数量高于全州正常水平的20〜50个标准差（请记住，在一个分布中绝大部分数据都会落在平均值的两个标准差范围以内）。因此想想看，有那么多学生在那么短的时间内仅凭“运气”改正了那么多的错题，这个概率能有多大？负责调查此事的官员称，亚特兰大统考没有作弊的概率与同时有7万名身高在7英尺（约2.13米）以上的观众出现在佐治亚穹顶体育场观看足球比赛的概率差不多。这种情况会发生吗？当然会。发生的概率大吗？恐怕不大。

1702643814

1702643815 佐治亚州政府至今仍未对这起丑闻中的任何人定罪，就像我的老师无法（也不应该）因为我的期末考试成绩与期中考试成绩反差太大而将我开除一样。亚特兰大的教育部门无法证明作弊确实发生了。但是，这些官员可以推翻“考试结果是正当有效”的零假设，而且还可以“自信满满”地宣称这一发现，这是因为亚特兰大的情况相比起正常值来说几乎是不可能发生的。因此，他们也明确承认备择假设成立，即考试过程中存在问题（虽然我怀疑他们用的是更官方、更正式的说法，不过基本上就是这个意思）。更为深人的调查最终还是发现了所谓的“影子修改人”，根据相关报告的描述，存在着一部分老师修改学生答案，将答案印在纸上发给学生，让低分学生抄袭高分学生的答题纸，甚至直接在考场内用手将正确答案指给学生的情况。最令人发指的作弊行为是，竟然有一群老师在周末举行了一个比萨派对，在狂欢的时候顺便将所有学生的答题纸都“纠正”了一遍。

1702643816

1702643817 在亚特兰大统考的例子里，我们可以推翻“不存在作弊”的零假设，因为这样的考试结果在不作弊的前提下基本上不可能发生。但是，零假设到底要有多“不合情理”才能让我们将其推翻，并承认其反面假设为真？

1702643818

1702643819 研究人员推翻零假设最常参考的“门槛”之一是5%，经常以十进位小数的形式表示为0.05。如果一个零假设想要为真，其支撑数据的结果必须至少达到0.05这个显着性水平，才能保证该假设具有意义。这一点其实并不复杂，请接着往下看。

1702643820

1702643821 假如我们把“显着性水平”定在0.05,也就意味着如果某个零假设成立的概率还不足5%的话，我们就可以将其推翻。举个例子来看会更加直观，虽然我很不愿意再次拿出失踪客车的例子，但这次就请大家再忍耐一下吧。假设你因为上一章的出色表现，被正式任命为失踪客车“寻找大使”，同时你还是“变化的一生”项目组的全职研究人员，因此便可以趁工作之便收集一些有用的数据来支持你的客车寻找事业。研究组使用的每一辆客车上都载有约60名乘客，因此我们可以将每辆客车上的乘客看作从整个“变化的一生”数据库中随机抽取的样本。某天清晨，你被急促的电话声吵醒，接起电话后你得知在波士顿地区有一辆客车被一个宣扬肥胖主义的恐怖组织劫持。你的任务是乘坐一架直升机空降在这辆客车上，从客车车顶的紧急逃生出口偷偷潜入客车内部，仅凭客车上乘客的体重判断他们是不是“变化的一生”项目组的研究对象（平心而论，比起那些剧情虚假的动作冒险片来说，这个例子其实也没差到哪里去，而且还具有教育意义）。

1702643822

1702643823

1702643824 此刻在直升机上的你，手持一挺机关枪，腰插多枚手榴弹，手腕上还戴着一款能够进行高清摄像的手表，脑子里记下了上一章我们通过计算得出的“变化的一生”项目的全体研究对象的平均体重和样本的标准误差。对于任何一个随机抽取的样本而言，其预期平均体重为162磅，标准差为36磅，这也是全体研究对象的平均体重和标准差。在这两个数据的基础上，我们能够计算出样本平均值的标准误差：。在行动指挥中心，下面的这张分布图通过扫描直入你的右眼视网膜，这样你在成功潜入行进中的客车并偷偷观察乘客体重时就能随时进行参考了。

1702643825

1702643826

1702643827

1702643828

1702643829 图10-1样本平均值分布

1702643830

1702643831 参照上图，我们可以预测，在样本容量为60人的全部随机抽样中，将有约95%的样本的平均体重为153~171磅，与之对应的是，只有约5%的样本的平均值大于171磅或小于153磅。（我们现在正在进行的操作被称为“双尾”假设检验，“双尾”假设检验和“单尾”假设检验的区别在哪里？感兴趣的读者请参阅本章后面的补充内容。）你的上司认定0.05为这次反恐行动的显着性水平，如果在那辆被劫持客车上的60名乘客的平均体重超过了171磅或不足153磅，那么你将推翻“该客车搭载的是‘变化的一生’研究对象”的零假设，承认其备择假设即“客车上的60名乘客与‘变化的一生’研究项目无关”成立，并等待进一步的指令。

1702643832

1702643833 你成功地降落并潜入客车内部，偷偷地对车上的乘客进行了“称重”，这60名乘客的平均体重只有136磅，低于平均值两个标准误差。（还有一个重要的线索是，所有乘客均为孩子，他们身上穿着印有“格兰岱尔市曲棍球营”的T恤。）

1702643834

1702643835 根据你的任务指示，在显着性水平为0.05的前提下，你可以推翻“该客车搭载的是‘变化的一生’研究对象”的零假设。这就意味着（1）如果零假设成立，即该客车上搭载的是“变化的一生”项目的研究对象，那么他们的平均体重所在区间的概率只占到了5%,（2）你可以以零假设成立的概率只有5%为由，推翻零假设；（3）平均来说，在推翻零假设的问题上，你有95%的概率是正确的，只有5%的概率是错误的，后者的情况就是，你觉得这一车人并不是“变化的一生”项目的研究对象，但实际上他们正好是，尽管这一车人的平均体重与整体平均值相比差别较大。

1702643836

1702643837 任务并没有结束。行动指挥中心的负责人（电影版里由安吉丽娜•朱莉扮演）要求你计算出所得结果的假定值，假定值就是在零假设成立的前提下，出现所观察样本结果以及更极端情况的概率。车上乘客的平均体重为136磅，低于“变化的一生”项目的所有研究对象的平均体重5.7个标准误差，如果他们真的是该项目的研究对象，那么得到如此极端结果的概率要小于0.0001（在正式研究报告中可表示为p<0.0001）。任务完成以后，你从这辆行驶的客车上安全跃到正在相邻车道中行驶的敞篷跑车副驾驶座上。

1702643838

1702643839 这个故事同样有个大团圆的结局。当那群“以胖为美”的恐怖分子得知你所在城市正在举办国际香肠节之后，他们一致同意摒弃暴力，通过在全世界范围内推广国际香肠节等手段，以和平的方式促进肥胖主义。

1702643840

1702643841 如果觉得0.05的显着性水平过于任意和武断，那也没办法，因为这个指标是既定的。在推翻零假设这个问题上，并不存在一个标准单一的统计学“门槛”。对于上述分析来说，将显着性水平设为0.01或0.1都是合理和常见的。

1702643842

1702643843 可以想见的是，当显着性水平为0.01（即只有小于1%的概率能够推翻零假设）时，其推翻零假设的难度明显大于显着性水平为0.1的情况（有小于10%的概率能够推翻零假设），因此前者在统计学上的分量自然也会更重。本章后面的段落会讨论不同显着性水平的优势和劣势。当前最需要了解的一点是，当我们能够在某个合理的显着性水平上推翻一个零假设时，其结果可以被认为是具有“统计学意义”的。

1702643844

1702643845 下面来举一个现实生活中的例子。当你在报纸上读到每天吃20个麸皮饼的人患结肠癌的概率要低于那些不爱吃麸皮饼的人时，其背后所进行的学术研究很有可能是：（1）在一个大型数据组中，研究人员发现每天吃至少20个麸皮饼的人患结肠癌的概率要低于那些说自己不爱吃麸皮饼的人；（2）研究人员的零假设是，吃麸皮饼对结肠癌的发病率没有影响；（3）吃麸皮饼和不吃麸皮饼的人之间患结肠癌概率的巨大差别如果仅仅用巧合来解释，似乎并不那么让人信服。具体来说，如果吃麸皮饼与结肠癌之间没有任何联系，那么这两类人在患结肠癌这件事上仅仅是因为巧合就出现如此巨大差别的概率要低于某个“门槛”，如0.05（该显着性水平应该在数据分析开始前确定，这样就可以避免为了得出一个具有统计学意义的研究结果而“量身定制”一个“门槛”；（4）这篇学术论文里可能还会有一个结论，差不多是这样说的：“在每天至少吃20个麸皮饼与结肠癌发病率降低之间，我们发现了一个具有统计学意义的联系，其显着性水平为0.05。”

1702643846

1702643847 后来的某一天，当我早餐吃着培根和鸡蛋时，在《芝加哥太阳报》上读到另一篇类似的研究报道，其标题更加直接和有趣：“每天吃20个麸皮饼，结肠癌就不会来找你”。但是，那份报纸的标题虽然比学术论文更具有可读性和吸引力，但同时也可能在传递一个错误的信息。该研究事实上并没有宣称吃麸皮饼可以降低个

1702643848

1702643849 人患结肠癌的风险，它仅仅是揭示了某个大型数据组中吃麸皮饼与患结肠癌之间的负相关关系。这一统计学关系并不足以证明吃麸皮饼能够、带来健康状况的改善。毕竟，那些吃麸皮饼的人（尤其是每天吃20个以上麸皮饼的人！）有可能还有其他降低癌症发病率的生活习惯，如少吃红色肉类、定期锻炼、常做身体检查等（这就是前面章节里介绍的“健康用户偏见”）。到底是麸皮饼的功劳，还是因为这群爱吃麸皮饼的人恰好具备的其他行为或个人素质？分清楚“相关关系”和“因果关系”将有助于我们更好地理解统计结论。有关“相关关系并不等同于因果关系”的内容，本书将在后面的章节里详细阐述。

1702643850

1702643851 而两个变量之间如果不存在“统计学意义的相关性”，则意味着两者之间的任何关系都可以用“巧合”二字进行合理解释。《纽约时报》近期刊登了某些科技公司涉嫌发布虚假广告的新闻，文章称，这些公司宣称它们的软件有助于提高学生的考试成绩，而数据却给出了相反的结果。卡内基梅隆大学销售的一款名为“认知教学”的软件程序，其广告宣传语是“革命性的数学课程，革命性的成绩提高”，但美国教育部在一份测试报告中却称该软件对高中生的考试成绩“没有效果”。对此，《纽约时报》建议卡内基梅隆大学应该将广告词改为“未突破的数学课程，未证实的成绩提高”。事实上，一项计对10个教学软件的研究发现，在这些声称能够提高学生数学、阅读等能力的软件产品中，有9个与提高考试分数之间不存在统计学意义上的相关性，也就是说，美国联邦研究员无法排除那些使用过和未使用这些产品的学生之间的成绩差别，仅仅是出于巧合的可能性。

1702643852

1702643853 知识介绍暂且停一下，让我先提醒一下大家刚刚这部分内容的重要性。2011年5月《华尔街日报》刊登标题文章，题为“自闭症和脑量”，由于自闭症谱群疾病的病因至今尚未明确，因此该发现被认为是一项重大的研究突破。这篇文章的第一句话总结了发表在美国《普通精神医学纪要》中的相关学术论文：“本周一刊登的一项新研究发现，自闭症儿童的脑量要比其他儿童大，而且这一趋势在孩子未满两周岁时就出现了。”北卡罗来纳州州立大学的研究人员对59位患有自闭症的儿童和38位健康儿童进行了大脑成像，发现自闭症儿童的脑量要比同龄的健康孩子大10%。

1702643854

1702643855 一个相关的医学问题是：患有自闭症谱群疾病的孩子的大脑在生理结构上与其他孩子有什么不同吗？如果回答是肯定的，那么将有助于研究人员更好地理解自闭症的发病原理，从而为自闭症的治疗和预防提供新的信息。

1702643856

1702643857 一个相关的统计学问题是：仅凭一项样本规模并不是太大的研究（只有59位自闭症儿童，健康儿童的数量更少，仅为38位），我们就能推而广之地认为所有患有自闭症谱群疾病的儿童的脑量都异于常人吗？回答是肯定的。研究人员总结道，在儿童的脑量与患自闭症无关的前提下，两组样本（59位自闭症儿童和38位健康儿童）的脑量出现如此差异的概率只有千分之二（p=0.002）。

1702643858

1702643859 我还特地找到了那期《普通精神医学纪要》，翻看了论文原文。里面的研究人员所采用的方法并没有比截至目前我们所学的概念更复杂，接下来，我将为大家大致介绍一下这篇在社会影响力方面和统计学意义上都非常重要的论文。首先你应该认识到，研究中的两组孩子59位自闭症患儿和38位健康孩子——能够合理地代表他们所在的群体，而且样本数量足够了，因此适用于中心极限定理。如果你早已将上一章的内容忘得差不多了，没关系，我们先来简单复习一下：（1）任意一个群体的样本平均值将会在群体平均值周围呈正态分布（⑵样本的平均值和标准差约等于所在群体的整体平均值和标准差；（3）约有68%的样本平均值位于群体平均值一个标准误差以内，约有95%的样本平均值位于群体平均值两个标准误差以内，以此类推。

[ 上一页 ] [ :1.70264381e+09 ] [ 下一页 ]