打字猴:1.702643878e+09

1702643878

1702643879

1702643880 图10-2平均脑量样本分布图

1702643881

1702643882 这可能是证明自闭症儿童的大脑，的确存在解剖学差异的第一条线索。是的，照目前来看，这只能算是一条线索，因为我们所有的推断都是建立在不到100位儿童组成的样本的基础上，或许我们只是遇上了比较特殊的样本。

1702643883

1702643884 现在只要那“临门一脚”的最后一个步骤，就能赋予所有推断以生命，我们也将迎来收获的那一刻。如果把统计学比作花样滑冰，那么现在要进行的就是最后一组动作，在此之后，兴奋的观众们便可将一束束鲜花抛入滑冰场。假设自闭症儿童和健康儿童的脑量真的不存在任何解剖学上的差别，即他们属于同一个群体，那么两组样本出现如此巨大差距（一个是1310.4立方厘米，一个是1238.8立方厘米）的准确概率有多少？我们可以算出已知平均值差异的假定值。

1702643885

1702643886 考虑到你可能会再次将书扔到角落里，我这次将计算公式放到了本章的补充知识点里。道理其实很简单，如果我们从同一个群体里随机抽取两个大型样本，那么我们可以推断出它们的平均值应该是非常接近的。举个例子，如果我选取了100位NBA球员并计算出他们的平均身高为6英尺7英寸（约2.01米），那么另外再随机抽取100位NBA球员，他们的平均身高也应该接近6英尺7英寸。好吧，或许这两组样本之间会存在一两英寸的差别，但存在4英寸差别的概率就没有那么大了，相差6~8英寸的概率可以说是微乎其微。我们可以计算出两个样本平均值之间差异的标准误差，通过这个标准误差，以及不同样本平均值之间的差距，我们可以判断样本平均值的离散程度。重要的是，我们可以通过这一标准误差计算出两个样本来自同一个群体的概率。以下就是具体流程：

1702643887

1702643888 1. 假如两个样本均抽取自同一个群体，那么最好的结果是它们的平均值之差为零。

1702643889

1702643890 2. 中心极限定理告诉我们，在重复抽取的样本群里，两个平均值（样本平均值与群体平均值）之间的差将会呈正态分布。（承认吧，你是不是开始有点爱上中心极限定理了？）

1702643891

1702643892 3.假如两个样本真的来自于同一个群体，那么有68%的概率，两个平均值之间的差小于一个标准误差；有约95%的概率，这个差会处于两个标准误差以内；有99.7%的概率会处于3个标准误差以内。这就是那篇自闭症研究论文的结论落脚点。

1702643893

1702643894 如前文所述，自闭症儿童组和对照组的平均脑量之差为71.6立方厘米，标准误差为22.7,也就是说，两组样本的平均值之差超过3个标准误差，我们能够据此计算出，如果这两个样本真的来自于同一个群体，那么出现如此极端结果的概率只有千分之二。

1702643895

1702643896 在美国《普通精神医学纪要》里刊登的那篇论文提到，该案例的假定值为0.002,也就是我刚刚提到的千分之二。现在，你知道这个数字是从哪里来的了！

1702643897

1702643898 在统计推断的巨大光环之下，我们也要小心它的陷阱。这些陷阱在本章开头的那个例子中就已经埋下了：我的那位起了疑心的统计学老师。统计推断的强大力量来源于概率，而非宇宙深处某种未知而又神秘的绝对性。我们不能因为某人连续两把牌都摸到了“同花顺”就将其关进大牢，因为这种事情确实会发生一在没有作弊的情况下。因此，对于任何一类假设检验来说，我们都面临一个根本性的两难困境。

1702643899

1702643900 这一统计学现实在2011年的时候到达了一个最紧要的关头，当时的《人格与社会心理学杂志》准备刊登一篇表面上看与其他论文没有任何区别的学术论文：一位康奈尔大学的教授明确提出了一个零假设，开展了一项实验来验证这一零假设，然后结合实验结果在显着性水平为0.05的基础上将其推翻。论文的结论在学术界和诸如《纽约时报》这样的主流媒体上，都引起了轩然大波。

1702643901

1702643902 通常来说，在《人格与社会心理学杂志》等类似刊物上发表的文章基本上不会登上报纸头条，那么到底是什么让那篇文章如此受到关注？论文作者是在测试人类的超感知觉（ESP）,俗称“第六感”。零假设当然是“第六感”不存在，备择假设是人类具有超感知觉。为了解开这一谜题，论文作者招募了很多人来参与这个实验。在两块电脑屏幕上分别遮盖着一块不透明的布，电脑软件会随机在一块布的后面显示一张“艳照”，参与者们要在两块布中选择一块掀开，并记录下结果。从概率的角度来说，掀开一块布后面显示“艳照”的概率恰好为50%，但在反复实验以后，研究表明显示艳照的概率为53%。在大量样本数据的支持下，那位教授推翻了“人类不存在超感知觉”的零假设，承认备择假设成立，即超感知觉能够让个人预知未来。这篇论文一经发表，就招致了大量批评，这些批评认为仅凭一项具有统计学意义的研究不足以排除巧合的可能性，尤其是在没有其他证据来支持甚至解释这一结论的情况下。《纽约时报》总结道：“一个藐视几乎所有科学常识的结论就其本质来说应该是超乎寻常的，因此就更需要超乎寻常的证据来证明它。如果忽视了这一点，正如那些充满争议的科学分析故意做的那样，会使得许多研究成果的重要性被夸大。”

1702643903

1702643904 为了应对这一问题，一种方法是抬高统计学意义的“门槛”，例如将显着性标准设定为0.001。但这也存在缺陷，因为选择一个合理的统计学意义“门槛”本身就包含了权衡和妥协。

1702643905

1702643906 如果我们用于推翻零假设的举证责任定得过于宽松（例如0.1）,那么我们就会经常处于推翻零假设的状态，而实际上，在很多时候零假设是正确的（就像我对“第六感”实验的怀疑）。这就是统计分析中肯定或否定假设前提的Ⅰ型错误。想象一下美国的司法制度，对于陪审团来说，法庭上的零假设是被告无罪，推翻这一零假设的门槛是“排除一切可疑之处，确信被告有罪”，假如我们将这一门槛降低为“强烈的直觉告诉我被告有罪”，那么导致的结果肯定是更多的罪犯锒铛人狱，当然也会有更多无辜的人蒙冤人狱。这相当于统计学中将显着性水平降到一个相对低的水平，如0.1。

1702643907

1702643908 严格来说，1/10的概率并非毫无可能。如果放在某种癌症新药的临床试验上，每10次的药物使用，或许就会有那么一次没有起到药效（又或者在法庭上，每被定罪的10个被告里，就有一个人是无辜的）。Ⅰ型错误表示错误地推翻了一个零假设，可能直接看这些统计学术语不是那么直观，所以我们也称之为“假阳性”，下面就来解释一个为什么叫作“假阳性”。当你去医院进行某项疾病的检查时，医院的零假设是你并没有患上该疾病，如果实验室的检测结果推翻了零假设，那么就会在体检报告里注明“阳性”，但假如你的检验结果为“阳性”，事实上你并没有患上该疾病，那么检验结果就是“假阳性”。

1702643909

1702643910 在任何情况下，对推翻零假设的举证责任的要求越宽松，推翻零假设的可能性就越大。但我们显然不愿意看到无效的癌症治疗药物进入市场，也不希望将无辜的人送入监狱。

1702643911

1702643912 但这又出现了一个矛盾。推翻零假设的门槛越高，我们推翻零假设的可能性就越小，以至于很多应该被推翻的零假设“逃过一劫”。如果我们要求必须凑齐5位目击证人才能将被告定罪，那么将会有很多罪大恶极的罪犯逍遥法外（当然，蒙冤人狱的人也会相应减少）。如果我们对所有新药的临床试验都要求0.001的显着性水平，那么将会极大地减少无效药物进入市场的可能性（因为错误推翻“药物没有比安慰剂更有疗效”的零假设的概率只有千分之一），但我们同时也面临着将有效药物拒之门外的风险，因为我们的准入门植太高了，这就是统计学上的Ⅱ型错误，又称为“假阴性”。

1702643913

1702643914 哪种错误更加严重？这要依情况而定。最重要的是，你能够意识到宽松和严格之间的权衡和妥协，因为统计学里没有“免费的午餐”。下面的几种情形虽然与统计学没有直接关系，但也都包含了Ⅰ型错误和Ⅱ型错误之间的妥协。

1702643915

1702643916 1.垃圾邮件过滤。零假设为任何一封电子邮件都不是垃圾邮件。你的垃圾邮件过滤插件会寻找可用来推翻零假设的线索，如一份内容较多的、包含“增高”、“促销”等广告关键词的清单。Ⅰ型错误表示一些不是垃圾邮件的电子邮件也被屏蔽掉了（“假阳性”），Ⅱ型错误表示让垃圾邮件通过筛选进入到了你的收件箱里（“假阴性”）。考虑到漏收一封重要邮件的损失要大大超过收到一封推销天然维生素的广告邮件，绝大多数人可能会更倾向于站在Ⅱ型错误这一边。一个经过优化设计的垃圾邮件过滤插件在推翻“来信为垃圾邮件”的零假设并屏蔽这封邮件之前，应该设法掌握足够多的证据和相对高的准确性。

1702643917

1702643918 2.癌症筛查。我们在医学上有多种方法用于初期癌症的筛查，如乳腺图像（乳腺癌）、前列腺特异抗原测试（前列腺癌），甚至全身核磁共振扫描（看看身体哪个部位存在问题）。对于任何一位进行癌症筛查的人来说，零假设都是没有患上癌症。筛查的作用就是通过发现可疑结果，进而推翻零假设。按常理，Ⅰ型错误（身体没有任何问题的“假阳性”）总是要优于Ⅱ型错误（癌症没有被诊断出来的“假阴性”）。从历史上看，癌症筛全经常站在垃圾邮件过滤的对立面：医生和病人总是愿意容忍一定程度的Ⅰ型错误，而尽力避免出现Ⅱ型错误。最近，美国卫生政策专家开始挑战这一观点，这是因为Ⅰ型错误所导致的高费用和副作用。

1702643919

1702643920 3.打击恐怖分子。在这个例子中，Ⅰ型错误和Ⅱ型错误都是不可容忍的，这也是为什么如今社会上还在激烈讨论如何处理好打击恐怖主义和保护公民自由之间的关系。零假设为某人不是恐怖分子。如果换作一个普通的庭审，我们并不希望犯丨型错误，而将无辜的人送进关塔那摩监狱。但在一个充斥着大规模杀伤性武器的世界里，哪怕是一个恐怖分子逍遥法外（Ⅱ型错误）都会带来不可估量的灾难。不管你是否赞同，这就是为什么美国政府会在证据不充分的情况下依然将大量的可疑分子关到关塔那摩监狱里。

1702643921

1702643922 统计推断并非绝对可靠的魔法，但对于认识这个世界来说，它的作用依然是巨大的。通过弄清楚最有可能的解释，我们可以了解生活中的许多现象。我们中的绝大部分人其实每天都在进行着这项工作（例如，“我认为那个晕倒在一堆啤酒瓶中间的大学生肯定是喝多了”，而不是“我认为那个晕倒在一堆啤酒瓶中间的大学生是被恐怖分子毒杀了”）。

1702643923

1702643924 统计推断只是将这个过程正式化。

1702643925

1702643926 本章补充知识点

1702643927

[ 上一页 ] [ :1.702643878e+09 ] [ 下一页 ]