1702643890
2. 中心极限定理告诉我们,在重复抽取的样本群里,两个平均值(样本平均值与群体平均值)之间的差将会呈正态分布。(承认吧,你是不是开始有点爱上中心极限定理了?)
1702643891
1702643892
3.假如两个样本真的来自于同一个群体,那么有68%的概率,两个平均值之间的差小于一个标准误差;有约95%的概率,这个差会处于两个标准误差以内;有99.7%的概率会处于3个标准误差以内。这就是那篇自闭症研究论文的结论落脚点。
1702643893
1702643894
如前文所述,自闭症儿童组和对照组的平均脑量之差为71.6立方厘米,标准误差为22.7,也就是说,两组样本的平均值之差超过3个标准误差,我们能够据此计算出,如果这两个样本真的来自于同一个群体,那么出现如此极端结果的概率只有千分之二。
1702643895
1702643896
在美国《普通精神医学纪要》里刊登的那篇论文提到,该案例的假定值为0.002,也就是我刚刚提到的千分之二。现在,你知道这个数字是从哪里来的了!
1702643897
1702643898
在统计推断的巨大光环之下,我们也要小心它的陷阱。这些陷阱在本章开头的那个例子中就已经埋下了:我的那位起了疑心的统计学老师。统计推断的强大力量来源于概率,而非宇宙深处某种未知而又神秘的绝对性。我们不能因为某人连续两把牌都摸到了“同花顺”就将其关进大牢,因为这种事情确实会发生一在没有作弊的情况下。因此,对于任何一类假设检验来说,我们都面临一个根本性的两难困境。
1702643899
1702643900
这一统计学现实在2011年的时候到达了一个最紧要的关头,当时的《人格与社会心理学杂志》准备刊登一篇表面上看与其他论文没有任何区别的学术论文:一位康奈尔大学的教授明确提出了一个零假设,开展了一项实验来验证这一零假设,然后结合实验结果在显着性水平为0.05的基础上将其推翻。论文的结论在学术界和诸如《纽约时报》这样的主流媒体上,都引起了轩然大波。
1702643901
1702643902
通常来说,在《人格与社会心理学杂志》等类似刊物上发表的文章基本上不会登上报纸头条,那么到底是什么让那篇文章如此受到关注?论文作者是在测试人类的超感知觉(ESP),俗称“第六感”。零假设当然是“第六感”不存在,备择假设是人类具有超感知觉。为了解开这一谜题,论文作者招募了很多人来参与这个实验。在两块电脑屏幕上分别遮盖着一块不透明的布,电脑软件会随机在一块布的后面显示一张“艳照”,参与者们要在两块布中选择一块掀开,并记录下结果。从概率的角度来说,掀开一块布后面显示“艳照”的概率恰好为50%,但在反复实验以后,研究表明显示艳照的概率为53%。在大量样本数据的支持下,那位教授推翻了“人类不存在超感知觉”的零假设,承认备择假设成立,即超感知觉能够让个人预知未来。这篇论文一经发表,就招致了大量批评,这些批评认为仅凭一项具有统计学意义的研究不足以排除巧合的可能性,尤其是在没有其他证据来支持甚至解释这一结论的情况下。《纽约时报》总结道:“一个藐视几乎所有科学常识的结论就其本质来说应该是超乎寻常的,因此就更需要超乎寻常的证据来证明它。如果忽视了这一点,正如那些充满争议的科学分析故意做的那样,会使得许多研究成果的重要性被夸大。”
1702643903
1702643904
为了应对这一问题,一种方法是抬高统计学意义的“门槛”,例如将显着性标准设定为0.001。但这也存在缺陷,因为选择一个合理的统计学意义“门槛”本身就包含了权衡和妥协。
1702643905
1702643906
如果我们用于推翻零假设的举证责任定得过于宽松(例如0.1),那么我们就会经常处于推翻零假设的状态,而实际上,在很多时候零假设是正确的(就像我对“第六感”实验的怀疑)。这就是统计分析中肯定或否定假设前提的Ⅰ型错误。想象一下美国的司法制度,对于陪审团来说,法庭上的零假设是被告无罪,推翻这一零假设的门槛是“排除一切可疑之处,确信被告有罪”,假如我们将这一门槛降低为“强烈的直觉告诉我被告有罪”,那么导致的结果肯定是更多的罪犯锒铛人狱,当然也会有更多无辜的人蒙冤人狱。这相当于统计学中将显着性水平降到一个相对低的水平,如0.1。
1702643907
1702643908
严格来说,1/10的概率并非毫无可能。如果放在某种癌症新药的临床试验上,每10次的药物使用,或许就会有那么一次没有起到药效(又或者在法庭上,每被定罪的10个被告里,就有一个人是无辜的)。Ⅰ型错误表示错误地推翻了一个零假设,可能直接看这些统计学术语不是那么直观,所以我们也称之为“假阳性”,下面就来解释一个为什么叫作“假阳性”。当你去医院进行某项疾病的检查时,医院的零假设是你并没有患上该疾病,如果实验室的检测结果推翻了零假设,那么就会在体检报告里注明“阳性”,但假如你的检验结果为“阳性”,事实上你并没有患上该疾病,那么检验结果就是“假阳性”。
1702643909
1702643910
在任何情况下,对推翻零假设的举证责任的要求越宽松,推翻零假设的可能性就越大。但我们显然不愿意看到无效的癌症治疗药物进入市场,也不希望将无辜的人送入监狱。
1702643911
1702643912
但这又出现了一个矛盾。推翻零假设的门槛越高,我们推翻零假设的可能性就越小,以至于很多应该被推翻的零假设“逃过一劫”。如果我们要求必须凑齐5位目击证人才能将被告定罪,那么将会有很多罪大恶极的罪犯逍遥法外(当然,蒙冤人狱的人也会相应减少)。如果我们对所有新药的临床试验都要求0.001的显着性水平,那么将会极大地减少无效药物进入市场的可能性(因为错误推翻“药物没有比安慰剂更有疗效”的零假设的概率只有千分之一),但我们同时也面临着将有效药物拒之门外的风险,因为我们的准入门植太高了,这就是统计学上的Ⅱ型错误,又称为“假阴性”。
1702643913
1702643914
哪种错误更加严重?这要依情况而定。最重要的是,你能够意识到宽松和严格之间的权衡和妥协,因为统计学里没有“免费的午餐”。下面的几种情形虽然与统计学没有直接关系,但也都包含了Ⅰ型错误和Ⅱ型错误之间的妥协。
1702643915
1702643916
1.垃圾邮件过滤。零假设为任何一封电子邮件都不是垃圾邮件。你的垃圾邮件过滤插件会寻找可用来推翻零假设的线索,如一份内容较多的、包含“增高”、“促销”等广告关键词的清单。Ⅰ型错误表示一些不是垃圾邮件的电子邮件也被屏蔽掉了(“假阳性”),Ⅱ型错误表示让垃圾邮件通过筛选进入到了你的收件箱里(“假阴性”)。考虑到漏收一封重要邮件的损失要大大超过收到一封推销天然维生素的广告邮件,绝大多数人可能会更倾向于站在Ⅱ型错误这一边。一个经过优化设计的垃圾邮件过滤插件在推翻“来信为垃圾邮件”的零假设并屏蔽这封邮件之前,应该设法掌握足够多的证据和相对高的准确性。
1702643917
1702643918
2.癌症筛查。我们在医学上有多种方法用于初期癌症的筛查,如乳腺图像(乳腺癌)、前列腺特异抗原测试(前列腺癌),甚至全身核磁共振扫描(看看身体哪个部位存在问题)。对于任何一位进行癌症筛查的人来说,零假设都是没有患上癌症。筛查的作用就是通过发现可疑结果,进而推翻零假设。按常理,Ⅰ型错误(身体没有任何问题的“假阳性”)总是要优于Ⅱ型错误(癌症没有被诊断出来的“假阴性”)。从历史上看,癌症筛全经常站在垃圾邮件过滤的对立面:医生和病人总是愿意容忍一定程度的Ⅰ型错误,而尽力避免出现Ⅱ型错误。最近,美国卫生政策专家开始挑战这一观点,这是因为Ⅰ型错误所导致的高费用和副作用。
1702643919
1702643920
3.打击恐怖分子。在这个例子中,Ⅰ型错误和Ⅱ型错误都是不可容忍的,这也是为什么如今社会上还在激烈讨论如何处理好打击恐怖主义和保护公民自由之间的关系。零假设为某人不是恐怖分子。如果换作一个普通的庭审,我们并不希望犯丨型错误,而将无辜的人送进关塔那摩监狱。但在一个充斥着大规模杀伤性武器的世界里,哪怕是一个恐怖分子逍遥法外(Ⅱ型错误)都会带来不可估量的灾难。不管你是否赞同,这就是为什么美国政府会在证据不充分的情况下依然将大量的可疑分子关到关塔那摩监狱里。
1702643921
1702643922
统计推断并非绝对可靠的魔法,但对于认识这个世界来说,它的作用依然是巨大的。通过弄清楚最有可能的解释,我们可以了解生活中的许多现象。我们中的绝大部分人其实每天都在进行着这项工作(例如,“我认为那个晕倒在一堆啤酒瓶中间的大学生肯定是喝多了”,而不是“我认为那个晕倒在一堆啤酒瓶中间的大学生是被恐怖分子毒杀了”)。
1702643923
1702643924
统计推断只是将这个过程正式化。
1702643925
1702643926
本章补充知识点
1702643927
1702643928
计算平均值差异的标准误差
1702643929
1702643930
平均值比较公式为
1702643931
1702643932
其中,5=样本x平均值
1702643933
1702643934
y=样本y平均值Sx=样本X标准差sy=样本y标准差nx=样本x的数量ny=样本y的数量
1702643935
1702643936
我们的零假设是两个样本的平均值相等。上面的公式计算的是两个平均值之差与标准误差之间的比值。我们需要通过正态分布的相关结论对零假设进行验证。假如这两个样本所在群体的平均值是相等的(即它们取自于同一个群体),那么它们的平均值之差小于一个标准误差的概率为68%,小于两个标准误差的概率为95%,以此类推。
1702643937
1702643938
在本章的自闭症案例中,两个样本的平均值之差为71.6立方厘米,标准误差为22.7,两者相除得到3.15,也就是说,两个样本的平均值相差3个以上的标准误差。正如之前所说,如果两个群体的平均值相同,那么从这两个群体里分别抽取一个大型样本,其差距如此之大的概率是非常低的。精确来说,两个样本差距大于或等于3.15个标准误差的概率仅为0.002。
1702643939
[
上一页 ]
[ :1.70264389e+09 ]
[
下一页 ]