1702643910
在任何情况下,对推翻零假设的举证责任的要求越宽松,推翻零假设的可能性就越大。但我们显然不愿意看到无效的癌症治疗药物进入市场,也不希望将无辜的人送入监狱。
1702643911
1702643912
但这又出现了一个矛盾。推翻零假设的门槛越高,我们推翻零假设的可能性就越小,以至于很多应该被推翻的零假设“逃过一劫”。如果我们要求必须凑齐5位目击证人才能将被告定罪,那么将会有很多罪大恶极的罪犯逍遥法外(当然,蒙冤人狱的人也会相应减少)。如果我们对所有新药的临床试验都要求0.001的显着性水平,那么将会极大地减少无效药物进入市场的可能性(因为错误推翻“药物没有比安慰剂更有疗效”的零假设的概率只有千分之一),但我们同时也面临着将有效药物拒之门外的风险,因为我们的准入门植太高了,这就是统计学上的Ⅱ型错误,又称为“假阴性”。
1702643913
1702643914
哪种错误更加严重?这要依情况而定。最重要的是,你能够意识到宽松和严格之间的权衡和妥协,因为统计学里没有“免费的午餐”。下面的几种情形虽然与统计学没有直接关系,但也都包含了Ⅰ型错误和Ⅱ型错误之间的妥协。
1702643915
1702643916
1.垃圾邮件过滤。零假设为任何一封电子邮件都不是垃圾邮件。你的垃圾邮件过滤插件会寻找可用来推翻零假设的线索,如一份内容较多的、包含“增高”、“促销”等广告关键词的清单。Ⅰ型错误表示一些不是垃圾邮件的电子邮件也被屏蔽掉了(“假阳性”),Ⅱ型错误表示让垃圾邮件通过筛选进入到了你的收件箱里(“假阴性”)。考虑到漏收一封重要邮件的损失要大大超过收到一封推销天然维生素的广告邮件,绝大多数人可能会更倾向于站在Ⅱ型错误这一边。一个经过优化设计的垃圾邮件过滤插件在推翻“来信为垃圾邮件”的零假设并屏蔽这封邮件之前,应该设法掌握足够多的证据和相对高的准确性。
1702643917
1702643918
2.癌症筛查。我们在医学上有多种方法用于初期癌症的筛查,如乳腺图像(乳腺癌)、前列腺特异抗原测试(前列腺癌),甚至全身核磁共振扫描(看看身体哪个部位存在问题)。对于任何一位进行癌症筛查的人来说,零假设都是没有患上癌症。筛查的作用就是通过发现可疑结果,进而推翻零假设。按常理,Ⅰ型错误(身体没有任何问题的“假阳性”)总是要优于Ⅱ型错误(癌症没有被诊断出来的“假阴性”)。从历史上看,癌症筛全经常站在垃圾邮件过滤的对立面:医生和病人总是愿意容忍一定程度的Ⅰ型错误,而尽力避免出现Ⅱ型错误。最近,美国卫生政策专家开始挑战这一观点,这是因为Ⅰ型错误所导致的高费用和副作用。
1702643919
1702643920
3.打击恐怖分子。在这个例子中,Ⅰ型错误和Ⅱ型错误都是不可容忍的,这也是为什么如今社会上还在激烈讨论如何处理好打击恐怖主义和保护公民自由之间的关系。零假设为某人不是恐怖分子。如果换作一个普通的庭审,我们并不希望犯丨型错误,而将无辜的人送进关塔那摩监狱。但在一个充斥着大规模杀伤性武器的世界里,哪怕是一个恐怖分子逍遥法外(Ⅱ型错误)都会带来不可估量的灾难。不管你是否赞同,这就是为什么美国政府会在证据不充分的情况下依然将大量的可疑分子关到关塔那摩监狱里。
1702643921
1702643922
统计推断并非绝对可靠的魔法,但对于认识这个世界来说,它的作用依然是巨大的。通过弄清楚最有可能的解释,我们可以了解生活中的许多现象。我们中的绝大部分人其实每天都在进行着这项工作(例如,“我认为那个晕倒在一堆啤酒瓶中间的大学生肯定是喝多了”,而不是“我认为那个晕倒在一堆啤酒瓶中间的大学生是被恐怖分子毒杀了”)。
1702643923
1702643924
统计推断只是将这个过程正式化。
1702643925
1702643926
本章补充知识点
1702643927
1702643928
计算平均值差异的标准误差
1702643929
1702643930
平均值比较公式为
1702643931
1702643932
其中,5=样本x平均值
1702643933
1702643934
y=样本y平均值Sx=样本X标准差sy=样本y标准差nx=样本x的数量ny=样本y的数量
1702643935
1702643936
我们的零假设是两个样本的平均值相等。上面的公式计算的是两个平均值之差与标准误差之间的比值。我们需要通过正态分布的相关结论对零假设进行验证。假如这两个样本所在群体的平均值是相等的(即它们取自于同一个群体),那么它们的平均值之差小于一个标准误差的概率为68%,小于两个标准误差的概率为95%,以此类推。
1702643937
1702643938
在本章的自闭症案例中,两个样本的平均值之差为71.6立方厘米,标准误差为22.7,两者相除得到3.15,也就是说,两个样本的平均值相差3个以上的标准误差。正如之前所说,如果两个群体的平均值相同,那么从这两个群体里分别抽取一个大型样本,其差距如此之大的概率是非常低的。精确来说,两个样本差距大于或等于3.15个标准误差的概率仅为0.002。
1702643939
1702643940
1702643941
1702643942
1702643943
图10-2样本平均值的差异
1702643944
1702643945
单尾/双尾假设检验
1702643946
1702643947
本章介绍了用抽样的方法检验男性职业篮球运动员的平均身高是否与普通人相同,但我对这个过程进行了研究。我们的零假设是,男性篮球运动员的平均身高与普通男性相同。不过,我没有跟大家说的是,其实我们有两种可能的备择假设。
1702643948
1702643949
一种备择假设是,男性职业篮球运动员的平均身高与普通男性不同,他们可能比普通人高(或低)。这与你潜入遇劫客车通过目测乘客体重来判断他们是否为“变化的一生”项目的研究对象的方法是一样的。假如乘客的平均体重比“变化的一生”项目的所有研究对象的平均体重重或轻的程度较大(例子中的情况正好为后者),那么你就可以推翻“他们是研究对象”的零假设。我们的第二种备择假设为男性职业篮球运动员平均身高要高于普通男性,在这种情况下,稍有常识的人都了解篮球运动员基本上不可能比普通人的身材矮。这两种备择假设的区别将会决定我们最后是进行单尾假设检验还是双尾假设检验。
1702643950
1702643951
在上述两种情形中,我们都把显着性水平设定为0.05。假如他们的身高相同,那么若发现两组样本之间存在差异,且此差异的出现概率小于或等于5%,我们就可以推翻零假设。到目前为止,这些内容都是我们学过的。
1702643952
1702643953
接下来要讲的内容就有点儿复杂了。如果我们的备择假设为篮球运动员比普通人高,我们就需要进行单尾假设检验。我们首先计算出两组男性的身高之差,假如零假设成立,那么平均值差异大于或等于1.64个标准误差的概率只有5%。因此,如果两组男性的身高之差位于这个区间内,那么我们就可以推翻零假设,请看下图。
1702643954
1702643955
1702643956
1702643957
1702643958
10-3样本平均值的差异(以标准误差为参照)
1702643959
[
上一页 ]
[ :1.70264391e+09 ]
[
下一页 ]