1702639935
1702639936
知识普及 中途退出
1702639937
1702639938
一项实验结果发现,要治疗高胆固醇和高血压,减肥明显比运动更有效。170位实验对象被随机分配到减肥组、运动组与控制组三者之一中。170人中只有111人完成了整个实验,统计分析就只用了这111人的数据。中途退出者是否造成了偏差?在相信实验结果之前,一定要先弄清楚有关数据的各种细节。
1702639939
1702639940
了解统计学显著性的意义
1702639941
1702639942
许多统计研究的目的,都是为了证明某种断言是正确的。临床试验将一种新药和标准用药做比较,因为医生希望新药对病人的帮助更大。研究性别差异的心理学家认为,在一项度量建立人际关系网络能力的测验中,女性的表现应该比男性好(平均来说)。显著性检验的目的是评估数据是否提供了足够证据,可以支持这类断言。也就是说,显著性检验可以帮助我们弄清楚,我们是否的确找到了想要找的东西。
1702639943
1702639944
要做到这一点,我们就必须知道,若断言不正确会发生什么状况。这指的是零假设:两种药效没差别,女性和男性没差别。显著性检验只回答一个问题:“零假设不正确的证据有多强?”显著性检验是用P值来回答这个问题的。P值告诉我们,如果零假设正确,数据几乎不可能得到。几乎不可能得到的数据,就是零假设不正确的合理证据。我们永远也不会知道,对我们的总体来说这假设是否为真。我们只能说:“如果零假设为真,这样的数据只有5%的时候会出现。”
1702639945
1702639946
这类不利于零假设的间接证据,不像置信区间那样直截了当。
1702639947
1702639948
了解你用的方法必须满足的条件
1702639949
1702639950
1702639951
我们对于总体比例p所做的显著性检验与估算的置信区间,都要求总体必须比样本大很多,也要求样本足够大,这样才使样本比例的抽样分布接近于正态分布。我对于这些条件的细节说得不多,因为推断的理论基础更重要。就像有推断方法适用于分层样本一样,也有方法适用于小样本与小总体。如果你要实际做统计推断,需要找统计学家帮忙(或者必须学习很多统计学知识),才能处理好所有细节。
1702639952
1702639953
我们当中的大部分人读到统计研究结果的机会,要比自己处理数据的机会多。你要注意的是大问题,而不是作者是否用了百分之百正确的方法等细节问题。比如,这个研究是否问了正确的问题?数据从哪里来?结果合不合理?研究结果中是否提出置信区间,让你不仅可以知道总体参数的估计值,还知道估计值的不确定程度?有没有给出P值来说服你,研究发现并不是碰巧得到的?
1702639954
1702639955
显著性检验面临的困难
1702639956
1702639957
显著性检验的目的,通常是找到总体中存在某种效应的证据。这里说的效应,也许是指抛硬币正面朝上的概率不是一半,或者采用新疗法的癌症病人平均存活时间较长。如果效应够大,就会在大部分样本中显现出来——我们抛硬币得到的正面朝上的比例会和一半相去甚远,或者使用新疗法的病人会比控制组的病人多活很长时间。如果效应较小,比如正面朝上的概率和一半差不多,则通常会被样本的随机性变异掩盖住。毋庸置疑,大的效应比较容易被我们注意到。换句话说,当总体真实值离零假设很远的时候,P值通常会很小。
1702639958
1702639959
显著性检验的主要“弱点”是,它只度量不利于零假设的证据强度,而不能度量我们正在寻找的总体效应到底有多大或多重要。举例来说,我们的假设可能是“这个硬币是平衡的”。我们把这个假设用正面朝上的概率p表示成H0:p=0.5。真正的硬币没有哪一个是百分之百平衡的,所以我们知道这项假设并不正确。如果这个硬币正面朝上的概率是p=0.502,从实际角度来看,我们可能就会认为它是平衡的。但是统计检验可不管什么“实际”,它只会问是不是有足够的证据显示p并不恰好是0.5。检验把焦点放在不利于某个确切的零假设的证据强度上面,这一点是应用检验时许多困扰的来源。
1702639960
1702639961
当你看一项显著性检验的结果时,要特别注意样本大小。理由如下:
1702639962
1702639963
• 较大的样本会提高显著性检验的敏感度。如果我们抛硬币几十万次,则对于H0:p=0.5的检验往往会得到很小的P值(这枚硬币真实的p值是0.502)。检验结果并没有错(它找到了合理的证据,证明p的确不是0.5。)但是,它把这么小的差异找出来,实在没什么实用价值。一项发现可能具有统计学显著性,却没有实际意义。
1702639964
1702639965
• 另一方面,用小样本做的显著性检验敏感度较差。如果你抛硬币10次,在检验H0:p=0.5时,即使这个硬币真实的p=0.7,检验结果的P值也往往较大。这回检验仍然是正确的,因为只掷10次原本就不足以提供不利于零假设的合理证据。不具有统计学显著性并不代表效应不存在,而只能说我们没有找到合理的证据证明它。小样本常常会漏掉总体中确实存在的效应。
1702639966
1702639967
例2 抗抑郁药与安慰剂
1702639968
1702639969
凭借美国《信息自由法》,两位心理学家得到了美国食品药品监督管理局批准在1987~1999年得到最广泛使用的6种抗抑郁药的47项研究成果。最终,这两位心理学家发现,与安慰剂相比,这些抗抑郁药的疗效具有统计学显著性。尽管如此,他们又报告说抗抑郁药比安慰剂的疗效强18%,“但在临床治疗方面意义不大”。
1702639970
1702639971
不论总体的真实情况如何,不管是p=0.7还是p=0.502,观察值多一点儿,就可以让我们对p的值估计得更准些。若p不等于0.5,观察值越多就会给我们越多的证据,也就是得到较小的P值。因为统计学显著性会受到样本大小和总体参数真实值的强烈影响,所以它并不能告诉我们,一项效应有多大或实际上有多重要。如果我们取的样本小,大的效应(比如当零假设为p=0.5时,实际上p=0.7),常常产生不具有统计学显著性的数据。如果我们取的样本很大,则小的效应(比如p=0.502)也常常会产生具有统计学显著性的结果。我们回顾一下前文中的一个例子,看看样本大小如何影响统计学显著性。
1702639972
1702639973
例3 布冯伯爵抛硬币实验
1702639974
1702639975
布冯伯爵抛了4040次硬币,有2048次为正面朝上,正面朝上的样本比例是:
1702639976
1702639977
1702639978
1702639979
1702639980
伯爵抛的硬币是平衡的吗?假设如下:
1702639981
1702639982
H0:p=0.5
1702639983
1702639984
Ha:p≠0.5
[
上一页 ]
[ :1.702639935e+09 ]
[
下一页 ]