1702639945
1702639946
这类不利于零假设的间接证据,不像置信区间那样直截了当。
1702639947
1702639948
了解你用的方法必须满足的条件
1702639949
1702639950
1702639951
我们对于总体比例p所做的显著性检验与估算的置信区间,都要求总体必须比样本大很多,也要求样本足够大,这样才使样本比例的抽样分布接近于正态分布。我对于这些条件的细节说得不多,因为推断的理论基础更重要。就像有推断方法适用于分层样本一样,也有方法适用于小样本与小总体。如果你要实际做统计推断,需要找统计学家帮忙(或者必须学习很多统计学知识),才能处理好所有细节。
1702639952
1702639953
我们当中的大部分人读到统计研究结果的机会,要比自己处理数据的机会多。你要注意的是大问题,而不是作者是否用了百分之百正确的方法等细节问题。比如,这个研究是否问了正确的问题?数据从哪里来?结果合不合理?研究结果中是否提出置信区间,让你不仅可以知道总体参数的估计值,还知道估计值的不确定程度?有没有给出P值来说服你,研究发现并不是碰巧得到的?
1702639954
1702639955
显著性检验面临的困难
1702639956
1702639957
显著性检验的目的,通常是找到总体中存在某种效应的证据。这里说的效应,也许是指抛硬币正面朝上的概率不是一半,或者采用新疗法的癌症病人平均存活时间较长。如果效应够大,就会在大部分样本中显现出来——我们抛硬币得到的正面朝上的比例会和一半相去甚远,或者使用新疗法的病人会比控制组的病人多活很长时间。如果效应较小,比如正面朝上的概率和一半差不多,则通常会被样本的随机性变异掩盖住。毋庸置疑,大的效应比较容易被我们注意到。换句话说,当总体真实值离零假设很远的时候,P值通常会很小。
1702639958
1702639959
显著性检验的主要“弱点”是,它只度量不利于零假设的证据强度,而不能度量我们正在寻找的总体效应到底有多大或多重要。举例来说,我们的假设可能是“这个硬币是平衡的”。我们把这个假设用正面朝上的概率p表示成H0:p=0.5。真正的硬币没有哪一个是百分之百平衡的,所以我们知道这项假设并不正确。如果这个硬币正面朝上的概率是p=0.502,从实际角度来看,我们可能就会认为它是平衡的。但是统计检验可不管什么“实际”,它只会问是不是有足够的证据显示p并不恰好是0.5。检验把焦点放在不利于某个确切的零假设的证据强度上面,这一点是应用检验时许多困扰的来源。
1702639960
1702639961
当你看一项显著性检验的结果时,要特别注意样本大小。理由如下:
1702639962
1702639963
• 较大的样本会提高显著性检验的敏感度。如果我们抛硬币几十万次,则对于H0:p=0.5的检验往往会得到很小的P值(这枚硬币真实的p值是0.502)。检验结果并没有错(它找到了合理的证据,证明p的确不是0.5。)但是,它把这么小的差异找出来,实在没什么实用价值。一项发现可能具有统计学显著性,却没有实际意义。
1702639964
1702639965
• 另一方面,用小样本做的显著性检验敏感度较差。如果你抛硬币10次,在检验H0:p=0.5时,即使这个硬币真实的p=0.7,检验结果的P值也往往较大。这回检验仍然是正确的,因为只掷10次原本就不足以提供不利于零假设的合理证据。不具有统计学显著性并不代表效应不存在,而只能说我们没有找到合理的证据证明它。小样本常常会漏掉总体中确实存在的效应。
1702639966
1702639967
例2 抗抑郁药与安慰剂
1702639968
1702639969
凭借美国《信息自由法》,两位心理学家得到了美国食品药品监督管理局批准在1987~1999年得到最广泛使用的6种抗抑郁药的47项研究成果。最终,这两位心理学家发现,与安慰剂相比,这些抗抑郁药的疗效具有统计学显著性。尽管如此,他们又报告说抗抑郁药比安慰剂的疗效强18%,“但在临床治疗方面意义不大”。
1702639970
1702639971
不论总体的真实情况如何,不管是p=0.7还是p=0.502,观察值多一点儿,就可以让我们对p的值估计得更准些。若p不等于0.5,观察值越多就会给我们越多的证据,也就是得到较小的P值。因为统计学显著性会受到样本大小和总体参数真实值的强烈影响,所以它并不能告诉我们,一项效应有多大或实际上有多重要。如果我们取的样本小,大的效应(比如当零假设为p=0.5时,实际上p=0.7),常常产生不具有统计学显著性的数据。如果我们取的样本很大,则小的效应(比如p=0.502)也常常会产生具有统计学显著性的结果。我们回顾一下前文中的一个例子,看看样本大小如何影响统计学显著性。
1702639972
1702639973
例3 布冯伯爵抛硬币实验
1702639974
1702639975
布冯伯爵抛了4040次硬币,有2048次为正面朝上,正面朝上的样本比例是:
1702639976
1702639977
1702639978
1702639979
1702639980
伯爵抛的硬币是平衡的吗?假设如下:
1702639981
1702639982
H0:p=0.5
1702639983
1702639984
Ha:p≠0.5
1702639985
1702639986
1702639987
1702639988
1702639989
要进行显著性检验,先把样本结果标示在抽样分布上,这个抽样分布描述了在零假设成立时值的变化情况。图23-1复制了图22-2,它显示=0.507离0.5不算远,并不能当作反对p=0.5的一个好的证据。P值为0.37,使得这个结论看上去更精确。
1702639990
1702639991
1702639992
1702639993
1702639994
图23-1 当硬币平衡时,抛4040次硬币所得正面朝上比例的抽样分布。样本比例0.507不是不寻常的结果
[
上一页 ]
[ :1.702639945e+09 ]
[
下一页 ]