打字猴:1.702639945e+09

1702639945

1702639946 这类不利于零假设的间接证据，不像置信区间那样直截了当。

1702639947

1702639948 了解你用的方法必须满足的条件

1702639949

1702639950

1702639951 我们对于总体比例p所做的显著性检验与估算的置信区间，都要求总体必须比样本大很多，也要求样本足够大，这样才使样本比例的抽样分布接近于正态分布。我对于这些条件的细节说得不多，因为推断的理论基础更重要。就像有推断方法适用于分层样本一样，也有方法适用于小样本与小总体。如果你要实际做统计推断，需要找统计学家帮忙（或者必须学习很多统计学知识），才能处理好所有细节。

1702639952

1702639953 我们当中的大部分人读到统计研究结果的机会，要比自己处理数据的机会多。你要注意的是大问题，而不是作者是否用了百分之百正确的方法等细节问题。比如，这个研究是否问了正确的问题？数据从哪里来？结果合不合理？研究结果中是否提出置信区间，让你不仅可以知道总体参数的估计值，还知道估计值的不确定程度？有没有给出P值来说服你，研究发现并不是碰巧得到的？

1702639954

1702639955 显著性检验面临的困难

1702639956

1702639957 显著性检验的目的，通常是找到总体中存在某种效应的证据。这里说的效应，也许是指抛硬币正面朝上的概率不是一半，或者采用新疗法的癌症病人平均存活时间较长。如果效应够大，就会在大部分样本中显现出来——我们抛硬币得到的正面朝上的比例会和一半相去甚远，或者使用新疗法的病人会比控制组的病人多活很长时间。如果效应较小，比如正面朝上的概率和一半差不多，则通常会被样本的随机性变异掩盖住。毋庸置疑，大的效应比较容易被我们注意到。换句话说，当总体真实值离零假设很远的时候，P值通常会很小。

1702639958

1702639959 显著性检验的主要“弱点”是，它只度量不利于零假设的证据强度，而不能度量我们正在寻找的总体效应到底有多大或多重要。举例来说，我们的假设可能是“这个硬币是平衡的”。我们把这个假设用正面朝上的概率p表示成H0：p=0.5。真正的硬币没有哪一个是百分之百平衡的，所以我们知道这项假设并不正确。如果这个硬币正面朝上的概率是p=0.502，从实际角度来看，我们可能就会认为它是平衡的。但是统计检验可不管什么“实际”，它只会问是不是有足够的证据显示p并不恰好是0.5。检验把焦点放在不利于某个确切的零假设的证据强度上面，这一点是应用检验时许多困扰的来源。

1702639960

1702639961 当你看一项显著性检验的结果时，要特别注意样本大小。理由如下：

1702639962

1702639963 • 较大的样本会提高显著性检验的敏感度。如果我们抛硬币几十万次，则对于H0：p=0.5的检验往往会得到很小的P值（这枚硬币真实的p值是0.502）。检验结果并没有错（它找到了合理的证据，证明p的确不是0.5。）但是，它把这么小的差异找出来，实在没什么实用价值。一项发现可能具有统计学显著性，却没有实际意义。

1702639964

1702639965 • 另一方面，用小样本做的显著性检验敏感度较差。如果你抛硬币10次，在检验H0：p=0.5时，即使这个硬币真实的p=0.7，检验结果的P值也往往较大。这回检验仍然是正确的，因为只掷10次原本就不足以提供不利于零假设的合理证据。不具有统计学显著性并不代表效应不存在，而只能说我们没有找到合理的证据证明它。小样本常常会漏掉总体中确实存在的效应。

1702639966

1702639967 例2 抗抑郁药与安慰剂

1702639968

1702639969 凭借美国《信息自由法》，两位心理学家得到了美国食品药品监督管理局批准在1987~1999年得到最广泛使用的6种抗抑郁药的47项研究成果。最终，这两位心理学家发现，与安慰剂相比，这些抗抑郁药的疗效具有统计学显著性。尽管如此，他们又报告说抗抑郁药比安慰剂的疗效强18%，“但在临床治疗方面意义不大”。

1702639970

1702639971 不论总体的真实情况如何，不管是p=0.7还是p=0.502，观察值多一点儿，就可以让我们对p的值估计得更准些。若p不等于0.5，观察值越多就会给我们越多的证据，也就是得到较小的P值。因为统计学显著性会受到样本大小和总体参数真实值的强烈影响，所以它并不能告诉我们，一项效应有多大或实际上有多重要。如果我们取的样本小，大的效应（比如当零假设为p=0.5时，实际上p=0.7），常常产生不具有统计学显著性的数据。如果我们取的样本很大，则小的效应（比如p=0.502）也常常会产生具有统计学显著性的结果。我们回顾一下前文中的一个例子，看看样本大小如何影响统计学显著性。

1702639972

1702639973 例3 布冯伯爵抛硬币实验

1702639974

1702639975 布冯伯爵抛了4040次硬币，有2048次为正面朝上，正面朝上的样本比例是：

1702639976

1702639977

1702639978

1702639979

1702639980 伯爵抛的硬币是平衡的吗？假设如下：

1702639981

1702639982 H0：p=0.5

1702639983

1702639984 Ha：p≠0.5

1702639985

1702639986

1702639987

1702639988

1702639989 要进行显著性检验，先把样本结果标示在抽样分布上，这个抽样分布描述了在零假设成立时值的变化情况。图23-1复制了图22-2，它显示=0.507离0.5不算远，并不能当作反对p=0.5的一个好的证据。P值为0.37，使得这个结论看上去更精确。

1702639990

1702639991

1702639992

1702639993

1702639994 图23-1 当硬币平衡时，抛4040次硬币所得正面朝上比例的抽样分布。样本比例0.507不是不寻常的结果

[ 上一页 ] [ :1.702639945e+09 ] [ 下一页 ]