打字猴:1.702639995e+09

1702639995

1702639996

1702639997

1702639998

1702639999 图23-2 抛一个平衡硬币1000次、4040次及100000次所分别得到的正面朝上比例的抽样分布。样本比例0.507在抛1000次或4040次的情况下很正常，但在抛100000次的情况下就非常稀奇

1702640000

1702640001

1702640002

1702640003

1702640004 假设布冯伯爵抛硬币1000次和100000次得到的结果是一样的：=0.507。当零假设为真时，的抽样分布的平均数必定是0.5，但它的标准差会随样本量n的增加而减小。图23-2展示了n=1000，n=4040和n=100000时的三种抽样分布。居中的那条就是图23-1里的正态曲线，只是刻度改变了，以便能够画出n=100000时那条又高又窄的曲线。看看=0.507在三条曲线下的位置，可以发现同一个结果会出乎意料地随样本量的不同二变化。

1702640005

1702640006 在n=1000时，P=0.66；当n=4040时，P=0.37；当n=100000时，P=0.000009。

1702640007

1702640008 想象一下抛一枚硬币1000次的情形，差不多有2/3的时间，你得到的正面朝上的比例与0.5的差距，会像布冯的0.507与0.5的差距那么大。可是，如果你抛硬币100000次，则几乎不会（概率为百万分之九）得到这样的结果。

1702640009

1702640010

1702640011 如果=0.507出现在抛硬币1000次或4040次的情况下，那么它并不是硬币不平衡的证据。但如果它出现在抛硬币100000次的情况下，它就会成为令人信服的证据。

1702640012

1702640013 只报告P值

1702640014

1702640015 显著性检验的P值不仅和样本量密切相关，也和总体参数的真实值有关。若只报告P值，而不报告样本量，也不提作为样本结果的统计量是什么，就是很糟糕的做法。

1702640016

1702640017 练习

1702640018

1702640019 23.1 减肥。一家从事帮助人们减肥业务的公司进行了一项随机实验，以便了解人们参加该公司的减肥项目8周后是否有效果。该公司的实验人员报告说，平均而言，该项研究的实验对象体重有所下降，且P值为0.013。你觉得这个结果有说服力吗？如果有，为什么？如果没有，你还需要知道哪些信息？

1702640020

1702640021 置信区间的优点

1702640022

1702640023

1702640024

1702640025 例2和例3告诉我们，要评估一项统计研究的结果，不能只看它是否具有统计学显著性。在例3中，光是知道样本比例=0.507就很有用了，你可以自己判断这个值与0.5的距离，是否大到令你感兴趣。当然，=0.507并不是硬币正面朝上的真实概率，而只是布冯伯爵抛硬币的结果。所以，置信区间更有用，因为它的宽度可以帮助我们把正面朝上的真实概率定位得更精确。以下是正面朝上的真实概率p的95%置信区间，分别对应例3中的三个规模的样本，你可以验证一下。

1702640026

1702640027

1702640028

1702640029

1702640030 置信区间把我们对真实p值的了解（以95%的置信度）明白地表示出来。抛1000次和抛4040次硬币所得到的置信区间都包含了0.5这个数字，所以我们不会怀疑硬币不平衡。可是抛100000次的时候，我们却有把握认为真实的p值落在0.504~0.510的区间里。因此，我们可以认为p值不是0.5。

1702640031

1702640032 给出置信区间

1702640033

1702640034 置信区间提供的信息比显著性检验多，因为置信区间实际上估计了总体参数的值，而且置信区间也比较容易解释。因此，好的做法是尽可能地给出置信区间。

1702640035

1702640036 “5%的显著性水平”并非神奇的指标

1702640037

1702640038 显著性检验的目的，就是评估样本所提供的不利于零假设的证据有多强，P值在做这件事。但是，要证明零假设不正确，P值要小到何种程度，才能令人信服呢？这主要根据两种情况来决定：

1702640039

1702640040 • H0的可信度有多高？如果H0所代表的假设是人们多年来一直深信不疑的事，就需要很强的证据（很小的P值）才能说服他们。

1702640041

1702640042 • 否定H0的结果是什么？如果否定H0而肯定Ha，意味着要花很多钱把产品包装改换成另一种，你就需要有很强的证据，证明采用新包装一定能增加销售量。

1702640043

1702640044 这两种标准都有点儿主观。不同的人常想用不同的显著性水平，P值可以让我们自行决定证据是不是充分。但什么样的显著性水平能让我们满意，必须在计算P值之前就确定下来。先计算P值，再确定让我们满意的显著性水平略高于这个P值，这种做法是对显著性检验的滥用。

[ 上一页 ] [ :1.702639995e+09 ] [ 下一页 ]