打字猴:1.702639995e+09
1702639995
1702639996
1702639997
1702639998
1702639999 图23-2 抛一个平衡硬币1000次、4040次及100000次所分别得到的正面朝上比例的抽样分布。样本比例0.507在抛1000次或4040次的情况下很正常,但在抛100000次的情况下就非常稀奇
1702640000
1702640001
1702640002
1702640003
1702640004 假设布冯伯爵抛硬币1000次和100000次得到的结果是一样的:=0.507。当零假设为真时,的抽样分布的平均数必定是0.5,但它的标准差会随样本量n的增加而减小。图23-2展示了n=1000,n=4040和n=100000时的三种抽样分布。居中的那条就是图23-1里的正态曲线,只是刻度改变了,以便能够画出n=100000时那条又高又窄的曲线。看看=0.507在三条曲线下的位置,可以发现同一个结果会出乎意料地随样本量的不同二变化。
1702640005
1702640006 在n=1000时,P=0.66;当n=4040时,P=0.37;当n=100000时,P=0.000009。
1702640007
1702640008 想象一下抛一枚硬币1000次的情形,差不多有2/3的时间,你得到的正面朝上的比例与0.5的差距,会像布冯的0.507与0.5的差距那么大。可是,如果你抛硬币100000次,则几乎不会(概率为百万分之九)得到这样的结果。
1702640009
1702640010
1702640011 如果=0.507出现在抛硬币1000次或4040次的情况下,那么它并不是硬币不平衡的证据。但如果它出现在抛硬币100000次的情况下,它就会成为令人信服的证据。
1702640012
1702640013 只报告P值
1702640014
1702640015 显著性检验的P值不仅和样本量密切相关,也和总体参数的真实值有关。若只报告P值,而不报告样本量,也不提作为样本结果的统计量是什么,就是很糟糕的做法。
1702640016
1702640017 练习
1702640018
1702640019 23.1 减肥。一家从事帮助人们减肥业务的公司进行了一项随机实验,以便了解人们参加该公司的减肥项目8周后是否有效果。该公司的实验人员报告说,平均而言,该项研究的实验对象体重有所下降,且P值为0.013。你觉得这个结果有说服力吗?如果有,为什么?如果没有,你还需要知道哪些信息?
1702640020
1702640021 置信区间的优点
1702640022
1702640023
1702640024
1702640025 例2和例3告诉我们,要评估一项统计研究的结果,不能只看它是否具有统计学显著性。在例3中,光是知道样本比例=0.507就很有用了,你可以自己判断这个值与0.5的距离,是否大到令你感兴趣。当然,=0.507并不是硬币正面朝上的真实概率,而只是布冯伯爵抛硬币的结果。所以,置信区间更有用,因为它的宽度可以帮助我们把正面朝上的真实概率定位得更精确。以下是正面朝上的真实概率p的95%置信区间,分别对应例3中的三个规模的样本,你可以验证一下。
1702640026
1702640027
1702640028
1702640029
1702640030 置信区间把我们对真实p值的了解(以95%的置信度)明白地表示出来。抛1000次和抛4040次硬币所得到的置信区间都包含了0.5这个数字,所以我们不会怀疑硬币不平衡。可是抛100000次的时候,我们却有把握认为真实的p值落在0.504~0.510的区间里。因此,我们可以认为p值不是0.5。
1702640031
1702640032 给出置信区间
1702640033
1702640034 置信区间提供的信息比显著性检验多,因为置信区间实际上估计了总体参数的值,而且置信区间也比较容易解释。因此,好的做法是尽可能地给出置信区间。
1702640035
1702640036 “5%的显著性水平”并非神奇的指标
1702640037
1702640038 显著性检验的目的,就是评估样本所提供的不利于零假设的证据有多强,P值在做这件事。但是,要证明零假设不正确,P值要小到何种程度,才能令人信服呢?这主要根据两种情况来决定:
1702640039
1702640040 • H0的可信度有多高?如果H0所代表的假设是人们多年来一直深信不疑的事,就需要很强的证据(很小的P值)才能说服他们。
1702640041
1702640042 • 否定H0的结果是什么?如果否定H0而肯定Ha,意味着要花很多钱把产品包装改换成另一种,你就需要有很强的证据,证明采用新包装一定能增加销售量。
1702640043
1702640044 这两种标准都有点儿主观。不同的人常想用不同的显著性水平,P值可以让我们自行决定证据是不是充分。但什么样的显著性水平能让我们满意,必须在计算P值之前就确定下来。先计算P值,再确定让我们满意的显著性水平略高于这个P值,这种做法是对显著性检验的滥用。
[ 上一页 ]  [ :1.702639995e+09 ]  [ 下一页 ]