1702638979
1702638980
• 一个根据数据计算出来的区间。
1702638981
1702638982
• 置信度C(Confidence level C)是在多次重复抽样的情况下,区间包含参数真实值的概率。
1702638983
1702638984
置信区间的公式有许多种,可在不同的情况下使用。要知道,不管用哪种公式,置信区间的解释方法都是一样的,而且你没办法让电脑来替你做这件事。
1702638985
1702638986
置信区间应用了概率的核心概念:如果抽样许多次,考虑会发生什么情况。95%置信区间中的95%是概率,是这个方法所产生的区间内包含参数真实值的概率。
1702638987
1702638988
例4 置信区间的变化
1702638989
1702638990
BRFSS2010年在6911名加州大学生的样本中发现有792人酗酒,所以样本统计量是:
1702638991
1702638992
1702638993
1702638994
1702638995
95%置信区间是:
1702638996
1702638997
1702638998
1702638999
1702639000
从同一个总体中再抽一个同样大小的样本,结果发现有826个调查对象有酗酒经历。对于这个样本:
1702639001
1702639002
1702639003
1702639004
1702639005
继续抽一个同样大小的样本,其中的酗酒人数是752人,其样本统计量和置信区间分别为:
1702639006
1702639007
1702639008
1702639009
1702639010
1702639011
继续多次抽样,每一个样本都会给出一个新的值和置信区间。如果我们不停地抽样,就会有95%的置信区间中包含那个真实参数值。不管真实参数是多少,结果都是这样。图21-3展示了这个过程和结果。
1702639012
1702639013
1702639014
1702639015
1702639016
图21-3 从同一总体中反复抽样,会得到不一样的95%置信区间,但这些区间中有95%包含真实的p值
1702639017
1702639018
知识普及 谁抽烟?
1702639019
1702639020
想要估计比例p,先要明确“成功”指什么。新闻报道说有20%的青少年吸烟,这令人震惊。而事实上,这个比例是指上个月至少抽过一次烟的青少年的百分比。如果我们把吸烟者定义为过去30天中至少有20天抽过烟,且在抽烟的日子里每天至少抽半包烟,那么青少年中的吸烟者比例不足4%。
1702639021
1702639022
1702639023
因为两张图比一张图好,我们在图21-4里就从另外一个角度来看置信区间。例4和图21-3强调的是,反复抽样的结果会不同,而我们只能够确认95%的样本会产生正确的结果。图21-4是从问题的背后进行探讨。垂直直线代表总体比例的真实值p,图上方的正态曲线是样本统计量的抽样分布,中心在p值的位置上。我之说以说这是从问题的背后探讨,是因为在真实世界中我们通常是不知道p值的。
1702639024
1702639025
1702639026
从25个简单随机样本得到的25个95%置信区间,分别被标示在正态曲线下方。箭头线段上的黑点代表值,位于区间的正中央,点两边的箭头一直延伸到区间的两端。长期下来,所有区间中有95%会涵盖真实的p值,有5%则不包含真实的p值。在图21-4的25个区间当中,有24个包含了真实参数值,有一个没有。(记住,概率描述的是长期的情况,因此我们不能期望25个区间中恰好有95%包含真实参数值。)
1702639027
1702639028
[
上一页 ]
[ :1.702638979e+09 ]
[
下一页 ]