1702639019
1702639020
想要估计比例p,先要明确“成功”指什么。新闻报道说有20%的青少年吸烟,这令人震惊。而事实上,这个比例是指上个月至少抽过一次烟的青少年的百分比。如果我们把吸烟者定义为过去30天中至少有20天抽过烟,且在抽烟的日子里每天至少抽半包烟,那么青少年中的吸烟者比例不足4%。
1702639021
1702639022
1702639023
因为两张图比一张图好,我们在图21-4里就从另外一个角度来看置信区间。例4和图21-3强调的是,反复抽样的结果会不同,而我们只能够确认95%的样本会产生正确的结果。图21-4是从问题的背后进行探讨。垂直直线代表总体比例的真实值p,图上方的正态曲线是样本统计量的抽样分布,中心在p值的位置上。我之说以说这是从问题的背后探讨,是因为在真实世界中我们通常是不知道p值的。
1702639024
1702639025
1702639026
从25个简单随机样本得到的25个95%置信区间,分别被标示在正态曲线下方。箭头线段上的黑点代表值,位于区间的正中央,点两边的箭头一直延伸到区间的两端。长期下来,所有区间中有95%会涵盖真实的p值,有5%则不包含真实的p值。在图21-4的25个区间当中,有24个包含了真实参数值,有一个没有。(记住,概率描述的是长期的情况,因此我们不能期望25个区间中恰好有95%包含真实参数值。)
1702639027
1702639028
1702639029
1702639030
1702639031
图21-4 从同一总体中抽出的25个样本所产生的25个95%置信区间。长期来说,在这样的区间中,有95%会包含真实的总体比例,在这个图里表示为垂直直线
1702639032
1702639033
1702639034
1702639035
1702639036
我们的区间只是近似的95%置信区间,而不是确切的95%置信区间。原因有两个:样本比例的抽样分布并不是百分之百的正态分布,值的标准差也不完全正确,因为我们在公式中用替代了未知的p。这两个弱点造成的影响,会随着样本量n的增加而减小。所以,我们的公式只适用于较大的样本,而且,我们的方法假设总体很大——至少是样本量的10倍。专业的统计学家使用较复杂的方法,会把总体规模也纳入考虑,所以这些方法,也适用于小样本。但是,我们的方法在实际情况中已经够好用的了,更重要的是,这个方法让我们学到怎样从统计量的抽样分布中找到置信区间。任何置信区间背后的道理都是这样。
1702639037
1702639038
总体比例的置信区间
1702639039
1702639040
我们用了68-95-99.7规则中的95的部分,得到总体比例的95%置信区间。也许你觉得一个在95%的时候管用的方法还不够好,希望能有99%的置信度。这样一来,你必须先找到正态分布的中间99%的部分在哪里。对任意在0~1之间的概率C,都存在一个数字z*,使得任何正态分布在平均数两侧z*个标准差范围内的概率是C。图21-5展示出概率C和z*之间的关系。
1702639041
1702639042
1702639043
1702639044
1702639045
图21-5 正态分布的临界值z*。在任何正态分布中,在平均数两侧z*个标准差范围内,曲线下方的面积(概率)是C
1702639046
1702639047
表21-1里有不同C值对应的z*值。为了方便应用,表中的C用百分比表示,z*被称为正态分布的“临界值”(Critical value)。从表21-1可以看出,任意正态分布在平均数±2.58个标准差范围内的概率是99%,任意正态分布在平均数±1.96个标准差范围内的概率是95%。在68-95-99.7规则中,用2来代替临界值z*=1.96,就实际应用来说已经够好了,但表21-1中是更精确的C值。
1702639048
1702639049
表21-1 正态分布的临界值
1702639050
1702639051
1702639052
1702639053
1702639054
1702639055
从图21-5可以看出,样本比例p的值会落在p的z*个标准差范围内的概率是C。也就是说,从观察到的p值往两侧各延伸z*个标准差所得到的区间,会包含未知的p的概率是C。的标准差用估计值代替,就可以得到下面的公式。
1702639056
1702639057
总体比例的置信区间
1702639058
1702639059
1702639060
从一个总体中抽取一个大小为n的简单随机样本,总体中的成功比例为p,样本中的成功比例为。当n足够大时,在置信度为C的情况下,p的置信区间为:
1702639061
1702639062
1702639063
1702639064
1702639065
公式中的z*是表21-1中对应置信水平C的临界值。
1702639066
1702639067
例5 99%置信区间
1702639068
[
上一页 ]
[ :1.702639019e+09 ]
[
下一页 ]