打字猴:1.702639029e+09
1702639029
1702639030
1702639031 图21-4 从同一总体中抽出的25个样本所产生的25个95%置信区间。长期来说,在这样的区间中,有95%会包含真实的总体比例,在这个图里表示为垂直直线
1702639032
1702639033
1702639034
1702639035
1702639036 我们的区间只是近似的95%置信区间,而不是确切的95%置信区间。原因有两个:样本比例的抽样分布并不是百分之百的正态分布,值的标准差也不完全正确,因为我们在公式中用替代了未知的p。这两个弱点造成的影响,会随着样本量n的增加而减小。所以,我们的公式只适用于较大的样本,而且,我们的方法假设总体很大——至少是样本量的10倍。专业的统计学家使用较复杂的方法,会把总体规模也纳入考虑,所以这些方法,也适用于小样本。但是,我们的方法在实际情况中已经够好用的了,更重要的是,这个方法让我们学到怎样从统计量的抽样分布中找到置信区间。任何置信区间背后的道理都是这样。
1702639037
1702639038 总体比例的置信区间
1702639039
1702639040 我们用了68-95-99.7规则中的95的部分,得到总体比例的95%置信区间。也许你觉得一个在95%的时候管用的方法还不够好,希望能有99%的置信度。这样一来,你必须先找到正态分布的中间99%的部分在哪里。对任意在0~1之间的概率C,都存在一个数字z*,使得任何正态分布在平均数两侧z*个标准差范围内的概率是C。图21-5展示出概率C和z*之间的关系。
1702639041
1702639042
1702639043
1702639044
1702639045 图21-5 正态分布的临界值z*。在任何正态分布中,在平均数两侧z*个标准差范围内,曲线下方的面积(概率)是C
1702639046
1702639047 表21-1里有不同C值对应的z*值。为了方便应用,表中的C用百分比表示,z*被称为正态分布的“临界值”(Critical value)。从表21-1可以看出,任意正态分布在平均数±2.58个标准差范围内的概率是99%,任意正态分布在平均数±1.96个标准差范围内的概率是95%。在68-95-99.7规则中,用2来代替临界值z*=1.96,就实际应用来说已经够好了,但表21-1中是更精确的C值。
1702639048
1702639049 表21-1 正态分布的临界值
1702639050
1702639051
1702639052
1702639053
1702639054
1702639055 从图21-5可以看出,样本比例p的值会落在p的z*个标准差范围内的概率是C。也就是说,从观察到的p值往两侧各延伸z*个标准差所得到的区间,会包含未知的p的概率是C。的标准差用估计值代替,就可以得到下面的公式。
1702639056
1702639057 总体比例的置信区间
1702639058
1702639059
1702639060 从一个总体中抽取一个大小为n的简单随机样本,总体中的成功比例为p,样本中的成功比例为。当n足够大时,在置信度为C的情况下,p的置信区间为:
1702639061
1702639062
1702639063
1702639064
1702639065 公式中的z*是表21-1中对应置信水平C的临界值。
1702639066
1702639067 例5 99%置信区间
1702639068
1702639069 BRFSS在2010年访问了一个包含6911名加州大学毕业生的随机样本,发现792人在过去一年有过酗酒经历。我们想找出所有加州大学毕业生在过去一年中酗酒人数比例的99%置信区间。在表21-1中,对应99%置信度,z*=2.58个标准差。以下是计算过程:
1702639070
1702639071
1702639072
1702639073
1702639074 我们有99%的把握认为,真实的总体比例在0.1052~0.1248之间。也就是说,我们得到这个区间的方法,在99%的时候会产生正确的结果。
1702639075
1702639076 比较例5和例3中95%置信区间的计算过程,会发现两者唯一的差别就在于,95%置信度时所用的2在99%置信度时被临界值2.58所取代。这样做导致99%置信度的误差范围较大,置信区间较宽。较高的置信度可不是免费的,代价就是较宽的置信区间。从图21-5可以看出为什么会这样。要涵盖正态曲线下方的较大面积,从中心点往两边走的距离就会远一些。
1702639077
1702639078 练习
[ 上一页 ]  [ :1.702639029e+09 ]  [ 下一页 ]