打字猴:1.702639045e+09
1702639045 图21-5 正态分布的临界值z*。在任何正态分布中,在平均数两侧z*个标准差范围内,曲线下方的面积(概率)是C
1702639046
1702639047 表21-1里有不同C值对应的z*值。为了方便应用,表中的C用百分比表示,z*被称为正态分布的“临界值”(Critical value)。从表21-1可以看出,任意正态分布在平均数±2.58个标准差范围内的概率是99%,任意正态分布在平均数±1.96个标准差范围内的概率是95%。在68-95-99.7规则中,用2来代替临界值z*=1.96,就实际应用来说已经够好了,但表21-1中是更精确的C值。
1702639048
1702639049 表21-1 正态分布的临界值
1702639050
1702639051
1702639052
1702639053
1702639054
1702639055 从图21-5可以看出,样本比例p的值会落在p的z*个标准差范围内的概率是C。也就是说,从观察到的p值往两侧各延伸z*个标准差所得到的区间,会包含未知的p的概率是C。的标准差用估计值代替,就可以得到下面的公式。
1702639056
1702639057 总体比例的置信区间
1702639058
1702639059
1702639060 从一个总体中抽取一个大小为n的简单随机样本,总体中的成功比例为p,样本中的成功比例为。当n足够大时,在置信度为C的情况下,p的置信区间为:
1702639061
1702639062
1702639063
1702639064
1702639065 公式中的z*是表21-1中对应置信水平C的临界值。
1702639066
1702639067 例5 99%置信区间
1702639068
1702639069 BRFSS在2010年访问了一个包含6911名加州大学毕业生的随机样本,发现792人在过去一年有过酗酒经历。我们想找出所有加州大学毕业生在过去一年中酗酒人数比例的99%置信区间。在表21-1中,对应99%置信度,z*=2.58个标准差。以下是计算过程:
1702639070
1702639071
1702639072
1702639073
1702639074 我们有99%的把握认为,真实的总体比例在0.1052~0.1248之间。也就是说,我们得到这个区间的方法,在99%的时候会产生正确的结果。
1702639075
1702639076 比较例5和例3中95%置信区间的计算过程,会发现两者唯一的差别就在于,95%置信度时所用的2在99%置信度时被临界值2.58所取代。这样做导致99%置信度的误差范围较大,置信区间较宽。较高的置信度可不是免费的,代价就是较宽的置信区间。从图21-5可以看出为什么会这样。要涵盖正态曲线下方的较大面积,从中心点往两边走的距离就会远一些。
1702639077
1702639078 练习
1702639079
1702639080 21.2 赌博。2011年5月盖洛普访问了一个包括1018名美国成年人的随机样本,发现其中有31%的人认为赌博是不道德的。计算全体美国成年人中认为赌博是不道德的人数比例的99%置信区间。你怎样解释这个结果?
1702639081
1702639082 样本平均数的抽样分布
1702639083
1702639084
1702639085
1702639086 你们学校的大一新生每周用于学习的平均时间是多少?他们在高中时期的平均分数是多少?我们经常想估算总体平均数。为了区分总体平均数(一个参数)和样本平均数,我们将总体平均数记为希腊字母μ。接下来,我们用简单随机样本的平均数来估算未知的总体平均数μ。
1702639087
1702639088
1702639089
1702639090
1702639091
1702639092 和样本比例一样,一个大的简单随机样本的平均数拥有近似正态分布的随机分布。由于简单随机样本的平均值是μ的一个无偏估计值,因此的抽样分布以μ作为平均数。的标准差取决于总体的标准差,后者通常记作希腊字母σ。在数学领域中,我们可以发现以下事实:
1702639093
1702639094 样本平均值的抽样分布
[ 上一页 ]  [ :1.702639045e+09 ]  [ 下一页 ]