1702638911
1702638912
1702638913
1702638914
到目前为止,我们只不过是用数字把我们已经知道的事实表达出来:我们可以信任大的随机样本的结果,因为几乎所有这类样本的统计量的值都很接近总体参数的真实值。数字告诉我们,大小为6911的所有样本中的95%,其统计量和参数p的值的差距不大于0.0078。也可以说,在所有样本中,有95%的值落在p-0.0078到p+0.0078之间。
1702638915
1702638916
1702638917
0.0078是把p=0.12代入的标准差公式中得来的。对于任意p来说,一般事实如下:
1702638918
1702638919
1702638920
当总体参数的值为p时,有95%的样本统计量的值落在p值往左右各延伸两个标准差的区间内。
1702638921
1702638922
上面说的区间是:
1702638923
1702638924
1702638925
1702638926
1702638927
这是不是我们要的95%置信区间呢?不能肯定。这个区间没有办法根据样本数据算出来,因为标准差公式里有总体参数p,而实际上我们并不知道p的值。在例2里我们把p=0.12代入该公式,但这并不一定是p的真实值。
1702638928
1702638929
1702638930
我们应该怎么办呢?样本统计量的标准差的确是由p值决定的,然而当p值改变时,标准差的值并不会改变太多。我们回到例2,计算对应其他p值的标准差。
1702638931
1702638932
算出的结果如下:
1702638933
1702638934
1702638935
1702638936
1702638937
1702638938
1702638939
由此可以看出,如果我们的估计p值比较接近真实的p值,用估计值算出来的标准差就会是大致正确的。当我们取的样本很大时,统计量的值几乎总是很接近参数p的值。所以,我们可以用值当作p值,便有了一个可以根据样本数据算出来的区间。
1702638940
1702638941
样本统计量的95%置信区间
1702638942
1702638943
1702638944
1702638945
从一个成功比例p未知的总体中抽取一个大小为n的简单随机样本,这个样本的统计量叫作。那么,的一个近似的95%置信区间为:
1702638946
1702638947
1702638948
1702638949
1702638950
例3 酗酒人数比例的置信区间
1702638951
1702638952
1702638953
BRFSS随机抽取了6911名加州大学生,发现其中有792人在2010年有过酗酒经历,样本统计量=0.115。抽样统计量的95%置信区间是:
1702638954
1702638955
1702638956
1702638957
1702638958
这个结果可以这样解释:我们得到这个区间的方法若用于所有样本,就会有95%的样本统计量的值接近于未知的真实总体比例。简单地说,就是我们有95%的把握认为这个真实比例在10.74%到12.26%之间。
1702638959
1702638960
练习
[
上一页 ]
[ :1.702638911e+09 ]
[
下一页 ]