1702630682
1702630683
1702630684
1702630685
1702630686
1702630687
1702630688
图3–1表示抽取多个样本,计算每个样本的的过程。对于第一个样本,100人中有56人支持修正案,因此=56/100=0.56。在下一个样本中,只有36人支持修正案,因此该样本的=0.36。选出1000个样本,将计算出的值绘制成图(柱状图),见图3–1右侧。图中横轴代表不同的值,柱形的高度代表1000个值中有多少个落在相应的横轴区间。例如,在图上,值为0.40~0.42的柱形高度略微超过50,这意味着所有样本中有50个以上的样本的值为0.40~0.42。
1702630689
1702630690
当然,盖洛普公司访谈了2527人,而不是100人。图3–2展示了1000个简单随机样本的结果,每个样本的数量为2527人,这些样本是从真实p值为0.5的总体中选取的。图3–1和图3–2绘图的比例尺是一样的,对比两幅图,我们可以看到当样本大小从100增加到2527时,发生了什么。
1702630691
1702630692
1702630693
1702630694
仔细看看图3–1和图3–2。我们先从总体中抽出多个样本,然后得到许多值。根据这些值,我们可以画出柱状图。现在我们来研究一下这两个柱状图。
1702630695
1702630696
1702630697
1702630698
1702630699
1702630700
1702630701
1702630702
图3–1 许多简单随机样本的结果放在一起,会呈现出某种有规则的形态。这幅图表现的是从同一总体中抽出1000个大小为100的随机样本的值的变异情况。总体的p值为0.5。样本统计量会随着样本的变化而变化,但是值会落在以p值为中心的范围内
1702630703
1702630704
1702630705
1702630706
1702630707
1702630708
1702630709
图3–2 在同一个总体中选取1000个大小为2527的简单随机样本,由此得到的1000个值,和图3–1比起来,值的分布范围要窄得多
1702630710
1702630711
1702630712
1702630713
• 对于上面这两种情况,样本的值会随着不同的样本而变化,但都以0.5为中心,0.5是总体的p值。有些样本的值比0.5小,有些比0.5大,但并不会都比0.5大,或都比0.5小。
1702630714
1702630715
1702630716
1702630717
1702630718
1702630719
• 大小为100的多个样本的值的分布情况,会比大小为2527的多个样本的值要分散得多。事实上,在大小为2527的1000个样本当中,有95%的值分布在0.4805~0.5195的区间内。也就是说,与0.5的差距在±0.0195的范围内。而在大小为100的1000个样本中,有95%的值分散在0.40~0.60的范围内,与0.5有±0.1的差距,约为大样本的5倍。所以,大样本统计量的变异性要比小样本小。
1702630720
1702630721
1702630722
结论就是,我们可以信任一个大小为2527的样本,其统计量的值几乎总会很靠近总体的p值。
1702630723
1702630724
1702630725
而大小为100的样本,在p值是50%的时候,有可能得出为40%或60%的估计值。
1702630726
1702630727
1702630728
这让我们认识到,当我们用一个诸如的统计量,去估计诸如p的参数时,所谓的“偏差”(bias)是什么意思。同时,这也让我们明白,变异性的重要程度不亚于偏差。
1702630729
1702630730
估计时的两种误差
1702630731
[
上一页 ]
[ :1.702630682e+09 ]
[
下一页 ]