1702630647
2004年的盖洛普调查发现“支持该宪法修正案的人为51%,略高于反对者的比例”,这是针对约2.2亿的美国成年人得出的结论。但是,盖洛普公司并不知道这2.2亿人的真实想法。这项调查只访谈了2527人,发现其中有51%的人支持该宪法修正案。因为2527位成年人的样本是随机抽取的,我们有理由认为这个样本可以较好地代表总体,并估算出“所有成年人”中约有51%的人支持该修正案。这是统计领域的一种基本做法:用抽样调查的结论,当作对总体真实信息的估计。在讨论这个主题之前,必须先区分清楚哪个数字是描述样本的,哪个数字是描述总体的。
1702630648
1702630649
参数与统计量
1702630650
1702630651
参数(parameter)是描述总体的数字。参数是一个固定数值,但我们无法知道参数的实际值。
1702630652
1702630653
统计量(statistic)是描述样本的数字。一旦有了样本,统计量的值即可得知,如果换一个样本,统计量的值就可能有所改变。我们常用统计量来估计未知的参数。
1702630654
1702630655
所以,参数之于总体,相当于统计量之于样本。想要估计未知的参数,你只要从总体中选一个样本,用样本的统计量当作参数的估计值即可。盖洛普公司就是这么做的。
1702630656
1702630657
例1 你支持宪法修正案吗?
1702630658
1702630659
1702630660
所有支持该宪法修正案的调查对象的比例,就是描述约2.2亿美国成年人这一总体的参数。我们将其记作p,意为“比例”(proportion)。可惜,我们无法知道它的确切数值。为了估算出p的值,盖洛普公司抽取了一个包含2527位成年人的样本。该样本中支持者的比例就是p的估计值,记作,读作“戴帽子的p”。因为在2527人中有1289人支持修正案,所以对于这个样本
1702630661
1702630662
1702630663
1702630664
1702630665
1702630666
由于所有成年人都有同样的概率被选入2527人的样本,因此我们可以用统计量=0.51作为未知参数p的估计值。样本中有51%的人支持修正案是一个事实,虽然我们不知道所有成年人中有多少人支持修正案,但我们可以通过51%做出估计。
1702630667
1702630668
样本统计量的变异性
1702630669
1702630670
1702630671
如果盖洛普公司重新抽取一个2527人的随机样本,那么这个样本会包含与前一个样本不一样的人。几乎可以肯定的是,不会有1289人给出支持的答复。也就是说,统计量的值,会随着样本的改变而改变,因此可能会出现这样的情况:一个随机样本说有51%的美国成年人支持宪法修正案,而另一个随机样本说只有37%的人支持修正案。随机样本通过抽样方法来消除偏差,但由于随机选取的样本有变异性,所以调查结果可能还是不准确。如果从同一总体中重复抽样,但所得结果的变异性太大,我们就无法相信任何一个样本的结果了。
1702630672
1702630673
幸好,随机样本的第二大优点可以解决这个难题。它的第一大优点是,随机抽样可以消除偏差。它的第二大优点是,如果我们从同一个总体中重复抽取多个大小一样的随机样本,所有样本统计量的变异情况就会呈现遵循某种可预测的形态(pattern)。我们从这个可预测的形态可以得知,较大样本统计量的变异性,会小于较小样本统计量的变异性。
1702630674
1702630675
例2 多个样本
1702630676
1702630677
1702630678
统计学的另一个重要概念是:要知道一个样本有多可靠,就得问问如果我们从同一个总体中抽取多个样本,会出现什么情况。假设事实上(盖洛普公司并不知道)正好有50%的美国成年人支持这项宪法修正案。也就是说,总体的参数p=0.5。如果盖洛普公司用大小为100的简单随机样本得出的来估算总体的p,会怎么样?
1702630679
1702630680
1702630681
1702630682
1702630683
1702630684
1702630685
1702630686
1702630687
1702630688
图3–1表示抽取多个样本,计算每个样本的的过程。对于第一个样本,100人中有56人支持修正案,因此=56/100=0.56。在下一个样本中,只有36人支持修正案,因此该样本的=0.36。选出1000个样本,将计算出的值绘制成图(柱状图),见图3–1右侧。图中横轴代表不同的值,柱形的高度代表1000个值中有多少个落在相应的横轴区间。例如,在图上,值为0.40~0.42的柱形高度略微超过50,这意味着所有样本中有50个以上的样本的值为0.40~0.42。
1702630689
1702630690
当然,盖洛普公司访谈了2527人,而不是100人。图3–2展示了1000个简单随机样本的结果,每个样本的数量为2527人,这些样本是从真实p值为0.5的总体中选取的。图3–1和图3–2绘图的比例尺是一样的,对比两幅图,我们可以看到当样本大小从100增加到2527时,发生了什么。
1702630691
1702630692
1702630693
1702630694
仔细看看图3–1和图3–2。我们先从总体中抽出多个样本,然后得到许多值。根据这些值,我们可以画出柱状图。现在我们来研究一下这两个柱状图。
1702630695
1702630696
[
上一页 ]
[ :1.702630647e+09 ]
[
下一页 ]