1702630633
统计学的世界(第8版) 第3章 样本可以告诉我们什么
1702630634
1702630635
案例分析
1702630636
1702630637
同性婚姻一直富有争议性,许多人基于宗教信仰表示反对。反对者认为同性婚姻破坏了传统的家庭和婚姻制度,支持者认为这涉及权利平等问题。2011年5月,一项盖洛普民意调查提出问题:“你认为同性婚姻是否应该和传统婚姻一样得到法律认可?”从2004年开始,盖洛普每年都会进行这项调查,大多数调查对象(53%)认为“法律应该承认同性婚姻的合法性”。
1702630638
1702630639
2004年2月,这个话题在美国成为重大新闻,受到全国人民的关注。在一些城市——其中最知名的是旧金山市——出现了同性婚礼,尽管这违反了该州的法律。小布什总统对此发表讲话说:“今天,我建议国会尽快通过并送交各州推行一项宪法修正案,该修正案承认和保护婚姻是男女双方以夫妻名义形成的联合体。”关于这项修正案,有多少人支持呢?一项从2003年7月到2004年2月进行的盖洛普民意调查提出问题:“你支持还是反对宪法修正案规定只有男女才能结婚,而不允许男同性恋者和女同性恋者建立婚姻关系?”该项调查发现,“支持该宪法修正案的人为51%,略高于45%的反对者比例”。我们可以信任这个调查结果吗?
1702630640
1702630641
这是在随机访谈了2527名美国成年人后得出的结论。盖洛普公司采用了随机抽样的方式,与只访谈那些参加旧金山市同性婚礼的人相比,调查结果的偏差会更小。但是,美国人口普查局公布2004年美国的成年人口约为2.2亿名。在这种情况下从2527名成年人,哪怕是随机抽取的2527名成年人,真的可以了解到2.2亿人的意见吗?
1702630642
1702630643
51%的支持率是否真能表明大多数美国人是支持该修正案的呢?2011年5月的民意调查结果来自随机抽样的1018名成年人,这是否能说明当今的大多数美国人反对该修正案?在本章的结尾部分,你会找到这些问题的答案。
1702630644
1702630645
从样本到总体
1702630646
1702630647
2004年的盖洛普调查发现“支持该宪法修正案的人为51%,略高于反对者的比例”,这是针对约2.2亿的美国成年人得出的结论。但是,盖洛普公司并不知道这2.2亿人的真实想法。这项调查只访谈了2527人,发现其中有51%的人支持该宪法修正案。因为2527位成年人的样本是随机抽取的,我们有理由认为这个样本可以较好地代表总体,并估算出“所有成年人”中约有51%的人支持该修正案。这是统计领域的一种基本做法:用抽样调查的结论,当作对总体真实信息的估计。在讨论这个主题之前,必须先区分清楚哪个数字是描述样本的,哪个数字是描述总体的。
1702630648
1702630649
参数与统计量
1702630650
1702630651
参数(parameter)是描述总体的数字。参数是一个固定数值,但我们无法知道参数的实际值。
1702630652
1702630653
统计量(statistic)是描述样本的数字。一旦有了样本,统计量的值即可得知,如果换一个样本,统计量的值就可能有所改变。我们常用统计量来估计未知的参数。
1702630654
1702630655
所以,参数之于总体,相当于统计量之于样本。想要估计未知的参数,你只要从总体中选一个样本,用样本的统计量当作参数的估计值即可。盖洛普公司就是这么做的。
1702630656
1702630657
例1 你支持宪法修正案吗?
1702630658
1702630659
1702630660
所有支持该宪法修正案的调查对象的比例,就是描述约2.2亿美国成年人这一总体的参数。我们将其记作p,意为“比例”(proportion)。可惜,我们无法知道它的确切数值。为了估算出p的值,盖洛普公司抽取了一个包含2527位成年人的样本。该样本中支持者的比例就是p的估计值,记作,读作“戴帽子的p”。因为在2527人中有1289人支持修正案,所以对于这个样本
1702630661
1702630662
1702630663
1702630664
1702630665
1702630666
由于所有成年人都有同样的概率被选入2527人的样本,因此我们可以用统计量=0.51作为未知参数p的估计值。样本中有51%的人支持修正案是一个事实,虽然我们不知道所有成年人中有多少人支持修正案,但我们可以通过51%做出估计。
1702630667
1702630668
样本统计量的变异性
1702630669
1702630670
1702630671
如果盖洛普公司重新抽取一个2527人的随机样本,那么这个样本会包含与前一个样本不一样的人。几乎可以肯定的是,不会有1289人给出支持的答复。也就是说,统计量的值,会随着样本的改变而改变,因此可能会出现这样的情况:一个随机样本说有51%的美国成年人支持宪法修正案,而另一个随机样本说只有37%的人支持修正案。随机样本通过抽样方法来消除偏差,但由于随机选取的样本有变异性,所以调查结果可能还是不准确。如果从同一总体中重复抽样,但所得结果的变异性太大,我们就无法相信任何一个样本的结果了。
1702630672
1702630673
幸好,随机样本的第二大优点可以解决这个难题。它的第一大优点是,随机抽样可以消除偏差。它的第二大优点是,如果我们从同一个总体中重复抽取多个大小一样的随机样本,所有样本统计量的变异情况就会呈现遵循某种可预测的形态(pattern)。我们从这个可预测的形态可以得知,较大样本统计量的变异性,会小于较小样本统计量的变异性。
1702630674
1702630675
例2 多个样本
1702630676
1702630677
1702630678
统计学的另一个重要概念是:要知道一个样本有多可靠,就得问问如果我们从同一个总体中抽取多个样本,会出现什么情况。假设事实上(盖洛普公司并不知道)正好有50%的美国成年人支持这项宪法修正案。也就是说,总体的参数p=0.5。如果盖洛普公司用大小为100的简单随机样本得出的来估算总体的p,会怎么样?
1702630679
1702630680
1702630681
[
上一页 ]
[ :1.702630632e+09 ]
[
下一页 ]