1702631170
1702631171
是否应该通过立法的方式消除所有可能的特殊利益集团向候选人捐赠大额资金的机会?
1702631172
1702631173
是否应该通过立法的方式禁止利益集团赞助选举活动?利益集团有权捐款给其所支持的候选人吗?
1702631174
1702631175
第一个问题是由罗斯·佩罗提出的,他是1992年美国总统大选的第三方候选人。这个问题在写信回应者中得到了99%的支持率。但我们知道自愿回应调查的结果是无效的,所以扬克洛维奇–克兰西–舒尔曼调查机构通过随机抽样的方法问了同样的问题,结果有80%的人回答“是”。佩罗的问题几乎是在要求人们回答“是”,所以扬克洛维奇–克兰西–舒尔曼,用较中立的立场重新提出这个问题。在被问及这一问题时,样本中只有40%的人赞成禁止政治选举捐款。
1702631176
1702631177
练习
1702631178
1702631179
4.1 我们应该做资源回收吗?下面的问题是否倾向于某种回复?如果是,其所倾向的答案是什么?
1702631180
1702631181
考虑到不断加剧的环境恶化和资源稀缺问题,你愿意支持对资源密集型消费品进行回收的举措吗?
1702631182
1702631183
如何应对非抽样误差
1702631184
1702631185
非抽样误差,尤其是无回应,躲也躲不掉。严谨的抽样调查应该如何处理这些问题呢?一种方法是,用其他住户来取代无回应的人。因为城市里的无回应率比较高,如果用无回应住户附近的其他住户来取代,就可以减小偏差。另一种方法是,在数据搜集工作完成之后,所有专业的调查机构都会用统计学方法给有回应的数据加权,以纠正偏差。如果城市里有太多的住户无回应,就给城市里有回应的那些数据加权。如果样本里有太多女性,就给男性的数据加权。举例来说,以下是《纽约时报》对其某次抽样调查的部分描述:
1702631186
1702631187
考虑到每个住户的人数和电话机数量有所不同,也为了对样本中的个体在地理位置、性别、种族、年龄以及受教育程度等方面的差异做出调整,此调查结果已经过加权处理。
1702631188
1702631189
其目标是使调查结果“好像”是从一个在年龄、性别、住户地理位置以及其他各种变量都和总体相符合的样本中得来的。
1702631190
1702631191
确定权重这件事,为统计学家创造了许多工作机会。这也表明,抽样调查所宣布的结果很少像表面上看起来的那么简单。盖洛普公司宣布,他们访谈了1523位美国的成年人,发现有57%的人在过去12个月当中买过彩票。从表面上看,1523的57%是868,所以在盖洛普的样本中应该有868个人买彩票。然而,事实并非如此。盖洛普公司无疑用了某些特殊的统计技巧,给实际得到的结果加权。也就是说,57%这个数字是这项盖洛普调查在没有人不回应的情况下,所应该得到结果的最佳估计。加权的确可以修正偏差,但通常也会增加变异性。在宣布误差范围之前必须把这些问题都考虑进去,这又给了统计学家更多的工作机会。
1702631192
1702631193
真实世界中的抽样设计
1702631194
1702631195
简单随机抽样的基本概念很清楚:从总体中抽取一个简单随机样本,用从这个样本得到的统计量,估计总体的参数值。现在我们已经知道,为了能够对无回应问题做出补救,样本统计量被人在背后“动过手脚”。统计学家也会对我们钟爱的简单随机样本“进行处理”,在真实世界中,大部分抽样调查使用的是比简单随机样本更加复杂的样本。
1702631196
1702631197
例7 当前人口调查
1702631198
1702631199
当前人口调查关注的总体包括美国的所有住户(阿拉斯加和夏威夷也包含在内),样本是分阶段抽取的。人口普查局把美国分成2007个地区,称为“基本抽样单位”(PSU),大体上是把邻近的县作为一个基本抽样单位。在第一阶段抽取754个基本抽样单位,这不是一个简单随机样本。如果所有的基本抽样单位被抽中的概率相同,那么样本中可能会漏掉芝加哥和洛杉矶,而428个人口密集的基本抽样单位会自动加入样本。另外1579个基本抽样单位被分成326组,称为“层”(strata),即将在很多方面类似的基本抽样单位放在一起。对于每个层,从中随机选出一个基本抽样单位作为代表。
1702631200
1702631201
第一阶段抽取的754个基本抽样单位被细分为“普查街区”(census block),这是更小的地理区域。普查街区再按照住户种类、种族等条件分层。同一个普查街区的住户依地理位置排序,每4户左右被分成一“群”(cluster)。最终取得的样本是从街区的每一层抽取的群,而不是住户。调查人员会去被抽中的群中的每一个住户处进行访谈。从每一个街区的层里抽出的群也不是简单随机样本。为了确保抽出的群在地理位置上是分散的,抽样时会先随机选一个群,然后抽取比如清单上的第10个、第20个群等。
1702631202
1702631203
当前人口调查的设计反映了在现实生活中,进行面对面访谈的样本所具有的一些共性。先把住户组合成基本抽样单位,再集合成群,然后分阶段抽样,最后抽出的是群,这样的做法可以节省调查人员大量的交通时间。在例7中提到的各种概念中,最重要的是“分层样本”(stratified sampling)。
1702631204
1702631205
分层样本
1702631206
1702631207
选取分层随机样本的步骤如下:
1702631208
1702631209
第一步:将抽样框架中的个体先分成若干群,被称为层。分层的标准是,你对于这些层有特别的兴趣,或者同一层中的个体有相似的性质。
1702631210
1702631211
第二步:每层各取一个简单随机样本,把它们合起来就是我们要的样本。
1702631212
1702631213
要选出适当的“层”,必须根据抽样前对总体的了解。你或许会把大学里的学生依本科生和研究生分成两层,也可能按照住校生和不住校生分成两层。分层样本在几个方面优于简单随机样本:首先,因为要在每层分别抽取简单随机样本,我们可以在每层分别决定样本的大小,因此可以分别得到各层的结论。其次,分层样本的误差范围通常比同样大小的简单随机样本小,因为同一层中个体之间的相似程度比整个总体的个体之间大,所以使分层样本可以消除样本统计量的某些变异性。
1702631214
1702631215
现在我们告诉你一件事,可能会让你感到很惊讶:分层样本违反了简单随机样本最吸引人的一个性质,即分层样本未必会给总体中每个个体相同的被抽中的机会,因为有些层在样本中所占的比例有可能被刻意地提高了。
1702631216
1702631217
例8 学生分层样本
1702631218
1702631219
一所大学有30000名学生,其中有3000人是研究生。如果从全体学生中抽取一个包含500名学生的简单随机样本,那么每个学生被抽中的概率是相同的,这个概率是:
[
上一页 ]
[ :1.70263117e+09 ]
[
下一页 ]