1702648006
1702648007
高级抽样方法 有一种更高级的方法来替代先对家庭户进行列表而后抽样,然后再在被抽中的家庭户中对人口进行列表而后抽样的办法。那就是对每个小型区域进行小规模的普查,拜访每个家庭户,并记录每位居民的年龄、性别及其他特征,然后直接从符合调查条件的个人列表中进行抽样。虽然该方法会显著地增加调查成本,但它远比针对地址列表的抽样准确,因为各家庭户规模差异极大,而且尤其是在那些高密度社区,经常存在一些较隐蔽的家庭户——因而如果没有访问当地居民并询问是否存在此类家庭户,它们就会在样本中被遗漏。
1702648008
1702648009
我们经常使用两种方法来提高应答率:一是抽取比访谈目标更大的样本,从而抵消无应答人数;二是在某个访谈无法完成的时候,由访问员使用一个新样本,通常是用同一区域内的新样本进行替代。这两种方法都可以增加完成的样本量,但却不能克服因潜在应答率的不同而导致的偏差。
1702648010
1702648011
随机移动样本 随机移动样本(random walk samples)是家庭户样本的一种变体。在每个小型区域内,我们要求访问员从某一指定地点开始,(通常是在某个十字路口)向特定方向行进,并选取其遇到的每一个第n个地址(我们甚至可以使用随机数作为不同间隔),并在每个路口都拐入特定的方向。这相当于快速创建了地址列表。但我们并不推崇这种方法,因为它除了具有家庭户样本所固有的那些不足之外,即使在访问员非常诚实的情况下,也将很难发现那些隐蔽的居所。同时,与常见的家庭户抽样相比,在使用这种方法时作假尤其容易,因为列表、抽取和访谈家庭户都是由同一人完成:通常除了那些被实际访问到的人之外,我们很少有关于潜在样本的具体信息。此方法仍被使用的原因在于相比于户籍资料抽样和传统家庭户抽样,其成本较低。在最早两期(1972年和1974年)的GSS调查中就结合使用了随机移动方法和一个配额样本。
1702648012
1702648013
配额样本 在配额样本(quota samples)中,访问员被要求获得一定数量具有某些指定特征人群的相关信息——如40岁以下的女性、40岁及以上的女性、职业女性等。配额方法多与多阶段概率抽样结合在一起使用:我们先用多阶段概率抽样方法选取小区,然后在每个小区内,由访问员进行访问以完成配额。
1702648014
1702648015
配额样本通常并不是一个好办法,因为:首先,它们不满足允许有效统计推断的条件——它们不是任意总体的概率样本。其次,它们产生的只是其想要代表的总体的有偏样本,更多地包含了那些在调查进行时容易接触到的人。再次,严格控制的配额抽样只在使用概率抽样非常困难的情况下才有用,以保证更高的总体覆盖率。
1702648016
1702648017
分层概率样本
1702648018
1702648019
多阶段概率样本有时是分层的,也就是在抽样设计中将各部分总体单独处理。例如,在抽样之初就将城市和农村分开,并分别从这两部分中抽取独立样本。之所以要进行样本分层,其主要原因是为了从每层中都能抽到足够数量的样本以保证分析需要。例如,为了对美国各州的某些现象进行估计,我们需要对全国样本按州分层,否则在那些较小的州,我们可能只会抽到很小的样本,或者根本抽不到任何受访者。使用分层抽样的第二个原因是使整群效应最小化,本章稍后会详细讨论该问题。
1702648020
1702648021
无应答的原因 无应答的主要原因是访问员不能联系到目标家庭户(如在有门禁的社区和高层公寓),或者无人在家,或者户主拒绝接受访问,而无法开始访谈。基于此,高质量的调查通常会通过邮件来试图联系目标家庭户,以解释调查的原因,从而为访问员的入户做好铺垫。在被联系到的家庭户中,相对较少的人会拒绝访问(尽管拒访率在上升,尤其在城市更是如此),而几乎不会有人在访谈开始后要求终止。
1702648022
1702648023
1702648024
1702648025
1702648027
量化数据分析:通过社会研究检验想法 设计效应
1702648028
1702648029
由于全国性抽样调查一般基于多阶段区域概率样本,因而导致其存在一个问题——那些基于随机抽样假设的标准统计软件倾向于低估数据中的真实抽样误差。其原因在于,当观测值聚类分布(来自几个选择性的抽样点)时,许多变量的群内方差会小于其总体方差。这意味着群间方差——决定了整群分布样本标准误的群均值间方差——远大于同一总体的简单随机样本方差。这类偏小的群内方差,尤其是有些社会人口变量的方差,常常典型地出现在多阶段概率样本的第三层抽样小区域里。例如,各个街区在教育、年龄、种族等特征上常常比整个国家这一总体具有更强的同质性。其结果是,当我们基于简单随机抽样的假设使用统计方法的时候,我们所计算的标准误常常太小。因而我们不仅需要考虑群内个体间的方差,而且也需要考虑群间方差。这正是调查估计(survey estimation)所做的。〔对该方法的详细介绍,尤其是其在Stata中的应用,可参见Eltinge和Sribney(1996)的论文。然而,自这篇论文发表以来,Stata中的调查估计程序已经得到极大的拓展:它们现在能够处理两级以上的多阶段设计,并且对更多的估计程序都有了调查估计版本。〕
1702648030
1702648031
为了说明设计效应(design effects)给标准误带来的影响——考虑到我们处理的是整群样本这一事实——我会以1996年在中国设计全国性抽样调查的过程中所进行的一些抽样实验为例(Treiman et al.,1998)。因为这次调查是将访问员从北京派往各个抽样点,因而出于成本的考虑,我们试图严格控制抽样点的数量。然而,由于中国是一个内部异质性非常强的大国,因而高度整群的样本势必产生我们不可接受的巨大的抽样误差。为了了解整群效应可能产生的潜在问题,我们用1990年1%人口普查样本做了一些分析。
1702648032
1702648033
尽管我们做过多次实验,但此处我只举其中一例来说明整群效应的潜在问题,即一个农村样本的三阶段抽样设计。第一阶段用PPS方法随机抽取50个县,第二阶段同样用PPS方法在每个县内随机抽取2个村,第三阶段在每个村随机抽取30名年龄在20~69岁之间的人。因此该抽样设计将创建一个300人的样本。以同样的方法,我们在城市中抽取相应的样本。为了检验相对于同一总体而言,整群样本是否会产生比随机样本更大的抽样差异,我们计算了几个中国人口特征统计量,并估计每个统计量的设计效应(deff)。设计效应是考虑到使用整群样本所计算的抽样方差与假设使用同样规模的简单随机样本所计算的抽样方差之比,也可被看作是决定样本规模的一个因素。如果设计效应为2,则说明我们需要两倍规模的整群样本才可以获得与简单随机样本同样的标准误(Kish,1965:259)。
1702648034
1702648035
LESLIE KISH(1910~2000) 是20世纪最杰出的调查统计学家之一,其具有开拓意义的专著Survey Sampling(1965)后来成为该领域的标准。他在复杂样本的统计推断方法以及其他应用的发展方面做出了突出贡献(Kish发明了deff和meff统计量)。他还协助建立了密歇根大学调查研究所,并为其设计抽样。
1702648036
1702648037
Kish出生在原属匈牙利的波普拉德(Poprad),该地现属斯洛伐克。1925年,他与家人来到美国,其父不久后去世,他在支持母亲和兄弟姐妹们的生活之余在纽约城市学院的夜校取得了数学学士学位。其间,他还在西班牙作为国际纵队成员参加反法西斯战争两年。取得学士学位后,他前往华盛顿,先后任职于人口普查局和农业部。后来他再次成为志愿兵,这次效力于美国军队。1947年他前往密歇根大学,在那里他不仅协助建立了社会研究院,并担任教职,而且完成了硕士和博士学业。他在密歇根度过了余生。
1702648038
1702648039
我们必须对各个统计量分别估计其设计效应,因为各个统计量的设计效应有可能显著不同。在某些情况下,尤其在样本是分层的时候,设计效应甚至可能降到1以下(即设计样本得到的抽样方差实际上小于随机样本)。
1702648040
1702648041
表9-3中的左栏(标题为“未分层样本”)显示了在1990年中国人口普查中按前述的方法抽样所产生的几个统计量的设计效应。第二列数字表明设计效应极大,在城市样本中尤其如此。例如,平均受教育年限的设计效应是13.43,这意味着我们在普查样本中用整群方法抽取的3000人样本仅仅获得了223人随机样本的标准误。虽然表9-3中的大多数设计效应并不都是如此大,但它们对说明我们的研究设计是不恰当的来说已足够大了。我们该如何改善呢?
1702648042
1702648043
表9-3 按教育分层及不分层样本的主要统计量的设计效应,整群抽样的3000人样本(初级抽样单位是50个县,每县抽2个村或2个社区,每个村或社区再抽30名年龄在20~69岁之间的成年人)
1702648044
1702648045
1702648046
1702648047
1702648048
用分层抵消整群效应
1702648049
1702648050
抽样统计量的一个有趣并强大的特征是,在某些条件下我们能够通过对样本进行恰当的分层来或多或少地抵消整群效应——根据特定标准将总体分成几个次级总体,并对其分别抽样。根据与我们的分析变量显著相关的一个(或多个)变量对样本进行分层,通常几乎能够消除设计效应。其原因在于,一个分层的样本相当于一组对应各层的独立样本。而我们精心设计的层相对于整体样本则具有更强的同质性,这不仅仅是相对于分层变量而言的——这是我们根据这些变量进行分层的必然结果——对于其他变量来说也是如此。这种同质性将会产生较小的标准误估计。
1702648051
1702648052
成功地进行样本分层的关键在于使用那些与我们的分析主题密切相关的特征变量。在前文所述的中国调查的抽样实验中,我们使用具有初中及以上受教育程度的成年人口比例对县进行分层。这样做的效果很明显——在实验中的每组对比中,设计效应都被降至1以下,参见表9-3中最右边一栏(标题为“分层样本”)。这些结果意味着,就表中所示的变量而言,中国的教育分层样本实际上优于简单随机样本。
1702648053
1702648054
在本章稍后部分,我会展示基于这些抽样实验而设计的1996年中国调查数据的调查估计方法,但首先我们需要介绍抽样设计的一些其他特点。
1702648055
[
上一页 ]
[ :1.702648006e+09 ]
[
下一页 ]