打字猴:1.702648026e+09
1702648026 量化数据分析:通过社会研究检验想法 [:1702644783]
1702648027 量化数据分析:通过社会研究检验想法 设计效应
1702648028
1702648029 由于全国性抽样调查一般基于多阶段区域概率样本,因而导致其存在一个问题——那些基于随机抽样假设的标准统计软件倾向于低估数据中的真实抽样误差。其原因在于,当观测值聚类分布(来自几个选择性的抽样点)时,许多变量的群内方差会小于其总体方差。这意味着群间方差——决定了整群分布样本标准误的群均值间方差——远大于同一总体的简单随机样本方差。这类偏小的群内方差,尤其是有些社会人口变量的方差,常常典型地出现在多阶段概率样本的第三层抽样小区域里。例如,各个街区在教育、年龄、种族等特征上常常比整个国家这一总体具有更强的同质性。其结果是,当我们基于简单随机抽样的假设使用统计方法的时候,我们所计算的标准误常常太小。因而我们不仅需要考虑群内个体间的方差,而且也需要考虑群间方差。这正是调查估计(survey estimation)所做的。〔对该方法的详细介绍,尤其是其在Stata中的应用,可参见Eltinge和Sribney(1996)的论文。然而,自这篇论文发表以来,Stata中的调查估计程序已经得到极大的拓展:它们现在能够处理两级以上的多阶段设计,并且对更多的估计程序都有了调查估计版本。〕
1702648030
1702648031 为了说明设计效应(design effects)给标准误带来的影响——考虑到我们处理的是整群样本这一事实——我会以1996年在中国设计全国性抽样调查的过程中所进行的一些抽样实验为例(Treiman et al.,1998)。因为这次调查是将访问员从北京派往各个抽样点,因而出于成本的考虑,我们试图严格控制抽样点的数量。然而,由于中国是一个内部异质性非常强的大国,因而高度整群的样本势必产生我们不可接受的巨大的抽样误差。为了了解整群效应可能产生的潜在问题,我们用1990年1%人口普查样本做了一些分析。
1702648032
1702648033 尽管我们做过多次实验,但此处我只举其中一例来说明整群效应的潜在问题,即一个农村样本的三阶段抽样设计。第一阶段用PPS方法随机抽取50个县,第二阶段同样用PPS方法在每个县内随机抽取2个村,第三阶段在每个村随机抽取30名年龄在20~69岁之间的人。因此该抽样设计将创建一个300人的样本。以同样的方法,我们在城市中抽取相应的样本。为了检验相对于同一总体而言,整群样本是否会产生比随机样本更大的抽样差异,我们计算了几个中国人口特征统计量,并估计每个统计量的设计效应(deff)。设计效应是考虑到使用整群样本所计算的抽样方差与假设使用同样规模的简单随机样本所计算的抽样方差之比,也可被看作是决定样本规模的一个因素。如果设计效应为2,则说明我们需要两倍规模的整群样本才可以获得与简单随机样本同样的标准误(Kish,1965:259)。
1702648034
1702648035 LESLIE KISH(1910~2000) 是20世纪最杰出的调查统计学家之一,其具有开拓意义的专著Survey Sampling(1965)后来成为该领域的标准。他在复杂样本的统计推断方法以及其他应用的发展方面做出了突出贡献(Kish发明了deff和meff统计量)。他还协助建立了密歇根大学调查研究所,并为其设计抽样。
1702648036
1702648037 Kish出生在原属匈牙利的波普拉德(Poprad),该地现属斯洛伐克。1925年,他与家人来到美国,其父不久后去世,他在支持母亲和兄弟姐妹们的生活之余在纽约城市学院的夜校取得了数学学士学位。其间,他还在西班牙作为国际纵队成员参加反法西斯战争两年。取得学士学位后,他前往华盛顿,先后任职于人口普查局和农业部。后来他再次成为志愿兵,这次效力于美国军队。1947年他前往密歇根大学,在那里他不仅协助建立了社会研究院,并担任教职,而且完成了硕士和博士学业。他在密歇根度过了余生。
1702648038
1702648039 我们必须对各个统计量分别估计其设计效应,因为各个统计量的设计效应有可能显著不同。在某些情况下,尤其在样本是分层的时候,设计效应甚至可能降到1以下(即设计样本得到的抽样方差实际上小于随机样本)。
1702648040
1702648041 表9-3中的左栏(标题为“未分层样本”)显示了在1990年中国人口普查中按前述的方法抽样所产生的几个统计量的设计效应。第二列数字表明设计效应极大,在城市样本中尤其如此。例如,平均受教育年限的设计效应是13.43,这意味着我们在普查样本中用整群方法抽取的3000人样本仅仅获得了223人随机样本的标准误。虽然表9-3中的大多数设计效应并不都是如此大,但它们对说明我们的研究设计是不恰当的来说已足够大了。我们该如何改善呢?
1702648042
1702648043 表9-3 按教育分层及不分层样本的主要统计量的设计效应,整群抽样的3000人样本(初级抽样单位是50个县,每县抽2个村或2个社区,每个村或社区再抽30名年龄在20~69岁之间的成年人)
1702648044
1702648045
1702648046
1702648047
1702648048 用分层抵消整群效应
1702648049
1702648050 抽样统计量的一个有趣并强大的特征是,在某些条件下我们能够通过对样本进行恰当的分层来或多或少地抵消整群效应——根据特定标准将总体分成几个次级总体,并对其分别抽样。根据与我们的分析变量显著相关的一个(或多个)变量对样本进行分层,通常几乎能够消除设计效应。其原因在于,一个分层的样本相当于一组对应各层的独立样本。而我们精心设计的层相对于整体样本则具有更强的同质性,这不仅仅是相对于分层变量而言的——这是我们根据这些变量进行分层的必然结果——对于其他变量来说也是如此。这种同质性将会产生较小的标准误估计。
1702648051
1702648052 成功地进行样本分层的关键在于使用那些与我们的分析主题密切相关的特征变量。在前文所述的中国调查的抽样实验中,我们使用具有初中及以上受教育程度的成年人口比例对县进行分层。这样做的效果很明显——在实验中的每组对比中,设计效应都被降至1以下,参见表9-3中最右边一栏(标题为“分层样本”)。这些结果意味着,就表中所示的变量而言,中国的教育分层样本实际上优于简单随机样本。
1702648053
1702648054 在本章稍后部分,我会展示基于这些抽样实验而设计的1996年中国调查数据的调查估计方法,但首先我们需要介绍抽样设计的一些其他特点。
1702648055
1702648056 正如本章前面提到的,使用分层样本的第二个原因是对不同的次级总体按不同的比例抽样。在中国调查的抽样中,我们就是这样做的。虽然为了方便,我常常将中国的调查数据作为两个独立样本(城市样本和农村样本)展示,但城乡差别亦可被简单地看作第二个分层变量。然而,由于调查进行时中国大约有75%的农村人口,为了取得分析所需要的同等规模的城市和农村样本,我们以3倍的抽样比率抽取城市人口。1982年和1987年美国GSS调查使用了同样的策略,以取得足够大的黑人样本,从而满足对黑人和非黑人的独立分析。
1702648057
1702648058 用于设计实验的中国分层样本是如何构建的 因为分层样本是将各层看作独立样本的多阶段概率抽样,因此该抽样方法类似于我们先前介绍的以加州城市样本为例的方法。为了抽取中国样本,我们首先利用1990年人口普查数据将所有县级单位(县、县级市和大城市的区)分成城市和农村两部分。我们将这两部分看作两个独立总体——中国城市人口总体和中国农村人口总体。首先,农村总体包含约2400个县。我们将这些县按照具有初中及以上受教育程度的成年人口比例的大小排列,然后将县划分成规模近似的25层,其中每层大约包含4%的人口。其次,我们用PPS方法从每层抽取两个县,即随机选取第一个县,再对初始数字加上该层人口的一半,从而系统地选取与该加总数字相对应的那个县,并在必要时进行循环。剩下的步骤则是用通常的方法进行PPS抽样。我们用同样的方法创建城市样本。
1702648059
1702648060 加权(weighting) 由于对总体的各部分使用不同的抽样比率,我们的样本显然不再具有总体代表性,因而使用整个样本计算的任何统计量都将是有偏的。例如,若我们简单地估计中国样本的平均受教育水平,则由于被过度抽样的城市人口相对于农村人口具有较好的教育,我们会得到高估的统计量。而若对1982年或1987年GSS数据进行类似的简单计算,则会低估总体的受教育水平,因为被过度抽样的黑人的受教育水平要远远低于非黑人。为了修正这些误差,我们会按抽样比率的倒数对数据进行相应的加权。
1702648061
1702648062 例如,1996年的中国调查包括(大约)3000人的农村样本和3000人的城市样本,为了修正城市人口3倍于农村人口的抽样比率,我们分别给城市人口和农村人口指定权重wu和wr,且wr=3wu。注意,我们并不希望简单地给城市人口指定权重为0.33,而给农村人口指定权重为1.0,因为这会产生一个4000人的加权样本,而真实的样本规模是6000个。相反,我们会用初始权重除以平均权重(0.67),从而将数据调整回初始的样本规模(当然,我们所做的仅仅是将家庭户样本转换成个人样本)。这样我们就创建了一个新变量(权重),对于城市样本它的赋值为0.5,对于农村样本它的赋值为1.5。这会产生一个6000人的加权样本(它与未加权样本的规模一致),其中包括1500人的城市加权样本和4500人的农村加权样本,与其各自的人口规模相对应。接着我们才可以对人口总体计算无偏的概括性统计量。但应注意该方法高估了农村受访者的信度(农村样本实际上为3000人,但我们将其看作4500人),以及类似地,我们低估了城市受访者的信度。
1702648063
1702648064 在Stata中对数据进行加权 在Stata命令的选项之前标注[<权重类型>=<权重变量名>]可将权重包含在Stata计算中。例如,对于某一权重变量为WT的样本,为了获得Y对X的回归,我们写如下的Stata命令:reg y x[pweight=wt]。Stata允许几种不同形式的权重,详见《用户指南》(User’s Guide)(StataCorp,2007)。一般来说,概率加权(pweights)是分层概率样本的合适的选择,并且它也是Stata的调查估计命令中使用的加权方法。然而不是所有的Stata命令都允许概率加权,并且它要求频数权重为整数。因此我建议在少数需要对数据进行加权但却不适合进行调查估计(本章稍后会讨论调查估计方法)的情况下,在不允许概率加权时使用分析加权(aweights)。Stata会自动对概率权重和分析权重进行标准化以使之符合未加权样本规模,因而分析者不必再执行此步骤。
1702648065
1702648066 有时我们需要设计一些更复杂的加权。例如,对中国样本,我们首先使用家庭户中的成人数作为第一个权重对家庭户规模的差异进行修正,接着加权以修正对城市人口的过度抽样。我们最后将这两个权重相乘得到一个总的权重,此权重是合理的,因为每个权重符合均值为1的正态分布——这也说明,加权数据总量与未加权数据总量相等。
1702648067
1702648068 前一章我们已经提过,一些调查单位会考虑应答率的不同而设计一系列复杂的权重。也就是说,他们对数据进行加权,以保证样本中关键变量(地理位置、性别、年龄、受教育年限等)的分布符合如人口普查的标准人口分布〔该方法在Stata 10.0中可以使用-svyset-命令的-poststrata( )-和-postweight( )-选项完成〕。当无应答率在所关注的人群组间显著不一致时,可以使用此方法。但它也存在潜在的误导性,因为它假设在由用来构建权重的变量所组成的n维交叉表中组内无应答者与应答者具有同质性。
1702648069
1702648070 权重的使用在一定程度上讲是有争议的。有些人主张永远不要对数据进行加权,而应该在分析中包含用以构建权重的所有变量。他们认为加权掩盖了那些重要的、应该被清晰地模型化的隐藏效应。关于此问题的讨论很多。城乡差别固然是中国最突出的特征,正如美国的种族差异一样。因而相比于对数据进行加权并忽略这些差别,在分析中准确地对中国的城乡差别或美国的种族差别进行描述,探讨它们与其他合适变量的交互作用,会更加富有意义。但从实际出发,加权有时是不可避免的,尤其是在计算描述统计量的时候。如果我们想准确估计中国的教育获得,我们的确需要对数据进行加权以修正对所受教育较好的城市人口的过度抽样,等等。此外,对不必要的变量效应(nuisance effects)建模有时候是无意义的——这些效应可能只会影响结果,但却不是实际研究所关心的问题。家庭户规模就是这样一个例子。在这种情况下,我们只需对数据进行加权以修正这类影响,而不用去关注影响究竟为何。当然,我们面临着两难选择:要么这些效应不重要,则我们不必进行加权;要么这些效应很重要,则将其模型化也是必需的。
1702648071
1702648072 对数据进行加权至为关键的一点是,分析者必须完全理解对数据所使用的加权方案。加权经常是十分复杂的,也正因如此,对加权方案的描述常常很糟糕。虽然需要付出极大的努力,但完全理解加权方案可以避免将来产生的大量麻烦以及分析中的错误所导致的难堪。一般来说,每当开始使用一个新数据集时,都应该尽可能地多收集关于样本设计和执行的文献——当然,接下来的工作是仔细阅读它们。
1702648073
1702648074 用Stata进行调查估计 为了获得对多阶段样本的标准误的正确估计,我们需要使用特别为此类样本设计的估计方法。Stata提供一系列针对许多常用统计量的标准误估计的调查估计(survey estimation)命令,包括均值、比例、OLS回归系数和逻辑斯蒂回归系数。尽管有所限制,但这些命令使在多阶段样本的每一层同时考虑整群和分层成为可能。
1702648075
[ 上一页 ]  [ :1.702648026e+09 ]  [ 下一页 ]