打字猴:1.702648056e+09
1702648056 正如本章前面提到的,使用分层样本的第二个原因是对不同的次级总体按不同的比例抽样。在中国调查的抽样中,我们就是这样做的。虽然为了方便,我常常将中国的调查数据作为两个独立样本(城市样本和农村样本)展示,但城乡差别亦可被简单地看作第二个分层变量。然而,由于调查进行时中国大约有75%的农村人口,为了取得分析所需要的同等规模的城市和农村样本,我们以3倍的抽样比率抽取城市人口。1982年和1987年美国GSS调查使用了同样的策略,以取得足够大的黑人样本,从而满足对黑人和非黑人的独立分析。
1702648057
1702648058 用于设计实验的中国分层样本是如何构建的 因为分层样本是将各层看作独立样本的多阶段概率抽样,因此该抽样方法类似于我们先前介绍的以加州城市样本为例的方法。为了抽取中国样本,我们首先利用1990年人口普查数据将所有县级单位(县、县级市和大城市的区)分成城市和农村两部分。我们将这两部分看作两个独立总体——中国城市人口总体和中国农村人口总体。首先,农村总体包含约2400个县。我们将这些县按照具有初中及以上受教育程度的成年人口比例的大小排列,然后将县划分成规模近似的25层,其中每层大约包含4%的人口。其次,我们用PPS方法从每层抽取两个县,即随机选取第一个县,再对初始数字加上该层人口的一半,从而系统地选取与该加总数字相对应的那个县,并在必要时进行循环。剩下的步骤则是用通常的方法进行PPS抽样。我们用同样的方法创建城市样本。
1702648059
1702648060 加权(weighting) 由于对总体的各部分使用不同的抽样比率,我们的样本显然不再具有总体代表性,因而使用整个样本计算的任何统计量都将是有偏的。例如,若我们简单地估计中国样本的平均受教育水平,则由于被过度抽样的城市人口相对于农村人口具有较好的教育,我们会得到高估的统计量。而若对1982年或1987年GSS数据进行类似的简单计算,则会低估总体的受教育水平,因为被过度抽样的黑人的受教育水平要远远低于非黑人。为了修正这些误差,我们会按抽样比率的倒数对数据进行相应的加权。
1702648061
1702648062 例如,1996年的中国调查包括(大约)3000人的农村样本和3000人的城市样本,为了修正城市人口3倍于农村人口的抽样比率,我们分别给城市人口和农村人口指定权重wu和wr,且wr=3wu。注意,我们并不希望简单地给城市人口指定权重为0.33,而给农村人口指定权重为1.0,因为这会产生一个4000人的加权样本,而真实的样本规模是6000个。相反,我们会用初始权重除以平均权重(0.67),从而将数据调整回初始的样本规模(当然,我们所做的仅仅是将家庭户样本转换成个人样本)。这样我们就创建了一个新变量(权重),对于城市样本它的赋值为0.5,对于农村样本它的赋值为1.5。这会产生一个6000人的加权样本(它与未加权样本的规模一致),其中包括1500人的城市加权样本和4500人的农村加权样本,与其各自的人口规模相对应。接着我们才可以对人口总体计算无偏的概括性统计量。但应注意该方法高估了农村受访者的信度(农村样本实际上为3000人,但我们将其看作4500人),以及类似地,我们低估了城市受访者的信度。
1702648063
1702648064 在Stata中对数据进行加权 在Stata命令的选项之前标注[<权重类型>=<权重变量名>]可将权重包含在Stata计算中。例如,对于某一权重变量为WT的样本,为了获得Y对X的回归,我们写如下的Stata命令:reg y x[pweight=wt]。Stata允许几种不同形式的权重,详见《用户指南》(User’s Guide)(StataCorp,2007)。一般来说,概率加权(pweights)是分层概率样本的合适的选择,并且它也是Stata的调查估计命令中使用的加权方法。然而不是所有的Stata命令都允许概率加权,并且它要求频数权重为整数。因此我建议在少数需要对数据进行加权但却不适合进行调查估计(本章稍后会讨论调查估计方法)的情况下,在不允许概率加权时使用分析加权(aweights)。Stata会自动对概率权重和分析权重进行标准化以使之符合未加权样本规模,因而分析者不必再执行此步骤。
1702648065
1702648066 有时我们需要设计一些更复杂的加权。例如,对中国样本,我们首先使用家庭户中的成人数作为第一个权重对家庭户规模的差异进行修正,接着加权以修正对城市人口的过度抽样。我们最后将这两个权重相乘得到一个总的权重,此权重是合理的,因为每个权重符合均值为1的正态分布——这也说明,加权数据总量与未加权数据总量相等。
1702648067
1702648068 前一章我们已经提过,一些调查单位会考虑应答率的不同而设计一系列复杂的权重。也就是说,他们对数据进行加权,以保证样本中关键变量(地理位置、性别、年龄、受教育年限等)的分布符合如人口普查的标准人口分布〔该方法在Stata 10.0中可以使用-svyset-命令的-poststrata( )-和-postweight( )-选项完成〕。当无应答率在所关注的人群组间显著不一致时,可以使用此方法。但它也存在潜在的误导性,因为它假设在由用来构建权重的变量所组成的n维交叉表中组内无应答者与应答者具有同质性。
1702648069
1702648070 权重的使用在一定程度上讲是有争议的。有些人主张永远不要对数据进行加权,而应该在分析中包含用以构建权重的所有变量。他们认为加权掩盖了那些重要的、应该被清晰地模型化的隐藏效应。关于此问题的讨论很多。城乡差别固然是中国最突出的特征,正如美国的种族差异一样。因而相比于对数据进行加权并忽略这些差别,在分析中准确地对中国的城乡差别或美国的种族差别进行描述,探讨它们与其他合适变量的交互作用,会更加富有意义。但从实际出发,加权有时是不可避免的,尤其是在计算描述统计量的时候。如果我们想准确估计中国的教育获得,我们的确需要对数据进行加权以修正对所受教育较好的城市人口的过度抽样,等等。此外,对不必要的变量效应(nuisance effects)建模有时候是无意义的——这些效应可能只会影响结果,但却不是实际研究所关心的问题。家庭户规模就是这样一个例子。在这种情况下,我们只需对数据进行加权以修正这类影响,而不用去关注影响究竟为何。当然,我们面临着两难选择:要么这些效应不重要,则我们不必进行加权;要么这些效应很重要,则将其模型化也是必需的。
1702648071
1702648072 对数据进行加权至为关键的一点是,分析者必须完全理解对数据所使用的加权方案。加权经常是十分复杂的,也正因如此,对加权方案的描述常常很糟糕。虽然需要付出极大的努力,但完全理解加权方案可以避免将来产生的大量麻烦以及分析中的错误所导致的难堪。一般来说,每当开始使用一个新数据集时,都应该尽可能地多收集关于样本设计和执行的文献——当然,接下来的工作是仔细阅读它们。
1702648073
1702648074 用Stata进行调查估计 为了获得对多阶段样本的标准误的正确估计,我们需要使用特别为此类样本设计的估计方法。Stata提供一系列针对许多常用统计量的标准误估计的调查估计(survey estimation)命令,包括均值、比例、OLS回归系数和逻辑斯蒂回归系数。尽管有所限制,但这些命令使在多阶段样本的每一层同时考虑整群和分层成为可能。
1702648075
1702648076 为了展示使用调查估计方法的效果,我先来重复第7章中的例子,即运用调查估计方法重新分析中国人所掌握词汇量的决定因素。接着,以美国女性收入的种族差异为例,展示如何对次级样本做调查估计。最后,分析美国教育获得的种族差异(即前面章节讨论分解均值之差时所使用的例子),以展示如何对合并几个年份的GSS数据(或其他数据集)进行调查估计。中国的数据和GSS数据的介绍详见附录A,如何对GSS数据进行调查估计详见附录B。
1702648077
1702648078 Stata 10.0调查估计方法的局限性 虽然Stata 10.0在针对多阶段样本正确估计标准误设计效应的能力方面,相比于之前的版本得到了很大提高,但是它仍然存在一点严重的不足:由于Stata估计标准误的方法所限,对于仅含一个抽样单位的层,默认的设置无法报告标准误。Stata 10.0提供了三种其他方法,但它们只在仅含一个抽样单位的层的个数为1的情况下有用——尽管在这种情况下,Stata会建议将这些单独的抽样单位与其他单位合并[Survey Data,154(StataCorp,2007)]。当抽样设计决定了各层中都只有一个抽样单位时,这些方法也不适用。〔注意,在Stata的应用中,“某一阶段的抽样单位是会在下一阶段的层出现”[Survey Data,154(StataCorp,2007)]。〕这就是GSS调查使用的设计,其中各层都只有一个初级抽样单位;这也是此处分析的1996年中国调查中所使用的设计,即在每个县中只抽取一个镇。
1702648079
1702648080 我采用的解决方法是忽略每层只有一个单位的阶段,但这会低估整群效应的大小。例如在中国的调查中,每个县抽取两个村,但每个村都是抽自一个镇,因而忽略镇这一层会导致整群的这一维度不被考虑。虽然这不是最优的方法,但我认为这种方法比忽略所有的次级阶段要好,这正是Stata 9.0之前的版本所使用的方法。
1702648081
1702648082 一个具体例子:中国的识字水平
1702648083
1702648084 下面是用两种方法估计的回归估计量和标准误的比较:一种使用调查估计方法,另一种则假设数据来自一个简单随机样本,就如同我们在第7章所做的那样(见表9-4)。这里分析的1996年中国调查数据使用与本章前面介绍过的样本实验类似的设计,唯一的不同之处是,在实际调查中我们只在每个县抽取一个镇,并在每个镇抽取两个村。〔关于如何获得调查的详细文件可参见附录A,其中包括抽样设计的信息(文件的附录D)以及如何获取数据。〕
1702648085
1702648086 表9-4 20~69岁中国在职成年人样本在10个词的测试中正确识别数量的决定因素(N=4802)
1702648087
1702648088
1702648089
1702648090
1702648091 Stata要求在指定估计命令则之前设定所有涉及数据属性的信息。一旦使用-svyset-命令完成此步骤之后,估计命令就会如常执行,只是用调查估计命令替换了非调查估计命令。关于中国识别词情况的分析,用来进行调查估计的命令显示在下载文件“ch09.do”中,也可参见-log-输出文件“ch09.log”。
1702648092
1702648093 Stata 10.0调查估计命令提供四个关于调查设计效应的统计量:错误识别效应meff,Kish(1965)发明的经典设计效应deff,以及它们各自的近似平方根meft和deft。在这四个统计量中,我发现前两个最有用。这些系数被报告在表9-4中,它包含对中国人识别词情况决定因素的三种估计:未加权的简单随机抽样回归,加权的简单随机抽样回归,以及调查估计回归(最右边一栏题为“基于抽样设计”)。最后,表中显示了另一个探索性设计统计量,我称之为meffW。
1702648094
1702648095 错误识别效应
1702648096
1702648097 错误识别效应(meff)是基于设计的估计命令所计算的抽样方差(标准误的平方)与基于未加权简单随机抽样(unweighted simple random sampling)假设所计算的抽样方差之比。因此,Meff透露给我们的信息是,在既不考虑整群效应也不考虑抽样比率的差别时,简单地计算统计量会导致抽样方差偏误——这就如我们在前几章所做的那样,或就当前的例子而言,这是指表9-4前两列所显示的计算。根据meff的定义,在第一行meff=2.93=0.0102/0.0062〔或者准确地说,是0.00954212/0.00557672(参见可供下载的-log-文件)〕,即基于设计效应计算的标准误的平方除以基于未加权简单随机抽样计算的标准误的平方。在某些情况下,如同在我们现在的例子中,严重低估了抽样方差;因而对于中国的调查数据,这种简单的估计方法是完全不适用的。
1702648098
1702648099 仅对数据进行加权但忽略整群和分层效应也是不足的,表9-4最右边一列的计算值即证明了这一点。这个系数为meffW,它是考虑设计效应所计算的抽样方差与加权但不考虑整群和分层效应所计算的抽样方差之比。〔该系数不在Stata的选项范围内——因而我出于探索的目的创建了一个——它必须手工计算,或者编写一个Stata程序来代替。参见下载文件“ch90.do”(第二部分)以了解我用Stata所做的计算。〕显然,是否考虑整群和分层效应所得到的方差估计值是非常不同的。因此,我们再次看到考虑抽样设计对获得正确估计的系数标准误的重要性。
1702648100
1702648101 设计效应
1702648102
1702648103 如本章之前所介绍的,设计效应(deff)是复杂抽样设计中基于(抽样)设计的对某一统计量的抽样方差估计和基于同等样本规模的简单随机抽样假设的抽样方差估计之比。因而meff不同于deff,它给出的是实际数据在两种条件下获得的抽样方差的比率:①在考虑整群和分层效应以进行基于(抽样)设计的估计时,②以及忽略整群效应和权重,对简单未加权随机样本进行统计量的估计时;而相比之下,deff是基于(抽样)设计的抽样方差与在实际中用简单随机抽样进行调查时所期望的抽样方差之比。从这一角度讲,meff更具有参考价值,因为它反映了简单估计所导致的后果。
1702648104
1702648105 Deff可以被看作是一个方差膨胀器,它表示抽样方差因观察样本中的整群效应而膨胀的程度。因为标准误是样本大小平方根的函数,所以deff也可被看作整群设计的样本想要获得与简单随机样本同样大小的标准误所应扩大的样本规模。
[ 上一页 ]  [ :1.702648056e+09 ]  [ 下一页 ]