1702650923
量化数据分析:通过社会研究检验想法 附录B 用综合社会调查数据做调查估计
1702650924
1702650925
导论
1702650926
1702650927
综合社会调查(GSS)是一项分层多阶段概率抽样〔见Davis,Smith,and Marsden(2007,附录A)的介绍,并提供了其他引用到的资料〕,这意味着正确估计标准误需要使用调查估计方法。令人遗憾的是,大概出于保密的原因,GSS文本不完整;只能通过SAMPCODE变量识别到初级抽样单位(primary sampling units,PSUs),而识别不出其他层和次级抽样单位。这很可惜,因为它影响到使用Stata命令修正多阶段分层抽样。而且,也没有提供能够进行有限总体校正的信息,尽管当每阶段从总体中抽取足够大的样本时,这并不是一个严重的缺陷。此外,抽样设计在不同年份有变化,每十年就会基于人口普查结果创建一个新的抽样框,还有一个主要变化是1976年抽样设计从街区配额设计变为完全概率抽样设计;2004年使用美国邮政服务地址目录创建部分基于该目录的样本,并试图转化为一个初始无应答的子样本,事后再调整各种无应答的样本;2006年引入说西班牙语的抽样样本。最后,在1982年和1987年对黑人进行了过度抽样。这些变化使汇合不同年份的数据变得复杂。
1702650928
1702650929
分析一年的数据
1702650930
1702650931
这里是我关于在不同方案下使用调查估计的一些建议。我先给出一些分析单个年份数据的建议,然后再提出一些合并多年数据的建议。
1702650932
1702650933
1972~1976年街区配额样本
1702650934
1702650935
在GSS的早期年份,概率抽样到街区层次。然后,在每个街区内,调查员以一定的方式走访,依次访问每个家庭户,并试图根据特定的年龄、性别和就业状态来选择一定数量的被调查者来完成访谈。如果找到某一符合标准的人,就访问此人,然后调查员走访下一家(也就是说,对每家只进行一次访谈),这样继续下去直到完成分类的每种组合所要求的访谈数量。在1975年和1976年,抽样方法被分成两类:约一半的访谈使用街区配额方法,另一半使用完全概率抽样方法。1976年之后,所有的访谈都使用完全概率抽样设计的方法。Stephenson(1979)利用1975年和1976年的数据来比较两种抽样方法,发现街区配额方法明显少抽了有全职工作的男性,而在一定程度上多抽了居住在只有一个成年人家庭中的个人(结果是导致少抽了已婚人口和天主教徒)。对于GSS中的许多其他变量,他没有发现偏误。
1702650936
1702650937
虽然有对配额样本做统计推论的方法——要么使用重复调查信息,要么在调查内部做比较(Stephan and McCarthy,1963,第10章)——但在某种程度上讲很难应用这些方法。因为GSS街区配额抽样的平均设计效应约为1.5,基本上与GSS多阶段概率抽样相当(Davis and Smith,1992;Davis,Smith,and Marsden,2007,2097),所以将街区配额抽样作为概率抽样,并像1976年之后真实的概率抽样那样应用同样的调查估计方法是可行的。
1702650938
1702650939
鉴于GSS街区配额抽样覆盖率方面的偏差,你们可以选择忽略它或基于1970年人口普查中观测到的分布做事后加权。我的建议是,你们可以不必做事后加权。在一定程度上,只是简单地将性别和就业状态纳入你们的分析中,就可以获得对其他变量效应的无偏估计。但是,你们在对描述性统计量作解释时需要注意,检查你们描述的属性是否在就业的男性和其他人之间存在差异。如果存在差异,用括号标注出对数据进行加权增加就业男性人数后的描述统计结果。然后,报告原始估计和加权估计,而这两个估计构成的区间即是真实值落于其间的区间估计。
1702650940
1702650941
除1982年和1987年之外,1977~2002年间的调查
1702650942
1702650943
除1982年和1987年调查包括了黑人过度样本之外,在1977~2002年间的调查中使用的完全概率抽样可被看作是一种标准方法。像多数家庭户调查一样,由于GSS是一个家庭户概率抽样而不是个人概率抽样,所以在分析时你们需要对它进行修正。但是,合格的总体包括所有能够接受访谈的成年人(年龄在18岁及以上)。因为家庭户是在一个小区域内随机抽取的,但是每户只随机访谈一位成年人,因此,与居住在有很少成年人家庭中的成年人相比,居住在有许多成年人家庭中的成年人被抽中的机会要少。将家庭户样本转换成个人样本的一种可行方法是,用家庭户中成年人的数量与样本中所有家庭户中成年人的平均人数之比对每位受访者进行加权。可以在Stata中通过构建一个家庭户权重变量HHWT来完成:
1702650944
1702650945
egen adultm=mean(adults)
1702650946
1702650947
gen hhwt=adults/adultm然后用此变量对你们的数据进行加权。(事实上,因为Stata通过原始样本大小调整概率权重,你们可以简单地将ADULTS变量作为权重变量,除非你们将此变量作为某一更为复杂的权重变量的组成部分——在下一节展示——在这种情况下,你们应该将HHWT作为组成部分。)
1702650948
1702650949
尽管GSS是一个两阶段抽样,对某些PSU而言是三阶段抽样,但文本只提供了有关初级抽样单位(大都市区域和非都市县域)的信息,并且没有关于层(基于区域、地区规模和种族/民族)的信息。这意味着,我们只能用局部方法对GSS抽样设计中的群(clustering)做修正。这里可以使用GSS中的PSU变量SAMPCODE执行此步骤的Stata命令:
1702650950
1702650951
svyset sampcode [pweight=adults]
1702650952
1702650953
或者
1702650954
1702650955
svyset sampcode [pweight=hhwt]
1702650956
1702650957
注意,该命令也对家庭户的不同规模进行了调整。
1702650958
1702650959
1982年和1987年黑人超比例样本调查
1702650960
1702650961
如果你们分析1982年或1987年的调查数据,并想计算描述性统计量,那么你们需要对数据进行修正,这是因为黑人是被过度抽取的。为了对黑人的过度抽样和家庭户规模差异进行修正,我们可以创建一个新的加权变量,即GSS提供的权重变量OVERSAMP与你们为修正家庭户规模差异而构建的权重变量之乘积,即:
1702650962
1702650963
gen newwt=hhwt*oversamp
1702650964
1702650965
(注意,这个新变量的均值为1.0)然后为调查分析设置你们的数据:
1702650966
1702650967
svyset sampcode [pweight=newwt]
1702650968
1702650969
2004年和2006年调查
1702650970
1702650971
在2004年的GSS调查中,NORC引入了一种全新的抽样方法,即尝试利用美国邮政服务地址目录的可获得性。2004年,该目录覆盖了72%的家庭户(O’Muircheartaigh,2003)。对于邮政服务地址目录覆盖的区域,有可能直接从PSU到小区域——实质上是从PSU到三级抽样单位。第二项创新是大胆尝试将原始无应答的一半随机样本转变成应答样本。第二项创新需要在形式上做点变化,即对GSS数据进行加权使它们代表总体——那些被转变的样本因此需要用剩余样本权重的2倍进行加权,因为只有一半样本被转变。变量WTSS同时修正了这种情况和不同的家庭户规模。
[
上一页 ]
[ :1.702650922e+09 ]
[
下一页 ]