打字猴:1.702650942e+09
1702650942
1702650943 除1982年和1987年调查包括了黑人过度样本之外,在1977~2002年间的调查中使用的完全概率抽样可被看作是一种标准方法。像多数家庭户调查一样,由于GSS是一个家庭户概率抽样而不是个人概率抽样,所以在分析时你们需要对它进行修正。但是,合格的总体包括所有能够接受访谈的成年人(年龄在18岁及以上)。因为家庭户是在一个小区域内随机抽取的,但是每户只随机访谈一位成年人,因此,与居住在有很少成年人家庭中的成年人相比,居住在有许多成年人家庭中的成年人被抽中的机会要少。将家庭户样本转换成个人样本的一种可行方法是,用家庭户中成年人的数量与样本中所有家庭户中成年人的平均人数之比对每位受访者进行加权。可以在Stata中通过构建一个家庭户权重变量HHWT来完成:
1702650944
1702650945 egen adultm=mean(adults)
1702650946
1702650947 gen hhwt=adults/adultm然后用此变量对你们的数据进行加权。(事实上,因为Stata通过原始样本大小调整概率权重,你们可以简单地将ADULTS变量作为权重变量,除非你们将此变量作为某一更为复杂的权重变量的组成部分——在下一节展示——在这种情况下,你们应该将HHWT作为组成部分。)
1702650948
1702650949 尽管GSS是一个两阶段抽样,对某些PSU而言是三阶段抽样,但文本只提供了有关初级抽样单位(大都市区域和非都市县域)的信息,并且没有关于层(基于区域、地区规模和种族/民族)的信息。这意味着,我们只能用局部方法对GSS抽样设计中的群(clustering)做修正。这里可以使用GSS中的PSU变量SAMPCODE执行此步骤的Stata命令:
1702650950
1702650951 svyset sampcode [pweight=adults]
1702650952
1702650953 或者
1702650954
1702650955 svyset sampcode [pweight=hhwt]
1702650956
1702650957 注意,该命令也对家庭户的不同规模进行了调整。
1702650958
1702650959 1982年和1987年黑人超比例样本调查
1702650960
1702650961 如果你们分析1982年或1987年的调查数据,并想计算描述性统计量,那么你们需要对数据进行修正,这是因为黑人是被过度抽取的。为了对黑人的过度抽样和家庭户规模差异进行修正,我们可以创建一个新的加权变量,即GSS提供的权重变量OVERSAMP与你们为修正家庭户规模差异而构建的权重变量之乘积,即:
1702650962
1702650963 gen newwt=hhwt*oversamp
1702650964
1702650965 (注意,这个新变量的均值为1.0)然后为调查分析设置你们的数据:
1702650966
1702650967 svyset sampcode [pweight=newwt]
1702650968
1702650969 2004年和2006年调查
1702650970
1702650971 在2004年的GSS调查中,NORC引入了一种全新的抽样方法,即尝试利用美国邮政服务地址目录的可获得性。2004年,该目录覆盖了72%的家庭户(O’Muircheartaigh,2003)。对于邮政服务地址目录覆盖的区域,有可能直接从PSU到小区域——实质上是从PSU到三级抽样单位。第二项创新是大胆尝试将原始无应答的一半随机样本转变成应答样本。第二项创新需要在形式上做点变化,即对GSS数据进行加权使它们代表总体——那些被转变的样本因此需要用剩余样本权重的2倍进行加权,因为只有一半样本被转变。变量WTSS同时修正了这种情况和不同的家庭户规模。
1702650972
1702650973 注意,在2004年数据的初始版本中,这个变量名为WTSS2004。在2006年的数据和1972~2006年的累积文件中,这个变量出现了两次,2004年和2006年出现的是WTSS,其余所有年份出现的是WTSSALL;2004年和2006年这两个变量是一样的。因此,依据你们使用的早期文件的版本,你们可能必须将WTSS2004或WTSS更名为NEWWT(或你们构建的权重变量的任何其他变量名),这样才能得到一个对所有年份都可进行比较的权重变量。
1702650974
1702650975 如果你们只对2004年或2006年的数据,或对这两年的汇合数据进行分析,你们可以使用WTSS2004NR或WTSSNR变量,它们对2004年和2006年不同地理区域的无应答差异做了修正。注意,在使用这个权重变量时,你们无疑会假设在相同的地理区域无应答的比例与应答比例是完全相同的,这种假设可能合理也可能不合理。如果你们假设无应答差异主要源于NORC现场执行质量的区域差异,这种修正可能是行得通的。但是,如果你们假设这种差异源于受访者的特征(例如,许多限制入楼的区域如曼哈顿,或许多人在夜间或周末工作,或许多人单独居住的区域就和其他区域不同),你们或许会得出结论,无应答者不能被假设成与应答者相似。在这种情况下,你们不能用“……NR”权重。后一种假设更加合理。
1702650976
1702650977 像前面提到的,2006年访谈使用了西班牙语和英语,而在以前年份那些不能用英语访谈的人被排除在外。大约6%的受访者是用西班牙语访谈的,据估计,访问员用英语不能进行有效沟通的比例大约是85%。变量SPANENG区分了访谈使用的语言。
1702650978
1702650979 FORMWT变量
1702650980
1702650981 在某些年份(1978、1980年和1982~1985年),部分问题只询问了受访者的一个子样本。虽然目的是要保证这些问题针对一个随机人群,但这不总是可以实现(Smith and Peterson,1986)。因此,GSS提供了一个修正权重FORMWT。我的建议是,你们不要使用这个变量,而要用多元填补法(见第8章)创建一个包括所有受访者的完整数据集。
1702650982
1702650983 汇合多年调查数据
1702650984
1702650985 当我们汇合多年的调查数据时,合理的做法是将YEAR作为层变量,因为每年的调查是独立进行的,YEAR是一个固定变量。执行此步骤的Stata命令是:
1702650986
1702650987 svyset sampcode [pweight=newwt],strata(year)
1702650988
1702650989
1702650990
1702650991
[ 上一页 ]  [ :1.702650942e+09 ]  [ 下一页 ]