打字猴:1.70265093e+09

1702650930

1702650931 这里是我关于在不同方案下使用调查估计的一些建议。我先给出一些分析单个年份数据的建议，然后再提出一些合并多年数据的建议。

1702650932

1702650933 1972～1976年街区配额样本

1702650934

1702650935 在GSS的早期年份，概率抽样到街区层次。然后，在每个街区内，调查员以一定的方式走访，依次访问每个家庭户，并试图根据特定的年龄、性别和就业状态来选择一定数量的被调查者来完成访谈。如果找到某一符合标准的人，就访问此人，然后调查员走访下一家（也就是说，对每家只进行一次访谈），这样继续下去直到完成分类的每种组合所要求的访谈数量。在1975年和1976年，抽样方法被分成两类：约一半的访谈使用街区配额方法，另一半使用完全概率抽样方法。1976年之后，所有的访谈都使用完全概率抽样设计的方法。Stephenson（1979）利用1975年和1976年的数据来比较两种抽样方法，发现街区配额方法明显少抽了有全职工作的男性，而在一定程度上多抽了居住在只有一个成年人家庭中的个人（结果是导致少抽了已婚人口和天主教徒）。对于GSS中的许多其他变量，他没有发现偏误。

1702650936

1702650937 虽然有对配额样本做统计推论的方法——要么使用重复调查信息，要么在调查内部做比较（Stephan and McCarthy，1963，第10章）——但在某种程度上讲很难应用这些方法。因为GSS街区配额抽样的平均设计效应约为1.5，基本上与GSS多阶段概率抽样相当（Davis and Smith，1992；Davis，Smith，and Marsden，2007，2097），所以将街区配额抽样作为概率抽样，并像1976年之后真实的概率抽样那样应用同样的调查估计方法是可行的。

1702650938

1702650939 鉴于GSS街区配额抽样覆盖率方面的偏差，你们可以选择忽略它或基于1970年人口普查中观测到的分布做事后加权。我的建议是，你们可以不必做事后加权。在一定程度上，只是简单地将性别和就业状态纳入你们的分析中，就可以获得对其他变量效应的无偏估计。但是，你们在对描述性统计量作解释时需要注意，检查你们描述的属性是否在就业的男性和其他人之间存在差异。如果存在差异，用括号标注出对数据进行加权增加就业男性人数后的描述统计结果。然后，报告原始估计和加权估计，而这两个估计构成的区间即是真实值落于其间的区间估计。

1702650940

1702650941 除1982年和1987年之外，1977～2002年间的调查

1702650942

1702650943 除1982年和1987年调查包括了黑人过度样本之外，在1977～2002年间的调查中使用的完全概率抽样可被看作是一种标准方法。像多数家庭户调查一样，由于GSS是一个家庭户概率抽样而不是个人概率抽样，所以在分析时你们需要对它进行修正。但是，合格的总体包括所有能够接受访谈的成年人（年龄在18岁及以上）。因为家庭户是在一个小区域内随机抽取的，但是每户只随机访谈一位成年人，因此，与居住在有很少成年人家庭中的成年人相比，居住在有许多成年人家庭中的成年人被抽中的机会要少。将家庭户样本转换成个人样本的一种可行方法是，用家庭户中成年人的数量与样本中所有家庭户中成年人的平均人数之比对每位受访者进行加权。可以在Stata中通过构建一个家庭户权重变量HHWT来完成：

1702650944

1702650945 egen adultm=mean（adults）

1702650946

1702650947 gen hhwt=adults/adultm然后用此变量对你们的数据进行加权。（事实上，因为Stata通过原始样本大小调整概率权重，你们可以简单地将ADULTS变量作为权重变量，除非你们将此变量作为某一更为复杂的权重变量的组成部分——在下一节展示——在这种情况下，你们应该将HHWT作为组成部分。）

1702650948

1702650949 尽管GSS是一个两阶段抽样，对某些PSU而言是三阶段抽样，但文本只提供了有关初级抽样单位（大都市区域和非都市县域）的信息，并且没有关于层（基于区域、地区规模和种族/民族）的信息。这意味着，我们只能用局部方法对GSS抽样设计中的群（clustering）做修正。这里可以使用GSS中的PSU变量SAMPCODE执行此步骤的Stata命令：

1702650950

1702650951 svyset sampcode ［pweight=adults］

1702650952

1702650953 或者

1702650954

1702650955 svyset sampcode ［pweight=hhwt］

1702650956

1702650957 注意，该命令也对家庭户的不同规模进行了调整。

1702650958

1702650959 1982年和1987年黑人超比例样本调查

1702650960

1702650961 如果你们分析1982年或1987年的调查数据，并想计算描述性统计量，那么你们需要对数据进行修正，这是因为黑人是被过度抽取的。为了对黑人的过度抽样和家庭户规模差异进行修正，我们可以创建一个新的加权变量，即GSS提供的权重变量OVERSAMP与你们为修正家庭户规模差异而构建的权重变量之乘积，即：

1702650962

1702650963 gen newwt=hhwt*oversamp

1702650964

1702650965 （注意，这个新变量的均值为1.0）然后为调查分析设置你们的数据：

1702650966

1702650967 svyset sampcode ［pweight=newwt］

1702650968

1702650969 2004年和2006年调查

1702650970

1702650971 在2004年的GSS调查中，NORC引入了一种全新的抽样方法，即尝试利用美国邮政服务地址目录的可获得性。2004年，该目录覆盖了72%的家庭户（O’Muircheartaigh，2003）。对于邮政服务地址目录覆盖的区域，有可能直接从PSU到小区域——实质上是从PSU到三级抽样单位。第二项创新是大胆尝试将原始无应答的一半随机样本转变成应答样本。第二项创新需要在形式上做点变化，即对GSS数据进行加权使它们代表总体——那些被转变的样本因此需要用剩余样本权重的2倍进行加权，因为只有一半样本被转变。变量WTSS同时修正了这种情况和不同的家庭户规模。

1702650972

1702650973 注意，在2004年数据的初始版本中，这个变量名为WTSS2004。在2006年的数据和1972～2006年的累积文件中，这个变量出现了两次，2004年和2006年出现的是WTSS，其余所有年份出现的是WTSSALL；2004年和2006年这两个变量是一样的。因此，依据你们使用的早期文件的版本，你们可能必须将WTSS2004或WTSS更名为NEWWT（或你们构建的权重变量的任何其他变量名），这样才能得到一个对所有年份都可进行比较的权重变量。

1702650974

1702650975 如果你们只对2004年或2006年的数据，或对这两年的汇合数据进行分析，你们可以使用WTSS2004NR或WTSSNR变量，它们对2004年和2006年不同地理区域的无应答差异做了修正。注意，在使用这个权重变量时，你们无疑会假设在相同的地理区域无应答的比例与应答比例是完全相同的，这种假设可能合理也可能不合理。如果你们假设无应答差异主要源于NORC现场执行质量的区域差异，这种修正可能是行得通的。但是，如果你们假设这种差异源于受访者的特征（例如，许多限制入楼的区域如曼哈顿，或许多人在夜间或周末工作，或许多人单独居住的区域就和其他区域不同），你们或许会得出结论，无应答者不能被假设成与应答者相似。在这种情况下，你们不能用“……NR”权重。后一种假设更加合理。

1702650976

1702650977 像前面提到的，2006年访谈使用了西班牙语和英语，而在以前年份那些不能用英语访谈的人被排除在外。大约6%的受访者是用西班牙语访谈的，据估计，访问员用英语不能进行有效沟通的比例大约是85%。变量SPANENG区分了访谈使用的语言。

1702650978

1702650979 FORMWT变量

[ 上一页 ] [ :1.70265093e+09 ] [ 下一页 ]