打字猴:1.70264813e+09

1702648130

1702648131 表9-5 1994年美国成年女性的收入决定因素模型，多种设计假设（N=1015）

1702648132

1702648133

1702648134

1702648135

1702648136 如果不对数据进行加权，则另外一种替代方法是引入家中成年人数量的一系列虚拟变量，以及这些虚拟变量分别与种族和教育的交互项，或者还需引入这些变量的三维交互项。除非我们分析的重点是种族和教育的差异如何随家中成年人的数量而变化，否则该方法显然过于复杂和冗长。总的来讲，我认为这个例子清楚地说明了当信息允许时，我们一般应该进行调查估计的原因。

1702648137

1702648138 我们还应注意，在第Ⅱ部分和第Ⅲ部分的相应模型中，尽管标准误不同，但R2却是相同的。这遵循R2的定义，即它是围绕回归面的方差与围绕因变量均值的方差之比的函数。由于在第Ⅱ部分和第Ⅲ部分的点估计相同，因而R2也相同，尽管第Ⅲ部分的点估计具有较大的置信区间。

1702648139

1702648140 还应注意我们没有报告BIC估计量。尽管我们可以对简单随机样本计算BIC，就如同我们在第6章和第7章所做的那样，但BIC对加权样本或整群样本却并不适用。对这类设计，我们估计伪似然函数，它们可能和真实似然值有显著的差异，并且在嵌套模型间以非单调的方式变化。因此，无论是似然比检验，还是BIC（计算时要用到似然值）都不能用于加权或整群样本的模型比较。相反，我们可以使用Stata的-test-和-svytest-命令所提供的Wald统计量。（最大似然估计是我们在第12章至第15章最常使用的估计方法，其详细介绍参见附录12.B。）

1702648141

1702648142 合并历年GSS数据

1702648143

1702648144 之前我曾建议，在某些情况下可将从同一总体中抽取的几个样本合并成单一数据集。尤其在假设某一社会过程不随时间发生变化时，可以将不同年份的GSS样本合并以增加样本数量。在第7章分解均值差异的例子中我曾这样做过。现在我对同一数据稍作修改，以研究1990～2004年教育获得的种族差异（非黑人与黑人）。这个例子主要是为了说明如何合并数据（关于Stata程序，参见下载文件“ch09.do”的第四部分）。在这一分析过程中，由于每一年的样本是固定的，因此我可以将年份看作层变量。然后我通过少量的计算创建一个在各年份一致的权重变量（详细过程可参见下载文件）。在加权后，我用常规方法进行调查估计。表9-6是估计的结果。

1702648145

1702648146 表9-6 1990～2004年美国成年人的教育获得模型（N=15932）

1702648147

1702648148

1702648149

1702648150

1702648151 对我们目前的目的来说，deff和meff都是有参考价值的。最大的deff显示，在对出生于南方（即16岁时在南方居住）这一变量系数的估计中，我们的样本具有与8754（=15932/1.82）人的随机样本同样的功效。当然，由于我们的样本已经足够大（它是8个GSS样本的合并），所以这个等效的随机样本也非常大。Meff系数也很大，尤其是对母亲的受教育年限而言。这再次说明不考虑加权或整群效应的简单分析会是误导性的，尽管我们有足够大的样本来弥补这一点。尽管结果非常有趣，但我不再对它们做进一步评论，因为在很大程度上这与第7章的讨论重复了。

1702648152

1702648153

1702648154

1702648155

1702648156 量化数据分析：通过社会研究检验想法 [:1702644784]

1702648157 量化数据分析：通过社会研究检验想法结论

1702648158

1702648159 从本章的各个分析实例中我们发现，如果不考虑大型抽样调查常常使用多阶段抽样设计这一事实，不对其导致的观察样本的明显的整群效应进行修正，我们就可能很糟糕地低估抽样误差。注意，这不仅对区域概率样本适用，而且也同样适用于从组织中所抽取的样本，如学生样本（经常是先抽取学校，再抽取班级，然后是班级中的个人）、医院或诊所的病人样本等。这类调查的分析也应该使用调查估计方法。

1702648160

1702648161 即使不能获得抽样设计的完整信息——尽管无奈，但这也十分常见——在某些情况下，我们也可以利用访谈地址的信息去估计抽样设计信息，毕竟，几乎所有的调查都是根据其地址而呈现整群分布的。分析者应在数据中充分收集信息，以尽量了解抽样设计，从而使用Stata中基于抽样设计的估计方法，并避免高估其结论的信度。低估抽样误差，因而增加犯第I类错误的概率（错误地拒绝本来真实的零假设），这是将多阶段样本看作简单随机样本的通常结果。

1702648162

1702648163 本书中介绍的大多数标准统计程序都有调查估计的版本。一旦可能，我们就应该使用调查估计。而对于那些还没有调查估计命令的统计程序，我们也可以按照本章的建议使用［pweights］和-cluster-选项进行近似的调查估计。在只有一个抽样阶段且没有任何有关层变量的信息时，-cluster-选项与非调查估计方法一起使用会产生与本章所讨论的调查估计方法一致的结果（除了在分析次级总体时，仍需要使用调查估计方法）。

1702648164

1702648165

1702648166

1702648167

1702648168 量化数据分析：通过社会研究检验想法 [:1702644785]

1702648169 量化数据分析：通过社会研究检验想法本章小结

1702648170

1702648171 本章带领我们跳出“教科书”式的分析（即基于简单随机抽样假设的分析），进入社会调查实际使用的样本分析中，并在统计分析时考虑抽样设计。我们回顾了样本的主要类型，并重点讨论了多阶段概率样本；探讨了样本分层的意义——它不仅能减少抽样误差，而且保证我们获得小群体的可供单独分析的足够样本；说明了加权估计适用的条件；之后我们转向调查估计，它是在考虑抽样设计，尤其是样本整群效应时正确估计标准误的一套方法。最后我们介绍deff和meff这两个统计量，它们是对偏离随机样本时的抽样误差的量化。

1702648172

1702648173

1702648174

1702648175

1702648176 量化数据分析：通过社会研究检验想法 [:1702644786]

1702648177 量化数据分析：通过社会研究检验想法第10章回归诊断

1702648178

1702648179 量化数据分析：通过社会研究检验想法 [:1702644787]

[ 上一页 ] [ :1.70264813e+09 ] [ 下一页 ]