打字猴:1.70264814e+09
1702648140 还应注意我们没有报告BIC估计量。尽管我们可以对简单随机样本计算BIC,就如同我们在第6章和第7章所做的那样,但BIC对加权样本或整群样本却并不适用。对这类设计,我们估计伪似然函数,它们可能和真实似然值有显著的差异,并且在嵌套模型间以非单调的方式变化。因此,无论是似然比检验,还是BIC(计算时要用到似然值)都不能用于加权或整群样本的模型比较。相反,我们可以使用Stata的-test-和-svytest-命令所提供的Wald统计量。(最大似然估计是我们在第12章至第15章最常使用的估计方法,其详细介绍参见附录12.B。)
1702648141
1702648142 合并历年GSS数据
1702648143
1702648144 之前我曾建议,在某些情况下可将从同一总体中抽取的几个样本合并成单一数据集。尤其在假设某一社会过程不随时间发生变化时,可以将不同年份的GSS样本合并以增加样本数量。在第7章分解均值差异的例子中我曾这样做过。现在我对同一数据稍作修改,以研究1990~2004年教育获得的种族差异(非黑人与黑人)。这个例子主要是为了说明如何合并数据(关于Stata程序,参见下载文件“ch09.do”的第四部分)。在这一分析过程中,由于每一年的样本是固定的,因此我可以将年份看作层变量。然后我通过少量的计算创建一个在各年份一致的权重变量(详细过程可参见下载文件)。在加权后,我用常规方法进行调查估计。表9-6是估计的结果。
1702648145
1702648146 表9-6 1990~2004年美国成年人的教育获得模型(N=15932)
1702648147
1702648148
1702648149
1702648150
1702648151 对我们目前的目的来说,deff和meff都是有参考价值的。最大的deff显示,在对出生于南方(即16岁时在南方居住)这一变量系数的估计中,我们的样本具有与8754(=15932/1.82)人的随机样本同样的功效。当然,由于我们的样本已经足够大(它是8个GSS样本的合并),所以这个等效的随机样本也非常大。Meff系数也很大,尤其是对母亲的受教育年限而言。这再次说明不考虑加权或整群效应的简单分析会是误导性的,尽管我们有足够大的样本来弥补这一点。尽管结果非常有趣,但我不再对它们做进一步评论,因为在很大程度上这与第7章的讨论重复了。
1702648152
1702648153
1702648154
1702648155
1702648156 量化数据分析:通过社会研究检验想法 [:1702644784]
1702648157 量化数据分析:通过社会研究检验想法 结论
1702648158
1702648159 从本章的各个分析实例中我们发现,如果不考虑大型抽样调查常常使用多阶段抽样设计这一事实,不对其导致的观察样本的明显的整群效应进行修正,我们就可能很糟糕地低估抽样误差。注意,这不仅对区域概率样本适用,而且也同样适用于从组织中所抽取的样本,如学生样本(经常是先抽取学校,再抽取班级,然后是班级中的个人)、医院或诊所的病人样本等。这类调查的分析也应该使用调查估计方法。
1702648160
1702648161 即使不能获得抽样设计的完整信息——尽管无奈,但这也十分常见——在某些情况下,我们也可以利用访谈地址的信息去估计抽样设计信息,毕竟,几乎所有的调查都是根据其地址而呈现整群分布的。分析者应在数据中充分收集信息,以尽量了解抽样设计,从而使用Stata中基于抽样设计的估计方法,并避免高估其结论的信度。低估抽样误差,因而增加犯第I类错误的概率(错误地拒绝本来真实的零假设),这是将多阶段样本看作简单随机样本的通常结果。
1702648162
1702648163 本书中介绍的大多数标准统计程序都有调查估计的版本。一旦可能,我们就应该使用调查估计。而对于那些还没有调查估计命令的统计程序,我们也可以按照本章的建议使用[pweights]和-cluster-选项进行近似的调查估计。在只有一个抽样阶段且没有任何有关层变量的信息时,-cluster-选项与非调查估计方法一起使用会产生与本章所讨论的调查估计方法一致的结果(除了在分析次级总体时,仍需要使用调查估计方法)。
1702648164
1702648165
1702648166
1702648167
1702648168 量化数据分析:通过社会研究检验想法 [:1702644785]
1702648169 量化数据分析:通过社会研究检验想法 本章小结
1702648170
1702648171 本章带领我们跳出“教科书”式的分析(即基于简单随机抽样假设的分析),进入社会调查实际使用的样本分析中,并在统计分析时考虑抽样设计。我们回顾了样本的主要类型,并重点讨论了多阶段概率样本;探讨了样本分层的意义——它不仅能减少抽样误差,而且保证我们获得小群体的可供单独分析的足够样本;说明了加权估计适用的条件;之后我们转向调查估计,它是在考虑抽样设计,尤其是样本整群效应时正确估计标准误的一套方法。最后我们介绍deff和meff这两个统计量,它们是对偏离随机样本时的抽样误差的量化。
1702648172
1702648173
1702648174
1702648175
1702648176 量化数据分析:通过社会研究检验想法 [:1702644786]
1702648177 量化数据分析:通过社会研究检验想法 第10章 回归诊断
1702648178
1702648179 量化数据分析:通过社会研究检验想法 [:1702644787]
1702648180 本章内容
1702648181
1702648182 在分析中,我们常会因一些问题数据而导致错误的统计推断,因此如何识别这些问题数据显得尤为重要。针对这一点,我们在本章会介绍有关模型的识别方法以及在某些条件下的修正方法。为熟悉如何应用和解释各类回归诊断工具,我们将以分析我之前发表的一篇文章为例。
1702648183
1702648184 如前一章所述,如果我们不对复杂样本设计的标准误估计量进行修正会导致错误推断,不仅仅如此,还有许多其他的情况会导致错误的统计推断。即便是完全注意到样本的复杂性,我们也仍会犯错。原因在于我们可能设定了错误的模型或者在分析中包括了那些反常的观测样本,有关这一点在第5章已经简要地提及。在本章,我会更深入地阐述该问题。
1702648185
1702648186 我要讨论这些可能性的原因之一在于,在某些情况下,同样一组观测样本在某些社会过程的假设下可能是反常的,或者它满足其他一些过程,但这些过程需要通过引入新变量或改变含一个或多个预测变量的函数形式才能揭示出来。另一个原因是这两个问题可以用同样的方法发现和修正。在这里,我们首先介绍回归诊断技术——发现问题的方法。然后,我们将介绍稳健回归——一种修正问题的方法。有关各类回归诊断的讨论主要引自Fox(1997,chap.11-12)和Stata 10.0中“回归事后估计”(regress postestimation)(StataCorp,2007)的相关章节。
1702648187
1702648188
1702648189
[ 上一页 ]  [ :1.70264814e+09 ]  [ 下一页 ]