1702648169
量化数据分析:通过社会研究检验想法 本章小结
1702648170
1702648171
本章带领我们跳出“教科书”式的分析(即基于简单随机抽样假设的分析),进入社会调查实际使用的样本分析中,并在统计分析时考虑抽样设计。我们回顾了样本的主要类型,并重点讨论了多阶段概率样本;探讨了样本分层的意义——它不仅能减少抽样误差,而且保证我们获得小群体的可供单独分析的足够样本;说明了加权估计适用的条件;之后我们转向调查估计,它是在考虑抽样设计,尤其是样本整群效应时正确估计标准误的一套方法。最后我们介绍deff和meff这两个统计量,它们是对偏离随机样本时的抽样误差的量化。
1702648172
1702648173
1702648174
1702648175
1702648177
量化数据分析:通过社会研究检验想法 第10章 回归诊断
1702648178
1702648180
本章内容
1702648181
1702648182
在分析中,我们常会因一些问题数据而导致错误的统计推断,因此如何识别这些问题数据显得尤为重要。针对这一点,我们在本章会介绍有关模型的识别方法以及在某些条件下的修正方法。为熟悉如何应用和解释各类回归诊断工具,我们将以分析我之前发表的一篇文章为例。
1702648183
1702648184
如前一章所述,如果我们不对复杂样本设计的标准误估计量进行修正会导致错误推断,不仅仅如此,还有许多其他的情况会导致错误的统计推断。即便是完全注意到样本的复杂性,我们也仍会犯错。原因在于我们可能设定了错误的模型或者在分析中包括了那些反常的观测样本,有关这一点在第5章已经简要地提及。在本章,我会更深入地阐述该问题。
1702648185
1702648186
我要讨论这些可能性的原因之一在于,在某些情况下,同样一组观测样本在某些社会过程的假设下可能是反常的,或者它满足其他一些过程,但这些过程需要通过引入新变量或改变含一个或多个预测变量的函数形式才能揭示出来。另一个原因是这两个问题可以用同样的方法发现和修正。在这里,我们首先介绍回归诊断技术——发现问题的方法。然后,我们将介绍稳健回归——一种修正问题的方法。有关各类回归诊断的讨论主要引自Fox(1997,chap.11-12)和Stata 10.0中“回归事后估计”(regress postestimation)(StataCorp,2007)的相关章节。
1702648187
1702648188
1702648189
1702648190
1702648192
量化数据分析:通过社会研究检验想法 引言
1702648193
1702648194
为了举例说明缺乏经验的研究人员因忽视数据特征经常发生的问题,我们先来看四幅散点图(见图10-1)。这些图均是为产生一致的回归估计量(斜率和截距)、一致的变量间的相关关系和一致的回归系数标准误而专门设计的。但是,只有图(a)是一条合理的线性回归直线。图(b)展示了一种曲线关系。图(c)描述了一种受到一个数值干扰的线性关系,如果没有这一数据点,其线性关系将会非常完美。图(d)展示了一个其X的方差和表示Y与X关系的斜率完全由一个点决定的数据集(其中,X是横坐标,Y是纵坐标)。很明显,从这四幅散点图中,我们可以发现,通过这样直观地检查变量间的关系来保证识别模型是否充分反映了数据的真实关系是一个非常好的想法。
1702648195
1702648196
1702648197
1702648198
1702648199
图10-1 四幅具有同样线条的散点图
1702648200
1702648201
资料来源:Anscombe,1973:19-20。
1702648202
1702648203
除了上述例子,我们仍然需要对有关回归模型没有充分表达数据观测到的关系的其他方法保持敏感,尤其是一些可能被模型忽略的重要变量,如图10-2所示。这里,Y对X的回归显然是错误的,因为三个中间观测值对应的Y值比左边和右边的数据点都大。很明显,该关系可以表示成如下形式的方程:
1702648204
1702648205
1702648206
1702648207
1702648208
这里,对于三个中间观测值,Z赋值为1,否则为0,该方程完美地预测了Y。直观地审视散点图(图10-2)或本章后面将讨论到的成分加残差图,常常可以揭示出引入其他变量的必要性——尽管实际中的例子并不总是这样一目了然。
1702648209
1702648210
1702648211
1702648212
1702648213
图10-2 X与Y关系的散点图以及将X与Y之间的关系错误地假设为线性关系模型的一条回归直线(假想数据)
1702648214
1702648215
另一个潜在问题是异方差性(heteroscedasticity),即不同的预测值围绕回归面的误差方差不相等,该情况会导致回归系数的标准误不正确。异方差性很常见,因为在大多数情况下观测值的方差随均值增大。幸运的是,适度违规(最大的误差方差是在最小的10倍以内)对标准误影响极小。但是,我们仍需要对较大的违规进行检验。
1702648216
1702648217
为检验双变量模型中的异常关系,我们可以简单地画如图10-1和图10-2那样的X与Y的关系图。然而,对于多元回归方程,每个自变量与因变量之间的零阶散点图很可能忽略重要的非线性和异常现象。因此,我们需要用到一系列额外方法,这些方法被统称为回归诊断技术(regression diagnostics)。
[
上一页 ]
[ :1.702648168e+09 ]
[
下一页 ]