1702648180
本章内容
1702648181
1702648182
在分析中,我们常会因一些问题数据而导致错误的统计推断,因此如何识别这些问题数据显得尤为重要。针对这一点,我们在本章会介绍有关模型的识别方法以及在某些条件下的修正方法。为熟悉如何应用和解释各类回归诊断工具,我们将以分析我之前发表的一篇文章为例。
1702648183
1702648184
如前一章所述,如果我们不对复杂样本设计的标准误估计量进行修正会导致错误推断,不仅仅如此,还有许多其他的情况会导致错误的统计推断。即便是完全注意到样本的复杂性,我们也仍会犯错。原因在于我们可能设定了错误的模型或者在分析中包括了那些反常的观测样本,有关这一点在第5章已经简要地提及。在本章,我会更深入地阐述该问题。
1702648185
1702648186
我要讨论这些可能性的原因之一在于,在某些情况下,同样一组观测样本在某些社会过程的假设下可能是反常的,或者它满足其他一些过程,但这些过程需要通过引入新变量或改变含一个或多个预测变量的函数形式才能揭示出来。另一个原因是这两个问题可以用同样的方法发现和修正。在这里,我们首先介绍回归诊断技术——发现问题的方法。然后,我们将介绍稳健回归——一种修正问题的方法。有关各类回归诊断的讨论主要引自Fox(1997,chap.11-12)和Stata 10.0中“回归事后估计”(regress postestimation)(StataCorp,2007)的相关章节。
1702648187
1702648188
1702648189
1702648190
1702648192
量化数据分析:通过社会研究检验想法 引言
1702648193
1702648194
为了举例说明缺乏经验的研究人员因忽视数据特征经常发生的问题,我们先来看四幅散点图(见图10-1)。这些图均是为产生一致的回归估计量(斜率和截距)、一致的变量间的相关关系和一致的回归系数标准误而专门设计的。但是,只有图(a)是一条合理的线性回归直线。图(b)展示了一种曲线关系。图(c)描述了一种受到一个数值干扰的线性关系,如果没有这一数据点,其线性关系将会非常完美。图(d)展示了一个其X的方差和表示Y与X关系的斜率完全由一个点决定的数据集(其中,X是横坐标,Y是纵坐标)。很明显,从这四幅散点图中,我们可以发现,通过这样直观地检查变量间的关系来保证识别模型是否充分反映了数据的真实关系是一个非常好的想法。
1702648195
1702648196
1702648197
1702648198
1702648199
图10-1 四幅具有同样线条的散点图
1702648200
1702648201
资料来源:Anscombe,1973:19-20。
1702648202
1702648203
除了上述例子,我们仍然需要对有关回归模型没有充分表达数据观测到的关系的其他方法保持敏感,尤其是一些可能被模型忽略的重要变量,如图10-2所示。这里,Y对X的回归显然是错误的,因为三个中间观测值对应的Y值比左边和右边的数据点都大。很明显,该关系可以表示成如下形式的方程:
1702648204
1702648205
1702648206
1702648207
1702648208
这里,对于三个中间观测值,Z赋值为1,否则为0,该方程完美地预测了Y。直观地审视散点图(图10-2)或本章后面将讨论到的成分加残差图,常常可以揭示出引入其他变量的必要性——尽管实际中的例子并不总是这样一目了然。
1702648209
1702648210
1702648211
1702648212
1702648213
图10-2 X与Y关系的散点图以及将X与Y之间的关系错误地假设为线性关系模型的一条回归直线(假想数据)
1702648214
1702648215
另一个潜在问题是异方差性(heteroscedasticity),即不同的预测值围绕回归面的误差方差不相等,该情况会导致回归系数的标准误不正确。异方差性很常见,因为在大多数情况下观测值的方差随均值增大。幸运的是,适度违规(最大的误差方差是在最小的10倍以内)对标准误影响极小。但是,我们仍需要对较大的违规进行检验。
1702648216
1702648217
为检验双变量模型中的异常关系,我们可以简单地画如图10-1和图10-2那样的X与Y的关系图。然而,对于多元回归方程,每个自变量与因变量之间的零阶散点图很可能忽略重要的非线性和异常现象。因此,我们需要用到一系列额外方法,这些方法被统称为回归诊断技术(regression diagnostics)。
1702648218
1702648219
不过,我们可以从一个简单例子入手来阐述实际研究中存在的潜在问题。对1994年GSS数据中兄弟姐妹数与受教育年限之间的关系,假设分析者没有注意很大的编码数字代表的是缺失数据(回顾第4章专栏介绍中有关“将缺失值当作非缺失值来处理”的解释)。对于SIBS和EDUC两个变量,编码98=“不知道”,99=“无应答”。如果我们幼稚地假设数据是完整的,并在两个变量之间建立关联,将会得出结论——教育获得与兄弟姐妹数没有关系,因为r=0.006。然而,在排除了两个变量的缺失数据后,我们得出了一个更为可信的估计:r=-0.246。
1702648220
1702648221
除了小心谨慎之外,我们还能做些什么来避免犯这样的错误呢?第一步,也是最明显的一步是检查两个变量之间关系的散点图。如图10-1所示,这些散点图通常有很强的指导性,它们不仅揭示了像包括缺失值编码之类的大误差,而且反映了数据中的其他异常现象——曲线关系,非连续性,可能发生的忽略变量问题和数据的异方差性。图10-3是1994年GSS数据反映出的兄弟姐妹数与受教育年限之间的关系图。
1702648222
1702648223
这幅图直接揭示了其中存在的问题:对于显示为“NA”的数值(99)应该采取何种措施。综观此图,我们可以发现要获得有意义的结果必须省略缺失值。省略后的散点图及回归线如图10-4所示。注意,新图包括2975个样本,与之前相比只减少了17个样本,但是回归估计却大不相同。因为被省略的样本非常少,所以我们不需要考虑填补缺失数据问题(回顾第8章的讨论)。但是,即使在省略缺失样本之后,我们仍需要考虑回归估计受少数有很多兄弟姐妹样本的过度影响的可能性。下一节就将讨论如何估计这种可能性。
1702648224
1702648225
1702648226
1702648227
1702648228
图10-3 1994年美国成年人的受教育年限随兄弟姐妹数变化的趋势(N=2992)
[
上一页 ]
[ :1.702648179e+09 ]
[
下一页 ]