1702648206
1702648207
1702648208
这里,对于三个中间观测值,Z赋值为1,否则为0,该方程完美地预测了Y。直观地审视散点图(图10-2)或本章后面将讨论到的成分加残差图,常常可以揭示出引入其他变量的必要性——尽管实际中的例子并不总是这样一目了然。
1702648209
1702648210
1702648211
1702648212
1702648213
图10-2 X与Y关系的散点图以及将X与Y之间的关系错误地假设为线性关系模型的一条回归直线(假想数据)
1702648214
1702648215
另一个潜在问题是异方差性(heteroscedasticity),即不同的预测值围绕回归面的误差方差不相等,该情况会导致回归系数的标准误不正确。异方差性很常见,因为在大多数情况下观测值的方差随均值增大。幸运的是,适度违规(最大的误差方差是在最小的10倍以内)对标准误影响极小。但是,我们仍需要对较大的违规进行检验。
1702648216
1702648217
为检验双变量模型中的异常关系,我们可以简单地画如图10-1和图10-2那样的X与Y的关系图。然而,对于多元回归方程,每个自变量与因变量之间的零阶散点图很可能忽略重要的非线性和异常现象。因此,我们需要用到一系列额外方法,这些方法被统称为回归诊断技术(regression diagnostics)。
1702648218
1702648219
不过,我们可以从一个简单例子入手来阐述实际研究中存在的潜在问题。对1994年GSS数据中兄弟姐妹数与受教育年限之间的关系,假设分析者没有注意很大的编码数字代表的是缺失数据(回顾第4章专栏介绍中有关“将缺失值当作非缺失值来处理”的解释)。对于SIBS和EDUC两个变量,编码98=“不知道”,99=“无应答”。如果我们幼稚地假设数据是完整的,并在两个变量之间建立关联,将会得出结论——教育获得与兄弟姐妹数没有关系,因为r=0.006。然而,在排除了两个变量的缺失数据后,我们得出了一个更为可信的估计:r=-0.246。
1702648220
1702648221
除了小心谨慎之外,我们还能做些什么来避免犯这样的错误呢?第一步,也是最明显的一步是检查两个变量之间关系的散点图。如图10-1所示,这些散点图通常有很强的指导性,它们不仅揭示了像包括缺失值编码之类的大误差,而且反映了数据中的其他异常现象——曲线关系,非连续性,可能发生的忽略变量问题和数据的异方差性。图10-3是1994年GSS数据反映出的兄弟姐妹数与受教育年限之间的关系图。
1702648222
1702648223
这幅图直接揭示了其中存在的问题:对于显示为“NA”的数值(99)应该采取何种措施。综观此图,我们可以发现要获得有意义的结果必须省略缺失值。省略后的散点图及回归线如图10-4所示。注意,新图包括2975个样本,与之前相比只减少了17个样本,但是回归估计却大不相同。因为被省略的样本非常少,所以我们不需要考虑填补缺失数据问题(回顾第8章的讨论)。但是,即使在省略缺失样本之后,我们仍需要考虑回归估计受少数有很多兄弟姐妹样本的过度影响的可能性。下一节就将讨论如何估计这种可能性。
1702648224
1702648225
1702648226
1702648227
1702648228
图10-3 1994年美国成年人的受教育年限随兄弟姐妹数变化的趋势(N=2992)
1702648229
1702648230
1702648231
1702648232
1702648233
图10-4 1994年美国成年人的受教育年限随兄弟姐妹数变化的趋势
1702648234
1702648235
1702648236
1702648237
1702648239
量化数据分析:通过社会研究检验想法 一个具体例子:地位获得的社会差异
1702648240
1702648241
在前面的例子中,所忽略的缺失样本非常明显,既容易发现也容易修改。但是,有时候错误是很难发现的。因此,我们需要一套发现数据中存在异常现象的方法。有关的回归诊断方法目前还不是非常系统。其中,许多图示法和检验方法都或多或少地做着同样的事情,所用术语也相当混乱(同样的方法用不同的名称称呼,且同样的名称被用在不同的方法中)。我已经对回归诊断的部分方法做了说明,这些方法似乎很有帮助,也很容易在Stata中使用〔关于回归诊断方法的详细讲解,见Bollen和Jackman(1990)〕。
1702648242
1702648243
这里,我将以我与我之前的一位学生Kam-Bor Yip合写的一篇文章(Treiman and Yip,1989)为例来讲解如何进行回归诊断。在此多层次分析中,我们对宏观社会特征如何影响地位获得的过程感兴趣。在预测18个国家中男性父亲的职业地位和男性自身所受的教育如何影响男性的职业地位获得时,我们运用了一个非常简单的模型,并假设在高度工业化的国家和父亲一代收入不平等、教育不平等程度较低的国家,儿子自身所受教育的影响较强,而其父亲职业地位的影响较弱。
1702648244
1702648245
在将所有数据转换成统一测度后,第一步是对每个国家分别估计微观模型,第二步是使用工业化和不平等测量预测第一步得到的回归系数的大小。尽管统计上是次优的,但这两步估计概念很清晰。〔关于统计上最优的多层次方法,见Raudenbush和Bryk(2002);有关多层次分析的简单介绍,见第16章的讨论。〕
1702648246
1702648247
这是重新分析Treiman和Yip文章中方程7的结果:
1702648248
1702648249
1702648250
1702648251
1702648252
其中,bE为每个微观方程中将职业地位与教育联系在一起的度量回归系数,EI是教育不平等测量,II是收入不平等测量,D是经济发展测量。方程10.2的估计系数为标准形式。然而,回归诊断是针对度量系数的,所对应的方程如下所示(其中,回归系数表示为度量形式):
1702648253
1702648254
1702648255
[
上一页 ]
[ :1.702648206e+09 ]
[
下一页 ]