1702648218
1702648219
不过,我们可以从一个简单例子入手来阐述实际研究中存在的潜在问题。对1994年GSS数据中兄弟姐妹数与受教育年限之间的关系,假设分析者没有注意很大的编码数字代表的是缺失数据(回顾第4章专栏介绍中有关“将缺失值当作非缺失值来处理”的解释)。对于SIBS和EDUC两个变量,编码98=“不知道”,99=“无应答”。如果我们幼稚地假设数据是完整的,并在两个变量之间建立关联,将会得出结论——教育获得与兄弟姐妹数没有关系,因为r=0.006。然而,在排除了两个变量的缺失数据后,我们得出了一个更为可信的估计:r=-0.246。
1702648220
1702648221
除了小心谨慎之外,我们还能做些什么来避免犯这样的错误呢?第一步,也是最明显的一步是检查两个变量之间关系的散点图。如图10-1所示,这些散点图通常有很强的指导性,它们不仅揭示了像包括缺失值编码之类的大误差,而且反映了数据中的其他异常现象——曲线关系,非连续性,可能发生的忽略变量问题和数据的异方差性。图10-3是1994年GSS数据反映出的兄弟姐妹数与受教育年限之间的关系图。
1702648222
1702648223
这幅图直接揭示了其中存在的问题:对于显示为“NA”的数值(99)应该采取何种措施。综观此图,我们可以发现要获得有意义的结果必须省略缺失值。省略后的散点图及回归线如图10-4所示。注意,新图包括2975个样本,与之前相比只减少了17个样本,但是回归估计却大不相同。因为被省略的样本非常少,所以我们不需要考虑填补缺失数据问题(回顾第8章的讨论)。但是,即使在省略缺失样本之后,我们仍需要考虑回归估计受少数有很多兄弟姐妹样本的过度影响的可能性。下一节就将讨论如何估计这种可能性。
1702648224
1702648225
1702648226
1702648227
1702648228
图10-3 1994年美国成年人的受教育年限随兄弟姐妹数变化的趋势(N=2992)
1702648229
1702648230
1702648231
1702648232
1702648233
图10-4 1994年美国成年人的受教育年限随兄弟姐妹数变化的趋势
1702648234
1702648235
1702648236
1702648237
1702648239
量化数据分析:通过社会研究检验想法 一个具体例子:地位获得的社会差异
1702648240
1702648241
在前面的例子中,所忽略的缺失样本非常明显,既容易发现也容易修改。但是,有时候错误是很难发现的。因此,我们需要一套发现数据中存在异常现象的方法。有关的回归诊断方法目前还不是非常系统。其中,许多图示法和检验方法都或多或少地做着同样的事情,所用术语也相当混乱(同样的方法用不同的名称称呼,且同样的名称被用在不同的方法中)。我已经对回归诊断的部分方法做了说明,这些方法似乎很有帮助,也很容易在Stata中使用〔关于回归诊断方法的详细讲解,见Bollen和Jackman(1990)〕。
1702648242
1702648243
这里,我将以我与我之前的一位学生Kam-Bor Yip合写的一篇文章(Treiman and Yip,1989)为例来讲解如何进行回归诊断。在此多层次分析中,我们对宏观社会特征如何影响地位获得的过程感兴趣。在预测18个国家中男性父亲的职业地位和男性自身所受的教育如何影响男性的职业地位获得时,我们运用了一个非常简单的模型,并假设在高度工业化的国家和父亲一代收入不平等、教育不平等程度较低的国家,儿子自身所受教育的影响较强,而其父亲职业地位的影响较弱。
1702648244
1702648245
在将所有数据转换成统一测度后,第一步是对每个国家分别估计微观模型,第二步是使用工业化和不平等测量预测第一步得到的回归系数的大小。尽管统计上是次优的,但这两步估计概念很清晰。〔关于统计上最优的多层次方法,见Raudenbush和Bryk(2002);有关多层次分析的简单介绍,见第16章的讨论。〕
1702648246
1702648247
这是重新分析Treiman和Yip文章中方程7的结果:
1702648248
1702648249
1702648250
1702648251
1702648252
其中,bE为每个微观方程中将职业地位与教育联系在一起的度量回归系数,EI是教育不平等测量,II是收入不平等测量,D是经济发展测量。方程10.2的估计系数为标准形式。然而,回归诊断是针对度量系数的,所对应的方程如下所示(其中,回归系数表示为度量形式):
1702648253
1702648254
1702648255
1702648256
1702648257
尽管回归诊断方法对各种样本规模都是有用的,但其对小观测样本的分析尤为有益,因为这类样本对一个或一些极端观测值的影响特别敏感。
1702648258
1702648259
“ch10.do”和“ch10.log”为此分析结果的Stata -do-和-log-文件;大家可以下载下来结合课本一起学习,许多细节只在这些文件的注释部分给出。
1702648260
1702648261
准备工作
1702648262
1702648263
在重新分析那些已经发表了的结果时,我通常会从复制其中的图开始。Stata的-log-文件展示的数据集列表、各种概括性统计量,以及所发表文章中报告的回归方程估计量,所有这些都与所发表文章中的图一致。其实,情况并不总是这样,有大量已发表的文章存在错误,例如,作者在文章中报告的系数与由数据库得到的数据或根据作者提供的数据估计出的系数不一致。有时候是因为作者删除了一些样本或处理了变量而没有告诉读者,但有时候仅仅是因为作者犯了错误。由于用电子邮件交流的方便性,使得解决这类问题成为可能,而且这的确是值得做的。
1702648264
1702648265
在我第一次试图复制文章中的方程时,关于教育不平等测量和回归估计量,我得到了一个与所发表文章中的估计量不一致的荒谬的最小值。后来发现原因其实很简单——检查文章(这是我在很多年前写的文章,那时我还没有开始系统地保留工作日志)中的数据输入操作时我发现英国的记录是-69而不是-0.69,而我在校对文件时没有注意到这个问题。这里,我不想占用太多篇幅和时间详细说明我是如何发现和修正问题的,但是教训很明显:我们应该设计尽可能多的检查方法并在继续进行分析之前仔细研究每一步。
1702648266
1702648267
另一个好的职业习惯就是:在文章中总是详细地描述处理数据的方法和步骤,以便有能力的分析者可以基于文章和原始数据准确地复制系数。这样做不仅仅是出于谦虚,同时还有助于在发表文章前发现你们的错误,也可以避免一些研究生通过嘲讽你们所犯的错误来快速地发表他们的文章。因此,无论何时完成待发表的文章(或者即使是一篇非正式发表的文章,如放在网上的工作稿或是提交的学期论文或章节),在提交之前的最后一步应该是再次完整地运行-do-文件,并对照-do-文件检查文章中的每一个系数。你们可能会非常吃惊地发现竟然会有如此多的错误!
[
上一页 ]
[ :1.702648218e+09 ]
[
下一页 ]