打字猴:1.702648256e+09
1702648256
1702648257 尽管回归诊断方法对各种样本规模都是有用的,但其对小观测样本的分析尤为有益,因为这类样本对一个或一些极端观测值的影响特别敏感。
1702648258
1702648259 “ch10.do”和“ch10.log”为此分析结果的Stata -do-和-log-文件;大家可以下载下来结合课本一起学习,许多细节只在这些文件的注释部分给出。
1702648260
1702648261 准备工作
1702648262
1702648263 在重新分析那些已经发表了的结果时,我通常会从复制其中的图开始。Stata的-log-文件展示的数据集列表、各种概括性统计量,以及所发表文章中报告的回归方程估计量,所有这些都与所发表文章中的图一致。其实,情况并不总是这样,有大量已发表的文章存在错误,例如,作者在文章中报告的系数与由数据库得到的数据或根据作者提供的数据估计出的系数不一致。有时候是因为作者删除了一些样本或处理了变量而没有告诉读者,但有时候仅仅是因为作者犯了错误。由于用电子邮件交流的方便性,使得解决这类问题成为可能,而且这的确是值得做的。
1702648264
1702648265 在我第一次试图复制文章中的方程时,关于教育不平等测量和回归估计量,我得到了一个与所发表文章中的估计量不一致的荒谬的最小值。后来发现原因其实很简单——检查文章(这是我在很多年前写的文章,那时我还没有开始系统地保留工作日志)中的数据输入操作时我发现英国的记录是-69而不是-0.69,而我在校对文件时没有注意到这个问题。这里,我不想占用太多篇幅和时间详细说明我是如何发现和修正问题的,但是教训很明显:我们应该设计尽可能多的检查方法并在继续进行分析之前仔细研究每一步。
1702648266
1702648267 另一个好的职业习惯就是:在文章中总是详细地描述处理数据的方法和步骤,以便有能力的分析者可以基于文章和原始数据准确地复制系数。这样做不仅仅是出于谦虚,同时还有助于在发表文章前发现你们的错误,也可以避免一些研究生通过嘲讽你们所犯的错误来快速地发表他们的文章。因此,无论何时完成待发表的文章(或者即使是一篇非正式发表的文章,如放在网上的工作稿或是提交的学期论文或章节),在提交之前的最后一步应该是再次完整地运行-do-文件,并对照-do-文件检查文章中的每一个系数。你们可能会非常吃惊地发现竟然会有如此多的错误!
1702648268
1702648269 杠杆作用
1702648270
1702648271 在重复已发表文章中的结果后,现在我们来考虑这些结果是否恰当地表达了数据中的关系。我们先要观察是否存在任何具有特别高杠杆(leverage)作用的观测值,这里,杠杆是指某个(或某些)自变量中的某个(或某些)观测值的取值与所有观测值的均值或中值(centroid)间的差异。图10-1中的(d)就属于这种情况。横轴上得分为19分的观测值具有高杠杆作用。数据中存在这样的观测值是很麻烦的,因其会对回归斜率产生过度影响。如图10-1(d),如果不是那个高杠杆点的作用,图中斜率的取值会是无限的。
1702648272
1702648273 常规杠杆的测量是帽子矩阵(hat-matrix)的对角元素,它是个体观测值与中值间距离的无量纲测量。计算数据集中18个国家的帽子矩阵(可以在下载文件“ch10.do”中搜索“hat”),我们会注意到印度在图中具有非常大的杠杆值,几乎是平均帽子值(hat value)的4倍。通过这个点,我们可以推断印度具有过度影响回归估计的可能性。
1702648274
1702648275 异常值
1702648276
1702648277 在按照这种可能性进行接下来的工作之前,我们仍需要对数据进行进一步探索。下一步我们要寻找是否存在任何特别的异常值(outliers),即远离回归平面的观测值。为了执行此步骤,我们需要对一些观测值进行修正,因为具有高杠杆作用的观测值常常具有较小的残差,确切地说,最小二乘属性将回归平面拉向这些观测值。学生化残差(studentized residual)(E*i)是对省略了某观测值的样本进行回归估计得到的残差。它是一个很有意义的统计量,因其服从自由度为N-k-2个自由度的t分布(这里,N是观测值的数量,k是自变量数量),使得估计具体残差的统计显著性成为可能。
1702648278
1702648279 然而,因为我们通常对特殊观测值没有事先假设,所以需要对显著性检验进行调整,以便同时进行推论。一个简单的方法是用我们的期望概率阈值(习惯上双尾检验是0.025)除以可能比较的数量(这里指观测数量)做Bonferroni调整(Bonferroni adjustment)。因此,该分析步骤是通过计算学生化残差识别异常值,如果p值小于0.025/18=0.00139,则异常值出现的概率很小。即使出现,这些异常值也不具有统计显著性,因为自由度为18-3-2=13的最大学生化残差(丹麦)是3.349,其对应的t值是0.00523(在下载文件“ch10.do”中搜寻“estu”)。对于这个显著性检验结果我们不必太认真,尤其是在样本量很小的情况下。Fox(1997:280)认为,当学生化残差的绝对值大于2时才应该引起注意。因此,我们需要进一步考虑丹麦(E*i=3.35),或者印度(E*i=1.91)。
1702648280
1702648281 影响作用
1702648282
1702648283 同时考虑杠杆作用和异常值的测量被称为影响统计量(influence statistics)。有关影响统计量的相关测量有许多,这里我们重点讨论Cook距离测量(Cook’s Distance measure,Cook’s D),该测量是对省略每个观测时回归系数变化的无量纲概括性测量。将4/N作为Cook’s D的阈值,在这个例子中,我们注意到只有印度的影响作用是异常大的,其次是美国的影响作用处于该标准的边缘(在下载文件“ch10.do”中搜索“cooksd”)。
1702648284
1702648285 评估影响的图示
1702648286
1702648287 至此,我们一直在讨论有关数值的概括性测量。其实,用来诊断回归的更好的方法是图示各类指标之间的关系。综合杠杆作用和异常值的两种有用的图示为Fox(1997:285)提出的杠杆—残差平方图(leavage-versus-residual-squared plot)(Stata中的命令为-lvr2plot-)和学生化残差—Cook距离加权的帽子图(studentized-residual-versus-hat plot weighted by Cook’s D)。这两幅图在Stata中都很容易画出(可以在下载文件“ch10.do”中搜索“what=hat”看我是如何做的),见图10-5和图10-6。图10-5中取残差平方是为了最小化误差平方和从而揭示出异常值的影响。此外,图10-6似乎可以更好地揭示出对总体影响较大的具体观测值。很明显,与其余的观测值相比,印度的影响非常突出,而丹麦具有最大的异常值。
1702648288
1702648289
1702648290
1702648291
1702648292 图10-5 Treiman和Yip(1989)研究中方程7的杠杆与标准化残差平方图
1702648293
1702648294 注:水平线和垂直线为两个变量的均值。
1702648295
1702648296
1702648297
1702648298
1702648299 图10-6 Treiman和Yip(1989)研究中方程7的杠杆与学生化残差图,圆圈大小与Cook D值成比例
1702648300
1702648301 注:水平线是帽子值的均值,垂直线在0点。
1702648302
1702648303 增加变量图
1702648304
1702648305 我们的下一步工作是试图在导致大残差或高度影响观测值的变量中找寻任何可能的系统关系。构建增加变量图(added-variable plots),也称为偏回归杠杆图(partial-regression leverage plots)或简单地称为偏回归图(partial-regression plots)是一种好方法。这些图是由简单回归构建出的类似于散点图且带有一条回归线的二维图示。增加变量图展示了两个残差值之间的关系,这两个残差值分别为:①因变量对除了一个自变量之外的其余自变量的回归残差值,以及②用①中缺失的那个自变量对其余自变量进行回归得到的残差值。
[ 上一页 ]  [ :1.702648256e+09 ]  [ 下一页 ]