打字猴:1.70264828e+09
1702648280
1702648281 影响作用
1702648282
1702648283 同时考虑杠杆作用和异常值的测量被称为影响统计量(influence statistics)。有关影响统计量的相关测量有许多,这里我们重点讨论Cook距离测量(Cook’s Distance measure,Cook’s D),该测量是对省略每个观测时回归系数变化的无量纲概括性测量。将4/N作为Cook’s D的阈值,在这个例子中,我们注意到只有印度的影响作用是异常大的,其次是美国的影响作用处于该标准的边缘(在下载文件“ch10.do”中搜索“cooksd”)。
1702648284
1702648285 评估影响的图示
1702648286
1702648287 至此,我们一直在讨论有关数值的概括性测量。其实,用来诊断回归的更好的方法是图示各类指标之间的关系。综合杠杆作用和异常值的两种有用的图示为Fox(1997:285)提出的杠杆—残差平方图(leavage-versus-residual-squared plot)(Stata中的命令为-lvr2plot-)和学生化残差—Cook距离加权的帽子图(studentized-residual-versus-hat plot weighted by Cook’s D)。这两幅图在Stata中都很容易画出(可以在下载文件“ch10.do”中搜索“what=hat”看我是如何做的),见图10-5和图10-6。图10-5中取残差平方是为了最小化误差平方和从而揭示出异常值的影响。此外,图10-6似乎可以更好地揭示出对总体影响较大的具体观测值。很明显,与其余的观测值相比,印度的影响非常突出,而丹麦具有最大的异常值。
1702648288
1702648289
1702648290
1702648291
1702648292 图10-5 Treiman和Yip(1989)研究中方程7的杠杆与标准化残差平方图
1702648293
1702648294 注:水平线和垂直线为两个变量的均值。
1702648295
1702648296
1702648297
1702648298
1702648299 图10-6 Treiman和Yip(1989)研究中方程7的杠杆与学生化残差图,圆圈大小与Cook D值成比例
1702648300
1702648301 注:水平线是帽子值的均值,垂直线在0点。
1702648302
1702648303 增加变量图
1702648304
1702648305 我们的下一步工作是试图在导致大残差或高度影响观测值的变量中找寻任何可能的系统关系。构建增加变量图(added-variable plots),也称为偏回归杠杆图(partial-regression leverage plots)或简单地称为偏回归图(partial-regression plots)是一种好方法。这些图是由简单回归构建出的类似于散点图且带有一条回归线的二维图示。增加变量图展示了两个残差值之间的关系,这两个残差值分别为:①因变量对除了一个自变量之外的其余自变量的回归残差值,以及②用①中缺失的那个自变量对其余自变量进行回归得到的残差值。
1702648306
1702648307 图10-7(a)中关于估计教育不平等的影响(EI)显示出印度影响很大;相比于收入不平等和工业化水平,印度的教育不平等程度非常高;但同时,在印度,教育相比于收入不平等和工业化水平对职业的预期影响更大。有趣的是,该图还揭示出,如果印度被删除或被降低权重,教育不平等与教育的职业回报水平相关的斜率会负向增大。相比之下,丹麦的教育不平等相比于它的收入不平等和工业化水平而言非常低,然而其教育—职业关联度比预期的其他两个变量要强,因此,删除或降低丹麦的权重会降低教育不平等的影响程度。图10-7(b)在估计收入不平等的影响(II)时显示只有丹麦是一个大的异常值。如果没有它,图10-7(b)会非常正常。图10-7(c)在估计工业化的影响(D)时显示美国是一个高杠杆观测值,相比于它的教育和收入不平等水平,美国具有很高的工业化水平,因为其位于回归线以下,所以删除美国会使斜率增 大。
1702648308
1702648309
1702648310
1702648311
1702648312 图10-7 Treiman和Yip(1989)研究中方程7的增加变量图
1702648313
1702648314 残差—拟合图与数据模式的正规检验
1702648315
1702648316 利用残差—拟合图(residual-versus-fitted plots)与两种分别针对异方差性和忽略变量的正规检验有助于我们分析残差是否呈系统性的分布。残差—拟合图正如其名一样,是画出残差和预测值相比较。图10-8基于我们的数据画出了这种图。该图表示即便在忽略印度和丹麦以后,数据仍存在一定的异方差性。利用Stata中针对过度异方差性的正规检验命令-hettest-,我们可以检验误差平方是否自变量值的线性函数。有趣的是,该检验结果表示我们没有任何理由否定有关同方差性的零假设,这可能是因为误差先增加而后减小。这里我们再一次看到,图示可以提供更多的信息。
1702648317
1702648318
1702648319
1702648320
1702648321 图10-8 Treiman和Yip(1989)研究中方程7的残差—拟合图
1702648322
1702648323 第二种检验方法是通过将拟合值的二次方到四次方逐步添加到方程中,检验模型拟合程度是否提高来评估忽略变量的可能性,在Stata中可以用-ovtest-命令来使用该方法。在小样本情况下,我取p值为0.08作为忽略变量可能性的判断。在揭示变量之间关系的函数形式方面,乃至忽略变量的可能性方面,成分加残差图〔component-plus-residual plots,也称偏残差图(partial-residual plots)〕是有用的工具。这类图有别于增加变量图,因为它们针对最小二乘残差增加了Y与Xj之间偏相关关系的线性成分,该最小二乘残差可能会包含一个非模型化的非线性成分。图10-9是用Stata中“扩充的”版本(在下载文件“ch10.do”中搜寻“acprplot”)所做的成分加残差图。
1702648324
1702648325
1702648326
1702648327
1702648328 图10-9 Treiman和Yip(1989)研究中方程7的扩充成分加残差图
1702648329
[ 上一页 ]  [ :1.70264828e+09 ]  [ 下一页 ]