打字猴:1.70264827e+09
1702648270
1702648271 在重复已发表文章中的结果后,现在我们来考虑这些结果是否恰当地表达了数据中的关系。我们先要观察是否存在任何具有特别高杠杆(leverage)作用的观测值,这里,杠杆是指某个(或某些)自变量中的某个(或某些)观测值的取值与所有观测值的均值或中值(centroid)间的差异。图10-1中的(d)就属于这种情况。横轴上得分为19分的观测值具有高杠杆作用。数据中存在这样的观测值是很麻烦的,因其会对回归斜率产生过度影响。如图10-1(d),如果不是那个高杠杆点的作用,图中斜率的取值会是无限的。
1702648272
1702648273 常规杠杆的测量是帽子矩阵(hat-matrix)的对角元素,它是个体观测值与中值间距离的无量纲测量。计算数据集中18个国家的帽子矩阵(可以在下载文件“ch10.do”中搜索“hat”),我们会注意到印度在图中具有非常大的杠杆值,几乎是平均帽子值(hat value)的4倍。通过这个点,我们可以推断印度具有过度影响回归估计的可能性。
1702648274
1702648275 异常值
1702648276
1702648277 在按照这种可能性进行接下来的工作之前,我们仍需要对数据进行进一步探索。下一步我们要寻找是否存在任何特别的异常值(outliers),即远离回归平面的观测值。为了执行此步骤,我们需要对一些观测值进行修正,因为具有高杠杆作用的观测值常常具有较小的残差,确切地说,最小二乘属性将回归平面拉向这些观测值。学生化残差(studentized residual)(E*i)是对省略了某观测值的样本进行回归估计得到的残差。它是一个很有意义的统计量,因其服从自由度为N-k-2个自由度的t分布(这里,N是观测值的数量,k是自变量数量),使得估计具体残差的统计显著性成为可能。
1702648278
1702648279 然而,因为我们通常对特殊观测值没有事先假设,所以需要对显著性检验进行调整,以便同时进行推论。一个简单的方法是用我们的期望概率阈值(习惯上双尾检验是0.025)除以可能比较的数量(这里指观测数量)做Bonferroni调整(Bonferroni adjustment)。因此,该分析步骤是通过计算学生化残差识别异常值,如果p值小于0.025/18=0.00139,则异常值出现的概率很小。即使出现,这些异常值也不具有统计显著性,因为自由度为18-3-2=13的最大学生化残差(丹麦)是3.349,其对应的t值是0.00523(在下载文件“ch10.do”中搜寻“estu”)。对于这个显著性检验结果我们不必太认真,尤其是在样本量很小的情况下。Fox(1997:280)认为,当学生化残差的绝对值大于2时才应该引起注意。因此,我们需要进一步考虑丹麦(E*i=3.35),或者印度(E*i=1.91)。
1702648280
1702648281 影响作用
1702648282
1702648283 同时考虑杠杆作用和异常值的测量被称为影响统计量(influence statistics)。有关影响统计量的相关测量有许多,这里我们重点讨论Cook距离测量(Cook’s Distance measure,Cook’s D),该测量是对省略每个观测时回归系数变化的无量纲概括性测量。将4/N作为Cook’s D的阈值,在这个例子中,我们注意到只有印度的影响作用是异常大的,其次是美国的影响作用处于该标准的边缘(在下载文件“ch10.do”中搜索“cooksd”)。
1702648284
1702648285 评估影响的图示
1702648286
1702648287 至此,我们一直在讨论有关数值的概括性测量。其实,用来诊断回归的更好的方法是图示各类指标之间的关系。综合杠杆作用和异常值的两种有用的图示为Fox(1997:285)提出的杠杆—残差平方图(leavage-versus-residual-squared plot)(Stata中的命令为-lvr2plot-)和学生化残差—Cook距离加权的帽子图(studentized-residual-versus-hat plot weighted by Cook’s D)。这两幅图在Stata中都很容易画出(可以在下载文件“ch10.do”中搜索“what=hat”看我是如何做的),见图10-5和图10-6。图10-5中取残差平方是为了最小化误差平方和从而揭示出异常值的影响。此外,图10-6似乎可以更好地揭示出对总体影响较大的具体观测值。很明显,与其余的观测值相比,印度的影响非常突出,而丹麦具有最大的异常值。
1702648288
1702648289
1702648290
1702648291
1702648292 图10-5 Treiman和Yip(1989)研究中方程7的杠杆与标准化残差平方图
1702648293
1702648294 注:水平线和垂直线为两个变量的均值。
1702648295
1702648296
1702648297
1702648298
1702648299 图10-6 Treiman和Yip(1989)研究中方程7的杠杆与学生化残差图,圆圈大小与Cook D值成比例
1702648300
1702648301 注:水平线是帽子值的均值,垂直线在0点。
1702648302
1702648303 增加变量图
1702648304
1702648305 我们的下一步工作是试图在导致大残差或高度影响观测值的变量中找寻任何可能的系统关系。构建增加变量图(added-variable plots),也称为偏回归杠杆图(partial-regression leverage plots)或简单地称为偏回归图(partial-regression plots)是一种好方法。这些图是由简单回归构建出的类似于散点图且带有一条回归线的二维图示。增加变量图展示了两个残差值之间的关系,这两个残差值分别为:①因变量对除了一个自变量之外的其余自变量的回归残差值,以及②用①中缺失的那个自变量对其余自变量进行回归得到的残差值。
1702648306
1702648307 图10-7(a)中关于估计教育不平等的影响(EI)显示出印度影响很大;相比于收入不平等和工业化水平,印度的教育不平等程度非常高;但同时,在印度,教育相比于收入不平等和工业化水平对职业的预期影响更大。有趣的是,该图还揭示出,如果印度被删除或被降低权重,教育不平等与教育的职业回报水平相关的斜率会负向增大。相比之下,丹麦的教育不平等相比于它的收入不平等和工业化水平而言非常低,然而其教育—职业关联度比预期的其他两个变量要强,因此,删除或降低丹麦的权重会降低教育不平等的影响程度。图10-7(b)在估计收入不平等的影响(II)时显示只有丹麦是一个大的异常值。如果没有它,图10-7(b)会非常正常。图10-7(c)在估计工业化的影响(D)时显示美国是一个高杠杆观测值,相比于它的教育和收入不平等水平,美国具有很高的工业化水平,因为其位于回归线以下,所以删除美国会使斜率增 大。
1702648308
1702648309
1702648310
1702648311
1702648312 图10-7 Treiman和Yip(1989)研究中方程7的增加变量图
1702648313
1702648314 残差—拟合图与数据模式的正规检验
1702648315
1702648316 利用残差—拟合图(residual-versus-fitted plots)与两种分别针对异方差性和忽略变量的正规检验有助于我们分析残差是否呈系统性的分布。残差—拟合图正如其名一样,是画出残差和预测值相比较。图10-8基于我们的数据画出了这种图。该图表示即便在忽略印度和丹麦以后,数据仍存在一定的异方差性。利用Stata中针对过度异方差性的正规检验命令-hettest-,我们可以检验误差平方是否自变量值的线性函数。有趣的是,该检验结果表示我们没有任何理由否定有关同方差性的零假设,这可能是因为误差先增加而后减小。这里我们再一次看到,图示可以提供更多的信息。
1702648317
1702648318
1702648319
[ 上一页 ]  [ :1.70264827e+09 ]  [ 下一页 ]