打字猴:1.702648299e+09
1702648299 图10-6 Treiman和Yip(1989)研究中方程7的杠杆与学生化残差图,圆圈大小与Cook D值成比例
1702648300
1702648301 注:水平线是帽子值的均值,垂直线在0点。
1702648302
1702648303 增加变量图
1702648304
1702648305 我们的下一步工作是试图在导致大残差或高度影响观测值的变量中找寻任何可能的系统关系。构建增加变量图(added-variable plots),也称为偏回归杠杆图(partial-regression leverage plots)或简单地称为偏回归图(partial-regression plots)是一种好方法。这些图是由简单回归构建出的类似于散点图且带有一条回归线的二维图示。增加变量图展示了两个残差值之间的关系,这两个残差值分别为:①因变量对除了一个自变量之外的其余自变量的回归残差值,以及②用①中缺失的那个自变量对其余自变量进行回归得到的残差值。
1702648306
1702648307 图10-7(a)中关于估计教育不平等的影响(EI)显示出印度影响很大;相比于收入不平等和工业化水平,印度的教育不平等程度非常高;但同时,在印度,教育相比于收入不平等和工业化水平对职业的预期影响更大。有趣的是,该图还揭示出,如果印度被删除或被降低权重,教育不平等与教育的职业回报水平相关的斜率会负向增大。相比之下,丹麦的教育不平等相比于它的收入不平等和工业化水平而言非常低,然而其教育—职业关联度比预期的其他两个变量要强,因此,删除或降低丹麦的权重会降低教育不平等的影响程度。图10-7(b)在估计收入不平等的影响(II)时显示只有丹麦是一个大的异常值。如果没有它,图10-7(b)会非常正常。图10-7(c)在估计工业化的影响(D)时显示美国是一个高杠杆观测值,相比于它的教育和收入不平等水平,美国具有很高的工业化水平,因为其位于回归线以下,所以删除美国会使斜率增 大。
1702648308
1702648309
1702648310
1702648311
1702648312 图10-7 Treiman和Yip(1989)研究中方程7的增加变量图
1702648313
1702648314 残差—拟合图与数据模式的正规检验
1702648315
1702648316 利用残差—拟合图(residual-versus-fitted plots)与两种分别针对异方差性和忽略变量的正规检验有助于我们分析残差是否呈系统性的分布。残差—拟合图正如其名一样,是画出残差和预测值相比较。图10-8基于我们的数据画出了这种图。该图表示即便在忽略印度和丹麦以后,数据仍存在一定的异方差性。利用Stata中针对过度异方差性的正规检验命令-hettest-,我们可以检验误差平方是否自变量值的线性函数。有趣的是,该检验结果表示我们没有任何理由否定有关同方差性的零假设,这可能是因为误差先增加而后减小。这里我们再一次看到,图示可以提供更多的信息。
1702648317
1702648318
1702648319
1702648320
1702648321 图10-8 Treiman和Yip(1989)研究中方程7的残差—拟合图
1702648322
1702648323 第二种检验方法是通过将拟合值的二次方到四次方逐步添加到方程中,检验模型拟合程度是否提高来评估忽略变量的可能性,在Stata中可以用-ovtest-命令来使用该方法。在小样本情况下,我取p值为0.08作为忽略变量可能性的判断。在揭示变量之间关系的函数形式方面,乃至忽略变量的可能性方面,成分加残差图〔component-plus-residual plots,也称偏残差图(partial-residual plots)〕是有用的工具。这类图有别于增加变量图,因为它们针对最小二乘残差增加了Y与Xj之间偏相关关系的线性成分,该最小二乘残差可能会包含一个非模型化的非线性成分。图10-9是用Stata中“扩充的”版本(在下载文件“ch10.do”中搜寻“acprplot”)所做的成分加残差图。
1702648324
1702648325
1702648326
1702648327
1702648328 图10-9 Treiman和Yip(1989)研究中方程7的扩充成分加残差图
1702648329
1702648330 从图10-9中,我们仍可发现丹麦是一个大的异常值,否则其不会在三个图中顺次出现。但是——除了一种例外——我可以认为没有忽略变量。Müller和Shavit(1998)在研究中发现,教育—职业关联度在职业教育系统完善的国家特别强,而在职业教育系统不完善的国家则特别弱。而在我们的数据中,丹麦、德国、奥地利和荷兰均具有很强的职业教育系统,但美国、日本和爱尔兰的职业教育系统很弱。Müller和Shavit发现的关系在我们的数据中似乎也存在,在回归线之上的国家具有较强的职业教育系统,而在回归线之下的国家具有较弱的职业教育系统。此结果暗示我们应该将职业教育系统的强度作为一个预测变量。为了实现此目标,我添加了两个虚拟变量以区分三组国家(在职业教育系统方面强、弱和既不强也不弱)。然后,我再次估计方程7,回归结果见表10-1的第2栏(为了方便,第1栏显示的是Treiman和Yip研究中原始方程7的量测系数,即通过本章方程10.3所得到的结果);其余各列为接下来将讨论到的各类其他估计。
1702648331
1702648332 相比于最初结果,第2栏的结果更好地反映了18个国家教育—职业关联度的决定因素。修正R2显著提高,且正如残差的模式所期望的,职业教育系统是强或弱的回归系数的符号和预期的一致(标准误将在本章后面讨论)。
1702648333
1702648334 表10-1 18个国家教育—职业关联度决定因素模型的回归系数
1702648335
1702648336
1702648337
1702648338
1702648339 然而,结果是否仍然显著地受印度和丹麦影响的问题依然存在。为了判断此问题,我用新方程重复了前面讨论过的所有诊断步骤。Stata日志文件包含了我用过的所有命令,但为了节省空间和避免冗长,我省略了有关结果及图,尽管相应诊断指标与之前相比在一定程度上没有那么极端,但仍然可以看出印度是一个高杠杆点,丹麦是一个大的异常值。
1702648340
1702648341
1702648342
1702648343
1702648344 量化数据分析:通过社会研究检验想法 [:1702644790]
1702648345 量化数据分析:通过社会研究检验想法 稳健回归
1702648346
1702648347 那么,我们下面应该做什么呢?因为我们不清楚需要被调整或删除的具体的特殊观测值有哪些,也不清楚将变量转换成什么样的函数形式,所以,需要用其他方法处理异常值和高杠杆点。一种方法是稳健估计(robust estimation),这种方法一般不用删除观测值,而是降低那些具有异常值或高杠杆点观测的权重,即降低那些具有特殊代表性观测值的影响。稳健估计很有吸引力,因为当误差分布是正态的时候,它们几乎与最小二乘估计量一样有效;当误差较多地分布在尾部时,尤其是对高杠杆点和异常值而言,它们更具有效率。稳健估计量有多种,究竟哪种估计适用于哪种条件并没有明确的划分原则。只要时间和条件允许,最好的方法是全面挖掘数据〔有关稳健估计的详细内容,可参考Fox(1997:405-414;2002)、Berk(1990),以及Hamilton(1992a;1992b:207-211)〕。
1702648348
[ 上一页 ]  [ :1.702648299e+09 ]  [ 下一页 ]