打字猴:1.702648306e+09
1702648306
1702648307 图10-7(a)中关于估计教育不平等的影响(EI)显示出印度影响很大;相比于收入不平等和工业化水平,印度的教育不平等程度非常高;但同时,在印度,教育相比于收入不平等和工业化水平对职业的预期影响更大。有趣的是,该图还揭示出,如果印度被删除或被降低权重,教育不平等与教育的职业回报水平相关的斜率会负向增大。相比之下,丹麦的教育不平等相比于它的收入不平等和工业化水平而言非常低,然而其教育—职业关联度比预期的其他两个变量要强,因此,删除或降低丹麦的权重会降低教育不平等的影响程度。图10-7(b)在估计收入不平等的影响(II)时显示只有丹麦是一个大的异常值。如果没有它,图10-7(b)会非常正常。图10-7(c)在估计工业化的影响(D)时显示美国是一个高杠杆观测值,相比于它的教育和收入不平等水平,美国具有很高的工业化水平,因为其位于回归线以下,所以删除美国会使斜率增 大。
1702648308
1702648309
1702648310
1702648311
1702648312 图10-7 Treiman和Yip(1989)研究中方程7的增加变量图
1702648313
1702648314 残差—拟合图与数据模式的正规检验
1702648315
1702648316 利用残差—拟合图(residual-versus-fitted plots)与两种分别针对异方差性和忽略变量的正规检验有助于我们分析残差是否呈系统性的分布。残差—拟合图正如其名一样,是画出残差和预测值相比较。图10-8基于我们的数据画出了这种图。该图表示即便在忽略印度和丹麦以后,数据仍存在一定的异方差性。利用Stata中针对过度异方差性的正规检验命令-hettest-,我们可以检验误差平方是否自变量值的线性函数。有趣的是,该检验结果表示我们没有任何理由否定有关同方差性的零假设,这可能是因为误差先增加而后减小。这里我们再一次看到,图示可以提供更多的信息。
1702648317
1702648318
1702648319
1702648320
1702648321 图10-8 Treiman和Yip(1989)研究中方程7的残差—拟合图
1702648322
1702648323 第二种检验方法是通过将拟合值的二次方到四次方逐步添加到方程中,检验模型拟合程度是否提高来评估忽略变量的可能性,在Stata中可以用-ovtest-命令来使用该方法。在小样本情况下,我取p值为0.08作为忽略变量可能性的判断。在揭示变量之间关系的函数形式方面,乃至忽略变量的可能性方面,成分加残差图〔component-plus-residual plots,也称偏残差图(partial-residual plots)〕是有用的工具。这类图有别于增加变量图,因为它们针对最小二乘残差增加了Y与Xj之间偏相关关系的线性成分,该最小二乘残差可能会包含一个非模型化的非线性成分。图10-9是用Stata中“扩充的”版本(在下载文件“ch10.do”中搜寻“acprplot”)所做的成分加残差图。
1702648324
1702648325
1702648326
1702648327
1702648328 图10-9 Treiman和Yip(1989)研究中方程7的扩充成分加残差图
1702648329
1702648330 从图10-9中,我们仍可发现丹麦是一个大的异常值,否则其不会在三个图中顺次出现。但是——除了一种例外——我可以认为没有忽略变量。Müller和Shavit(1998)在研究中发现,教育—职业关联度在职业教育系统完善的国家特别强,而在职业教育系统不完善的国家则特别弱。而在我们的数据中,丹麦、德国、奥地利和荷兰均具有很强的职业教育系统,但美国、日本和爱尔兰的职业教育系统很弱。Müller和Shavit发现的关系在我们的数据中似乎也存在,在回归线之上的国家具有较强的职业教育系统,而在回归线之下的国家具有较弱的职业教育系统。此结果暗示我们应该将职业教育系统的强度作为一个预测变量。为了实现此目标,我添加了两个虚拟变量以区分三组国家(在职业教育系统方面强、弱和既不强也不弱)。然后,我再次估计方程7,回归结果见表10-1的第2栏(为了方便,第1栏显示的是Treiman和Yip研究中原始方程7的量测系数,即通过本章方程10.3所得到的结果);其余各列为接下来将讨论到的各类其他估计。
1702648331
1702648332 相比于最初结果,第2栏的结果更好地反映了18个国家教育—职业关联度的决定因素。修正R2显著提高,且正如残差的模式所期望的,职业教育系统是强或弱的回归系数的符号和预期的一致(标准误将在本章后面讨论)。
1702648333
1702648334 表10-1 18个国家教育—职业关联度决定因素模型的回归系数
1702648335
1702648336
1702648337
1702648338
1702648339 然而,结果是否仍然显著地受印度和丹麦影响的问题依然存在。为了判断此问题,我用新方程重复了前面讨论过的所有诊断步骤。Stata日志文件包含了我用过的所有命令,但为了节省空间和避免冗长,我省略了有关结果及图,尽管相应诊断指标与之前相比在一定程度上没有那么极端,但仍然可以看出印度是一个高杠杆点,丹麦是一个大的异常值。
1702648340
1702648341
1702648342
1702648343
1702648344 量化数据分析:通过社会研究检验想法 [:1702644790]
1702648345 量化数据分析:通过社会研究检验想法 稳健回归
1702648346
1702648347 那么,我们下面应该做什么呢?因为我们不清楚需要被调整或删除的具体的特殊观测值有哪些,也不清楚将变量转换成什么样的函数形式,所以,需要用其他方法处理异常值和高杠杆点。一种方法是稳健估计(robust estimation),这种方法一般不用删除观测值,而是降低那些具有异常值或高杠杆点观测的权重,即降低那些具有特殊代表性观测值的影响。稳健估计很有吸引力,因为当误差分布是正态的时候,它们几乎与最小二乘估计量一样有效;当误差较多地分布在尾部时,尤其是对高杠杆点和异常值而言,它们更具有效率。稳健估计量有多种,究竟哪种估计适用于哪种条件并没有明确的划分原则。只要时间和条件允许,最好的方法是全面挖掘数据〔有关稳健估计的详细内容,可参考Fox(1997:405-414;2002)、Berk(1990),以及Hamilton(1992a;1992b:207-211)〕。
1702648348
1702648349 有一类专门用来降低具有大残差观测值权重的稳健估计量,被称为M估计量(M estimators)。具体做法是进行连续回归,每次(第一次之后)按照前一次迭代残差的绝对值降低每个观测值的权重。不同M估计量的划分是根据其赋予残差大小的权重决定,且可用目标函数(objective functions)图示表达。图10-10中的(a)、(b)和(c)为三个最有名的M估计量目标函数。OLS目标函数〔图10-10中的(a)〕以指数形式增长,但条件必须是OLS回归使残差平方之和最小。Huber目标函数〔图10-10中的(b)〕给较小残差赋予较小权重,但对较大残差的权重是根据权重与残差数值大小的线性函数进行赋值。双平方(bi-square)目标函数〔图10-10中的(c)〕对中等大小的残差赋予快速增加的权重,然后逐渐变得平坦,从而使得所有较大的残差具有相等的权重。因为Huber权重处理极端异常值不理想(双权重有时不能收敛或产生多种解),Stata中稳健回归的步骤是先删除那些具有很大影响(Cook’s D>1)的观测值,使用Huber权重直到解收敛为止,然后使用双权重直到解再次收敛为止。这种定义方法,使得稳健回归只能考虑异常值而不能考虑到那些具有较小残差、高杠杆的观测值。因此,对处理某些问题来说,这是一个主要缺陷。
1702648350
1702648351 表10-1的第2栏(在第4列)是对我们所研究的教育—职业关联模型的稳健回归估计。在第1栏没有用稳健回归估计,原因在于印度具有较大的Cook距离测量,所以在一开始估计时就删除了它。第3列是删除印度后相应的OLS估计值。有意思的是,在第2栏中OLS和稳健回归估计值没有多少差异,但强职业教育系统会产生影响,不过这种影响在稳健回归中已经被降低了,因为具有较大残差的丹麦被降低了权重。不同估计量之间并不总是显示出一致性,但这并不表示稳健估计就没有必要。事实上,估计值在不同估计过程中的稳定性反而可以增强我们对回归结果的信心。
1702648352
1702648353 相比之下,删除印度后,教育不平等系数变为原来的2倍以上。而强职业教育的系数减小了一些,工业化的系数也减小了一点。对于该结果的一种合理的解释是,在印度,导致教育—职业关联的社会进程与其他国家不同,因此在概括工业化、不平等和地位获得之间的一般关系时应该将印度区别考虑。
1702648354
1702648355
[ 上一页 ]  [ :1.702648306e+09 ]  [ 下一页 ]