打字猴:1.702648349e+09
1702648349 有一类专门用来降低具有大残差观测值权重的稳健估计量,被称为M估计量(M estimators)。具体做法是进行连续回归,每次(第一次之后)按照前一次迭代残差的绝对值降低每个观测值的权重。不同M估计量的划分是根据其赋予残差大小的权重决定,且可用目标函数(objective functions)图示表达。图10-10中的(a)、(b)和(c)为三个最有名的M估计量目标函数。OLS目标函数〔图10-10中的(a)〕以指数形式增长,但条件必须是OLS回归使残差平方之和最小。Huber目标函数〔图10-10中的(b)〕给较小残差赋予较小权重,但对较大残差的权重是根据权重与残差数值大小的线性函数进行赋值。双平方(bi-square)目标函数〔图10-10中的(c)〕对中等大小的残差赋予快速增加的权重,然后逐渐变得平坦,从而使得所有较大的残差具有相等的权重。因为Huber权重处理极端异常值不理想(双权重有时不能收敛或产生多种解),Stata中稳健回归的步骤是先删除那些具有很大影响(Cook’s D>1)的观测值,使用Huber权重直到解收敛为止,然后使用双权重直到解再次收敛为止。这种定义方法,使得稳健回归只能考虑异常值而不能考虑到那些具有较小残差、高杠杆的观测值。因此,对处理某些问题来说,这是一个主要缺陷。
1702648350
1702648351 表10-1的第2栏(在第4列)是对我们所研究的教育—职业关联模型的稳健回归估计。在第1栏没有用稳健回归估计,原因在于印度具有较大的Cook距离测量,所以在一开始估计时就删除了它。第3列是删除印度后相应的OLS估计值。有意思的是,在第2栏中OLS和稳健回归估计值没有多少差异,但强职业教育系统会产生影响,不过这种影响在稳健回归中已经被降低了,因为具有较大残差的丹麦被降低了权重。不同估计量之间并不总是显示出一致性,但这并不表示稳健估计就没有必要。事实上,估计值在不同估计过程中的稳定性反而可以增强我们对回归结果的信心。
1702648352
1702648353 相比之下,删除印度后,教育不平等系数变为原来的2倍以上。而强职业教育的系数减小了一些,工业化的系数也减小了一点。对于该结果的一种合理的解释是,在印度,导致教育—职业关联的社会进程与其他国家不同,因此在概括工业化、不平等和地位获得之间的一般关系时应该将印度区别考虑。
1702648354
1702648355
1702648356
1702648357
1702648358 图10-10 三个M估计量的目标函数:(a)OLS目标函数,(b)Huber目标函数,以及(c)双平方目标函数
1702648359
1702648360
1702648361
1702648362
1702648363 量化数据分析:通过社会研究检验想法 [:1702644791]
1702648364 量化数据分析:通过社会研究检验想法 自举法和标准误
1702648365
1702648366 包括常规最小二乘回归和稳健回归在内,许多统计方法都具有一个重要性质:即使观测值不符合正态分布,误差分布仍是渐进正态的——也就是说,当样本规模增大时,误差分布趋近正态。然而,对小样本情况(N-k<30,这里N是观测值数量,k是自变量数量),这种近似趋势不成立,这意味着分析推导出的标准误经常是不正确的。
1702648367
1702648368 一种解决此问题的方法是用自举法(bootstrap)估计标准误。原则上,如果我们可以接触到样本所在的总体,那么我们就可以对该总体进行重复抽样(放回抽样);然后对每个样本估计任意感兴趣的统计量,例如,一个回归系数;同时估计统计量的标准误,该标准误是从重复抽样中得到的估计值的标准差。但是,我们不可能对一个给定总体进行大量的重复抽样;此外,这18个国家“样本”所在的“总体”实际上并不存在,因为对该例来说我们已经包括了所有可以获得数据的国家,因此,借助于一种近似方法就显得尤为必要。
1702648369
1702648370 自举法近似于再抽样,即将观测样本看作总体的一个替代物并进行可重复放回型抽样,其中,观测资料来自观测样本。在当前的例子中,我们可以从18个观测样本中随机抽取第一个含有18个事件的样本(可放回),即挪威、荷兰、印度、爱尔兰、奥地利、美国、芬兰、菲律宾、丹麦、意大利、中国台湾、瑞典、印度、爱尔兰、芬兰、丹麦、丹麦和中国台湾。注意,英格兰、德国、匈牙利、日本、北爱尔兰和波兰没有进入样本;奥地利、意大利、荷兰、挪威、菲律宾、瑞典和美国进入一次;芬兰、爱尔兰、印度和中国台湾进入两次;而丹麦进入三次。对这个样本,我们可以估计出一个回归方程并记录其系数。然后,我们进行第二次、第三次以及更多次数的重复放回型抽样。每个系数都是一个包含数个数值的分布,其中,数值数量等于我们抽样中样本的大小。之后,我们再从这个分布中估计标准误作为分布的标准差。〔有关自举法的进一步讨论,见Fox(1997:493-514)、Stine(1990)、Hamilton(1992a;1992b:313-325),以及Stata 10.0手册中的-bootstrap-条目。〕
1702648371
1702648372 如果样本确实代表了其所来自的总体,且产生的分布近似于正态,那么此方法就提供了一个很好的统计量标准误估计。对有异常值和高杠杆点且样本量很小的样本来说,如同我们这里的情况,每次抽样容易产生很大的变异性。因此,一种比较明智的做法是通过多次抽样来获得抽样分布的稳健估计。针对当前的例子,我们抽样2000次来估计表10-1中每一列的标准误(见下载文件“ch10.do”中“Bootstrapped Standard Errors”部分)。我尝试过较少次数的抽样实验,但在标准误的估计中没有得到满意的变异性。经过2000次重复抽样,所估计出的标准误趋于稳定,但很难达到正态分布(如图10-11所示)。这些分布中的异常值来自多次出现的随机缺失或高杠杆观测值。〔在可重复放回抽取的17个观测值中,某一给定国家从某一特定样本中被删除的概率是0.36——更准确地说是0.357=(1-1/N)N=(1-1/17)17。〕
1702648373
1702648374 注意,标准误有时比表的注释中所报告的相应渐进标准误大很多,尤其是那些对教育不平等的测量。这种结果提醒我们,轻信一般统计程序计算的标准误是很危险的,尤其是当处理小样本的时候。另一方面,对于当前的例子,由于我们的“样本”很小且几乎不可能是总体的一个概率样本,正如前面所提及的,标准误究竟是多少我们并不清楚。因此我们暂时接受当前的估计模型,也就是表10-1第4列中报告的对17个国家的稳健回归估计,它们具有比相应OLS估计小得多的标准误。尽管如此,我们也必须明白,该结果只是提示性的,如果要确定这些结果的最终可靠性,我们需要更多、更好的数据来加以证实。
1702648375
1702648376 然而,当我们有较大总体的真实概率样本时,标准误和置信区间所隐含的信息就显得更加重要。利用自举法来计算恰当的置信区间仍是一个未有定论和正在进行统计研究的领域。基于不同假设,Stata提供了4种不同的95%置信区间。对哪种估计最好地涵盖了真实标准误仍存在相当大的争议。但是,目前的证据偏向于支持偏误修正估计(bias-corrected estimates),这也是Stata的默认设置。
1702648377
1702648378
1702648379
1702648380
1702648381 图10-11 对17个国家经稳健回归估计的扩展模型自举法系数(重复2000次)的抽样分布
1702648382
1702648383 注:这些是表10-1第4列的自举法系数。
1702648384
1702648385
1702648386
1702648387
1702648388 量化数据分析:通过社会研究检验想法 [:1702644792]
1702648389 量化数据分析:通过社会研究检验想法 本章小结
1702648390
1702648391 我们在本章介绍了如何检查数据中的反常观测和违反OLS回归假设的现象,如何利用所获得的信息建立新假设,如何利用稳健回归方法获得标准误较小的估计,以及在样本统计量服从正态分布的假设得不到满足的条件下,如何利用自举法步骤计算标准误。本章的主要经验是,我们常常可以通过图示数据中的关系对研究问题获得更多的了解。因此,理解数据的最好的方法经常是图示所观察到的现象。通过图示得到的结果经常是令人吃惊的,而且涵盖了很多信息。
1702648392
1702648393
1702648394
1702648395
1702648396 量化数据分析:通过社会研究检验想法 [:1702644793]
1702648397 量化数据分析:通过社会研究检验想法 第11章 测度构建
1702648398
[ 上一页 ]  [ :1.702648349e+09 ]  [ 下一页 ]