1702650439
1702650440
与所有其他统计方法一样,FE方法也有一组假设和条件。当这些假设和条件被违背时,FE系数会比简单地合并数据进行OLS估计更差(偏误更大)。遗憾的是,这些假设通常不能被检验。下面是一些需要注意的事项。
1702650441
1702650442
(1)如果未被测量到的效应随时间变化(或在刚才讨论的横截面数据的应用中,存在个体之间的变化),则FE估计不能解决偏误问题。因此,有必要仔细考虑不随时间变化的未测量效应的假设是否合理。对于家庭或社区固定效应模型,这一点更加重要——我们不得不假设在相同的家庭或社区内,所有影响结果的未测量因素都不随个体变化。这个假设经常是不可靠的,尤其是在家庭内。为了使你自己相信这一点,想想最近几届美国总统和他们无所事事的兄弟姐妹们,或者简单地想想你所知道的家庭中兄弟姐妹之间的差异。这些差异能解释家庭FE模型所研究的各种结果之间的差异吗?这是一个关键问题,但经常被研究者忽略。(当然,随时间变化的未测量效应也使OLS估计系数有偏。因此,在这些情况下,仅凭OLS回归是不能解决问题的。)
1702650443
1702650444
(2)在给定未观测变量的情况下,预测变量必须是严格外生的。也就是说,我们必须假设一旦控制了未观测变量,预测变量Xit和异质性误差εit之间就不再相关。严格外生性被违背的一种常见情况是,当一个或更多预测变量依赖于在前面时点测量的结果变量时。例如,如果我们研究犯罪率如何受警力大小变化的影响,而警力大小由过去年份的犯罪率决定,此时严格外生性假设就会被违背。
1702650445
1702650446
(3)相对于结果变量的变异,预测变量在不同时期间(或在横截面FE模型中的个体之间)必须有足够的变异。何谓足够?这是很难量化的。尽管如此,显而易见的是,不怎么变化的预测变量几乎对结果没有影响,就像OLS分析中不能用一个常数预测一个变量,也难以用一个近似常数预测一个变量。
1702650447
1702650448
(4)前面观点的一个推论是,仅以线性变换形式随时间变化的变量被看作是不随时间变化的。因此,比如年龄这类变量不能被纳入跨时间的FE分析中,因为在时点2的年龄等于在时点1的年龄加上一个常数。因此,纳入以某一近似线性变换形式随时间变化的变量会产生问题。
1702650449
1702650450
(5)预测变量必须被可靠地测量。正如Wooldridge指出的,“对一个测量较差的自变量进行差分后,相对于它与经典测量误差所导致的差分误差的相关度,其差异减小了,这会产生潜在的、可观的偏误”(Woold ridge,2006:245)。
1702650451
1702650452
1702650453
1702650454
1702650456
量化数据分析:通过社会研究检验想法 针对连续型变量的随机效应模型
1702650457
1702650458
因为FE模型不允许我们评估不随时间变化的变量(或在家庭、组织或社区的应用中,在这些单位内个体之间无变异的变量)的大小,所以人们很想找到能够产生这些变量估计值的模型。在这些模型中,一个被经常使用的模型是随机效应模型(random effects,RE)。像FE模型一样,RE模型可以由方程15.1导出。但是,随机效应模型和固定效应模型的假设不同。FE模型假设αi代表一组固定参数,通过差分,它们被排除出模型;而RE模型假设每个αi是均值为0、方差为常数的正态分布随机变量,且独立于zi、xit和εit。这是一个很强的假设。幸运的是,它可以用Hausman(1978)提出的检验方法检验。其策略是估计相应的FE和RE模型,并用Hausman检验比较其系数的相似性。如果系数无差异的零假设不被拒绝,我们可以得出结论,αi的独立性得到支持,这意味着RE模型产生的系数是无偏的。因为RE模型产生zi效应的估计值,所以如果独立性假设得到满足,那么用RE模型更好。如果不满足该假设,我们必须接受FE模型而放弃zi效应的估计。Hausman检验是非常严格的,经常不能支持RE模型。Bollen和Brand(2008)提供了一系列比较FE和RE模型的其他统计量,以及构建混合模型的方法。Bollen和Brand的方法基于结构方程模型,这已经超出了本书的范畴,但在下一章我们会简要地予以讨论。
1702650459
1702650460
我们如何估计RE模型?其细节已经超出我们这里所能考虑的范围,但可以简单介绍一下它的一般方法。因为我们假设αi与解释变量不相关,这些变量的系数可从单一截面数据中得到一致的估计。然而,这样做至少会忽略一半数据(如果是两个以上的时点,被忽略的数据会更多)。合并数据且使用OLS估计会产生对系数的一致估计。然而,这些方法都不能产生正确的标准误。其原因是误差在时期内连续性地相互关联。用一个单一合成误差项替换方程15.1中的两个误差项,我们可以很容易看到这一点:
1702650461
1702650462
νit=αi+εit (15.14)
1702650463
1702650464
因为αi被包括在每个时点的合成误差项中,vit在时期内连续性相关,其相关性可由下式表达:
1702650465
1702650466
corr(νit,νis)=σ2α/(σ2α+σ2ε),t≠s (15.15)
1702650467
1702650468
这里,σ2α=Var(αi),σ2ε=Var(αit)。我们可以推导出排除误差连续性相关的广义最小二乘变换式。定义
1702650469
1702650470
λ=1-(σ2ε/(σ2ε+Tσ2α))1/2 (15.16)
1702650471
1702650472
我们可以写出:
1702650473
1702650474
1702650475
1702650476
1702650477
注意,方程15.17与方程15.13的相似性。(方程15.13的)FE估计量是用每个观测值减去个体在时期内的均值,而RE变换式是减去一定比例的时期均值,其比例大小取决于σ2ε、σ2α和T。一旦λ被估计出来(可以用几种方法完成,我们对此不加以关注),我们可以用方程15.17,通过OLS估计跨时期合并数据,我们可以得到一致的系数估计值和正确的标准误。
1702650478
1702650479
最后,通过在方程15.17中重写误差项,我们能够看到FE和RE之间的关系为:
1702650480
1702650481
1702650482
1702650483
1702650484
此方程直接来源于方程15.14。从方程15.18中我们可以清楚地看到,方程15.17中的误差项用1-λ来对未观测效应进行加权。因此,当λ接近1时,RE估计值接近FE估计值,而偏误接近为0。相反,当λ接近为0时,较大比例的未观测效应留在了误差项中,因而根据定义,偏误增加。
1702650485
1702650486
1702650487
1702650488
[
上一页 ]
[ :1.702650439e+09 ]
[
下一页 ]