打字猴:1.702650467e+09
1702650467
1702650468 这里,σ2α=Var(αi),σ2ε=Var(αit)。我们可以推导出排除误差连续性相关的广义最小二乘变换式。定义
1702650469
1702650470 λ=1-(σ2ε/(σ2ε+Tσ2α))1/2      (15.16)
1702650471
1702650472 我们可以写出:
1702650473
1702650474
1702650475
1702650476
1702650477 注意,方程15.17与方程15.13的相似性。(方程15.13的)FE估计量是用每个观测值减去个体在时期内的均值,而RE变换式是减去一定比例的时期均值,其比例大小取决于σ2ε、σ2α和T。一旦λ被估计出来(可以用几种方法完成,我们对此不加以关注),我们可以用方程15.17,通过OLS估计跨时期合并数据,我们可以得到一致的系数估计值和正确的标准误。
1702650478
1702650479 最后,通过在方程15.17中重写误差项,我们能够看到FE和RE之间的关系为:
1702650480
1702650481
1702650482
1702650483
1702650484 此方程直接来源于方程15.14。从方程15.18中我们可以清楚地看到,方程15.17中的误差项用1-λ来对未观测效应进行加权。因此,当λ接近1时,RE估计值接近FE估计值,而偏误接近为0。相反,当λ接近为0时,较大比例的未观测效应留在了误差项中,因而根据定义,偏误增加。
1702650485
1702650486
1702650487
1702650488
1702650489 量化数据分析:通过社会研究检验想法 [:1702644835]
1702650490 量化数据分析:通过社会研究检验想法 一个具体例子:中国收入的决定因素
1702650491
1702650492 在这里我用中国家庭收入的决定因素作为例子,介绍如何针对连续型因变量估计和解释FE和RE模型。像其他地方一样,在中国,社区之间存在显著的收入差异。在中国城镇分级中(从农村到直辖市——北京、重庆、上海和天津——有七级分类)等级较高的地方,平均家庭收入也较高。但是,在人口特征上,他们也具有较好的人力资本并从事较高报酬的工作,我们从表15-1中可以看到这些。表中展示了7个城镇分级中每个层级的平均受教育年限、职业地位(ISEI)和人均家庭收入。由此,我们要考虑一个问题,即人力资本与其他因素和家庭收入之间的关系在多大程度上反映的是劳动力市场上和其他影响收入条件的社区差异——例如,那些具有大学受教育程度的人不成比例地迁移到首都。
1702650493
1702650494 为了研究家庭收入的决定因素,我估计社区层次的FE(和RE)模型,以从分析中排除未被测量到的社区特征。此分析是基于前几章都使用过的1996年中国抽样调查。此调查的抽样设计包括100个村和100个城镇社区,从每个社区获得约30个家庭户的信息(附录A提供了研究设计的详细内容和获取数据的方法)。
1702650495
1702650496 表15-1 1996年中国成年人按居住地规模划分的社会经济特征
1702650497
1702650498
1702650499
1702650500
1702650501 在此分析中,我用受教育年限、职业地位、受访者或其配偶的年龄(以年龄较高者为准)、家中工作人数、家户是否参与各种形式的家庭企业等变量预测家庭收入。(因为在调查中没有用于确定户主身份的变量,我用受访者和配偶中较高社会经济水平的特征代表家庭户主的特征。如果我们的受访者是户主的其他亲属,例如成年子女或兄弟姐妹,我们测量户主特征的变量就会不正确。在一项严谨的分析中,我会建构一个更加细致的判断原则来判定谁是户主或如何描述家户的社会经济地位。但考虑到当前的目的,这种替代已经足够了。)当然,我们预期家庭成员的受教育年限和职业地位会影响家庭收入。此外,家庭收入可能随年龄而增加,年龄可以被看作是经验的代理变量。关于从事农作物生产、农副业或非农副业的效应,我没有明确预测,但我认为这些经营会影响收入。
1702650502
1702650503 表15-2给出了FE模型的估计结果,出于比较的目的,我也给出了我们在前面碰到的OLS模型的估计结果。“ch15_1.do”和“ch15_1.log”是产生这些结果的Stata文件,可从网站下载。
1702650504
1702650505 表15-2 1996年家庭收入(人民币)决定因素的OLS模型和FE模型估计值的比较(N=5342)
1702650506
1702650507
1702650508
1702650509
1702650510 注意,FE模型和OLS模型的估计结果明显不同。有趣的是,受教育年限的效应在FE模型中比在OLS模型中明显要强,在一定程度上与我的预期相反。此前我可能会预期收入的社区差异与受教育年限的社区差异之间的相关会导致OLS分析夸大受教育年限的效应。此外,年龄的效应在FE模型中勉强显著,而在OLS分析中根本没有影响,也许是因为年轻人倾向于迁到高收入领域,从而减小了在FE模型中出现的年龄对收入的正面影响。两种分析都显示,在控制了社会人口特征后,种植农作物的家庭的收入显著高于不种植农作物的家庭,而经营非农业企业的家庭明显挣得较少。虽然它们的符号和显著性水平在OLS和FE分析中没有实质性的差异,但与OLS模型相比,其效应在FE模型中明显减小。总之,很明显,FE产生的结果与OLS分析产生的结果很不同。因为FE方法排除了由同时影响预测变量和结果变量的社区因素引起的偏误,此方法明显比OLS回归要好。
1702650511
1702650512 但是,我们能做得更好些吗?RE模型怎样呢?回想FE模型的一个重要缺陷是:不能研究在分析单元内不在个体之间变化的特征(或个体不随时间变化的特征),因为它们在差分步骤中被剔除了。RE模型不受此缺陷的影响。因此,举个例子,用RE模型我们可以研究诸如社区在城镇分级中的位置等特征。然而,正如前面讨论过的,只有在未观测效应αi独立于其他变量(观测到的随时间变化或在分析单元内的个体之间变化的变量xit,观测到的不随时间变化或在分析单元内的个体之间不变化的变量zi,以及异质性误差εit)时,RE系数才是有效的。可以检验这个假定,其方法是用Hausman检验比较FE和RE模型中相应系数的相似性(用Stata进行检验的具体方法,见可下载文件“ch15_1.do”)。结果是系数相似性的假设被拒绝,这意味着RE模型估计是有偏的,因此我们必须选择FE估计。要记住,并没有拒绝FE和RE系数之间无差异的零假设,可能意味着两组系数非常相似,也可能是标准误太大以至于无法得出这种推论。也就是说,即使通过了Hausman检验,你们也应该避免轻易接受RE估计的合理性。正如前面提到的,针对这类问题,在模型设定方面有较大灵活性的高级方法见Bollen和Brand(2008)。
1702650513
1702650514
1702650515
1702650516
[ 上一页 ]  [ :1.702650467e+09 ]  [ 下一页 ]