打字猴:1.702650455e+09
1702650455 量化数据分析:通过社会研究检验想法 [:1702644834]
1702650456 量化数据分析:通过社会研究检验想法 针对连续型变量的随机效应模型
1702650457
1702650458 因为FE模型不允许我们评估不随时间变化的变量(或在家庭、组织或社区的应用中,在这些单位内个体之间无变异的变量)的大小,所以人们很想找到能够产生这些变量估计值的模型。在这些模型中,一个被经常使用的模型是随机效应模型(random effects,RE)。像FE模型一样,RE模型可以由方程15.1导出。但是,随机效应模型和固定效应模型的假设不同。FE模型假设αi代表一组固定参数,通过差分,它们被排除出模型;而RE模型假设每个αi是均值为0、方差为常数的正态分布随机变量,且独立于zi、xit和εit。这是一个很强的假设。幸运的是,它可以用Hausman(1978)提出的检验方法检验。其策略是估计相应的FE和RE模型,并用Hausman检验比较其系数的相似性。如果系数无差异的零假设不被拒绝,我们可以得出结论,αi的独立性得到支持,这意味着RE模型产生的系数是无偏的。因为RE模型产生zi效应的估计值,所以如果独立性假设得到满足,那么用RE模型更好。如果不满足该假设,我们必须接受FE模型而放弃zi效应的估计。Hausman检验是非常严格的,经常不能支持RE模型。Bollen和Brand(2008)提供了一系列比较FE和RE模型的其他统计量,以及构建混合模型的方法。Bollen和Brand的方法基于结构方程模型,这已经超出了本书的范畴,但在下一章我们会简要地予以讨论。
1702650459
1702650460 我们如何估计RE模型?其细节已经超出我们这里所能考虑的范围,但可以简单介绍一下它的一般方法。因为我们假设αi与解释变量不相关,这些变量的系数可从单一截面数据中得到一致的估计。然而,这样做至少会忽略一半数据(如果是两个以上的时点,被忽略的数据会更多)。合并数据且使用OLS估计会产生对系数的一致估计。然而,这些方法都不能产生正确的标准误。其原因是误差在时期内连续性地相互关联。用一个单一合成误差项替换方程15.1中的两个误差项,我们可以很容易看到这一点:
1702650461
1702650462 νit=αi+εit      (15.14)
1702650463
1702650464 因为αi被包括在每个时点的合成误差项中,vit在时期内连续性相关,其相关性可由下式表达:
1702650465
1702650466 corr(νit,νis)=σ2α/(σ2α+σ2ε),t≠s      (15.15)
1702650467
1702650468 这里,σ2α=Var(αi),σ2ε=Var(αit)。我们可以推导出排除误差连续性相关的广义最小二乘变换式。定义
1702650469
1702650470 λ=1-(σ2ε/(σ2ε+Tσ2α))1/2      (15.16)
1702650471
1702650472 我们可以写出:
1702650473
1702650474
1702650475
1702650476
1702650477 注意,方程15.17与方程15.13的相似性。(方程15.13的)FE估计量是用每个观测值减去个体在时期内的均值,而RE变换式是减去一定比例的时期均值,其比例大小取决于σ2ε、σ2α和T。一旦λ被估计出来(可以用几种方法完成,我们对此不加以关注),我们可以用方程15.17,通过OLS估计跨时期合并数据,我们可以得到一致的系数估计值和正确的标准误。
1702650478
1702650479 最后,通过在方程15.17中重写误差项,我们能够看到FE和RE之间的关系为:
1702650480
1702650481
1702650482
1702650483
1702650484 此方程直接来源于方程15.14。从方程15.18中我们可以清楚地看到,方程15.17中的误差项用1-λ来对未观测效应进行加权。因此,当λ接近1时,RE估计值接近FE估计值,而偏误接近为0。相反,当λ接近为0时,较大比例的未观测效应留在了误差项中,因而根据定义,偏误增加。
1702650485
1702650486
1702650487
1702650488
1702650489 量化数据分析:通过社会研究检验想法 [:1702644835]
1702650490 量化数据分析:通过社会研究检验想法 一个具体例子:中国收入的决定因素
1702650491
1702650492 在这里我用中国家庭收入的决定因素作为例子,介绍如何针对连续型因变量估计和解释FE和RE模型。像其他地方一样,在中国,社区之间存在显著的收入差异。在中国城镇分级中(从农村到直辖市——北京、重庆、上海和天津——有七级分类)等级较高的地方,平均家庭收入也较高。但是,在人口特征上,他们也具有较好的人力资本并从事较高报酬的工作,我们从表15-1中可以看到这些。表中展示了7个城镇分级中每个层级的平均受教育年限、职业地位(ISEI)和人均家庭收入。由此,我们要考虑一个问题,即人力资本与其他因素和家庭收入之间的关系在多大程度上反映的是劳动力市场上和其他影响收入条件的社区差异——例如,那些具有大学受教育程度的人不成比例地迁移到首都。
1702650493
1702650494 为了研究家庭收入的决定因素,我估计社区层次的FE(和RE)模型,以从分析中排除未被测量到的社区特征。此分析是基于前几章都使用过的1996年中国抽样调查。此调查的抽样设计包括100个村和100个城镇社区,从每个社区获得约30个家庭户的信息(附录A提供了研究设计的详细内容和获取数据的方法)。
1702650495
1702650496 表15-1 1996年中国成年人按居住地规模划分的社会经济特征
1702650497
1702650498
1702650499
1702650500
1702650501 在此分析中,我用受教育年限、职业地位、受访者或其配偶的年龄(以年龄较高者为准)、家中工作人数、家户是否参与各种形式的家庭企业等变量预测家庭收入。(因为在调查中没有用于确定户主身份的变量,我用受访者和配偶中较高社会经济水平的特征代表家庭户主的特征。如果我们的受访者是户主的其他亲属,例如成年子女或兄弟姐妹,我们测量户主特征的变量就会不正确。在一项严谨的分析中,我会建构一个更加细致的判断原则来判定谁是户主或如何描述家户的社会经济地位。但考虑到当前的目的,这种替代已经足够了。)当然,我们预期家庭成员的受教育年限和职业地位会影响家庭收入。此外,家庭收入可能随年龄而增加,年龄可以被看作是经验的代理变量。关于从事农作物生产、农副业或非农副业的效应,我没有明确预测,但我认为这些经营会影响收入。
1702650502
1702650503 表15-2给出了FE模型的估计结果,出于比较的目的,我也给出了我们在前面碰到的OLS模型的估计结果。“ch15_1.do”和“ch15_1.log”是产生这些结果的Stata文件,可从网站下载。
1702650504
[ 上一页 ]  [ :1.702650455e+09 ]  [ 下一页 ]