1702650280
量化数据分析:通过社会研究检验想法 第15章 改进因果推断:固定效应与随机效应模型
1702650281
1702650283
本章内容
1702650284
1702650285
在这一章,我们将学习两种密切相关的用于处理忽略变量偏误的技术。回顾第6章,当我们在模型中没有纳入影响结果变量且与一个或多个预测变量相关的变量时,就会发生忽略变量偏误。本章所讨论的用于估计无偏系数的技术被称为固定效应模型(fixed effects)和随机效应模型(random effects)。这两类模型使用两个或以上时点的相同个体信息,或者组内(家庭、学校、公司、社区或其他类似的组)两个或以上个体的信息,以排除估计方程中不随时间变化或在相同组内固定不变的所有特征,无论这些特征有没有被测量。结果是,我们能够测量的特征不会因为受到未被观测到的、不随时间变化的因素影响而出现偏误。有关这类技术的介绍,见Allison(2005)和Wooldridge(2006,第13、14章),本章内容主要来自他们的文献。
1702650286
1702650287
1702650288
1702650289
1702650291
量化数据分析:通过社会研究检验想法 引言
1702650292
1702650293
正如本书中的许多地方提到的,我们所学的非实验方法容易受到忽略变量偏误(omitted variable bias)的影响,即有可能存在未被测量到的因素同时影响预测变量和结果变量。在这种情况下,我们通过OLS或逻辑斯蒂回归估计到的系数将不正确。要更充分地理解这一点,一种行之有效的方法就是把我们所学的线性模型方法与随机实验进行比较。
1702650294
1702650295
在经典随机实验中,个体被随机地分为两组。实验组的成员会受到某种干预,而控制组的成员则不会;随后我们会测量这两组人在一种或多种结果上的差异(这种设计可以被泛化为包含几个不同实验组的情况,但其逻辑是相同的)。在一定的抽样误差内,因为实验组和控制组在干预前属性基本一致——或者说,个体是否接受干预与其实验前的属性不相关——所以我们可以认为,在任何结果上这两组之间的均值差异都是由干预引起的。
1702650296
1702650297
在用线性模型方法时,我们试图通过在统计上控制尽可能多的影响因素——与预测变量和结果变量都相关的因素——来模拟随机实验。例如,如果我们观测到男性比女性挣得多,我们就可能怀疑这是否源于歧视。然而,在接受这一结论之前,我们需要考虑,这种收入差异是否至少部分地源于男性更可能接受技术培训,进入高收入领域,具有更多的工作经验,且工作时间更长。然后我们在统计上控制这些变量,并在那些在控制变量上有同样取值的人群中评估性别对收入的影响。如果我们仍然发现不同性别在报酬上存在差异,那么我们可能就会将剩余的差异归结为歧视。但是,别人可能会质疑,认为我们并没有纳入其他可能引起报酬差异的关键因素。例如,女性可能在讨价还价上不如男性有效,因而比男性更容易接受收入水平较低的工作。如果我们忽略了对讨价还价能力的测量(或者,如果我们对讨价还价能力测量得不好,以至于真实的讨价还价能力仍有部分未被测量),那么这个因素所带来的所有影响都会被包含在误差项中。然而,如果讨价还价能力与性别相关,那么OLS(及其他线性模型)关于误差项与预测变量不相关的假设就会被违背,这样产生的系数就是有偏的。
1702650298
1702650299
那么,我们能做些什么?事实证明,如果我们有相同个体在至少两个时点上的测量,那么对那些至少对某些研究个体来说其取值会随时间变化的变量,我们就能得到无偏估计。我们用预测变量的变化来预测结果变量的变化,它可以排除预测方程中不随时间变化的因素,无论这些因素有没有被测量。但是,“世上没有免费的午餐”。这种被称为固定效应模型(fixed effects,FE)的方法,其代价有二:①我们不能估计那些对个体来说不随时间变化的预测变量的“主效应”(main effects),例如,性别和种族(尽管我们能够估计这些变量与其他随时间变化的变量之间的交互效应——这一点在性别的报酬差异的例子中我们将再次讲到——而且对不随时间变化的变量我们也能够估计其随时间变化的效应)。〔然而,最近Bollen和Brand(2008)的工作表明,对未被观测到的潜在因素进行适当的假设后,有可能在结构方程模型(structural equation modeling,SEM)框架下获得不随时间变化的预测变量效应——下一章将简要讨论这种技术。〕②当我们分析受限因变量时,经常会碰到样本规模显著减小的问题,因为在FE逻辑斯蒂回归中,那些结果变量不随时间变化的个体将被从分析中删除。然而,在某些条件下,并且在一些额外的假设下,我们可以通过使用被称为随机效应模型(random effects,RE)的方法保留样本大小。我们将在本章稍后部分介绍这个方法。
1702650300
1702650301
1702650302
1702650303
1702650305
量化数据分析:通过社会研究检验想法 针对连续型变量的固定效应模型
1702650306
1702650307
为了了解FE对于连续型变量是如何操作的,我们写出一个预测方程:
1702650308
1702650309
yit=μt+βxit+γzi+αi+εiti=1,…,n;t=1,…,T (15.1)
1702650310
1702650311
这里,yit是第i个人在时点t的结果变量的取值;μt是一个可以随时间变化的截距项;xit是一组既在个体之间变化,对每个个体而言又随时间变化的变量;zi是一组在个体之间变化但对每个个体而言不随时间变化的变量;αi代表个体之间未被测量的差异,即没有被γzi解释的差异,它在整个时期内的取值是固定的;εit代表既随时间变化又在个体间变化的异质性因素。
1702650312
1702650313
为了简化讨论,假设T=2,当T>2时结论相同。现在假设我们简单地将两个时点的观测数据合并在一起,并且用OLS估计结果。显然,当忽略变量与模型中的变量相关(例如,那个涉及讨价还价能力的例子)时,这样做会产生有偏估计,因为OLS的误差项(这里是αi+εit之和,因为αi是未被观测的)与预测变量无关的基本假设被违背了。
1702650314
1702650315
基本的FE方程
1702650316
1702650317
然而,假设我们分别写出每个时点的方程并用一个公式减去另一个公式。用公式
1702650318
1702650319
yi2=μ2+βxi2+γzi+αi+εi2 (15.2)
1702650320
1702650321
减去
1702650322
1702650323
yi1=μ1+βxi1+γzi+αi+εi1
1702650324
1702650325
得到
1702650326
1702650327
yi2-yi1=(μ2-μ1)+β(xi2-xi1)+(εi2-εi1) (15.3)
1702650328
[
上一页 ]
[ :1.702650279e+09 ]
[
下一页 ]