打字猴:1.702650489e+09
1702650489 量化数据分析:通过社会研究检验想法 [:1702644835]
1702650490 量化数据分析:通过社会研究检验想法 一个具体例子:中国收入的决定因素
1702650491
1702650492 在这里我用中国家庭收入的决定因素作为例子,介绍如何针对连续型因变量估计和解释FE和RE模型。像其他地方一样,在中国,社区之间存在显著的收入差异。在中国城镇分级中(从农村到直辖市——北京、重庆、上海和天津——有七级分类)等级较高的地方,平均家庭收入也较高。但是,在人口特征上,他们也具有较好的人力资本并从事较高报酬的工作,我们从表15-1中可以看到这些。表中展示了7个城镇分级中每个层级的平均受教育年限、职业地位(ISEI)和人均家庭收入。由此,我们要考虑一个问题,即人力资本与其他因素和家庭收入之间的关系在多大程度上反映的是劳动力市场上和其他影响收入条件的社区差异——例如,那些具有大学受教育程度的人不成比例地迁移到首都。
1702650493
1702650494 为了研究家庭收入的决定因素,我估计社区层次的FE(和RE)模型,以从分析中排除未被测量到的社区特征。此分析是基于前几章都使用过的1996年中国抽样调查。此调查的抽样设计包括100个村和100个城镇社区,从每个社区获得约30个家庭户的信息(附录A提供了研究设计的详细内容和获取数据的方法)。
1702650495
1702650496 表15-1 1996年中国成年人按居住地规模划分的社会经济特征
1702650497
1702650498
1702650499
1702650500
1702650501 在此分析中,我用受教育年限、职业地位、受访者或其配偶的年龄(以年龄较高者为准)、家中工作人数、家户是否参与各种形式的家庭企业等变量预测家庭收入。(因为在调查中没有用于确定户主身份的变量,我用受访者和配偶中较高社会经济水平的特征代表家庭户主的特征。如果我们的受访者是户主的其他亲属,例如成年子女或兄弟姐妹,我们测量户主特征的变量就会不正确。在一项严谨的分析中,我会建构一个更加细致的判断原则来判定谁是户主或如何描述家户的社会经济地位。但考虑到当前的目的,这种替代已经足够了。)当然,我们预期家庭成员的受教育年限和职业地位会影响家庭收入。此外,家庭收入可能随年龄而增加,年龄可以被看作是经验的代理变量。关于从事农作物生产、农副业或非农副业的效应,我没有明确预测,但我认为这些经营会影响收入。
1702650502
1702650503 表15-2给出了FE模型的估计结果,出于比较的目的,我也给出了我们在前面碰到的OLS模型的估计结果。“ch15_1.do”和“ch15_1.log”是产生这些结果的Stata文件,可从网站下载。
1702650504
1702650505 表15-2 1996年家庭收入(人民币)决定因素的OLS模型和FE模型估计值的比较(N=5342)
1702650506
1702650507
1702650508
1702650509
1702650510 注意,FE模型和OLS模型的估计结果明显不同。有趣的是,受教育年限的效应在FE模型中比在OLS模型中明显要强,在一定程度上与我的预期相反。此前我可能会预期收入的社区差异与受教育年限的社区差异之间的相关会导致OLS分析夸大受教育年限的效应。此外,年龄的效应在FE模型中勉强显著,而在OLS分析中根本没有影响,也许是因为年轻人倾向于迁到高收入领域,从而减小了在FE模型中出现的年龄对收入的正面影响。两种分析都显示,在控制了社会人口特征后,种植农作物的家庭的收入显著高于不种植农作物的家庭,而经营非农业企业的家庭明显挣得较少。虽然它们的符号和显著性水平在OLS和FE分析中没有实质性的差异,但与OLS模型相比,其效应在FE模型中明显减小。总之,很明显,FE产生的结果与OLS分析产生的结果很不同。因为FE方法排除了由同时影响预测变量和结果变量的社区因素引起的偏误,此方法明显比OLS回归要好。
1702650511
1702650512 但是,我们能做得更好些吗?RE模型怎样呢?回想FE模型的一个重要缺陷是:不能研究在分析单元内不在个体之间变化的特征(或个体不随时间变化的特征),因为它们在差分步骤中被剔除了。RE模型不受此缺陷的影响。因此,举个例子,用RE模型我们可以研究诸如社区在城镇分级中的位置等特征。然而,正如前面讨论过的,只有在未观测效应αi独立于其他变量(观测到的随时间变化或在分析单元内的个体之间变化的变量xit,观测到的不随时间变化或在分析单元内的个体之间不变化的变量zi,以及异质性误差εit)时,RE系数才是有效的。可以检验这个假定,其方法是用Hausman检验比较FE和RE模型中相应系数的相似性(用Stata进行检验的具体方法,见可下载文件“ch15_1.do”)。结果是系数相似性的假设被拒绝,这意味着RE模型估计是有偏的,因此我们必须选择FE估计。要记住,并没有拒绝FE和RE系数之间无差异的零假设,可能意味着两组系数非常相似,也可能是标准误太大以至于无法得出这种推论。也就是说,即使通过了Hausman检验,你们也应该避免轻易接受RE估计的合理性。正如前面提到的,针对这类问题,在模型设定方面有较大灵活性的高级方法见Bollen和Brand(2008)。
1702650513
1702650514
1702650515
1702650516
1702650517 量化数据分析:通过社会研究检验想法 [:1702644836]
1702650518 量化数据分析:通过社会研究检验想法 针对二分结果变量的固定效应模型
1702650519
1702650520 针对二分结果变量的FE模型,其逻辑与连续型变量的情况相似,但步骤有点不同。让我们从针对两个时点的二项逻辑斯蒂回归的FE模型开始,写出一个类似于方程15.1的方程:
1702650521
1702650522
1702650523
1702650524
1702650525 这里,pit是yit=1而不为0的概率,其余各项与方程15.1中的定义一样。此外,我们需要假设在个体内,yi1和yi2彼此独立。因此
1702650526
1702650527 Pr(yi1=0,yi2=0)=(1-pi1)(1-pi2)
1702650528
1702650529 Pr(yi1=1,yi2=0)=pi1(1-pi2)      (15.20)
1702650530
1702650531 Pr(yi1=0,yi2=1)=(1-pi1)pi2
1702650532
1702650533 Pr(yi1=1,yi2=1)=pi1pi2
1702650534
1702650535 因为我们的目标是在控制不随时间变化的协变量时估计μt和β,所以我们只用个体内的变化估计这些参数。因此,由于那些结果变量yit在时点1和时点2之间不变化的个体没有提供任何信息,因此我们从样本中删除了他们。结果剩下方程15.20的中间两行。我们对这些概率的比率取对数,得到一个把zi和αi“差分掉”(differences out)的方程:
1702650536
1702650537
1702650538
[ 上一页 ]  [ :1.702650489e+09 ]  [ 下一页 ]