1702647021
本章内容
1702647022
1702647023
本章介绍社会研究者在多元回归框架中处理所面对的具体分析问题时所用的各种“技巧”。本章所有实际例子的Stata-do-和-log-文件都可从网上获得。说具体些,我们将介绍因变量和自变量的非线性转换,检验方程中系数是否相等的方法,以一项趋势分析为例介绍如何评估某一关系的线性假设是否成立,如何构建和解释反映斜率突然变化的线性样条,表示虚拟变量系数的不同方法,以及分解两个均值差异的方法。
1702647024
1702647025
1702647026
1702647027
1702647029
量化数据分析:通过社会研究检验想法 非线性变换
1702647030
1702647031
在做回归分析时,我们经常有理由怀疑某些特殊的自变量与因变量之间的关系是非线性的。此时,对自变量与因变量之间的关系进行线性估计将不能很好地反映研究样本中的关系。你们已经在第5章的图5-4(c)中见过这一实例,它显示两个变量之间存在一种完美的抛物线关系,但是当我们用线性方程估计时,得到的斜率和相关系数为0。幸运的是,有一个解决此类问题的简单方法——你们可以将一个或多个变量进行变换,使得因变量与自变量之间呈线性函数关系。这里有几个例子,我同时给出一些解释技巧。
1702647032
1702647033
曲线关系:年龄和收入
1702647034
1702647035
在截面数据中,收入通常随年龄增长到中年的某一个峰值,随后开始下降。表示这种曲线关系的一种合理方法是估计下面形式的方程:
1702647036
1702647037
1702647038
1702647039
1702647040
这里,Y=年收入,A=年龄,A2=A×A。
1702647041
1702647042
在2004年综合社会调查(GSS)中,此方程的估计值为(对年龄在20~64岁并有个人收入信息的样本进行估计;N=1573;将最上端的开放区间——年收入为110000美元或以上——编码为150000美元;将其余的收入区间重新编码为它们的中间值):
1702647043
1702647044
1702647045
1702647046
1702647047
可以将其表示为图7-1的形式。
1702647048
1702647049
1702647050
1702647051
1702647052
图7-1 美国20~64岁成年人2003年收入和2004年年龄之间的关系(N=1573)
1702647053
1702647054
为什么收入和年龄之间的关系呈曲线 关于收入和年龄之间的曲线关系有几种解释,其中主要的两种如下:
1702647055
1702647056
·经济学家主张生产力随年龄增长到某一点后下降;社会学家有时候持类似的观点,但又指出各种制度性因素(例如年龄较大的工人失业后再找工作面临更大的困难)也会导致我们观察到同样的模式。
1702647057
1702647058
·依据截面数据观察到的模式可能只是收入的队列递进效应所造成的一种假象:后面队列的收入在任何年龄都比他们的前辈高,而在工作生涯中所有工人的收入都将持续增长。
1702647059
1702647060
我们从图7-1中看到,在2003年年龄为20岁的人年收入约为12000美元,52岁左右的人收入最高,年收入达到约50000美元的峰值。但是,如果没有此图,方程7.2的解释会比较困难,因为系数本身并没有给出一种直观的实际解释。然而,将方程7.1改写成一定的形式就可以给出直接的解释,可以用方程表示为:
1702647061
1702647062
1702647063
1702647064
1702647065
这里,m=a-b2/4c,F=-b/2c(系数a、b、c的值可从方程7.1获得),m是最大收入,F是获得最大收入时的年龄。在这个例子中,方程7.3的数值估计是:
1702647066
1702647067
1702647068
1702647069
[
上一页 ]
[ :1.70264702e+09 ]
[
下一页 ]