打字猴:1.702647028e+09
1702647028 量化数据分析:通过社会研究检验想法 [:1702644767]
1702647029 量化数据分析:通过社会研究检验想法 非线性变换
1702647030
1702647031 在做回归分析时,我们经常有理由怀疑某些特殊的自变量与因变量之间的关系是非线性的。此时,对自变量与因变量之间的关系进行线性估计将不能很好地反映研究样本中的关系。你们已经在第5章的图5-4(c)中见过这一实例,它显示两个变量之间存在一种完美的抛物线关系,但是当我们用线性方程估计时,得到的斜率和相关系数为0。幸运的是,有一个解决此类问题的简单方法——你们可以将一个或多个变量进行变换,使得因变量与自变量之间呈线性函数关系。这里有几个例子,我同时给出一些解释技巧。
1702647032
1702647033 曲线关系:年龄和收入
1702647034
1702647035 在截面数据中,收入通常随年龄增长到中年的某一个峰值,随后开始下降。表示这种曲线关系的一种合理方法是估计下面形式的方程:
1702647036
1702647037
1702647038
1702647039
1702647040 这里,Y=年收入,A=年龄,A2=A×A。
1702647041
1702647042 在2004年综合社会调查(GSS)中,此方程的估计值为(对年龄在20~64岁并有个人收入信息的样本进行估计;N=1573;将最上端的开放区间——年收入为110000美元或以上——编码为150000美元;将其余的收入区间重新编码为它们的中间值):
1702647043
1702647044
1702647045
1702647046
1702647047 可以将其表示为图7-1的形式。
1702647048
1702647049
1702647050
1702647051
1702647052 图7-1 美国20~64岁成年人2003年收入和2004年年龄之间的关系(N=1573)
1702647053
1702647054 为什么收入和年龄之间的关系呈曲线 关于收入和年龄之间的曲线关系有几种解释,其中主要的两种如下:
1702647055
1702647056 ·经济学家主张生产力随年龄增长到某一点后下降;社会学家有时候持类似的观点,但又指出各种制度性因素(例如年龄较大的工人失业后再找工作面临更大的困难)也会导致我们观察到同样的模式。
1702647057
1702647058 ·依据截面数据观察到的模式可能只是收入的队列递进效应所造成的一种假象:后面队列的收入在任何年龄都比他们的前辈高,而在工作生涯中所有工人的收入都将持续增长。
1702647059
1702647060 我们从图7-1中看到,在2003年年龄为20岁的人年收入约为12000美元,52岁左右的人收入最高,年收入达到约50000美元的峰值。但是,如果没有此图,方程7.2的解释会比较困难,因为系数本身并没有给出一种直观的实际解释。然而,将方程7.1改写成一定的形式就可以给出直接的解释,可以用方程表示为:
1702647061
1702647062
1702647063
1702647064
1702647065 这里,m=a-b2/4c,F=-b/2c(系数a、b、c的值可从方程7.1获得),m是最大收入,F是获得最大收入时的年龄。在这个例子中,方程7.3的数值估计是:
1702647066
1702647067
1702647068
1702647069
1702647070 当然,方程7.2和7.4会生成同样的图示,因为它们的表达是等价的。但是,方程7.4还准确地告诉我们收入的峰值是50066美元,且达到此峰值的年龄是在52~53岁之间(确切地说是52.53岁)。
1702647071
1702647072 即使方程中还包含其他自变量,也可以进行这种变换。考虑下面这个方程:
1702647073
1702647074
1702647075
1702647076
1702647077
[ 上一页 ]  [ :1.702647028e+09 ]  [ 下一页 ]