1702647370
1702647371
图7-7 美国成年人按出生年份划分的受教育年限的三年移动平均值(与图7-5使用的数据一样)
1702647372
1702647373
此线性样条可用下面形式的方程表示:
1702647374
1702647375
1702647376
1702647377
1702647378
这里,如果在1947年或以前出生,B1=出生年份,否则B1=1947年;如果在1947年之后出生,B2=出生年份-1947,否则B2=0。一般来说,一个用线段v1…vn+1和节点k1,k2,…,kn表示Y和X之间关系的样条函数为:
1702647379
1702647380
1702647381
1702647382
1702647383
这里,v1=min(X,k1),v2=max(min(X-k1,k2-k1),0),…,vn+1=max(X-kn,0)〔见Panis(1994);Stata-mkspline-命令的说明(StataCorp,2007);Greene(2008)〕。每个斜率系数就是对应线段的斜率。我们可以回到方程7.34这一例子来具体地加以说明。我们分别针对1947年或以前出生的人和1947年以后出生的人来评估此方程。对1947年或以前出生的人,我们有:
1702647384
1702647385
1702647386
1702647387
1702647388
而对1947年以后出生的人,我们有:
1702647389
1702647390
1702647391
1702647392
1702647393
注意,方程7.37中的截距项就是1947年出生的人的期望受教育水平,b2是1947年以后出生的人的斜率。因此,对出生于1948年的人来说,其期望受教育水平就是1947年出生的人的期望受教育水平加上b2;对出生于1949年的人来说,其期望受教育水平就是1947年出生的人的期望受教育水平加上2b2,依此类推。
1702647394
1702647395
用1972~2004年GSS合并数据估计方程7.34得到的系数见表7-2。通过审视三个模型——线性样条模型、线性趋势模型和一个允许期望受教育水平逐年变化的模型——的BIC值,我们发现线性样条模型显然更好。然而,需要注意的是,如果是比较R2值,那么按照传统的推论准则,假设受教育水平逐年变化的模型的拟合度显著地好于线性样条模型。我倾向于忽略此结果,因为逐年变化的模型没有理论意义,按照BIC准则来看显然较差,而且仅仅是由于样本规模大的结果。因此,我将线性样条模型作为最优模型。
1702647396
1702647397
表7-2 美国年龄在25岁及以上的成年人按出生年份划分的完成的受教育年限的线性样条模型的系数,以及线性样条模型与其他模型的比较(1972~2004年的合并数据,N=39324)
1702647398
1702647399
1702647400
1702647401
1702647402
样条函数的另一种设定方法 样条函数的另一种设定方法是将每个线段的斜率表示为与前面线段斜率的偏差。在此设定方法中,需要创建一系列不同的新变量。假设有k个节点,X是原始变量,v1,…,vn+1是创建的变量。那么
1702647403
1702647404
v1=X
1702647405
1702647406
如果X>k1,v2=X-k1,否则,v2=0
1702647407
1702647408
……
1702647409
1702647410
如果X>kn,vn+1=X-kn,否则,vn+1=0
1702647411
1702647412
为了了解此过程,考虑我们现在所讲的例子,即在教育获得的趋势线上将1947年作为一个节点。运用上述新的设定方法,v1=出生年份(X),如果X>1947,则v2=X-1947,否则v2=0。那么,对1947年或以前出生的人,我们有:
1702647413
1702647414
1702647415
1702647416
1702647417
而对1947年以后出生的人,我们有:
1702647418
1702647419
[
上一页 ]
[ :1.70264737e+09 ]
[
下一页 ]