打字猴:1.702647347e+09
1702647347 量化数据分析:通过社会研究检验想法 [:1702644770]
1702647348 量化数据分析:通过社会研究检验想法 线性样条
1702647349
1702647350 有时会遇到这样的情况:我们相信两个变量之间的关系在自变量分布的某一点上会突然发生变化,因此,用线性或曲线来表示此关系都不合适。例如,在低于某特定值时饮酒量可能对健康没有影响,但超过此门槛值后,健康状况会随着饮酒量的增加而线性下降。政策变化或经济萧条、战争、革命等灾难性事件也会使历时趋势发生突然变化。在这种情况下,用一组相连的线段表示这类关系是很有用的,这就是线性样条(linear splines)。
1702647351
1702647352 一个具体例子:美国教育获得的历时趋势
1702647353
1702647354 设想平均受教育水平随时间变化。图7-5是依据GSS估计的受教育年限与出生年份的散点图。为了构建此图,我将1972~2004年所有年份的数据合并在一起。但是,我删除了1900年以前出生的人,因为此样本太小会导致不稳定的结果。我也删除了在调查时年龄不到25岁的人,因为许多人直到大约25岁时才完成学业。为了使图示清晰,我只使用了5%的样本,并且使用了“jittered”选项以清楚地显示图中数据点分布的疏密程度。审视此图你们会发现,美国人的平均受教育水平长期以来一直在提高,但其提高模式很难辨别——趋势到底是线性的还是用其他函数形式来表达更好?
1702647355
1702647356
1702647357
1702647358
1702647359 图7-5 美国成年人按出生年份划分的完成的受教育年限(GSS 1972~2004年的合并样本,N=39324;散点图显示的是5%的样本)
1702647360
1702647361 要弄清楚平均受教育水平如何随时间而提高,我们可以对每个出生队列完成的受教育年限的平均值作图,结果见图7-6(数据设定与散点图相同)。审视该图,你们可以看到,对出生于1900~1947年的人来说,平均受教育水平差不多是以线性方式提高的;但对之后的出生队列来说,平均受教育水平则保持稳定。因为图形有点波动——这可能是每个出生队列的样本量相对较小所致——对平均受教育年限取三年移动平均值(moving average)作图可能会更好。结果见图7-7(关于如何创建这些图,在可供下载的-do-和-log-文件里有详细说明)。审视此图,我们可以得到同样的结论——在趋势上该图有一个较突然的变化,那些在20世纪上半叶(确切地讲是1947年前)出生的人,其受教育年限相当稳定地逐年增加,但那些1947年或以后出生的人在受教育年限上基本没有变化。这意味着教育获得的趋势可以恰当地用一个节点位于1947年的线性样条来表示,这里的“节点”是指斜率发生变化的转折点。
1702647362
1702647363
1702647364
1702647365
1702647366 图7-6 美国成年人按出生年份划分的平均受教育年限(与图7-5使用的数据一样)
1702647367
1702647368
1702647369
1702647370
1702647371 图7-7 美国成年人按出生年份划分的受教育年限的三年移动平均值(与图7-5使用的数据一样)
1702647372
1702647373 此线性样条可用下面形式的方程表示:
1702647374
1702647375
1702647376
1702647377
1702647378 这里,如果在1947年或以前出生,B1=出生年份,否则B1=1947年;如果在1947年之后出生,B2=出生年份-1947,否则B2=0。一般来说,一个用线段v1…vn+1和节点k1,k2,…,kn表示Y和X之间关系的样条函数为:
1702647379
1702647380
1702647381
1702647382
1702647383 这里,v1=min(X,k1),v2=max(min(X-k1,k2-k1),0),…,vn+1=max(X-kn,0)〔见Panis(1994);Stata-mkspline-命令的说明(StataCorp,2007);Greene(2008)〕。每个斜率系数就是对应线段的斜率。我们可以回到方程7.34这一例子来具体地加以说明。我们分别针对1947年或以前出生的人和1947年以后出生的人来评估此方程。对1947年或以前出生的人,我们有:
1702647384
1702647385
1702647386
1702647387
1702647388 而对1947年以后出生的人,我们有:
1702647389
1702647390
1702647391
1702647392
1702647393 注意,方程7.37中的截距项就是1947年出生的人的期望受教育水平,b2是1947年以后出生的人的斜率。因此,对出生于1948年的人来说,其期望受教育水平就是1947年出生的人的期望受教育水平加上b2;对出生于1949年的人来说,其期望受教育水平就是1947年出生的人的期望受教育水平加上2b2,依此类推。
1702647394
1702647395 用1972~2004年GSS合并数据估计方程7.34得到的系数见表7-2。通过审视三个模型——线性样条模型、线性趋势模型和一个允许期望受教育水平逐年变化的模型——的BIC值,我们发现线性样条模型显然更好。然而,需要注意的是,如果是比较R2值,那么按照传统的推论准则,假设受教育水平逐年变化的模型的拟合度显著地好于线性样条模型。我倾向于忽略此结果,因为逐年变化的模型没有理论意义,按照BIC准则来看显然较差,而且仅仅是由于样本规模大的结果。因此,我将线性样条模型作为最优模型。
1702647396
[ 上一页 ]  [ :1.702647347e+09 ]  [ 下一页 ]