打字猴:1.7026474e+09
1702647400
1702647401
1702647402 样条函数的另一种设定方法 样条函数的另一种设定方法是将每个线段的斜率表示为与前面线段斜率的偏差。在此设定方法中,需要创建一系列不同的新变量。假设有k个节点,X是原始变量,v1,…,vn+1是创建的变量。那么
1702647403
1702647404 v1=X
1702647405
1702647406 如果X>k1,v2=X-k1,否则,v2=0
1702647407
1702647408 ……
1702647409
1702647410 如果X>kn,vn+1=X-kn,否则,vn+1=0
1702647411
1702647412 为了了解此过程,考虑我们现在所讲的例子,即在教育获得的趋势线上将1947年作为一个节点。运用上述新的设定方法,v1=出生年份(X),如果X>1947,则v2=X-1947,否则v2=0。那么,对1947年或以前出生的人,我们有:
1702647413
1702647414
1702647415
1702647416
1702647417 而对1947年以后出生的人,我们有:
1702647418
1702647419
1702647420
1702647421
1702647422 因此,对1948年出生的人,其期望受教育水平为(a+48b1)+b2;对1949年出生的人,其期望受教育水平为(a+49b1)+2b2;依此类推。显然,b2就是后一个线段的斜率与前一个线段斜率的偏差。有关这些方法的讨论,见Smith(1979)和Gould(1993)。
1702647423
1702647424 线段的系数表明,对1947年或以前出生的人,每个相邻出生队列的受教育年限预期会增加0.086年。因此,相隔12年出生的人平均将会有大约1年的受教育年限差别。然而,对1947年或以后出生的人,教育获得没有表现出这种趋势;系数0.0092意味着平均受教育年限增加一年将会经历大约一个世纪的时间。这个结果多少有些出人意料,尤其是处于劣势的少数族群(例如黑人和本土出生的拉丁裔美国人,以及女性),其平均受教育水平都有显著的提高。正如Mare(1995:163)所指出的,处于劣势的族群的受教育水平相对于白人来说随时间在提高。因此,对教育获得趋势按族群进行分析是有意义的,尽管本书限于篇幅没有做这种分析,但那将会是一篇有趣的文章。根据线性样条模型系数做出的图见图7-8,图中的点代表对每个出生队列抽取2%的随机样本后得到的观察值(从5%减少到2%是为了更容易看清样条线的形状)。为了作图,我使用了Stata软件中的-jitter-命令,以清楚地显示图中数据点分布的疏密程度。
1702647425
1702647426
1702647427
1702647428
1702647429 图7-8 美国成年人按出生年份划分的完成的受教育年限趋势(与图7-5所用的数据一样;散点图为2%的样本);预测值来自节点位于1947年的线性样条模型
1702647430
1702647431 第二个具体例子(具有非连续性特征):中国在“文化大革命”前后以及“文化大革命”期间的教育质量
1702647432
1702647433 样条函数的典型用途是估计类似于前面讨论过的方程,即所有点都是连续的,但斜率在某些点(“节点”)上会发生变化。然而,有时我们可能想设定非连续性函数(discontinuous functions)。中国的“文化大革命”就是这样一个例子。可以推断,在1966年“文化大革命”开始时,社会秩序遭到重大破坏,以至于假设任何连续趋势都不合适。Deng和Treiman(1997)就教育(不平等结构)再生产的趋势做出了同样的推断。他们认为,存在一个逐渐“恢复正常”的过程,以至于1977年“文化大革命”结束之后的变化并不是很急剧,因此,用样条函数中的一个节点而非用趋势线的中断来表示更为合适。
1702647434
1702647435 这里,我们考虑“文化大革命”的另一个结果,即教育质量〔该例改编自Treiman(2007a)〕。虽然小学在“文化大革命”期间保持开放,但初中以上的学校在不同时期呈停顿状态:多数中学在1966~1968年关闭了两年,多数大学及其他高等教育机构在1966~1972年被关闭了6年。此外,据众多报道,当学校重新开放时,几乎没有进行任何常规教学,教学时间也被政治会议和政治教育所占据。严格的学校教学直到1977年毛泽东去世后才完全恢复。在这样的背景下,我们可以推测,那些不幸在“文化大革命”期间正处于学龄段的人除了受教育年数不够之外,与“文化大革命”前后受教育年数相同的人相比,他们所受教育的质量也不好。
1702647436
1702647437 为了检验这个假设,我们可以使用曾在第6章中分析过的对中国成年人样本进行的10个中文词的识别测试(见表6-2)。像前面一样,我将正确识别的中文词的数量作为识字水平的测量,并假设在控制了完成的受教育年限之后,在“文化大革命”期间年龄进入11岁年龄段的人比在“文化大革命”前后进入11岁年龄段的人认识的中文词要少。此外,作为对Deng和Treiman(1997)研究的延续,我假设所识别的中文词数量的历时趋势在“文化大革命”开始而非结束的时候存在非连续性。要进行这样的检验,我估计下面形式的方程:
1702647438
1702647439
1702647440
1702647441
1702647442 这里,如果在1955年或以前出生,则B1=出生年份(仅取后两位数),如果在1955年以后出生,则B1=55;如果在1956年以前出生,则B2=0,如果在1956~1967年出生(含1956年和1967年),则B2=出生年份-55,如果在1967年以后出生,则B2=67-55;如果在1967年或以前出生,则B3=0,如果在1967年以后出生,则B3=出生年份-67;如果在1955年或以前出生,则D2=0,如果在1955年以后出生,则D2=1。注意,方程7.38与方程7.35之间的差异是,我纳入了一个虚拟变量以区别1955年以前和以后出生的人,这一设定允许线段在1955年不连续。如果我假设线段在1967年不连续,在数学上将会相当于对“文化大革命”前、“文化大革命”中和“文化大革命”后三个时期分别估计三个独立的方程,即用受教育年限和出生年份来预测中文词的识别数。像方程7.38这类方程的优点是,它们允许在一个一致的框架下设定不同的模型,这就使我们可以对模型进行选择。
1702647443
1702647444 此方程的估计结果见表7-3和表7-4中的模型4。像前面的例子一样,我将自己基于理论思考的方程设定与其他模型进行比较。这些模型包括:线性趋势模型、逐年变化的模型、在“文化大革命”开始和结束时都有一个节点但没有不连续点的模型、在“文化大革命”开始和结束时都存在不连续点的模型、三个线性样条模型,以及分别在三个样条函数中允许在“文化大革命”期间出生年份和识字水平之间存在曲线关系的模型。BIC值的比较结果表明,在所有的模型中有三个明显胜出。这三个模型分别是:我假设的模型;在“文化大革命”开始时存在不连续点并且允许“文化大革命”期间存在曲线趋势的模型;在“文化大革命”开始和结束时都存在不连续点的模型。从数据拟合性上来说这三个模型基本相当,尽管有微弱的证据表明单节点模型(即作者假设的模型,也即表7-3中的模型4——译者注)更优。
1702647445
1702647446 表7-3 在控制受教育年限后,按出生年份划分的识字水平模型的拟合优度统计量,对“文化大革命”的影响进行了各种模型设定(受“文化大革命”影响的人被定义为在1966~1977年进入11岁年龄段的人),1996年20~69岁的中国成年人(N=6086)
1702647447
1702647448
1702647449
[ 上一页 ]  [ :1.7026474e+09 ]  [ 下一页 ]