打字猴:1.70264742e+09
1702647420
1702647421
1702647422 因此,对1948年出生的人,其期望受教育水平为(a+48b1)+b2;对1949年出生的人,其期望受教育水平为(a+49b1)+2b2;依此类推。显然,b2就是后一个线段的斜率与前一个线段斜率的偏差。有关这些方法的讨论,见Smith(1979)和Gould(1993)。
1702647423
1702647424 线段的系数表明,对1947年或以前出生的人,每个相邻出生队列的受教育年限预期会增加0.086年。因此,相隔12年出生的人平均将会有大约1年的受教育年限差别。然而,对1947年或以后出生的人,教育获得没有表现出这种趋势;系数0.0092意味着平均受教育年限增加一年将会经历大约一个世纪的时间。这个结果多少有些出人意料,尤其是处于劣势的少数族群(例如黑人和本土出生的拉丁裔美国人,以及女性),其平均受教育水平都有显著的提高。正如Mare(1995:163)所指出的,处于劣势的族群的受教育水平相对于白人来说随时间在提高。因此,对教育获得趋势按族群进行分析是有意义的,尽管本书限于篇幅没有做这种分析,但那将会是一篇有趣的文章。根据线性样条模型系数做出的图见图7-8,图中的点代表对每个出生队列抽取2%的随机样本后得到的观察值(从5%减少到2%是为了更容易看清样条线的形状)。为了作图,我使用了Stata软件中的-jitter-命令,以清楚地显示图中数据点分布的疏密程度。
1702647425
1702647426
1702647427
1702647428
1702647429 图7-8 美国成年人按出生年份划分的完成的受教育年限趋势(与图7-5所用的数据一样;散点图为2%的样本);预测值来自节点位于1947年的线性样条模型
1702647430
1702647431 第二个具体例子(具有非连续性特征):中国在“文化大革命”前后以及“文化大革命”期间的教育质量
1702647432
1702647433 样条函数的典型用途是估计类似于前面讨论过的方程,即所有点都是连续的,但斜率在某些点(“节点”)上会发生变化。然而,有时我们可能想设定非连续性函数(discontinuous functions)。中国的“文化大革命”就是这样一个例子。可以推断,在1966年“文化大革命”开始时,社会秩序遭到重大破坏,以至于假设任何连续趋势都不合适。Deng和Treiman(1997)就教育(不平等结构)再生产的趋势做出了同样的推断。他们认为,存在一个逐渐“恢复正常”的过程,以至于1977年“文化大革命”结束之后的变化并不是很急剧,因此,用样条函数中的一个节点而非用趋势线的中断来表示更为合适。
1702647434
1702647435 这里,我们考虑“文化大革命”的另一个结果,即教育质量〔该例改编自Treiman(2007a)〕。虽然小学在“文化大革命”期间保持开放,但初中以上的学校在不同时期呈停顿状态:多数中学在1966~1968年关闭了两年,多数大学及其他高等教育机构在1966~1972年被关闭了6年。此外,据众多报道,当学校重新开放时,几乎没有进行任何常规教学,教学时间也被政治会议和政治教育所占据。严格的学校教学直到1977年毛泽东去世后才完全恢复。在这样的背景下,我们可以推测,那些不幸在“文化大革命”期间正处于学龄段的人除了受教育年数不够之外,与“文化大革命”前后受教育年数相同的人相比,他们所受教育的质量也不好。
1702647436
1702647437 为了检验这个假设,我们可以使用曾在第6章中分析过的对中国成年人样本进行的10个中文词的识别测试(见表6-2)。像前面一样,我将正确识别的中文词的数量作为识字水平的测量,并假设在控制了完成的受教育年限之后,在“文化大革命”期间年龄进入11岁年龄段的人比在“文化大革命”前后进入11岁年龄段的人认识的中文词要少。此外,作为对Deng和Treiman(1997)研究的延续,我假设所识别的中文词数量的历时趋势在“文化大革命”开始而非结束的时候存在非连续性。要进行这样的检验,我估计下面形式的方程:
1702647438
1702647439
1702647440
1702647441
1702647442 这里,如果在1955年或以前出生,则B1=出生年份(仅取后两位数),如果在1955年以后出生,则B1=55;如果在1956年以前出生,则B2=0,如果在1956~1967年出生(含1956年和1967年),则B2=出生年份-55,如果在1967年以后出生,则B2=67-55;如果在1967年或以前出生,则B3=0,如果在1967年以后出生,则B3=出生年份-67;如果在1955年或以前出生,则D2=0,如果在1955年以后出生,则D2=1。注意,方程7.38与方程7.35之间的差异是,我纳入了一个虚拟变量以区别1955年以前和以后出生的人,这一设定允许线段在1955年不连续。如果我假设线段在1967年不连续,在数学上将会相当于对“文化大革命”前、“文化大革命”中和“文化大革命”后三个时期分别估计三个独立的方程,即用受教育年限和出生年份来预测中文词的识别数。像方程7.38这类方程的优点是,它们允许在一个一致的框架下设定不同的模型,这就使我们可以对模型进行选择。
1702647443
1702647444 此方程的估计结果见表7-3和表7-4中的模型4。像前面的例子一样,我将自己基于理论思考的方程设定与其他模型进行比较。这些模型包括:线性趋势模型、逐年变化的模型、在“文化大革命”开始和结束时都有一个节点但没有不连续点的模型、在“文化大革命”开始和结束时都存在不连续点的模型、三个线性样条模型,以及分别在三个样条函数中允许在“文化大革命”期间出生年份和识字水平之间存在曲线关系的模型。BIC值的比较结果表明,在所有的模型中有三个明显胜出。这三个模型分别是:我假设的模型;在“文化大革命”开始时存在不连续点并且允许“文化大革命”期间存在曲线趋势的模型;在“文化大革命”开始和结束时都存在不连续点的模型。从数据拟合性上来说这三个模型基本相当,尽管有微弱的证据表明单节点模型(即作者假设的模型,也即表7-3中的模型4——译者注)更优。
1702647445
1702647446 表7-3 在控制受教育年限后,按出生年份划分的识字水平模型的拟合优度统计量,对“文化大革命”的影响进行了各种模型设定(受“文化大革命”影响的人被定义为在1966~1977年进入11岁年龄段的人),1996年20~69岁的中国成年人(N=6086)
1702647447
1702647448
1702647449
1702647450
1702647451 表7-4 在控制了受教育年限后,预测各出生年份的人的识字水平模型4、5和7的系数(括号中是p值)
1702647452
1702647453
1702647454
1702647455
1702647456 这里,BIC和传统的推论方法再次产生了矛盾的结果,因为另外两个模型比我最初假设的模型拟合得更好(在0.01水平上显著)。到底哪个模型更好,我在这里有点左右为难。至于为何设想有一个不连续点和一个节点(在“文化大革命”结束时)的模型,我在前面已经做过说明。但是,其他分析者或许赞成有两个不连续点的模型,其依据是1977年恢复以学术知识为主要课程内容的激烈改革足以在“文化大革命”结束时导致一个不连续点的出现,就像“文化大革命”开始时会有一个不连续点一样。还有些分析者或许认为线性趋势这一设定实在过于严格(特别是在社会大动乱时代),因而针对“文化大革命”期间设想一个时间的曲线效应模型可能更为合理。我在自己的文章(Treiman,2007a)中提出在1955年有一个不连续点,在1967年有一个节点,在1955~1967年间存在曲线效应模型——见那篇文章的图7-4。但事实上,除了BIC之外并没有明确的证据告诉我们到底应该选择三个模型中的哪一个——BIC的结果表明最初假设的模型比其他两个模型在数据拟合性上稍胜一筹。我的建议仍然是以理论为依据。如果你对其中的某一模型设定有理论上的依据,那么就选择它;但与此同时,你必须承认其他模型设定拟合得几乎同样好的事实。其实,最理想的处理方法是同时给出这三个模型并让读者自己进行选择。这里有一个提醒:如果你这样做,杂志编辑很可能会有意见,因为他们总是试图让作者缩短文章的长度;审稿人或许也会提出异议,因为他们有时候似乎希望作者给出明确的结论,即使是在证据模棱两可的时候。
1702647457
1702647458 所有三个模型的估计系数显示在表7-4中。在所有三个模型中,受教育年限每增加一年,中文词的识别数就会增加约0.5个。然而,与历时趋势有关的系数相对而言较难解释。在这种情况下,用图来表示关系模式会有所帮助。图7-9(见下页)显示了三个模型对受过12年教育(即高中毕业)的人群中文词识别数的预测值。虽然三个图显得很不一样,但它们都显示那些在“文化大革命”早期年龄为11岁的人与那些具有同样文化程度但在“文化大革命”前后进入11岁年龄段的人相比,中文词识别数约少0.5个。因此,尽管在三个模型中进行选择存在困难,但它们都一致表明“文化大革命”期间教育质量下降了。在“文化大革命”期间接受初中教育的人相当于损失了一年的教育——也就是说,他们的识字水平相当于那些比他们少上一年学但却是在“文化大革命”前后接受教育的人。
1702647459
1702647460 我们在解释图7-9时还应该小心:“文化大革命”的影响看起来相当大,但这是由于用数据图示方法的缘故(y轴表示的中文词识别数的变动范围在5.3~6.7个之间)。图7-10将y轴的取值范围设定为0~10就表述了另一个截然不同的故事——中文词识别数只有非常轻微的下降。要想清楚地表明模型之间的差异,给出图7-9那样的图示是合情合理的,但如果这样做,负责任的分析者会提醒读者注意y轴的取值范围,以避免产生误解。
1702647461
1702647462
1702647463
1702647464
1702647465 量化数据分析:通过社会研究检验想法 [:1702644771]
1702647466 量化数据分析:通过社会研究检验想法 将系数表示为总均值的偏差(多分类分析)
1702647467
1702647468 处理分类自变量的传统方法是像前一章所讲的那样:省略一个类别,将其余类别的系数解释为与被省略类别的期望值的偏差。有时候,特别是在有大量类别的时候,更加可取的方法是将系数表示为与因变量均值的偏差。利用下面的关系式,我们可以实现这种系数转换:
1702647469
[ 上一页 ]  [ :1.70264742e+09 ]  [ 下一页 ]