1702647450
1702647451
表7-4 在控制了受教育年限后,预测各出生年份的人的识字水平模型4、5和7的系数(括号中是p值)
1702647452
1702647453
1702647454
1702647455
1702647456
这里,BIC和传统的推论方法再次产生了矛盾的结果,因为另外两个模型比我最初假设的模型拟合得更好(在0.01水平上显著)。到底哪个模型更好,我在这里有点左右为难。至于为何设想有一个不连续点和一个节点(在“文化大革命”结束时)的模型,我在前面已经做过说明。但是,其他分析者或许赞成有两个不连续点的模型,其依据是1977年恢复以学术知识为主要课程内容的激烈改革足以在“文化大革命”结束时导致一个不连续点的出现,就像“文化大革命”开始时会有一个不连续点一样。还有些分析者或许认为线性趋势这一设定实在过于严格(特别是在社会大动乱时代),因而针对“文化大革命”期间设想一个时间的曲线效应模型可能更为合理。我在自己的文章(Treiman,2007a)中提出在1955年有一个不连续点,在1967年有一个节点,在1955~1967年间存在曲线效应模型——见那篇文章的图7-4。但事实上,除了BIC之外并没有明确的证据告诉我们到底应该选择三个模型中的哪一个——BIC的结果表明最初假设的模型比其他两个模型在数据拟合性上稍胜一筹。我的建议仍然是以理论为依据。如果你对其中的某一模型设定有理论上的依据,那么就选择它;但与此同时,你必须承认其他模型设定拟合得几乎同样好的事实。其实,最理想的处理方法是同时给出这三个模型并让读者自己进行选择。这里有一个提醒:如果你这样做,杂志编辑很可能会有意见,因为他们总是试图让作者缩短文章的长度;审稿人或许也会提出异议,因为他们有时候似乎希望作者给出明确的结论,即使是在证据模棱两可的时候。
1702647457
1702647458
所有三个模型的估计系数显示在表7-4中。在所有三个模型中,受教育年限每增加一年,中文词的识别数就会增加约0.5个。然而,与历时趋势有关的系数相对而言较难解释。在这种情况下,用图来表示关系模式会有所帮助。图7-9(见下页)显示了三个模型对受过12年教育(即高中毕业)的人群中文词识别数的预测值。虽然三个图显得很不一样,但它们都显示那些在“文化大革命”早期年龄为11岁的人与那些具有同样文化程度但在“文化大革命”前后进入11岁年龄段的人相比,中文词识别数约少0.5个。因此,尽管在三个模型中进行选择存在困难,但它们都一致表明“文化大革命”期间教育质量下降了。在“文化大革命”期间接受初中教育的人相当于损失了一年的教育——也就是说,他们的识字水平相当于那些比他们少上一年学但却是在“文化大革命”前后接受教育的人。
1702647459
1702647460
我们在解释图7-9时还应该小心:“文化大革命”的影响看起来相当大,但这是由于用数据图示方法的缘故(y轴表示的中文词识别数的变动范围在5.3~6.7个之间)。图7-10将y轴的取值范围设定为0~10就表述了另一个截然不同的故事——中文词识别数只有非常轻微的下降。要想清楚地表明模型之间的差异,给出图7-9那样的图示是合情合理的,但如果这样做,负责任的分析者会提醒读者注意y轴的取值范围,以避免产生误解。
1702647461
1702647462
1702647463
1702647464
1702647466
量化数据分析:通过社会研究检验想法 将系数表示为总均值的偏差(多分类分析)
1702647467
1702647468
处理分类自变量的传统方法是像前一章所讲的那样:省略一个类别,将其余类别的系数解释为与被省略类别的期望值的偏差。有时候,特别是在有大量类别的时候,更加可取的方法是将系数表示为与因变量均值的偏差。利用下面的关系式,我们可以实现这种系数转换:
1702647469
1702647470
1702647471
1702647472
1702647473
这里,aij是第i个预测变量的第j个类别系数,表示为与因变量均值的偏差;bij是对应的与虚拟变量有关的系数;Qi是调整系数,它将每个自变量各类别系数的加权和限定为0;pij是所有属于第i个预测变量的第j个类别的样本比例(Andrews et al.,1973:45-47)。
1702647474
1702647475
1702647476
1702647477
1702647478
图7-9 控制受教育年限(12年)不变后,1996年“文化大革命”对中国成年人识字水平的影响的三个模型的图示(N=6086)
1702647479
1702647480
1702647481
1702647482
1702647483
图7-10 将图7-9的y轴变为全范围取值后的图示
1702647484
1702647485
为了了解这些系数是如何产生效果的,我们来考虑宗教派别和容忍度之间的关系。分析任务包括以下两个方面:·评估各宗教派别对反宗教行为的容忍度有什么差别以及有多大程度的差别;
1702647486
1702647487
·评估观测到的宗教派别之间的差别在多大程度上可以归结为他们在受教 育程度和居住地上的差别,因为这些变量被认为会影响容忍度(受教育 程度越高的人和非南方居民比其他人群的容忍度高)。我从使用常规方法估计两个回归方程开始——一个方程只含表示宗教派别的虚拟变量,另一个方程在此基础上还包括了受教育程度和在南方居住这两个变量;我使用的是2000年、2002年和2004年的GSS合并数据,这样做的目的是增加样本量,因为某些宗教派别的人数太少,而容忍度问题每年又只问及一部分受访者。结果显示在表7-5的左边一栏。我接着用方程7.39将这些系数重新表示为与因变量均值的偏差,结果见表7-5中的右边一栏。
1702647488
1702647489
表7-5 2000~2004年美国成年人对无神论者容忍度的模型系数(N=3446)
1702647490
1702647491
1702647492
1702647493
1702647494
通常来说你们不需要同时报告两组系数,而应该选择其中一组——要么用虚拟变量表达,要么用多分类变量表达。我在这里之所以一起报告是为了让你们明白系数之间的关系。
1702647495
1702647496
请注意,系数之间的差在两种表达方式中是一样的。例如,在模型1中,卫理公会教徒和浸礼会教友在容忍度得分上的差异都是0.395=0.395-0=-0.027-(-0.422)。类似地,这两个宗教派别在模型2中的差别都是0.298=0.298-0=-0.010-(-0.398)。
1702647497
1702647498
经重新表达后的系数告诉了我们什么呢?我认为它们更容易解释。首先,考虑模型1。我们从此模型中看到,浸礼会教友的容忍度明显低于平均水平,而犹太教徒和不信教的群体的容忍度明显地高于平均水平,路德会教友和“其他宗教信仰群体”的容忍度只是略高于平均水平。但是,这些差异,尤其是犹太教徒较高的容忍度,在一定程度上可以被宗教派别之间在受教育程度和居住地域方面的差异所解释,因为总体上说,在控制了这两个变量以后各宗教派别的容忍度得分与样本总均值之间的偏差是下降的。
1702647499
[
上一页 ]
[ :1.70264745e+09 ]
[
下一页 ]