1702645180
1702645181
因为相对于受教育较差的黑人,受过良好教育的城市黑人可以同时既更不信教又更激进,所以可能的情况是:①观察到的宗教信仰虔诚度和(非)激进之间的关系完全由它们相互依赖的受教育程度决定;②在受教育程度相同的人群中激进和宗教信仰虔诚度之间没有联系。如果这个证明是正确的话,我们会说受教育程度解释了宗教信仰虔诚度和激进之间的关系,并且这一关系是虚假的,因为它并不是由这两个变量之间存在因果关系导致的。
1702645182
1702645183
为了检验这种可能性,我们在各受教育程度类别内研究激进和宗教信仰虔诚度之间的关系。为了分析这种关系,我们构建一个激进类别的三维列联表,我们把激进类别按宗教信仰虔诚度划分,然后再按照受教育程度划分。这张表可以用两种不同的方式设置。第一种如表1-5,第二种如表1-6。
1702645184
1702645185
表1-5 1964年美国城市黑人按宗教信仰虔诚度和受教育程度划分的激进类别的百分比分布
1702645186
1702645187
1702645188
1702645189
1702645190
表1-5的技术要点
1702645191
1702645192
(1)在这类表中,受教育程度是控制变量。这样设置表是为了在各受教育程度类别内判断激进和宗教信仰虔诚度之间的关系,即“控制教育变量”,或“令教育变量为常数”,或“教育的净作用”(这三种表述的意思相同)。应当始终将控制变量放在交叉表的外面,以使它变化得最慢。这种形式便于读者读表,因为它把需要比较的数字放在相邻的列中。(我们有时想在控制两个自变量中的一个的情况下,研究另一个自变量与因变量之间的关系。在这些情况下,我们仍然会仅做一张表,并且以最容易读的形式做表。如果因变量是二分变量,或者可以被看作二分变量,我们就可以将表设置成表1-6的形式。)
1702645193
1702645194
(2)注意,这里“不怎么虔诚”和“根本不信教”这两类被合并在一起,这种情况常被称为类别的合并。当有些类别因样本太少而不能计算可信的结果时,经常采用合并的方法。在现在的例子中,如表1-1或表1-2所示,有36人根本不信教。如果再把他们分配到不同受教育程度类别中,这将导致每组样本太少从而不能得到激进类别百分比的可信估计。因此,我们可以把他们与相邻的“不怎么虔诚”组合并。
1702645195
1702645196
合并的另外一个原因是为了更清楚地呈现结果。分类过于详细会让读者难以抓住表的主要特征。通常情况下,减少分类数量是有帮助的。另一方面,如果自变量的类别在因变量的分布上不同,则合并类别会遮掩重要的特征。构建表的时候需要在清楚和准确之间取舍以达到很好的平衡,这就是为什么说构建表是一门艺术的原因。
1702645197
1702645198
从表1-5中可以看到,即使控制了受教育程度,宗教信仰虔诚度仍然抑制激进,尽管在宗教信仰虔诚度各类别间激进的百分比差别比没有控制受教育程度变量时(见表1-2)要小。〔我们在下一章将讨论引入一个控制变量后,计算相关性减小程度的一种方法,即加权后的净百分比差(weighted net percentage difference)。〕在小学受教育程度的人群中,有17%非常虔诚的人和32%不怎么虔诚或根本不信教的人是激进的;而在高中受教育程度的人中相应的比例是34%和47%,在大学受教育程度的人中则是38%和68%。因此,我们得出结论,受教育程度不能完全解释宗教信仰虔诚度和激进之间的反向关系。
1702645199
1702645200
这时,我们必须决定是否继续寻找其他的解释变量,这通常由实际需要和技术手段决定。如果我们有证据表明,在控制受教育程度的影响之后,某些其他因素还可能解释宗教信仰虔诚度和激进之间的关系,那么我们或许也应该控制那些因素。然而,要注意的是,附加变量在多大程度上解释两个初始变量(这里是宗教信仰虔诚度和激进)之间的关系将取决于附加变量与前面引入的控制变量之间的关系。如果附加变量与已经引入的变量高度相关到一定程度,那么附加变量对原始变量之间关系的影响将很小。这一点极为重要,在后面多元回归分析章节还会介绍,一定要确保你已经完全理解了这一点。
1702645201
1702645202
以年龄为例,你们预期年龄与宗教信仰虔诚度和激进之间有什么样的关系呢?
1702645203
1702645204
暂停一下,想想这个问题
1702645205
1702645206
宗教信仰虔诚度可能与年龄呈正相关关系——年长的人更易信教;而激进与年龄呈负相关关系——年轻人更倾向于激进。因此,我们可能期望宗教信仰虔诚度与激进之间的关系是由年龄这一变量引起的一种虚假关系。也就是说,在各年龄组内宗教信仰虔诚度和激进之间不存在关系。
1702645207
1702645208
但是,年龄和受教育程度之间是什么关系呢?实际上,就我们对黑人受教育程度长期趋势的了解,我们可以预期年轻黑人所受的教育比年长的黑人好得多。如果情况真的是这样,年龄和受教育程度可能对宗教信仰虔诚度和激进之间的关系具有相似的影响。因此,相对于受教育程度变量作为唯一控制变量时的影响而言,在受教育程度变量的基础上再引入年龄变量不可能很明显地削弱宗教信仰虔诚度和激进之间的关系。
1702645209
1702645210
抛开理论和逻辑关系上的考虑(如果一个变量理论上相关,就该加进任何解释变量吗?),在一个列联表中限制变量数量的一个直接的技术原因是我们很快就会发现没有足够的样本数了。大多数抽样调查都包含几百甚至几千个样本。我们已经看到,一个三维变量的列联表就需要我们把宗教信仰虔诚度的两个类别进行合并。用同一个数据生成一个四维变量的列联表可能产生更多百分比过小的分布,这样会导致结果非常不可信。由于列联表研究三维以上的变量存在困难,这促使我们寻找一些回归分析的替代形式。本书后面的很多内容将会致力于详细讲解基于回归的各种方法。
1702645211
1702645212
表1-5通过比较三组中每组的相应列,让我们在控制了宗教信仰虔诚度变量之后能估计受教育程度变量对激进的影响。因此,我们会注意到,在那些非常虔诚的人中,小学受教育程度的人中有17%的人是激进的,相比较而言,高中受教育程度的人中有34%的人是激进的,大学受教育程度的人中有38%的人是激进的;在那些有点虔诚的人中,相应的比例分别为22%、32%和48%;在那些不怎么虔诚或根本不信教的人中,相应的比例分别为32%、47%和68%。因此,我们得出结论,无论宗教信仰虔诚度如何,所受教育越好越激进。
1702645213
1702645214
但这种比较的方法非常繁琐,因为需要在整张表中到处寻找合适的单元格。当因变量是二分变量的时候,即只有两个应答分类时,我们可以把表做得更简洁和引人注目。表1-6包含了与表1-5完全一样的信息,但更加简洁。像表1-6这类表被称为三维表。
1702645215
1702645216
表1-6 1964年美国城市黑人按宗教信仰虔诚度和受教育程度划分的激进的百分比分布(三维形式)
1702645217
1702645218
1702645219
1702645220
1702645221
表1-6的技术要点
1702645222
1702645223
每对数字给出了具有某类特征人群的百分比和计算这个百分比的基数或分母。所以,表中左上角的数字表明,在非常虔诚且是小学受教育程度的108人中,有17%的人是激进的。我们用这张表可以重建前面五张表中的任何一张(不怎么虔诚或根本不信教这两类被合并为一类),当然存在一定的四舍五入误差。你可以尝试做一做,以确保你理解了这些表之间的关系。
1702645224
1702645225
比较表1-5和表1-6,你们会看到它们准确地包含了同样的信息——表1-5中所有附加的数字都是多余的。重要的是,表1-6更容易懂,因为我们只要简单地顺着列向下读,就可以看到在保持受教育程度不变的条件下,宗教信仰虔诚度对激进的影响;而只需简单地按行来读,就可以看到在保持宗教信仰虔诚度不变的条件下,受教育程度对激进的影响。
1702645226
1702645227
1702645228
1702645229
[
上一页 ]
[ :1.70264518e+09 ]
[
下一页 ]