打字猴:1.70264516e+09
1702645160 (1)由于四舍五入取整引起的误差,表中百分比有时加总后不等于100%。偏差一个百分点是可以接受的(99~101)。较大的偏差可能是计算错误,要仔细检查。
1702645161
1702645162 (2)要注意标题表述的方法。标题讲述了这是什么表(百分比分布),包含哪些变量(习惯上先列出因变量),样本是什么(美国城市黑人),以及数据收集的时间(1964年)。一个表应该始终包含足够的信息,使读者不看文字也能读懂。因此,标题和变量名称应当清楚且完整;如果标题的空间不够,应当在脚注中对表加以说明。
1702645163
1702645164 (3)在解释百分比分布时,通常只比较两个极端的类别,而忽略中间类别。因此,之前我们指出“非常虔诚”的比例随受教育程度的提高而下降,而“根本不信教”的比例随受教育程度的提高而上升。关于中间类别(“有点虔诚”和“不怎么虔诚”)如何随受教育程度变化的相似结论是很难得出的,因为这些人有可能被归到邻近的类别中,从而导致得出不同的结论。例如,在大学受教育程度的人群中,如果“有点虔诚”或“根本不信教”的百分比较小,那么“不怎么虔诚”的百分比可能会较大。于是,如果将“不怎么虔诚”归为“有点虔诚”这一类别,则会得到大学受教育程度的人更易信教的结论;而如果将“不怎么虔诚”归为“根本不信教”这一类别,则会得到大学受教育程度的人不易信教的结论。因此,“不怎么虔诚”这一行不能单独解释,也就是说,通常我们不会根据表的中间行来做解释或得出结论。另一方面,把数据展示出来非常重要,以便读者知道你没有掩盖重要的细节,同时允许读者通过合并类别来重建表格(后面会谈到这一点)。
1702645165
1702645166 (4)在处理诸如宗教信仰虔诚度这类测度变量时,每个分布内百分比的相对大小没有什么意义。也就是说,相对大小的比较应该在自变量的不同类别之间进行,而不是在因变量的不同类别之间进行。在现在的例子中,正确的说法是:小学受教育程度的人比更高受教育程度的人更可能信教;而不正确的结论是:一半以上小学受教育程度的人为“有点虔诚”。这是因为变量的测度仅仅是序次测度,各类别没有一个绝对值。怎样才算是“非常虔诚”?我们所知道的是它比“有点虔诚”更虔诚。结果,我们可以简单地通过类别的组合来很容易地改变分布。举个例子,假如我们合并最上面的两行并称之为“虔诚”。在这种情况下,小学受教育程度的人中有88%的人是“虔诚”的。如果我们真的这样做,请思考这会如何改变我们针对此样本做出的结论。
1702645167
1702645168 其次,我们需要通过构建表1-4来判断受教育程度是否促进激进。
1702645169
1702645170 表1-4 1964年美国城市黑人按受教育程度划分的激进类别的百分比分布
1702645171
1702645172
1702645173
1702645174
1702645175 表1-4的技术要点
1702645176
1702645177 当你们用同样的数据做不同的表时,尽可能通过比较不同表中的数字来检查这些表的一致性。例如,表1-4中的样本数应该与表1-3中的一致。
1702645178
1702645179 从表1-4中我们看到,受教育程度越高,表现激进的百分比越大。小学受教育程度的人中仅有22%的人表现激进,高中受教育程度的人中有36%的人表现激进,而大学受教育程度的人中这一比例高达53%。换一种说法,即受教育程度和激进之间存在正相关关系:随着受教育程度提高,表现激进的概率也升高了。
1702645180
1702645181 因为相对于受教育较差的黑人,受过良好教育的城市黑人可以同时既更不信教又更激进,所以可能的情况是:①观察到的宗教信仰虔诚度和(非)激进之间的关系完全由它们相互依赖的受教育程度决定;②在受教育程度相同的人群中激进和宗教信仰虔诚度之间没有联系。如果这个证明是正确的话,我们会说受教育程度解释了宗教信仰虔诚度和激进之间的关系,并且这一关系是虚假的,因为它并不是由这两个变量之间存在因果关系导致的。
1702645182
1702645183 为了检验这种可能性,我们在各受教育程度类别内研究激进和宗教信仰虔诚度之间的关系。为了分析这种关系,我们构建一个激进类别的三维列联表,我们把激进类别按宗教信仰虔诚度划分,然后再按照受教育程度划分。这张表可以用两种不同的方式设置。第一种如表1-5,第二种如表1-6。
1702645184
1702645185 表1-5 1964年美国城市黑人按宗教信仰虔诚度和受教育程度划分的激进类别的百分比分布
1702645186
1702645187
1702645188
1702645189
1702645190 表1-5的技术要点
1702645191
1702645192 (1)在这类表中,受教育程度是控制变量。这样设置表是为了在各受教育程度类别内判断激进和宗教信仰虔诚度之间的关系,即“控制教育变量”,或“令教育变量为常数”,或“教育的净作用”(这三种表述的意思相同)。应当始终将控制变量放在交叉表的外面,以使它变化得最慢。这种形式便于读者读表,因为它把需要比较的数字放在相邻的列中。(我们有时想在控制两个自变量中的一个的情况下,研究另一个自变量与因变量之间的关系。在这些情况下,我们仍然会仅做一张表,并且以最容易读的形式做表。如果因变量是二分变量,或者可以被看作二分变量,我们就可以将表设置成表1-6的形式。)
1702645193
1702645194 (2)注意,这里“不怎么虔诚”和“根本不信教”这两类被合并在一起,这种情况常被称为类别的合并。当有些类别因样本太少而不能计算可信的结果时,经常采用合并的方法。在现在的例子中,如表1-1或表1-2所示,有36人根本不信教。如果再把他们分配到不同受教育程度类别中,这将导致每组样本太少从而不能得到激进类别百分比的可信估计。因此,我们可以把他们与相邻的“不怎么虔诚”组合并。
1702645195
1702645196 合并的另外一个原因是为了更清楚地呈现结果。分类过于详细会让读者难以抓住表的主要特征。通常情况下,减少分类数量是有帮助的。另一方面,如果自变量的类别在因变量的分布上不同,则合并类别会遮掩重要的特征。构建表的时候需要在清楚和准确之间取舍以达到很好的平衡,这就是为什么说构建表是一门艺术的原因。
1702645197
1702645198 从表1-5中可以看到,即使控制了受教育程度,宗教信仰虔诚度仍然抑制激进,尽管在宗教信仰虔诚度各类别间激进的百分比差别比没有控制受教育程度变量时(见表1-2)要小。〔我们在下一章将讨论引入一个控制变量后,计算相关性减小程度的一种方法,即加权后的净百分比差(weighted net percentage difference)。〕在小学受教育程度的人群中,有17%非常虔诚的人和32%不怎么虔诚或根本不信教的人是激进的;而在高中受教育程度的人中相应的比例是34%和47%,在大学受教育程度的人中则是38%和68%。因此,我们得出结论,受教育程度不能完全解释宗教信仰虔诚度和激进之间的反向关系。
1702645199
1702645200 这时,我们必须决定是否继续寻找其他的解释变量,这通常由实际需要和技术手段决定。如果我们有证据表明,在控制受教育程度的影响之后,某些其他因素还可能解释宗教信仰虔诚度和激进之间的关系,那么我们或许也应该控制那些因素。然而,要注意的是,附加变量在多大程度上解释两个初始变量(这里是宗教信仰虔诚度和激进)之间的关系将取决于附加变量与前面引入的控制变量之间的关系。如果附加变量与已经引入的变量高度相关到一定程度,那么附加变量对原始变量之间关系的影响将很小。这一点极为重要,在后面多元回归分析章节还会介绍,一定要确保你已经完全理解了这一点。
1702645201
1702645202 以年龄为例,你们预期年龄与宗教信仰虔诚度和激进之间有什么样的关系呢?
1702645203
1702645204 暂停一下,想想这个问题
1702645205
1702645206 宗教信仰虔诚度可能与年龄呈正相关关系——年长的人更易信教;而激进与年龄呈负相关关系——年轻人更倾向于激进。因此,我们可能期望宗教信仰虔诚度与激进之间的关系是由年龄这一变量引起的一种虚假关系。也就是说,在各年龄组内宗教信仰虔诚度和激进之间不存在关系。
1702645207
1702645208 但是,年龄和受教育程度之间是什么关系呢?实际上,就我们对黑人受教育程度长期趋势的了解,我们可以预期年轻黑人所受的教育比年长的黑人好得多。如果情况真的是这样,年龄和受教育程度可能对宗教信仰虔诚度和激进之间的关系具有相似的影响。因此,相对于受教育程度变量作为唯一控制变量时的影响而言,在受教育程度变量的基础上再引入年龄变量不可能很明显地削弱宗教信仰虔诚度和激进之间的关系。
1702645209
[ 上一页 ]  [ :1.70264516e+09 ]  [ 下一页 ]