打字猴:1.70264513e+09
1702645130
1702645131 (3)总是保留计算百分比所依据的样本总数(即百分比的分母)。这可以让读者重建频数表(在近似误差的范围内),从而可以将数据变换成不同的形式。值得注意的是,表1-2包含了表1-1中所有的信息——因为用表1-2可以重建表1-1:230的27%是62.1,近似等于62(在61的近似误差范围内),等等。习惯上将百分比的分母数放在括号内,这样数值看得更清楚,在表中也更显眼。
1702645132
1702645133 (4)包含列的合计有时也是有用的,就像我在这里所做的,但有时这么做也没有用处。是否保留取决于实际需要。在现在的例子中,大约三分之一的总样本是激进类别(如Marx所定义的),因此,这里报告了因变量的边缘分布。回想一下上一节定义的“激进分子”是指那些在激进测度的8个题项中至少在6个题项上给出激进回答的人。我们现在清楚大约有三分之一的样本做了这样的选择。显然,如果我们将至少在5个题项上给出激进回答的人定义为“激进分子”的话,那么这个激进类别的比例将会更高。
1702645134
1702645135 (5)没有规定要求必须把表设计成其中的百分比是自上而下的,即每列的百分比从上往下加总合计为100%。在表1-2中,因变量的分类是行,而自变量的分类是列。当然,如果倒置看起来更方便,即自变量的分类是行,这也是完全可以接受的。有件事必须牢记,在自变量的每一类别内,所有因变量类别的百分比分布合计必须等于100%。因此,如果因变量的类别构成列,那么表就应该按照每一行来计算百分比。
1702645136
1702645137 做百分数表的方向
1702645138
1702645139 注意,做百分数表的方向不是完全随意的,而是由将要检验的假设的性质决定。这里提出的问题是宗教信仰虔诚度是促进还是抑制激进。在这个表述中,宗教信仰虔诚度被假设为会影响、导致或决定激进,而不是相反的情况。(你可以想象一个相反的假设——我们或许假设激进分子会倾向于对宗教失去兴趣,因为民权运动消磨了他们的热情。但这不是这里要检验的想法。)被决定的或被影响的或导致的变量被称为因变量(dependent variable);作为原因的、决定的或影响的变量被称为自变量(independent variable)或预测变量(predictor)。因果顺序的选择始终是一个理论问题,而不能由数据来推断。
1702645140
1702645141 因果顺序的选择决定了制表的方式。在大多数情况(后面将会涉及一个例外)下,表格应当始终用来表示条件概率,即在给定某一个体属于自变量的某一特定类别时,这个个体属于因变量的某一类别的概率。(不要受“表格用百分比来表示而文字用概率来表示”这种说法的迷惑,它们是一样的。一个百分比,其含义是“百分之……”,只是一个乘上100的概率。百分比的范围是从0到100;概率的范围是从0到1.00。)因此,我在表1-2中指出,在每种宗教信仰虔诚度中表现激进的百分比,相当于我在表示一个条件概率(×100),即给定一个城市黑人在分别是非常虔诚、有点虔诚、不怎么虔诚或根本不信教的情况下,这个城市黑人表现激进的概率。注意,当宗教信仰虔诚度下降时,表现激进的概率上升。在非常虔诚的人中有27%的人表现激进,在有点虔诚的人中有30%的人表现激进,在不怎么虔诚的人中有45%的人表现激进,在根本不信教的人中有69%的人表现激进。因此,考虑到我们(及Marx)开始做的假设——宗教被认为是镇定剂或者是催化剂——我们可以得出以下结论:宗教是一剂镇定剂,因为人们越虔诚地信仰宗教,越不可能成为激进分子。
1702645142
1702645143 完全理解这个例子是非常重要的,因为这个例子所呈现的计算百分比和比较百分比的逻辑适用于所有列联表。
1702645144
1702645145 控制变量
1702645146
1702645147 现在,我们已经知道了表现激进的概率随宗教信仰虔诚度的下降而上升。我们应该就此停止吗?如果到此为止,那就意味着我们要接受宗教是一个诱因的假设。也就是说,我们将得出的结论是:宗教可以让人们变得更不激进。假如我们有很强的理论支持:在任何情况下,宗教信仰虔诚度和激进之间都存在负相关,那么我们或许就可以认为我们做的双变量列联表是一种恰当的检验方法。但在一般情况下,我们会考虑是否存在其他的原因可以解释我们观察到的关系。例如,以现在的例子来看,我们或许会怀疑宗教信仰虔诚度和激进两者都由第三个因素决定。一种明显的可能性是教育。我们或许可以这样想:相比于所受教育较差的黑人来说,那些受过良好教育的黑人可能既不怎么信教,又更激进。如果是这样,那么即使宗教信仰虔诚度和激进之间没有因果联系,两者也会表现为负相关。这被称为虚假关联(spurious association)或虚假相关(spurious correlation)。
1702645148
1702645149 怎样检验这种可能性呢?
1702645150
1702645151 首先,我们需要通过构建表1-3来检验是否教育确实降低了宗教信仰虔诚度。从表中我们可以看到,1964年城市黑人中受过良好教育的人倾向于不信教。在只有小学受教育程度的人中,有31%的人非常虔诚,相比之下,高中或大学受教育程度的人中只有19%的人非常虔诚。进一步看,小学受教育程度的人中只有1%的人根本不信教,高中受教育程度的人中有4%的人根本不信教,大学受教育程度的人中有11%的人根本不信教。因此,我们能够说,受教育程度和宗教信仰虔诚度之间是反向或负向相关:随着受教育程度提高,宗教信仰虔诚度降低。(仔细研究这张表,想一想为什么是这样做百分比计算。如果你们换一个方向做百分数表,你们会得出什么结论?)
1702645152
1702645153 表1-3 1964年美国城市黑人按受教育程度划分的宗教信仰虔诚度的百分比分布
1702645154
1702645155
1702645156
1702645157
1702645158 表1-3的技术要点
1702645159
1702645160 (1)由于四舍五入取整引起的误差,表中百分比有时加总后不等于100%。偏差一个百分点是可以接受的(99~101)。较大的偏差可能是计算错误,要仔细检查。
1702645161
1702645162 (2)要注意标题表述的方法。标题讲述了这是什么表(百分比分布),包含哪些变量(习惯上先列出因变量),样本是什么(美国城市黑人),以及数据收集的时间(1964年)。一个表应该始终包含足够的信息,使读者不看文字也能读懂。因此,标题和变量名称应当清楚且完整;如果标题的空间不够,应当在脚注中对表加以说明。
1702645163
1702645164 (3)在解释百分比分布时,通常只比较两个极端的类别,而忽略中间类别。因此,之前我们指出“非常虔诚”的比例随受教育程度的提高而下降,而“根本不信教”的比例随受教育程度的提高而上升。关于中间类别(“有点虔诚”和“不怎么虔诚”)如何随受教育程度变化的相似结论是很难得出的,因为这些人有可能被归到邻近的类别中,从而导致得出不同的结论。例如,在大学受教育程度的人群中,如果“有点虔诚”或“根本不信教”的百分比较小,那么“不怎么虔诚”的百分比可能会较大。于是,如果将“不怎么虔诚”归为“有点虔诚”这一类别,则会得到大学受教育程度的人更易信教的结论;而如果将“不怎么虔诚”归为“根本不信教”这一类别,则会得到大学受教育程度的人不易信教的结论。因此,“不怎么虔诚”这一行不能单独解释,也就是说,通常我们不会根据表的中间行来做解释或得出结论。另一方面,把数据展示出来非常重要,以便读者知道你没有掩盖重要的细节,同时允许读者通过合并类别来重建表格(后面会谈到这一点)。
1702645165
1702645166 (4)在处理诸如宗教信仰虔诚度这类测度变量时,每个分布内百分比的相对大小没有什么意义。也就是说,相对大小的比较应该在自变量的不同类别之间进行,而不是在因变量的不同类别之间进行。在现在的例子中,正确的说法是:小学受教育程度的人比更高受教育程度的人更可能信教;而不正确的结论是:一半以上小学受教育程度的人为“有点虔诚”。这是因为变量的测度仅仅是序次测度,各类别没有一个绝对值。怎样才算是“非常虔诚”?我们所知道的是它比“有点虔诚”更虔诚。结果,我们可以简单地通过类别的组合来很容易地改变分布。举个例子,假如我们合并最上面的两行并称之为“虔诚”。在这种情况下,小学受教育程度的人中有88%的人是“虔诚”的。如果我们真的这样做,请思考这会如何改变我们针对此样本做出的结论。
1702645167
1702645168 其次,我们需要通过构建表1-4来判断受教育程度是否促进激进。
1702645169
1702645170 表1-4 1964年美国城市黑人按受教育程度划分的激进类别的百分比分布
1702645171
1702645172
1702645173
1702645174
1702645175 表1-4的技术要点
1702645176
1702645177 当你们用同样的数据做不同的表时,尽可能通过比较不同表中的数字来检查这些表的一致性。例如,表1-4中的样本数应该与表1-3中的一致。
1702645178
1702645179 从表1-4中我们看到,受教育程度越高,表现激进的百分比越大。小学受教育程度的人中仅有22%的人表现激进,高中受教育程度的人中有36%的人表现激进,而大学受教育程度的人中这一比例高达53%。换一种说法,即受教育程度和激进之间存在正相关关系:随着受教育程度提高,表现激进的概率也升高了。
[ 上一页 ]  [ :1.70264513e+09 ]  [ 下一页 ]