1702645100
1702645101
表1-1 1964年美国城市黑人按宗教信仰虔诚度和激进类别划分的联合频数分布
1702645102
1702645103
1702645104
1702645105
1702645106
表1-1的技术要点
1702645107
1702645108
(1)行的合计与列的合计统称为边缘和。它们分别是每一个变量的频数分布,即单变量的频数分布(横着读行,纵着读列)。样本总数(或受访者,或个人)显示在表的右下角方格内(或表的右下角位置)。注意,这个样本总数比抽样样本少(原抽样总数是1119人)。之所以有差别是因为数据缺失,也就是说,一些受访者没有回答所有用来构建宗教信仰虔诚度和激进测度的问题。我们在后面会进一步讨论缺失数据问题。但现在,我们忽略这些缺失数据,并假设样本只有993位受访者。
1702645109
1702645110
(2)表内8个单元格提供了双变量频数分布,即宗教信仰虔诚度与激进类别各种组合的频数。
1702645111
1702645112
(3)变量和应答类别的名称放在表端。
1702645113
1702645114
(4)在构建表的时候,明智的做法是核实数据录入的准确性。将每一行的数据加总以确认它们对应于列的边缘和,例如,61+169=230,等等;将每一列的数据加总以确认它们对应于行的边缘和,例如,61+160+87+25=333,等等;然后将所有列和行的边缘和相加以确认所有受访者之和等于表中的合计数。在做表过程中很容易产生错误,特别是在复制表的时候,你最好在交付印刷之前自己发现错误,而不是在出版之后由读者发现它们。应该牢记复查你们的表格。
1702645115
1702645116
从这张表我们能够判断宗教信仰虔诚度是促进还是抑制激进吗?答案是不尽然。为了做此判断,我们需要知道在每个宗教信仰虔诚度类别中表现激进的人的相对概率。如果这个概率随着宗教信仰虔诚度的上升而上升,我们就可以得出结论:宗教信仰虔诚度促进了激进;如果这个概率随着宗教信仰虔诚度的下降而下降,我们就可以得出结论:宗教是镇定剂。相对概率可以通过计算每个宗教信仰虔诚度类别中表现激进的人的条件概率得到,即假设某个人属于某类宗教信仰虔诚度时这个人激进的概率。这些条件概率可以表示为61/230、160/532、87/195和25/36。尽管这种表示概率的方法完全没有错,但如果将它们表示为百分比的形式会更容易解释:(61/230)×100=27%,其他的依此类推。
1702645117
1702645118
事实上,我们通常在最开始就列出百分比形式的列联表,而不是列出频数表,这样很容易直接比较相对概率。也就是说,我们通常不会列出像表1-1那样的表,而是做像表1-2那样的表。
1702645119
1702645120
表1-2 1964年美国城市黑人按宗教信仰虔诚度划分的激进类别的百分比
1702645121
1702645122
1702645123
1702645124
1702645125
表1-2的技术要点
1702645126
1702645127
(1)始终包含合计百分比(即包含100%这一行)。虽然这看起来可能多余且浪费空间,但它能使读者非常清楚你做百分数表的方向。当缺少合计百分比这行时,读者就可能不得不加总几行和/或几列来理解表。将百分比符号加在第一行的数字上和合计的那一行上也是有用的,它可以清楚地告诉读者这是一张百分数表。
1702645128
1702645129
(2)保留百分比的整数位就已足够准确了。你只需要保证数据的准确性,而不必太在意数据的精确性。因此,百分比的小数点位数通常是无关紧要的。很难想象有读者想精确地知道有37.44%的女性和41.87%的男性做某事,对读者来说知道有37%的女性和42%的男性做某事就足够了。顺便说一句,四舍五入的原则一般是取偶整数。因此,37.50变为38,而36.50变为36。当然,36.51变为37,37.49也变为37。只有当你有许多分类的分布并很在意四舍五入的误差时,你才需要保留小数点位数。
1702645130
1702645131
(3)总是保留计算百分比所依据的样本总数(即百分比的分母)。这可以让读者重建频数表(在近似误差的范围内),从而可以将数据变换成不同的形式。值得注意的是,表1-2包含了表1-1中所有的信息——因为用表1-2可以重建表1-1:230的27%是62.1,近似等于62(在61的近似误差范围内),等等。习惯上将百分比的分母数放在括号内,这样数值看得更清楚,在表中也更显眼。
1702645132
1702645133
(4)包含列的合计有时也是有用的,就像我在这里所做的,但有时这么做也没有用处。是否保留取决于实际需要。在现在的例子中,大约三分之一的总样本是激进类别(如Marx所定义的),因此,这里报告了因变量的边缘分布。回想一下上一节定义的“激进分子”是指那些在激进测度的8个题项中至少在6个题项上给出激进回答的人。我们现在清楚大约有三分之一的样本做了这样的选择。显然,如果我们将至少在5个题项上给出激进回答的人定义为“激进分子”的话,那么这个激进类别的比例将会更高。
1702645134
1702645135
(5)没有规定要求必须把表设计成其中的百分比是自上而下的,即每列的百分比从上往下加总合计为100%。在表1-2中,因变量的分类是行,而自变量的分类是列。当然,如果倒置看起来更方便,即自变量的分类是行,这也是完全可以接受的。有件事必须牢记,在自变量的每一类别内,所有因变量类别的百分比分布合计必须等于100%。因此,如果因变量的类别构成列,那么表就应该按照每一行来计算百分比。
1702645136
1702645137
做百分数表的方向
1702645138
1702645139
注意,做百分数表的方向不是完全随意的,而是由将要检验的假设的性质决定。这里提出的问题是宗教信仰虔诚度是促进还是抑制激进。在这个表述中,宗教信仰虔诚度被假设为会影响、导致或决定激进,而不是相反的情况。(你可以想象一个相反的假设——我们或许假设激进分子会倾向于对宗教失去兴趣,因为民权运动消磨了他们的热情。但这不是这里要检验的想法。)被决定的或被影响的或导致的变量被称为因变量(dependent variable);作为原因的、决定的或影响的变量被称为自变量(independent variable)或预测变量(predictor)。因果顺序的选择始终是一个理论问题,而不能由数据来推断。
1702645140
1702645141
因果顺序的选择决定了制表的方式。在大多数情况(后面将会涉及一个例外)下,表格应当始终用来表示条件概率,即在给定某一个体属于自变量的某一特定类别时,这个个体属于因变量的某一类别的概率。(不要受“表格用百分比来表示而文字用概率来表示”这种说法的迷惑,它们是一样的。一个百分比,其含义是“百分之……”,只是一个乘上100的概率。百分比的范围是从0到100;概率的范围是从0到1.00。)因此,我在表1-2中指出,在每种宗教信仰虔诚度中表现激进的百分比,相当于我在表示一个条件概率(×100),即给定一个城市黑人在分别是非常虔诚、有点虔诚、不怎么虔诚或根本不信教的情况下,这个城市黑人表现激进的概率。注意,当宗教信仰虔诚度下降时,表现激进的概率上升。在非常虔诚的人中有27%的人表现激进,在有点虔诚的人中有30%的人表现激进,在不怎么虔诚的人中有45%的人表现激进,在根本不信教的人中有69%的人表现激进。因此,考虑到我们(及Marx)开始做的假设——宗教被认为是镇定剂或者是催化剂——我们可以得出以下结论:宗教是一剂镇定剂,因为人们越虔诚地信仰宗教,越不可能成为激进分子。
1702645142
1702645143
完全理解这个例子是非常重要的,因为这个例子所呈现的计算百分比和比较百分比的逻辑适用于所有列联表。
1702645144
1702645145
控制变量
1702645146
1702645147
现在,我们已经知道了表现激进的概率随宗教信仰虔诚度的下降而上升。我们应该就此停止吗?如果到此为止,那就意味着我们要接受宗教是一个诱因的假设。也就是说,我们将得出的结论是:宗教可以让人们变得更不激进。假如我们有很强的理论支持:在任何情况下,宗教信仰虔诚度和激进之间都存在负相关,那么我们或许就可以认为我们做的双变量列联表是一种恰当的检验方法。但在一般情况下,我们会考虑是否存在其他的原因可以解释我们观察到的关系。例如,以现在的例子来看,我们或许会怀疑宗教信仰虔诚度和激进两者都由第三个因素决定。一种明显的可能性是教育。我们或许可以这样想:相比于所受教育较差的黑人来说,那些受过良好教育的黑人可能既不怎么信教,又更激进。如果是这样,那么即使宗教信仰虔诚度和激进之间没有因果联系,两者也会表现为负相关。这被称为虚假关联(spurious association)或虚假相关(spurious correlation)。
1702645148
1702645149
怎样检验这种可能性呢?
[
上一页 ]
[ :1.7026451e+09 ]
[
下一页 ]