打字猴:1.702645195e+09

1702645195

1702645196 合并的另外一个原因是为了更清楚地呈现结果。分类过于详细会让读者难以抓住表的主要特征。通常情况下，减少分类数量是有帮助的。另一方面，如果自变量的类别在因变量的分布上不同，则合并类别会遮掩重要的特征。构建表的时候需要在清楚和准确之间取舍以达到很好的平衡，这就是为什么说构建表是一门艺术的原因。

1702645197

1702645198 从表1-5中可以看到，即使控制了受教育程度，宗教信仰虔诚度仍然抑制激进，尽管在宗教信仰虔诚度各类别间激进的百分比差别比没有控制受教育程度变量时（见表1-2）要小。〔我们在下一章将讨论引入一个控制变量后，计算相关性减小程度的一种方法，即加权后的净百分比差（weighted net percentage difference）。〕在小学受教育程度的人群中，有17%非常虔诚的人和32%不怎么虔诚或根本不信教的人是激进的；而在高中受教育程度的人中相应的比例是34%和47%，在大学受教育程度的人中则是38%和68%。因此，我们得出结论，受教育程度不能完全解释宗教信仰虔诚度和激进之间的反向关系。

1702645199

1702645200 这时，我们必须决定是否继续寻找其他的解释变量，这通常由实际需要和技术手段决定。如果我们有证据表明，在控制受教育程度的影响之后，某些其他因素还可能解释宗教信仰虔诚度和激进之间的关系，那么我们或许也应该控制那些因素。然而，要注意的是，附加变量在多大程度上解释两个初始变量（这里是宗教信仰虔诚度和激进）之间的关系将取决于附加变量与前面引入的控制变量之间的关系。如果附加变量与已经引入的变量高度相关到一定程度，那么附加变量对原始变量之间关系的影响将很小。这一点极为重要，在后面多元回归分析章节还会介绍，一定要确保你已经完全理解了这一点。

1702645201

1702645202 以年龄为例，你们预期年龄与宗教信仰虔诚度和激进之间有什么样的关系呢？

1702645203

1702645204 暂停一下，想想这个问题

1702645205

1702645206 宗教信仰虔诚度可能与年龄呈正相关关系——年长的人更易信教；而激进与年龄呈负相关关系——年轻人更倾向于激进。因此，我们可能期望宗教信仰虔诚度与激进之间的关系是由年龄这一变量引起的一种虚假关系。也就是说，在各年龄组内宗教信仰虔诚度和激进之间不存在关系。

1702645207

1702645208 但是，年龄和受教育程度之间是什么关系呢？实际上，就我们对黑人受教育程度长期趋势的了解，我们可以预期年轻黑人所受的教育比年长的黑人好得多。如果情况真的是这样，年龄和受教育程度可能对宗教信仰虔诚度和激进之间的关系具有相似的影响。因此，相对于受教育程度变量作为唯一控制变量时的影响而言，在受教育程度变量的基础上再引入年龄变量不可能很明显地削弱宗教信仰虔诚度和激进之间的关系。

1702645209

1702645210 抛开理论和逻辑关系上的考虑（如果一个变量理论上相关，就该加进任何解释变量吗？），在一个列联表中限制变量数量的一个直接的技术原因是我们很快就会发现没有足够的样本数了。大多数抽样调查都包含几百甚至几千个样本。我们已经看到，一个三维变量的列联表就需要我们把宗教信仰虔诚度的两个类别进行合并。用同一个数据生成一个四维变量的列联表可能产生更多百分比过小的分布，这样会导致结果非常不可信。由于列联表研究三维以上的变量存在困难，这促使我们寻找一些回归分析的替代形式。本书后面的很多内容将会致力于详细讲解基于回归的各种方法。

1702645211

1702645212 表1-5通过比较三组中每组的相应列，让我们在控制了宗教信仰虔诚度变量之后能估计受教育程度变量对激进的影响。因此，我们会注意到，在那些非常虔诚的人中，小学受教育程度的人中有17%的人是激进的，相比较而言，高中受教育程度的人中有34%的人是激进的，大学受教育程度的人中有38%的人是激进的；在那些有点虔诚的人中，相应的比例分别为22%、32%和48%；在那些不怎么虔诚或根本不信教的人中，相应的比例分别为32%、47%和68%。因此，我们得出结论，无论宗教信仰虔诚度如何，所受教育越好越激进。

1702645213

1702645214 但这种比较的方法非常繁琐，因为需要在整张表中到处寻找合适的单元格。当因变量是二分变量的时候，即只有两个应答分类时，我们可以把表做得更简洁和引人注目。表1-6包含了与表1-5完全一样的信息，但更加简洁。像表1-6这类表被称为三维表。

1702645215

1702645216 表1-6 1964年美国城市黑人按宗教信仰虔诚度和受教育程度划分的激进的百分比分布（三维形式）

1702645217

1702645218

1702645219

1702645220

1702645221 表1-6的技术要点

1702645222

1702645223 每对数字给出了具有某类特征人群的百分比和计算这个百分比的基数或分母。所以，表中左上角的数字表明，在非常虔诚且是小学受教育程度的108人中，有17%的人是激进的。我们用这张表可以重建前面五张表中的任何一张（不怎么虔诚或根本不信教这两类被合并为一类），当然存在一定的四舍五入误差。你可以尝试做一做，以确保你理解了这些表之间的关系。

1702645224

1702645225 比较表1-5和表1-6，你们会看到它们准确地包含了同样的信息——表1-5中所有附加的数字都是多余的。重要的是，表1-6更容易懂，因为我们只要简单地顺着列向下读，就可以看到在保持受教育程度不变的条件下，宗教信仰虔诚度对激进的影响；而只需简单地按行来读，就可以看到在保持宗教信仰虔诚度不变的条件下，受教育程度对激进的影响。

1702645226

1702645227

1702645228

1702645229

1702645230 量化数据分析：通过社会研究检验想法 [:1702644722]

1702645231 量化数据分析：通过社会研究检验想法本章小结

1702645232

1702645233 我们在本章中已经知道如何将一个初始的想法变成一个研究问题，如何选择合适的抽样方法，如何执行一项调查，如何创建一系列变量并组合成反映研究者所研究问题概念的测量指标。我们接着介绍了怎样构建反映两个变量之间关系的百分数表，特别强调了使用条件概率分布（分别按照自变量的每一类别计算的各因变量类别的概率分布）的概念来确定百分数表的方向问题。这是本章最难的概念，你们应该确保彻底理解了这个概念。

1702645234

1702645235 另一个需要完全理解的重要概念是统计控制的思想，也被称为控制混淆变量或保持混淆变量不变，它是用来确定某种关系是否存在于控制变量各类别内的概念。最后，我们介绍了各种构建和展示表格的技术问题，这是为了构建出新颖易读的表格。

1702645236

1702645237 我们将在下一章继续讨论列联表、涉及两个以上变量的各种分析方法以及更常见的多元分析的逻辑。

1702645238

1702645239

1702645240

1702645241

1702645242 量化数据分析：通过社会研究检验想法 [:1702644723]

1702645243 量化数据分析：通过社会研究检验想法第2章列联表中的变量关系

1702645244

[ 上一页 ] [ :1.702645195e+09 ] [ 下一页 ]