打字猴:1.70264551e+09
1702645510 与实验相比,统计控制方法有两个根本性的弱点,这使它不可能明确地证明任何因果理论〔尽管明确的反证(disproof)是可能的〕。首先,无论引入多少控制变量,我们仍然不能确定剩下的净关系就是真实的因果关系,而不是一些未引入的未知变量所导致的虚假关系。
1702645511
1702645512 其次,尽管我们提到令一个变量或一组变量保持不变(holding constant),但实际上我们经常做的仅仅是减少这些变量的组内差异。当我们制作列联表时这一点尤其明显,因为我们一般将样本分成一个个小的类别。例如,当受教育程度被分为高中以下、高中和大学及以上时,在什么意义上我们能说“保持受教育程度相同”呢?尽管受教育程度的组内差异明显比总体样本的总差异要小得多,但组内差异仍然很大。因此,如果其他两个变量同时依赖受教育程度,那么有可能它们在组内的相关和它们在各受教育程度类别组间存在的相关都一样是粗略的。正如你们在后面会进一步看到的那样,在回归中使用间距变量或比率变量并不能解决这个问题,而仅仅是改变了问题的形式而已。尽管组内差异一般会减小,但由于回归模型过于简化变量之间的关系,使得它未能完整地表达原有关系的复杂性,比如原有关系可能不是线性的,而是非连续的、非线性的等。
1702645513
1702645514 我们解决这个问题的唯一方法是利用适当的理论。因为我们很少能完全通过数据建立因果关系,所以我们需要建立一套理论,它包括一系列言之有理的、连贯一致的、被经验证实了的论点。尽管我们不能绝对证明因果关系,但是我们能判断数据是否与理论相一致:如果一致,我们就能够初步推断论点是被经验证实的;而如果是证伪,我们则有更强的理由相信我们的结果。也就是说,如果数据与理论不一致,我们通常就能坚信这个理论不正确。但是我们需要注意,当一些忽略变量被包含在列联表或模型中时,它们有可能改变结论。总之,要坚持一个理论,数据要能被理论所预测是必要条件(necessary),但不是充分条件(sufficient)。因为一致性对坚持理论而言是必需的,所以不一致性足以让我们拒绝它——只要我们能够确信没有忽略重要变量。(另一方面,正如Alfred North Whitehead所说,永远不要让数据妨碍一个好理论。如果理论足够强,你们应该重新审视数据。我在后面讨论概念和指标时会更多地谈到这个问题。)
1702645515
1702645516
1702645517
1702645518
1702645519 量化数据分析:通过社会研究检验想法 [:1702644730]
1702645520 量化数据分析:通过社会研究检验想法 本章小结
1702645521
1702645522 我们在这一章介绍了多元统计分析的逻辑及其在包含三个或更多变量的列联表中的应用。本章也介绍了交互效应的概念,即某一自变量对因变量的效应依赖于一个或多个其他自变量的取值。这是统计分析中很重要的一点,所以你们要确保完全理解了。我们也介绍了抑制效应,即两个自变量对因变量的作用方向相反,则其中一自变量的效应抵消了另一个自变量的效应。在这些情况下,模型如没有包含这两个变量会导致低估自变量与因变量之间的真实关系。我们随后介绍了直接标准化(有时被称为协变修正)——一种消除某一特定变量或变量组的影响的方法。直接标准化可以被认为是一种建立“反事实”或“如果……那么……”关系的方法。例如,如果我们基于这样的事实——1960年代受教育程度较高的黑人比受教育程度较低的黑人更倾向于不信教且更激进——对宗教信仰虔诚度和激进之间的关系进行调整,那么这个关系会发生什么变化呢?除了讨论直接标准化的逻辑,我们还介绍了几种直接标准化的方法来看从表格或从个体数据出发如何进行标准化,也介绍了如何对百分比进行标准化,以及如何对均值进行标准化。最后,我们通过与随机实验相比较来介绍统计控制的局限性。
1702645523
1702645524 在接下来的一章,我们将完成对列联表的讨论。首先,我们会介绍如何从已发表的表格中提取新的信息,在何种情形下可以做“反向”百分数表。其次,我们将初步接触如何处理缺失数据(后面的章节还将详细地讨论这个话题),讨论单元格数值为均值时的列联表,介绍一个测量百分比分布相似性的指标——相异指数(Δ)。最后将给出几点与描述列联表有关的建议。
1702645525
1702645526
1702645527
1702645528
1702645529 量化数据分析:通过社会研究检验想法 [:1702644731]
1702645530 量化数据分析:通过社会研究检验想法 第3章 列联表的拓展
1702645531
1702645532 量化数据分析:通过社会研究检验想法 [:1702644732]
1702645533 本章内容
1702645534
1702645535 列联表在本章讨论完之后将暂时告一段落。接着,我们会花点时间——实际上是很短的时间——培养你们对计算机的兴趣,然后讨论各种回归方程的技巧。之后,我们将回到列联表,并通过对数线性分析来讨论如何对列联表中包含的关系做统计推论。
1702645536
1702645537 本章首先介绍如何从已发表的表格中提取新信息,然后介绍一种使用“反向”百分数表的情况。接着,我们会初步涉及如何处理缺失数据,并介绍单元格数值为均值时的列联表,以及一个测量百分比分布相似性的指标——相异指数(Δ)。最后,我们会给出几点与描述列联表有关的建议。
1702645538
1702645539
1702645540
1702645541
1702645542 量化数据分析:通过社会研究检验想法 [:1702644733]
1702645543 量化数据分析:通过社会研究检验想法 重新组织表格以获取新的信息
1702645544
1702645545 在分析已发表的数据或阅读研究文章时,我们经常希望数据是用不同的方式来表达的。有时,表格里的信息足以让我们重新组织或重新计算表格,从而能得到我们想要的但与原作者论点不同的结论。下面将介绍两种可以使用的方法。
1702645546
1702645547 合并维度
1702645548
1702645549 假如你们对堕胎接受程度和宗教信仰虔诚度之间的关系感兴趣,但你们只有像第2章中表2-1那样的数据,那么,你们将如何构建一个二维表来表示“按宗教信仰虔诚度划分的接受堕胎(即认为在具体条件下堕胎是合法的)的百分比”呢?其实,做法非常简单。首先,你们将百分数表转换成一张频数表:90的31%等于27.9,近似为28;96的33%等于31.68,近似为32;其余的依此类推。这样得到表3-1(当然,行的合计是将每列加总。你们通过计算——将表3-1行的合计加总,将表2-1中的频数加总——来检验表3-1和表2-1的总频数是否相等。这两者得到的样本数均为1368)。行的合计可以通过惯用的方式表示成百分比,从而得到天主教徒中32%(=100×[112/(112+238)])的人接受堕胎,而新教徒中的这一比例为39%(=100×[398/(398+620)])。
1702645550
1702645551 我们只需简单地通过分别针对天主教徒和新教徒计算四个受教育程度类别的接受堕胎百分比的加权平均值,就能更快地得到同样的结果。其计算方法与我们为了获得直接标准化率而计算加权平均值一样。比如,天主教徒接受堕胎百分比的加权平均值为[(31%)(90)+(33%)(96)+(33%)(89)+(31%)(75)]/(90+96+89+75)=32%。计算整个频数表有两个优点:首先,它能更好地检验计算的准确性;其次,它允许构建其他列联表,如受教育程度和接受堕胎之间的零级相关。
1702645552
1702645553 虽然我们还可以举出许多其他例子,但是它们都遵循同样的逻辑。你们应该习惯根据已有的表格获取信息。这不仅仅是一种有用的技能,同时还有助于你们更好地理解表格是如何构建的。
1702645554
1702645555 表3-1 1965年美国成人按宗教派别和受教育程度分的接受堕胎的频数分布(N=1368)
1702645556
1702645557
1702645558
1702645559
[ 上一页 ]  [ :1.70264551e+09 ]  [ 下一页 ]