打字猴:1.7026455e+09
1702645500 对化学等领域的实验,抽样通常不是要考虑的问题,因为我们完全可以假设任何一批化学品与其他批次化学品具有共同的特征;只有当什么地方出现问题了,化学家们才会质疑这个假设。相比之下,在社会学、行为科学及许多生命科学领域,我们不能假设一个研究对象和另一个完全相同。因此,在这些领域的实验中,研究对象需要被随机分配到各个实验组。只有基于这种方法,我们才可能估计结果变量的组间差异是否大于由抽样差异偶然导致的差异。如果两者差异不大,那么我们可以说,由干预导致的差异仅仅是因为统计推断的不确定性。
1702645501
1702645502 在社会科学领域,把研究对象随机分配到各个实验组经常是不可能的。原因有以下几点。首先,由于在人群中实施这类实验,一些伦理和现实的因素都会限制实验的进行。例如,为了研究某类学校的教学是否优于其他学校,如果我们随机将孩子们分配到不同的学校,并在几年后测量他们的受教育水平,这种做法无论从伦理上还是从实际上讲都是不可能的。此外,社会科学家感兴趣的许多现象都无法通过实验来研究,甚至从原理上讲也不可行。例如,在战争时期群体内部的团结倾向于增强,这个论点是无法通过实验验证的;同样,社会分层在靠定居农耕为生的社会中比在靠狩猎和采集为生的社会中要更明显,这样的命题就更无法用实验来证实了。
1702645503
1702645504 有时候,“自然实验”(natural experiments)是可以用来进行分析的。自然实验是指不同的个体经历不同的环境,并假设个体在本质上是被随机分配到各个环境里的,这样的假设在这种情况下是合理的。自然实验的一个经典例子是Almond(2006)对“胎源性学说”的实验。他提供可靠证据证实1918年发生严重流感那几个月在母亲腹中的胎儿与之前几个月或之后几个月在母亲腹中的胎儿相比,出生后不仅教育获得要低,而且残疾率高,到中年时的收入也更低。因为孕妇什么月份怀孕与感染流感病毒的可能性之间不太可能相关,在这个分析中自然实验的条件就完全得到满足。由于纠正“样本选择性偏误”的统计方法仍然存在各种缺陷,自然实验在经济学领域变得越来越流行。在最后一章我们将继续探讨这个问题。〔其他一些值得关注的关于自然实验的例子可参见Campbell和Ross(1968)、Berelson(1979)、Sloan等(1988),以及第16章中引用的文章。〕
1702645505
1702645506 考虑到社会科学中可能的实验是有限的,我们在这里和随后将讨论各种统计控制方法。这些方法有一个共同的逻辑:它们都是为了控制一个或一些变量而设计的,以便估计某一给定变量对某一给定结果变量的净影响。
1702645507
1702645508 匹配方法的缺点和一个有用的补救方法 有时,调查分析人员试图通过变量匹配比较组来模拟随机分配。在最初的时候,这种做法本身并不令人满意。当试图匹配所有潜在的相关因素时,样本很容易就用完了,即样本数不够。而且,无论用多少变量进行“倾向分”(propensity score)匹配,实验组和控制组总是有可能在某些没有匹配且与实验结果有关的因素上存在不同。然而,将匹配和统计控制方法结合在一起可能是一个有用的策略,尤其是用“倾向分”来衡量匹配程度时(Rosenbaum and Rubin,1983)。近年来,关于倾向分匹配的文章可参见Smith(1997)、Becker和Ichino(2002)、Abadie等(2004)、Brand(2006)、Brand和Halaby(2006),以及Becker和Caliendo(2007)。Harding(2002)的文章是一篇有启发性的应用文章。倾向分匹配方法将会在第16章介绍。
1702645509
1702645510 与实验相比,统计控制方法有两个根本性的弱点,这使它不可能明确地证明任何因果理论〔尽管明确的反证(disproof)是可能的〕。首先,无论引入多少控制变量,我们仍然不能确定剩下的净关系就是真实的因果关系,而不是一些未引入的未知变量所导致的虚假关系。
1702645511
1702645512 其次,尽管我们提到令一个变量或一组变量保持不变(holding constant),但实际上我们经常做的仅仅是减少这些变量的组内差异。当我们制作列联表时这一点尤其明显,因为我们一般将样本分成一个个小的类别。例如,当受教育程度被分为高中以下、高中和大学及以上时,在什么意义上我们能说“保持受教育程度相同”呢?尽管受教育程度的组内差异明显比总体样本的总差异要小得多,但组内差异仍然很大。因此,如果其他两个变量同时依赖受教育程度,那么有可能它们在组内的相关和它们在各受教育程度类别组间存在的相关都一样是粗略的。正如你们在后面会进一步看到的那样,在回归中使用间距变量或比率变量并不能解决这个问题,而仅仅是改变了问题的形式而已。尽管组内差异一般会减小,但由于回归模型过于简化变量之间的关系,使得它未能完整地表达原有关系的复杂性,比如原有关系可能不是线性的,而是非连续的、非线性的等。
1702645513
1702645514 我们解决这个问题的唯一方法是利用适当的理论。因为我们很少能完全通过数据建立因果关系,所以我们需要建立一套理论,它包括一系列言之有理的、连贯一致的、被经验证实了的论点。尽管我们不能绝对证明因果关系,但是我们能判断数据是否与理论相一致:如果一致,我们就能够初步推断论点是被经验证实的;而如果是证伪,我们则有更强的理由相信我们的结果。也就是说,如果数据与理论不一致,我们通常就能坚信这个理论不正确。但是我们需要注意,当一些忽略变量被包含在列联表或模型中时,它们有可能改变结论。总之,要坚持一个理论,数据要能被理论所预测是必要条件(necessary),但不是充分条件(sufficient)。因为一致性对坚持理论而言是必需的,所以不一致性足以让我们拒绝它——只要我们能够确信没有忽略重要变量。(另一方面,正如Alfred North Whitehead所说,永远不要让数据妨碍一个好理论。如果理论足够强,你们应该重新审视数据。我在后面讨论概念和指标时会更多地谈到这个问题。)
1702645515
1702645516
1702645517
1702645518
1702645519 量化数据分析:通过社会研究检验想法 [:1702644730]
1702645520 量化数据分析:通过社会研究检验想法 本章小结
1702645521
1702645522 我们在这一章介绍了多元统计分析的逻辑及其在包含三个或更多变量的列联表中的应用。本章也介绍了交互效应的概念,即某一自变量对因变量的效应依赖于一个或多个其他自变量的取值。这是统计分析中很重要的一点,所以你们要确保完全理解了。我们也介绍了抑制效应,即两个自变量对因变量的作用方向相反,则其中一自变量的效应抵消了另一个自变量的效应。在这些情况下,模型如没有包含这两个变量会导致低估自变量与因变量之间的真实关系。我们随后介绍了直接标准化(有时被称为协变修正)——一种消除某一特定变量或变量组的影响的方法。直接标准化可以被认为是一种建立“反事实”或“如果……那么……”关系的方法。例如,如果我们基于这样的事实——1960年代受教育程度较高的黑人比受教育程度较低的黑人更倾向于不信教且更激进——对宗教信仰虔诚度和激进之间的关系进行调整,那么这个关系会发生什么变化呢?除了讨论直接标准化的逻辑,我们还介绍了几种直接标准化的方法来看从表格或从个体数据出发如何进行标准化,也介绍了如何对百分比进行标准化,以及如何对均值进行标准化。最后,我们通过与随机实验相比较来介绍统计控制的局限性。
1702645523
1702645524 在接下来的一章,我们将完成对列联表的讨论。首先,我们会介绍如何从已发表的表格中提取新的信息,在何种情形下可以做“反向”百分数表。其次,我们将初步接触如何处理缺失数据(后面的章节还将详细地讨论这个话题),讨论单元格数值为均值时的列联表,介绍一个测量百分比分布相似性的指标——相异指数(Δ)。最后将给出几点与描述列联表有关的建议。
1702645525
1702645526
1702645527
1702645528
1702645529 量化数据分析:通过社会研究检验想法 [:1702644731]
1702645530 量化数据分析:通过社会研究检验想法 第3章 列联表的拓展
1702645531
1702645532 量化数据分析:通过社会研究检验想法 [:1702644732]
1702645533 本章内容
1702645534
1702645535 列联表在本章讨论完之后将暂时告一段落。接着,我们会花点时间——实际上是很短的时间——培养你们对计算机的兴趣,然后讨论各种回归方程的技巧。之后,我们将回到列联表,并通过对数线性分析来讨论如何对列联表中包含的关系做统计推论。
1702645536
1702645537 本章首先介绍如何从已发表的表格中提取新信息,然后介绍一种使用“反向”百分数表的情况。接着,我们会初步涉及如何处理缺失数据,并介绍单元格数值为均值时的列联表,以及一个测量百分比分布相似性的指标——相异指数(Δ)。最后,我们会给出几点与描述列联表有关的建议。
1702645538
1702645539
1702645540
1702645541
1702645542 量化数据分析:通过社会研究检验想法 [:1702644733]
1702645543 量化数据分析:通过社会研究检验想法 重新组织表格以获取新的信息
1702645544
1702645545 在分析已发表的数据或阅读研究文章时,我们经常希望数据是用不同的方式来表达的。有时,表格里的信息足以让我们重新组织或重新计算表格,从而能得到我们想要的但与原作者论点不同的结论。下面将介绍两种可以使用的方法。
1702645546
1702645547 合并维度
1702645548
1702645549 假如你们对堕胎接受程度和宗教信仰虔诚度之间的关系感兴趣,但你们只有像第2章中表2-1那样的数据,那么,你们将如何构建一个二维表来表示“按宗教信仰虔诚度划分的接受堕胎(即认为在具体条件下堕胎是合法的)的百分比”呢?其实,做法非常简单。首先,你们将百分数表转换成一张频数表:90的31%等于27.9,近似为28;96的33%等于31.68,近似为32;其余的依此类推。这样得到表3-1(当然,行的合计是将每列加总。你们通过计算——将表3-1行的合计加总,将表2-1中的频数加总——来检验表3-1和表2-1的总频数是否相等。这两者得到的样本数均为1368)。行的合计可以通过惯用的方式表示成百分比,从而得到天主教徒中32%(=100×[112/(112+238)])的人接受堕胎,而新教徒中的这一比例为39%(=100×[398/(398+620)])。
[ 上一页 ]  [ :1.7026455e+09 ]  [ 下一页 ]