1702645480
1702645481
现在介绍最后一个实例——在中国,教育、居住地和文化水平之间的关系。在1996年全国成年人口的抽样调查中(Treiman,Walder,and Li,1996),受访者被要求区分10个中文词(关于此数据的介绍和来源,见附录A)。正确识别这些词的数量被用来衡量文化水平(Treiman,2007a)。显然,识字水平会随受教育程度的提高而升高。城镇人口的识字能力较强,这是因为城镇受访者可能比农村受访者受过更多的教育。我们感兴趣的问题是,农村人口和城镇人口在受教育程度上的差异是否能完全解释识字水平的平均差异(1.8个词)(见表2-14)。为了回答这个问题,我用加权数据计算了全国成年人口的教育分布,并假设城镇人口和农村人口具有同样的教育分布,然后计算出调整后(即直接标准化)的城镇人口和农村人口的平均识字水平。这里需要注意的是,在此例中,标准化的不是百分比而是均值。这两种指标的计算步骤是完全一样的。但由于是用计算机(Stata)完成的,所以我们需要对数据做特殊调整以克服Stata软件的局限——Stata要求进行标准化(Stata称为-charvar-)时“比率”的分子是整数。具体操作步骤请查阅本章与此例有关的-do-和-log-文件。
1702645482
1702645483
表2-14 中国1996年20~69岁城镇和农村人口的平均识字水平(显示的是用城乡教育分布差别进行直接标准化前后的均值a;N=6081)
1702645484
1702645485
1702645486
1702645487
1702645488
结果非常简单明确。当用教育进行标准化后,城乡人口正确识别中文词平均值之间的差异由1.8个词减小到0.6个词。因此,城乡人口受教育程度的差异可以解释城乡人口在识字水平上差异的67%(=1-0.6/1.8)左右。
1702645489
1702645490
虽然这四个实例都是对受教育程度进行标准化,但这仅仅是凑巧而已。直接标准化也可以应用到许多其他方面。例如,也许通过对年龄和性别进行标准化就能解释20世纪早期在美国移民的犯罪率比当地居民高的现象。移民大多是年轻男性,一般认为年轻男性的犯罪率比其他性别年龄的人群高。
1702645491
1702645492
1702645493
1702645494
1702645496
量化数据分析:通过社会研究检验想法 关于统计控制与实验的最后说明
1702645497
1702645498
在介绍列联表的逻辑时,我一直以非实验数据为例介绍其分析的逻辑。这是因为真正的实验在社会研究中很少见,尽管它们被广泛应用到心理学研究中,且在微观经济学中的应用也日益增加〔具体实例参见后面章节,见Thomas等(2004)〕。一个真正的实验是指实验对象被随机分配成两组或更多组,其中的一组接受干预,而另一组不接受干预(受控制),或者几组分别接受不同的干预。如果各组在结果变量上表现出差异,那么就可以认为差异是由不同的干预引起的。在这种情况下,我们能明确地证实干预导致结果不同(尽管我们也许并不清楚内在的机制)。〔当然,这个论点只有当实验组和控制组之间的差异不是由调查者的设计缺陷或没有严格遵循随机实验设计而导致的时候才成立。关于此类问题的经典讨论,参见Campbell和Stanley(1966),或Campbell(1957)的简短讨论,其中包含了Campbell和Stanley文章的核心内容。〕
1702645499
1702645500
对化学等领域的实验,抽样通常不是要考虑的问题,因为我们完全可以假设任何一批化学品与其他批次化学品具有共同的特征;只有当什么地方出现问题了,化学家们才会质疑这个假设。相比之下,在社会学、行为科学及许多生命科学领域,我们不能假设一个研究对象和另一个完全相同。因此,在这些领域的实验中,研究对象需要被随机分配到各个实验组。只有基于这种方法,我们才可能估计结果变量的组间差异是否大于由抽样差异偶然导致的差异。如果两者差异不大,那么我们可以说,由干预导致的差异仅仅是因为统计推断的不确定性。
1702645501
1702645502
在社会科学领域,把研究对象随机分配到各个实验组经常是不可能的。原因有以下几点。首先,由于在人群中实施这类实验,一些伦理和现实的因素都会限制实验的进行。例如,为了研究某类学校的教学是否优于其他学校,如果我们随机将孩子们分配到不同的学校,并在几年后测量他们的受教育水平,这种做法无论从伦理上还是从实际上讲都是不可能的。此外,社会科学家感兴趣的许多现象都无法通过实验来研究,甚至从原理上讲也不可行。例如,在战争时期群体内部的团结倾向于增强,这个论点是无法通过实验验证的;同样,社会分层在靠定居农耕为生的社会中比在靠狩猎和采集为生的社会中要更明显,这样的命题就更无法用实验来证实了。
1702645503
1702645504
有时候,“自然实验”(natural experiments)是可以用来进行分析的。自然实验是指不同的个体经历不同的环境,并假设个体在本质上是被随机分配到各个环境里的,这样的假设在这种情况下是合理的。自然实验的一个经典例子是Almond(2006)对“胎源性学说”的实验。他提供可靠证据证实1918年发生严重流感那几个月在母亲腹中的胎儿与之前几个月或之后几个月在母亲腹中的胎儿相比,出生后不仅教育获得要低,而且残疾率高,到中年时的收入也更低。因为孕妇什么月份怀孕与感染流感病毒的可能性之间不太可能相关,在这个分析中自然实验的条件就完全得到满足。由于纠正“样本选择性偏误”的统计方法仍然存在各种缺陷,自然实验在经济学领域变得越来越流行。在最后一章我们将继续探讨这个问题。〔其他一些值得关注的关于自然实验的例子可参见Campbell和Ross(1968)、Berelson(1979)、Sloan等(1988),以及第16章中引用的文章。〕
1702645505
1702645506
考虑到社会科学中可能的实验是有限的,我们在这里和随后将讨论各种统计控制方法。这些方法有一个共同的逻辑:它们都是为了控制一个或一些变量而设计的,以便估计某一给定变量对某一给定结果变量的净影响。
1702645507
1702645508
匹配方法的缺点和一个有用的补救方法 有时,调查分析人员试图通过变量匹配比较组来模拟随机分配。在最初的时候,这种做法本身并不令人满意。当试图匹配所有潜在的相关因素时,样本很容易就用完了,即样本数不够。而且,无论用多少变量进行“倾向分”(propensity score)匹配,实验组和控制组总是有可能在某些没有匹配且与实验结果有关的因素上存在不同。然而,将匹配和统计控制方法结合在一起可能是一个有用的策略,尤其是用“倾向分”来衡量匹配程度时(Rosenbaum and Rubin,1983)。近年来,关于倾向分匹配的文章可参见Smith(1997)、Becker和Ichino(2002)、Abadie等(2004)、Brand(2006)、Brand和Halaby(2006),以及Becker和Caliendo(2007)。Harding(2002)的文章是一篇有启发性的应用文章。倾向分匹配方法将会在第16章介绍。
1702645509
1702645510
与实验相比,统计控制方法有两个根本性的弱点,这使它不可能明确地证明任何因果理论〔尽管明确的反证(disproof)是可能的〕。首先,无论引入多少控制变量,我们仍然不能确定剩下的净关系就是真实的因果关系,而不是一些未引入的未知变量所导致的虚假关系。
1702645511
1702645512
其次,尽管我们提到令一个变量或一组变量保持不变(holding constant),但实际上我们经常做的仅仅是减少这些变量的组内差异。当我们制作列联表时这一点尤其明显,因为我们一般将样本分成一个个小的类别。例如,当受教育程度被分为高中以下、高中和大学及以上时,在什么意义上我们能说“保持受教育程度相同”呢?尽管受教育程度的组内差异明显比总体样本的总差异要小得多,但组内差异仍然很大。因此,如果其他两个变量同时依赖受教育程度,那么有可能它们在组内的相关和它们在各受教育程度类别组间存在的相关都一样是粗略的。正如你们在后面会进一步看到的那样,在回归中使用间距变量或比率变量并不能解决这个问题,而仅仅是改变了问题的形式而已。尽管组内差异一般会减小,但由于回归模型过于简化变量之间的关系,使得它未能完整地表达原有关系的复杂性,比如原有关系可能不是线性的,而是非连续的、非线性的等。
1702645513
1702645514
我们解决这个问题的唯一方法是利用适当的理论。因为我们很少能完全通过数据建立因果关系,所以我们需要建立一套理论,它包括一系列言之有理的、连贯一致的、被经验证实了的论点。尽管我们不能绝对证明因果关系,但是我们能判断数据是否与理论相一致:如果一致,我们就能够初步推断论点是被经验证实的;而如果是证伪,我们则有更强的理由相信我们的结果。也就是说,如果数据与理论不一致,我们通常就能坚信这个理论不正确。但是我们需要注意,当一些忽略变量被包含在列联表或模型中时,它们有可能改变结论。总之,要坚持一个理论,数据要能被理论所预测是必要条件(necessary),但不是充分条件(sufficient)。因为一致性对坚持理论而言是必需的,所以不一致性足以让我们拒绝它——只要我们能够确信没有忽略重要变量。(另一方面,正如Alfred North Whitehead所说,永远不要让数据妨碍一个好理论。如果理论足够强,你们应该重新审视数据。我在后面讨论概念和指标时会更多地谈到这个问题。)
1702645515
1702645516
1702645517
1702645518
1702645520
量化数据分析:通过社会研究检验想法 本章小结
1702645521
1702645522
我们在这一章介绍了多元统计分析的逻辑及其在包含三个或更多变量的列联表中的应用。本章也介绍了交互效应的概念,即某一自变量对因变量的效应依赖于一个或多个其他自变量的取值。这是统计分析中很重要的一点,所以你们要确保完全理解了。我们也介绍了抑制效应,即两个自变量对因变量的作用方向相反,则其中一自变量的效应抵消了另一个自变量的效应。在这些情况下,模型如没有包含这两个变量会导致低估自变量与因变量之间的真实关系。我们随后介绍了直接标准化(有时被称为协变修正)——一种消除某一特定变量或变量组的影响的方法。直接标准化可以被认为是一种建立“反事实”或“如果……那么……”关系的方法。例如,如果我们基于这样的事实——1960年代受教育程度较高的黑人比受教育程度较低的黑人更倾向于不信教且更激进——对宗教信仰虔诚度和激进之间的关系进行调整,那么这个关系会发生什么变化呢?除了讨论直接标准化的逻辑,我们还介绍了几种直接标准化的方法来看从表格或从个体数据出发如何进行标准化,也介绍了如何对百分比进行标准化,以及如何对均值进行标准化。最后,我们通过与随机实验相比较来介绍统计控制的局限性。
1702645523
1702645524
在接下来的一章,我们将完成对列联表的讨论。首先,我们会介绍如何从已发表的表格中提取新的信息,在何种情形下可以做“反向”百分数表。其次,我们将初步接触如何处理缺失数据(后面的章节还将详细地讨论这个话题),讨论单元格数值为均值时的列联表,介绍一个测量百分比分布相似性的指标——相异指数(Δ)。最后将给出几点与描述列联表有关的建议。
1702645525
1702645526
1702645527
1702645528
[
上一页 ]
[ :1.70264548e+09 ]
[
下一页 ]