1702644976
第4章是关于计算的介绍。我会介绍怎样管理数据以便于计算机分析,怎样使用统计软件进行分析。本书将使用Stata软件包,我会提供使用Stata的一些建议。本章中的介绍也同样适用于其他统计软件包,比如SPSS和SAS。
1702644977
1702644978
第5~7章讲解常规最小二乘相关和回归,这是社会科学中统计分析的基础。这些过程提供了一种量化某些数量结果与其决定因素之间关系的方法。例如,在其他影响因素保持不变的情况下,我们期望在多大程度上人们收入的不同是由他们的受教育水平不同导致的?它们同样提供了一种如何评估预测结果的方法。例如,收入差异在多大程度上能被归结为教育、性别、种族等方面的不同。第5章主要讲解双变量相关和回归,让读者对相关和回归统计有逻辑直觉,并在解释相关和回归统计结果时注意一些常见错误。第6章介绍多元回归,用于当一个因变量有几个自变量的情形,同时介绍“虚拟”变量或二分变量的概念,这需要特别的处理方法。通过使用虚拟变量和“交互项”,我提出一种思路来评价不同人群的社会过程是否不同这个社会科学中常见的问题。第7章介绍了在回归框架内检验相关假设的多个“窍门”。
1702644979
1702644980
社会科学家在使用大多数数据时会受到“缺失数据”的困扰——某些个人在某些变量上缺失信息。第8章回顾了处理缺失数据的方法,并在最后部分以目前最新的方法为例,讲解如何进行缺失数据的多元估算。
1702644981
1702644982
接下来的第9章讨论抽样及其在统计分析中应用的问题。尽管前面各章都假设是简单随机抽样,但是,多数常规人口抽样实际上是复杂的、多阶段抽样。要正确分析这些抽样数据,我们在计算标准误的时候就需要考虑到观测值之间的“聚类”(clustering)特征。本章介绍处理这种特征的抽样估计(survey estimation)方法。
1702644983
1702644984
处理回归问题时常常容易误入陷阱。在第5章中我们曾(简单地)讨论过该问题。在第10章中,我们将通过介绍回归诊断(regression diagnostics)更全面地阐述该问题。这些步骤可以避免依据回归结果做出错误推断的可能性发生。
1702644985
1702644986
第11章介绍如何及怎样构建多题项测度(multiple-item scales),不仅主要集中讨论以因子为基础(factor-based)的测度法,而且介绍效应比例测度法(effect-proportional scaling)。我们经常想研究一些用问卷中的一个题项无法充分测量的概念问题,如“生活水平”、“自由主义”、“A类性格”和“抑郁”等。基于多个题项的综合测量(summary measures)或测度(scales),与单个题项的测量或测度相比,通常会提供更可信(reliable)、更有效(valid)的变量指标。本章介绍如何构建和使用这类测量指标。
1702644987
1702644988
第12~14章介绍受限因变量(limited dependent variables)的分析方法。常规最小二乘回归是为处理连续型因变量而设计的,如收入、受教育年限等。但社会科学家感兴趣的许多因变量或是二分变量(如人们是否投票,是否结婚,是否受到犯罪的伤害,等等),或是多项变量(如在多党派社会中的政治派别、职业类别、大学类型等)。对数线性分析(log-linear analysis)和逻辑斯蒂回归(logistic regression)是处理此类受限因变量的方法。第12章介绍对数线性分析,它是对一组多项变量之间的关系做严格推论的方法,也就是说,对列联表中各变量关系的程度和模式做推论。从这个角度讲,对数线性分析提供了一种对我们在第1~3章所讨论的各种表做统计推论的方法。第13章介绍二项逻辑斯蒂回归,它是一种适合分析二分结果变量的方法,进而讨论如何使用此方法来处理各种特殊情况:递进比,即所研究的问题是什么因素导致人们是否一步步地发生变化,例如,从某一受教育水平到更高水平的影响因素;离散时间风险率模型,它所研究的问题是一个事件(如初婚)在某一给定时点(如特定年龄)发生的可能性;案例—对照模型,它提供了一种研究罕见事件发生可能性的方法,如传染病,获得精英职业,等等。第14章进一步介绍如何研究其他受限因变量:非序次多项变量,如居住地方的类型,可以通过多项逻辑斯蒂回归(multinomial logistic regression)来分析;序次变量,即分类是有等级次序的,但分类之间不等距,例如一些态度测量(你是否“很高兴”、“有点高兴”、“不太高兴”),可以通过序次逻辑斯蒂回归(ordinal logistic regression)来分析;“删失”(censored)变量,即某一测度的范围被截断,例如,一个收入变量的最高分类是“每年100000美元及以上”,可以通过tobit回归(tobit regression)来分析。
1702644989
1702644990
当使用非实验数据时,通常很难明确地建立某一变量导致另一变量的因果关系,因为它们两者可能共同依赖于第三个变量,而此变量常常是未被测量的。第15章介绍了一些处理这类问题的方法,称为固定效应(fixed-effects)和随机效应(random-effects)模型,前提是要有合适的数据——面板数据(同样的个体在多个时点被观测)或者整群数据(在一个家庭、学校、社区等中多个个体被观测)。在可以获得合适数据的情况下,这是非常有说服力的方法。
1702644991
1702644992
最后一章(第16章)介绍一些高级的、我在本书中所不能涉及的方法,通常超出一年级研究生所学定量数据分析课程的范围。目前,其中的许多方法被广泛应用于经济学,它们主要处理各种各样的内生性问题(endogeneity problem),即不可观测变量同时影响自变量和因变量,从而导致有偏估计。固定效应和随机效应模型提供了一种解决此类问题的方法,但还有许多其他可用的方法,这将在第16章中介绍。我也会简要介绍结构方程模型,它是一种应对复杂社会过程的方法,即一个因变量是另一个因变量的自变量。例如,在社会地位获得研究中,我们想研究父母的社会地位如何影响个人的受教育水平、父母的社会地位和个人的受教育水平如何影响个人的第一份工作等类似的问题。简要介绍这些高级方法是为了引导学生在量化分析方面继续往更高层次学习。本章以如何做好研究的建议结束,旨在暗示如何提高你们的研究质量并节省时间和精力。
1702644993
1702644994
1702644995
1702644996
1702644998
量化数据分析:通过社会研究检验想法 第1章 列联表基础
1702644999
1702645001
本章内容
1702645002
1702645003
我们在本章首先介绍量化分析的基础——本书涵盖的内容。接着,我们介绍量化分析方法中最基本的列联表或百分数表(严格来讲,不是所有的百分数表都是列联表,因为我们可以做单变量的百分数表。然而,本章重点强调的是如何做二维或多维变量的百分数表)。做列联表虽然步骤简单,但并非不值得称道——它有着明确的规则。本章将具体介绍这些规则及其例外。在此过程中,我们将考虑如何建立因果关系的逻辑关系。然后,我们将介绍除列联表之外的其他描述单变量和多变量分布的方法,以及在控制或令其他变量不变的情况下,估计成对变量间相关程度大小的方法。即使你们以前接触过列联表并且认为自己掌握了这些内容,也请认真对待本章。以我的经验来看,掌握怎样正确做百分数表的逻辑对许多学生来讲都是很难的,这比编那些表面上看起来更花哨、更深奥的程序(如多元回归)还要困难。
1702645004
1702645005
你们会注意到前三章的许多例子都很陈旧,它们有的可以追溯到20世纪60年代的研究。这是因为在那个时代列联表分析是“最先进的”方法——当时顶尖杂志上发表的许多文章都用此方法。通过对这些研究文献进行回顾,我们能学到一些独特而明确的制表方法。
1702645006
1702645007
1702645008
1702645009
1702645011
量化数据分析:通过社会研究检验想法 通过具体实例介绍全书
1702645012
1702645013
社会学家Gary Marx于1967年在《美国社会学评论》(American Sociological Review)上发表了一篇文章,题目是“宗教:黑人民权意识的镇定剂还是催化剂?”(“Religion:opiate or inspiration of civil rights militancy among Negroes?”)(Marx,1967a;也可见Marx,1967b)。题目表达了宗教如何影响黑人民权意识的两种截然不同的观点:一种观点认为信教的黑人相比于不信教的黑人的民权意识要弱,因为宗教使前者超凡脱俗,而不是世俗化,而且,宗教组织一般与现状休戚相关,因此他们更倾向于保守;另一种观点认为,信教黑人的民权意识更强,因为黑人的教堂是民权意识的主要传播场所,而且宗教也是普遍的人文主义价值的一个重要源泉。当然,还有一种可能是宗教与民权意识之间根本没有关系。
1702645014
1702645015
如果想判断哪种观点是正确的,我们该怎样做呢?一种方法是——这是本章的核心内容——在黑人中做一项概率抽样调查,了解他们的宗教信仰如何、民权意识如何,然后通过对这两个变量做列联表来确定信教与不信教黑人的民权意识强弱的相对可能性或概率。如果信教的人比不信教的人更不可能表达他们的民权意识,那么事实将会支持第一种观点。如果信教的人更有可能表达他们的民权意识,那么事实将会支持第二种观点。如果信教的人和不信教的人在表达民权意识的相对可能性方面没有差别,那么事实将会支持第三种可能。当然,支持何种观点的事实并不能完全证明这种观点就是对的。我们在后面将会更多地讨论此问题。
1702645016
1702645017
这个表面上看似简单的例子包含了我们将会在此书中介绍的所有要素,同时,这些要素也是一个研究者对任何研究问题给出有意义并令人信服的答案时必须考虑的。下面让我们逐项来介绍。
1702645018
1702645019
第一,是想法(idea):宗教是民权意识的镇定剂还是催化剂?没有想法指导的数据分析是毫无意义的。正如我们将不断看到的,一个研究者期望检验怎样的想法将会决定他收集数据的类型和收集的过程。如果没有想法,一个研究者是不可能知道应该做什么的。这时他可能在胡乱尝试一下后,不知如何从各种结果中做出选择。需要检验的想法通常被称为假设(hypotheses),除此之外还涉及理论(theories)。一个理论不必太宏大或太抽象。任何关于什么导致什么、两个变量之间为何且如何相关的观点都是理论。
1702645020
1702645021
第二,信息(information)或数据(data),它们被用来检验想法或假设(或理论)。在本书中,我们关注的数据来自对总体的概率抽样。总体(population)是指任何可定义的事物的集合。大多数情况下我们讨论的是人的总体,如“美国人口”。但是,社会科学家同样对组织、城市、职业等的总体感兴趣。一个概率抽样(probability sample)是指通过使用概率方法从总体中抽出子样本,而这个子样本中的个体被抽中的概率是已知的。研究者只有使用概率样本才能将抽样样本的特征推论到总体,进而得到总体的特征。也就是说,根据从抽样数据中得到的结果,我们就能够在一定范围内推论总体可能的结果是什么。
1702645022
1702645023
Marx使用的抽样方法实际上很复杂,对南部之外的大都市地区依概率抽样方法抽取了492名黑人,此外又做了四个特别抽样——从芝加哥、纽约、亚特兰大和伯明翰依概率抽样方法取得黑人样本。非南部城市样本加上四个特别样本,合计1119个样本。Marx将这些联合样本看作可以代表美国城市黑人总体的概率样本。事实上,这种方法并不完全合理。之后我们将会讨论一些方法,这些方法可以通过对复杂抽样进行加权处理以使得它们真实地代表目标总体。对数据分析者来说,对分析中使用的抽样进行评估是一项重要的工作。但现在,我们暂且认为Marx的抽样样本可以作为代表美国城市黑人的一个概率抽样。
1702645024
1702645025
当我们研究人们的行为或态度时,收集数据的一种标准方法是从一个合适的人口总体中进行概率抽样,然后通过让被抽出的受访者回答一组特定的问题来了解他们的行为和态度。也就是说,我们在调查(survey)样本中,询问每个人一组特定的问题,并记录他们的回答。在大多数抽样调查中,每一道问题的可选答案都是事先设计好的,被抽中的人——受访者(respondent)——被要求从列出的所有答案(也有例外,请看下面对开放式问题的评论)中选择他们认为最贴切的答案。例如,Marx问的其中一个问题是:
[
上一页 ]
[ :1.702644976e+09 ]
[
下一页 ]