1702644964
量化数据分析:通过社会研究检验想法 导言
1702644965
1702644966
在社会科学领域,研究生所学的统计课程常常被当作数学课程来对待,过多地强调数学推导和证明,这是很常见的,甚至在进行实证研究的时候——实证研究之所以经常被称作统计学,是因为要概括数据,描述变量之间的关系,要依据样本对总体做推论——学生们对所学的知识该作何用,经常表现得很迷茫。也就是说,不知如何将他们所学到的统计方法运用到实际研究中去。
1702644967
1702644968
本书的核心思想就是学习应用统计技术。我设想你们已经掌握了研究生一年级的统计课程,最好是社会科学系或专业学院所设的统计课程。它包括基本的统计学概念,至少涉及常规最小二乘回归,最好有一些逻辑斯蒂回归知识。但是,现在你想成为一名应用定量分析研究者,分析抽样调查或其他定量数据集,以支持你所涉足领域的大量文献知识,最后发表你的研究结果。这本书正是为你而设计的。它是基于两个小学期的课程和我在加州大学洛杉矶分校过去30多年的教学经验,并跟踪社会学和其他社会科学领域定量分析方法最新的发展成果写成的。
1702644969
1702644970
当今发表在社会学和其他社会科学顶级刊物上的文章所使用的各类度量或统计方法大大不同于多年以前。他们大量借鉴计量经济学、心理学、生物统计学,甚至数理统计学的最新进展——每年都有新进展。因此,我过去认为一些内容在第一年的定量方法课程中讲授太难(例如,固定效应和随机效应模型),但现在在发表的社会学文章中却很常见。这使我觉得非常有必要将它们也纳入我的课程教学和这本教材中。
1702644971
1702644972
各章介绍
1702644973
1702644974
本书从分析非实验数据最基本的方法(百分数表)开始介绍。第1~3章阐述列联表的基本逻辑,并介绍关于如何制表的许多技术细节(使得此类表简单易读)。在这三章中有两个核心思想:如何确定百分数表的方向问题和统计控制的概念。根据我的教学经验来看,第一个问题对一些学生来讲是困难的——甚至要比处理后面章节介绍的复杂数学公式困难得多。因此,即使你们认为自己已经掌握了百分数表,我仍希望你们认真学习这几章。这样做将会使你们受益匪浅。
1702644975
1702644976
第4章是关于计算的介绍。我会介绍怎样管理数据以便于计算机分析,怎样使用统计软件进行分析。本书将使用Stata软件包,我会提供使用Stata的一些建议。本章中的介绍也同样适用于其他统计软件包,比如SPSS和SAS。
1702644977
1702644978
第5~7章讲解常规最小二乘相关和回归,这是社会科学中统计分析的基础。这些过程提供了一种量化某些数量结果与其决定因素之间关系的方法。例如,在其他影响因素保持不变的情况下,我们期望在多大程度上人们收入的不同是由他们的受教育水平不同导致的?它们同样提供了一种如何评估预测结果的方法。例如,收入差异在多大程度上能被归结为教育、性别、种族等方面的不同。第5章主要讲解双变量相关和回归,让读者对相关和回归统计有逻辑直觉,并在解释相关和回归统计结果时注意一些常见错误。第6章介绍多元回归,用于当一个因变量有几个自变量的情形,同时介绍“虚拟”变量或二分变量的概念,这需要特别的处理方法。通过使用虚拟变量和“交互项”,我提出一种思路来评价不同人群的社会过程是否不同这个社会科学中常见的问题。第7章介绍了在回归框架内检验相关假设的多个“窍门”。
1702644979
1702644980
社会科学家在使用大多数数据时会受到“缺失数据”的困扰——某些个人在某些变量上缺失信息。第8章回顾了处理缺失数据的方法,并在最后部分以目前最新的方法为例,讲解如何进行缺失数据的多元估算。
1702644981
1702644982
接下来的第9章讨论抽样及其在统计分析中应用的问题。尽管前面各章都假设是简单随机抽样,但是,多数常规人口抽样实际上是复杂的、多阶段抽样。要正确分析这些抽样数据,我们在计算标准误的时候就需要考虑到观测值之间的“聚类”(clustering)特征。本章介绍处理这种特征的抽样估计(survey estimation)方法。
1702644983
1702644984
处理回归问题时常常容易误入陷阱。在第5章中我们曾(简单地)讨论过该问题。在第10章中,我们将通过介绍回归诊断(regression diagnostics)更全面地阐述该问题。这些步骤可以避免依据回归结果做出错误推断的可能性发生。
1702644985
1702644986
第11章介绍如何及怎样构建多题项测度(multiple-item scales),不仅主要集中讨论以因子为基础(factor-based)的测度法,而且介绍效应比例测度法(effect-proportional scaling)。我们经常想研究一些用问卷中的一个题项无法充分测量的概念问题,如“生活水平”、“自由主义”、“A类性格”和“抑郁”等。基于多个题项的综合测量(summary measures)或测度(scales),与单个题项的测量或测度相比,通常会提供更可信(reliable)、更有效(valid)的变量指标。本章介绍如何构建和使用这类测量指标。
1702644987
1702644988
第12~14章介绍受限因变量(limited dependent variables)的分析方法。常规最小二乘回归是为处理连续型因变量而设计的,如收入、受教育年限等。但社会科学家感兴趣的许多因变量或是二分变量(如人们是否投票,是否结婚,是否受到犯罪的伤害,等等),或是多项变量(如在多党派社会中的政治派别、职业类别、大学类型等)。对数线性分析(log-linear analysis)和逻辑斯蒂回归(logistic regression)是处理此类受限因变量的方法。第12章介绍对数线性分析,它是对一组多项变量之间的关系做严格推论的方法,也就是说,对列联表中各变量关系的程度和模式做推论。从这个角度讲,对数线性分析提供了一种对我们在第1~3章所讨论的各种表做统计推论的方法。第13章介绍二项逻辑斯蒂回归,它是一种适合分析二分结果变量的方法,进而讨论如何使用此方法来处理各种特殊情况:递进比,即所研究的问题是什么因素导致人们是否一步步地发生变化,例如,从某一受教育水平到更高水平的影响因素;离散时间风险率模型,它所研究的问题是一个事件(如初婚)在某一给定时点(如特定年龄)发生的可能性;案例—对照模型,它提供了一种研究罕见事件发生可能性的方法,如传染病,获得精英职业,等等。第14章进一步介绍如何研究其他受限因变量:非序次多项变量,如居住地方的类型,可以通过多项逻辑斯蒂回归(multinomial logistic regression)来分析;序次变量,即分类是有等级次序的,但分类之间不等距,例如一些态度测量(你是否“很高兴”、“有点高兴”、“不太高兴”),可以通过序次逻辑斯蒂回归(ordinal logistic regression)来分析;“删失”(censored)变量,即某一测度的范围被截断,例如,一个收入变量的最高分类是“每年100000美元及以上”,可以通过tobit回归(tobit regression)来分析。
1702644989
1702644990
当使用非实验数据时,通常很难明确地建立某一变量导致另一变量的因果关系,因为它们两者可能共同依赖于第三个变量,而此变量常常是未被测量的。第15章介绍了一些处理这类问题的方法,称为固定效应(fixed-effects)和随机效应(random-effects)模型,前提是要有合适的数据——面板数据(同样的个体在多个时点被观测)或者整群数据(在一个家庭、学校、社区等中多个个体被观测)。在可以获得合适数据的情况下,这是非常有说服力的方法。
1702644991
1702644992
最后一章(第16章)介绍一些高级的、我在本书中所不能涉及的方法,通常超出一年级研究生所学定量数据分析课程的范围。目前,其中的许多方法被广泛应用于经济学,它们主要处理各种各样的内生性问题(endogeneity problem),即不可观测变量同时影响自变量和因变量,从而导致有偏估计。固定效应和随机效应模型提供了一种解决此类问题的方法,但还有许多其他可用的方法,这将在第16章中介绍。我也会简要介绍结构方程模型,它是一种应对复杂社会过程的方法,即一个因变量是另一个因变量的自变量。例如,在社会地位获得研究中,我们想研究父母的社会地位如何影响个人的受教育水平、父母的社会地位和个人的受教育水平如何影响个人的第一份工作等类似的问题。简要介绍这些高级方法是为了引导学生在量化分析方面继续往更高层次学习。本章以如何做好研究的建议结束,旨在暗示如何提高你们的研究质量并节省时间和精力。
1702644993
1702644994
1702644995
1702644996
1702644998
量化数据分析:通过社会研究检验想法 第1章 列联表基础
1702644999
1702645001
本章内容
1702645002
1702645003
我们在本章首先介绍量化分析的基础——本书涵盖的内容。接着,我们介绍量化分析方法中最基本的列联表或百分数表(严格来讲,不是所有的百分数表都是列联表,因为我们可以做单变量的百分数表。然而,本章重点强调的是如何做二维或多维变量的百分数表)。做列联表虽然步骤简单,但并非不值得称道——它有着明确的规则。本章将具体介绍这些规则及其例外。在此过程中,我们将考虑如何建立因果关系的逻辑关系。然后,我们将介绍除列联表之外的其他描述单变量和多变量分布的方法,以及在控制或令其他变量不变的情况下,估计成对变量间相关程度大小的方法。即使你们以前接触过列联表并且认为自己掌握了这些内容,也请认真对待本章。以我的经验来看,掌握怎样正确做百分数表的逻辑对许多学生来讲都是很难的,这比编那些表面上看起来更花哨、更深奥的程序(如多元回归)还要困难。
1702645004
1702645005
你们会注意到前三章的许多例子都很陈旧,它们有的可以追溯到20世纪60年代的研究。这是因为在那个时代列联表分析是“最先进的”方法——当时顶尖杂志上发表的许多文章都用此方法。通过对这些研究文献进行回顾,我们能学到一些独特而明确的制表方法。
1702645006
1702645007
1702645008
1702645009
1702645011
量化数据分析:通过社会研究检验想法 通过具体实例介绍全书
1702645012
[
上一页 ]
[ :1.702644963e+09 ]
[
下一页 ]