打字猴:1.702644943e+09

1702644943

1702644944 当我向他表示希望翻译此书时，Don非常高兴，并主动联系美国的出版社，希望给予版权等方面的帮助；随后又将他的详细讲义和资料发给我，以便我透彻理解此书。在书即将出版的时候，当他得知我在密歇根大学人口研究中心访问时，就马上给编辑写信，请编辑将书直接寄给我。离开的前一天晚上才收到美国出版社寄给我的书。于是，在回北京的飞机上，我又一次通读了此书。

1702644945

1702644946 2011年初，我完成了译稿，并且前后校对了三遍，反复斟酌一些中文用词的习惯。为了理解和翻译得更加准确，尤其是考虑到更加符合中文的表达习惯，Don建议再多请几位修习过此课程的同学帮忙校对（尽管我与社会科学文献出版社签订的出版合同要求5月底前交付书稿，但出于保证翻译质量的考虑，出版社同意延期半年）。这些同学不仅参加过2008年北京大学—密歇根大学学院的暑期课程，而且分别在香港科技大学和加州大学洛杉矶分校聆听过Don亲自授课。我们采取每章轮流由两人校对的工作方式，最后由我统一审校。无论在翻译还是审校的过程中，当遇到不理解的内容和有疑问的地方时，均得到Don详细、耐心的讲解和回复，这使我进一步加深了对本书的理解。

1702644947

1702644948 当翻译、校对工作基本完成时，鉴于Don对中国文化的了解和对中国社会问题的研究兴趣，我也希望Don借此书中文版出版之际，跟中国学生、读者谈谈他多年做中国研究的体会。当我约他为中文版写序时，他欣然同意。同时，我们在这本书的封面上看到Don第一次有了正式的中文名字。虽然Don从事中国研究十多年，他的中译名也曾以多种形式（如特雷曼等）出现过，但多是英文直译，没有得到Don的认可。然而，从此书在中国面世开始，以及在未来以中文发表的文章、著作中，Don决定正式使用他的中文名字——唐启明。

1702644949

1702644950 组织、协调工作是很繁琐的工作，在这里我要特别感谢宋曦同学在校对过程中出色的组织工作。参与本书校对工作的有：宋曦（加州大学洛杉矶分校博士研究生，负责校对第1～4章、第8章、第10章、第12章，以及英文版序言、导言、附录和作者介绍）、李兰（香港科技大学硕士，负责校对第1～4章、第8章、第10章、第12章，以及英文版序言、导言、附录和作者介绍）、李骏（香港科技大学博士候选人，负责校对第5章、第7章、第9章、第11章、第13～14章）、叶华（香港科技大学博士候选人，负责校对第6～8章、第13章、第15～16章）、郑冰岛（香港科技大学博士候选人，负责校对第6章、第9章和第11章）、张卓妮（香港科技大学博士，负责校对第14～15章）。最后，李骏负责翻译了Don为中文版写的序言，张卓妮和宋曦对此做了校对。在此向参与校对的6位同学表示衷心的感谢。

1702644951

1702644952 最后，在此感谢社会科学文献出版社的编辑杨桂凤女士给予的理解和帮助。同时感谢谢宇教授、郭志刚教授和郑晓瑛教授的支持和鼓励，并再次向Don表示感谢，感谢他在联系版权的过程中给予的无私帮助，在翻译和校对的过程中给予的耐心、细致的解答。

1702644953

1702644954 由于译者的能力和知识有限，在翻译过程中难免会有理解不当或错误的地方，恳请读者和同行批评指正。

1702644955

1702644956 任强

1702644957

1702644958 2011年9月于北京大学人口研究所

1702644959

1702644960

1702644961

1702644962

1702644963 量化数据分析：通过社会研究检验想法 [:1702644717]

1702644964 量化数据分析：通过社会研究检验想法导言

1702644965

1702644966 在社会科学领域，研究生所学的统计课程常常被当作数学课程来对待，过多地强调数学推导和证明，这是很常见的，甚至在进行实证研究的时候——实证研究之所以经常被称作统计学，是因为要概括数据，描述变量之间的关系，要依据样本对总体做推论——学生们对所学的知识该作何用，经常表现得很迷茫。也就是说，不知如何将他们所学到的统计方法运用到实际研究中去。

1702644967

1702644968 本书的核心思想就是学习应用统计技术。我设想你们已经掌握了研究生一年级的统计课程，最好是社会科学系或专业学院所设的统计课程。它包括基本的统计学概念，至少涉及常规最小二乘回归，最好有一些逻辑斯蒂回归知识。但是，现在你想成为一名应用定量分析研究者，分析抽样调查或其他定量数据集，以支持你所涉足领域的大量文献知识，最后发表你的研究结果。这本书正是为你而设计的。它是基于两个小学期的课程和我在加州大学洛杉矶分校过去30多年的教学经验，并跟踪社会学和其他社会科学领域定量分析方法最新的发展成果写成的。

1702644969

1702644970 当今发表在社会学和其他社会科学顶级刊物上的文章所使用的各类度量或统计方法大大不同于多年以前。他们大量借鉴计量经济学、心理学、生物统计学，甚至数理统计学的最新进展——每年都有新进展。因此，我过去认为一些内容在第一年的定量方法课程中讲授太难（例如，固定效应和随机效应模型），但现在在发表的社会学文章中却很常见。这使我觉得非常有必要将它们也纳入我的课程教学和这本教材中。

1702644971

1702644972 各章介绍

1702644973

1702644974 本书从分析非实验数据最基本的方法（百分数表）开始介绍。第1～3章阐述列联表的基本逻辑，并介绍关于如何制表的许多技术细节（使得此类表简单易读）。在这三章中有两个核心思想：如何确定百分数表的方向问题和统计控制的概念。根据我的教学经验来看，第一个问题对一些学生来讲是困难的——甚至要比处理后面章节介绍的复杂数学公式困难得多。因此，即使你们认为自己已经掌握了百分数表，我仍希望你们认真学习这几章。这样做将会使你们受益匪浅。

1702644975

1702644976 第4章是关于计算的介绍。我会介绍怎样管理数据以便于计算机分析，怎样使用统计软件进行分析。本书将使用Stata软件包，我会提供使用Stata的一些建议。本章中的介绍也同样适用于其他统计软件包，比如SPSS和SAS。

1702644977

1702644978 第5～7章讲解常规最小二乘相关和回归，这是社会科学中统计分析的基础。这些过程提供了一种量化某些数量结果与其决定因素之间关系的方法。例如，在其他影响因素保持不变的情况下，我们期望在多大程度上人们收入的不同是由他们的受教育水平不同导致的？它们同样提供了一种如何评估预测结果的方法。例如，收入差异在多大程度上能被归结为教育、性别、种族等方面的不同。第5章主要讲解双变量相关和回归，让读者对相关和回归统计有逻辑直觉，并在解释相关和回归统计结果时注意一些常见错误。第6章介绍多元回归，用于当一个因变量有几个自变量的情形，同时介绍“虚拟”变量或二分变量的概念，这需要特别的处理方法。通过使用虚拟变量和“交互项”，我提出一种思路来评价不同人群的社会过程是否不同这个社会科学中常见的问题。第7章介绍了在回归框架内检验相关假设的多个“窍门”。

1702644979

1702644980 社会科学家在使用大多数数据时会受到“缺失数据”的困扰——某些个人在某些变量上缺失信息。第8章回顾了处理缺失数据的方法，并在最后部分以目前最新的方法为例，讲解如何进行缺失数据的多元估算。

1702644981

1702644982 接下来的第9章讨论抽样及其在统计分析中应用的问题。尽管前面各章都假设是简单随机抽样，但是，多数常规人口抽样实际上是复杂的、多阶段抽样。要正确分析这些抽样数据，我们在计算标准误的时候就需要考虑到观测值之间的“聚类”（clustering）特征。本章介绍处理这种特征的抽样估计（survey estimation）方法。

1702644983

1702644984 处理回归问题时常常容易误入陷阱。在第5章中我们曾（简单地）讨论过该问题。在第10章中，我们将通过介绍回归诊断（regression diagnostics）更全面地阐述该问题。这些步骤可以避免依据回归结果做出错误推断的可能性发生。

1702644985

1702644986 第11章介绍如何及怎样构建多题项测度（multiple-item scales），不仅主要集中讨论以因子为基础（factor-based）的测度法，而且介绍效应比例测度法（effect-proportional scaling）。我们经常想研究一些用问卷中的一个题项无法充分测量的概念问题，如“生活水平”、“自由主义”、“A类性格”和“抑郁”等。基于多个题项的综合测量（summary measures）或测度（scales），与单个题项的测量或测度相比，通常会提供更可信（reliable）、更有效（valid）的变量指标。本章介绍如何构建和使用这类测量指标。

1702644987

1702644988 第12～14章介绍受限因变量（limited dependent variables）的分析方法。常规最小二乘回归是为处理连续型因变量而设计的，如收入、受教育年限等。但社会科学家感兴趣的许多因变量或是二分变量（如人们是否投票，是否结婚，是否受到犯罪的伤害，等等），或是多项变量（如在多党派社会中的政治派别、职业类别、大学类型等）。对数线性分析（log-linear analysis）和逻辑斯蒂回归（logistic regression）是处理此类受限因变量的方法。第12章介绍对数线性分析，它是对一组多项变量之间的关系做严格推论的方法，也就是说，对列联表中各变量关系的程度和模式做推论。从这个角度讲，对数线性分析提供了一种对我们在第1～3章所讨论的各种表做统计推论的方法。第13章介绍二项逻辑斯蒂回归，它是一种适合分析二分结果变量的方法，进而讨论如何使用此方法来处理各种特殊情况：递进比，即所研究的问题是什么因素导致人们是否一步步地发生变化，例如，从某一受教育水平到更高水平的影响因素；离散时间风险率模型，它所研究的问题是一个事件（如初婚）在某一给定时点（如特定年龄）发生的可能性；案例—对照模型，它提供了一种研究罕见事件发生可能性的方法，如传染病，获得精英职业，等等。第14章进一步介绍如何研究其他受限因变量：非序次多项变量，如居住地方的类型，可以通过多项逻辑斯蒂回归（multinomial logistic regression）来分析；序次变量，即分类是有等级次序的，但分类之间不等距，例如一些态度测量（你是否“很高兴”、“有点高兴”、“不太高兴”），可以通过序次逻辑斯蒂回归（ordinal logistic regression）来分析；“删失”（censored）变量，即某一测度的范围被截断，例如，一个收入变量的最高分类是“每年100000美元及以上”，可以通过tobit回归（tobit regression）来分析。

1702644989

1702644990 当使用非实验数据时，通常很难明确地建立某一变量导致另一变量的因果关系，因为它们两者可能共同依赖于第三个变量，而此变量常常是未被测量的。第15章介绍了一些处理这类问题的方法，称为固定效应（fixed-effects）和随机效应（random-effects）模型，前提是要有合适的数据——面板数据（同样的个体在多个时点被观测）或者整群数据（在一个家庭、学校、社区等中多个个体被观测）。在可以获得合适数据的情况下，这是非常有说服力的方法。

1702644991

1702644992 最后一章（第16章）介绍一些高级的、我在本书中所不能涉及的方法，通常超出一年级研究生所学定量数据分析课程的范围。目前，其中的许多方法被广泛应用于经济学，它们主要处理各种各样的内生性问题（endogeneity problem），即不可观测变量同时影响自变量和因变量，从而导致有偏估计。固定效应和随机效应模型提供了一种解决此类问题的方法，但还有许多其他可用的方法，这将在第16章中介绍。我也会简要介绍结构方程模型，它是一种应对复杂社会过程的方法，即一个因变量是另一个因变量的自变量。例如，在社会地位获得研究中，我们想研究父母的社会地位如何影响个人的受教育水平、父母的社会地位和个人的受教育水平如何影响个人的第一份工作等类似的问题。简要介绍这些高级方法是为了引导学生在量化分析方面继续往更高层次学习。本章以如何做好研究的建议结束，旨在暗示如何提高你们的研究质量并节省时间和精力。

[ 上一页 ] [ :1.702644943e+09 ] [ 下一页 ]