打字猴:1.702650827e+09

1702650827 在美国，公共资助的研究必须与研究社区共享现在国家科学基金（National Science Foundation，NSF）和国家健康研究院（National Institute of Health，NIH）都要求它们资助的抽样调查以及时的方式让公众使用。目前NIH的政策是，“NIH支持最终研究数据的共享……并且希望和支持及时发布与共享由NIH资助研究的最终研究数据，供其他研究者使用。‘及时发布与共享’是指不能晚于最终数据集的主要发现被接受出版的时间”（http：//grants.nih.gov/grants/policy/nihgps_2003/NIHGPS_Part7.htm#_Toc54600131，登录日期为2007年12月9日）。NSF的政策陈述不是很精确但却表达了同样的原则：“NSF希望……在不增加成本及合理的时间内，项目主持人与其他研究者共享数据、样本、所搜集的材料及其他在工作过程中创建或收集的有用资料。也鼓励受资助者共享软件和发明，或以别的方式使创新成果最大限度地有用和得到应用”（http：//www.nsf.gov/pubs/2001/gc101rev1.pdf，登录时间为2007年12月9日）。提供充分的文本是其要求的一部分。

1702650828

1702650829 探讨可替代先验假设的其他解释

1702650830

1702650831 真正好的研究文章的特征之一是，作者预期并探讨了批评者可能提出的对观察到的现象或关系的所有其他可能的解释。在非实验性研究中，寻找不同解释通常是为了评估因为没有纳入同时影响模型中自变量和因变量的变量而导致虚假相关的可能性。因此，你需要问自己：“对于我所观测到的相关有别的解释吗？尤其是有没有别的什么变量影响了我观测到的结果和预测变量的取值？”如果可能，在你的模型中纳入备选变量，或做一项辅助分析（甚至使用不同的数据）来深入研究这些变量与模型中已有变量之间的关系。

1702650832

1702650833 运用此方法的一个好的例子是Miller（2007）的一篇文章，他探讨了20世纪初给予妇女投票权是否会导致公共卫生开支增加从而降低儿童死亡率。他发现有很强的证据支持这个结论。但是他认识到，在接受此因果观点为有效之前，需要排除一种可能性，即投票权立法是内生性的，有一些因素同时影响了投票权的授予和公共卫生开支的增加。因此，他在文章（第24～28页）中专门用一节尝试了多种“有效性检验”以排除他所得到的结果有其他解释的可能性。

1702650834

1702650835 当潜在影响结论的其他变量无法被观测到时，刚才讨论的方法就不可行，但我们可以尝试排除其他可能的解释——通过说明如果它们在起作用，其预测效应会与我们所观测到的不同。例如，在一篇分析中国识字水平影响因素的文章（Treiman，2007a）中，我发现体力劳动者和非体力劳动者在识字水平上的差异随年龄增大，我认为这证明了“非体力劳动随生命历程提高了劳动者的识字水平而体力劳动抑制了其发展的假设”。但是，在接受此结论之前，我需要排除一种可能性，即1996年测量到的年龄差异只不过反映了中国历史变化导致的不同队列在识字水平上的差异。我指出，如果教育质量随时间提高（或下降），我们会预期体力劳动者和非体力劳动者的识字水平都提高（或降低），而不会观测到差异增大的模式。我用类似的方法排除了另一种可能性，即当非体力劳动部门发展时，非体力劳动者和体力劳动者的平均“质量”下降了。

1702650836

1702650837 在某些情况下还有另一种选择，即像我们在前一章所做的那样通过估计固定效应或随机效应模型，从分析中排除未被测量到的潜在的影响结论的因素。还有另一种可能性是通过使用本章前面讨论的处理内生性和样本选择偏误的两种方法之一来修正潜在地影响结论的因素效应。

1702650838

1702650839 进行敏感性分析

1702650840

1702650841 另一种让你对结果的稳健性增强自信心——也使读者对它更有信心——的方法是做敏感性分析（sensitivity analysis）。例如，尝试用不同的函数形式来表示在一般线性模型框架内呈现的关系，在进行表格分析时尝试不同的分界点，以及更一般地，探讨测量概念的不同方法。像考虑潜在忽略变量偏误一样，这种探索也可能会超出所分析的数据集。例如，Treiman和Roos（1983：620-621）通过用就业质量调查（Quality Employment Survey）数据比较了两种测量的估计值——实际劳动经历及其代理测量（=年龄减去受教育年限再减去6），评估了标准代理变量的适用性。

1702650842

1702650843 当然，你的期望是不同的设定方法会产生相似的结果。然而，即使结果不同，你也要报告所有的发现。记住：目标不是“证明”一个假设而是发现社会是如何实际运行的。有时候，这意味着我们必须得出结论：因为结果在不同的设定条件下不稳健，所以我们的数据给予的信息不够。

1702650844

1702650845 Hout和Hauser（1992）批评了Erikson和Goldthorpe有关社会流动的重要的比较研究，Constant Flux（1992b）表明Erikson和Goldthorpe的结果在模型设定、所使用的统计方法或在职业分类的汇总水平上不稳健，也可以见Erikson和Goldthorpe的回应（1992a）。他们的交流提供了一个非常有启发性的例子，说明你最好自己做敏感性分析，免得评论家替你做。有一个让人注意的例子：一项带有偏见、做得很马虎且备受争议的研究经批评家们的尖锐批评最终被彻底推翻，见Herrnstein和Murray（1994）、Heckman（1995）的重要评论、Fischer等（1996）、Hauser和Huang（1997）。

1702650846

1702650847 一种有用的方法是将你们的结果“相提并论”，不仅报告点估计而且报告在不同假设下得出的估计值范围。例如，对于一次态度测量，如果你不清楚应该将回答“不知道”编码为“缺失”还是赋予介于正面和负面态度之间的中间值，那么将这两种方法都尝试一下并评估其结果，当然，两个结果都应报告。

1702650848

1702650849 记录你的研究过程

1702650850

1702650851 你应该用命令文件（Stata中的-do-文件）进行所有分析，并在每次执行命令文件时生成命令和结果日志（Stata中的-log-文件）。此外，你应该在命令文件中给出详细说明，对你做的每一步分析和为什么这样做做出说明。在我自己的工作中，我会更进一步对结果做出评论。

1702650852

1702650853 这样做有几个优点。首先，它记录了你所做的工作。社会科学研究成果从最初的想法到发表文章经常会持续几年。即使你是一个有效率的人（即每次只做一件事情，所以能够实现从开始到结束分析只花几周的时间），你也得向期刊提交文章，而期刊一般会在几个月后才给你反馈，通常会要求你在修改后再提交，那就意味着要做些补充分析。此时，你一定不想处于这样的尴尬境地：不记得表和图中的统计量是如何计算的，更糟糕的是无法重现结果。如果有记录得很清楚的命令文件，那么你就能够弄清楚你做了什么和为什么这么做。

1702650854

1702650855 其次，你可以调整分析并高效地进行新的计算。例如，假设审阅人建议你增加一个控制变量。如果你有现成的命令文件，这就是一项非常简单的工作。你只需要简单地在模型中增加此变量，然后运行命令文件。这要比将你的整个分析重新来过好得多。

1702650856

1702650857 最后，将你的日志文件建档以便在需要时提供，这使得别人能够重复或挑战你的发现。你或许不想说明研究的细节，免得别人发现其中的错误。但科学不是这样进步的——清楚（即使是错误的）远比含糊好。如果你把过程弄得很清楚，那么别人就可以准确地重复你所做的工作，并可能想出更好的方法。记住，这个游戏的目标是促进我们对社会结构和过程的共同理解。

1702650858

1702650859 当然，对于研究文章的最高标准是，它们包含能准确复制研究所必需的所有信息。你的目标应该是做好完整的工作记录，其结果是，如果你给一个称职的分析者提交文章和数据集，他或她可以重现你文章中的每个数字。这个目标是非常值得称赞的，然而，它往往会受挫于期刊编辑，因为编辑坚持要省略技术细节以缩短文章。所以，除了在你的文章中尽可能清楚地介绍技术方法外，将日志文件建档是非常好的专业素养。

1702650860

1702650861 最后一遍查错

1702650862

1702650863 在你提交文章（或提交学期论文，或学位论文的某一章，或把文章放到工作讨论稿系列上）之前，要做的最后一件事情是运行命令文件，然后对照日志文件中相应的数字检查文章中的每一个数字。你会对所能发现的众多不一致感到惊讶。因为完成一篇专业文章是一个非常漫长的过程，在不经意间就会掺杂进来一些不一致的东西。你的目标应该是生成一个包括分析所需要的所有计算的命令文件。即使在你分析一个以上的数据集的情况下，也建议你将所有命令整合到一个单独文件中。这样，你就创建了一个生成和解释所有研究工作的单独文本。你也减少了以下情况发生的可能性，例如，部分分析可能遗漏记录或丢失文本记录。出于同样的原因，你应该将辅助计算——即使是手工计算——也纳入命令文件（Stata的-display-命令提供了与计算器一样的功能）。

1702650864

1702650865 一个“可从作者处索要”的文档因为在发表了的文章中声称补充资料“可从作者处索要”经常被证明是假的——至少在发表了几个月之后是这样，所以在UCLA的加州人口研究中心（California Center for Population Research，CCPR）最近建立了一个系统，如-do-和-log-文件等补充资料可以附在人口讨论稿（Population Working Paper）资料库中发表的文章上。希望其他研究中心也效仿这种做法。

1702650866

1702650867 这样做所效仿的标准——至少部分地——是常规地保存在化学实验室中的实验报告。实验报告记录了某一实验进行的条件，包括房间的温度和湿度、试剂是否某一天被泼在地板上（同时记录了准确时间、泼出了什么和滴在哪里）、每一步实验的结果，以及成功还是失败。我们不需要记录得那么详细。记录我们在运行文件的过程中所犯的错误没有多大意义。但是，我们应该记录在分析时所遭遇的“死胡同”、未能证明的假设、被证明是错误的假设等。你会发现在几个月或几年后再来分析时这些注释非常有帮助。就像我所说的，几个月或几年这样的时间间隔并不罕见。此外，通过对分析中的“死胡同”做好记录并建立档案，你也可能帮助了其他分析者。

1702650868

1702650869

1702650870

1702650871

1702650872 量化数据分析：通过社会研究检验想法 [:1702644846]

1702650873 量化数据分析：通过社会研究检验想法本章小结

1702650874

1702650875 我在本章回顾了一些做好研究设计的一般要点；简要介绍了许多你在更高一级的课程或独立研究中可能遇到的高级统计技术和方法；强调了概率抽样的价值；给出了一些做好实际研究的建议。以本书介绍的资料为基础，你已经具备了对抽样调查和其他数据做高质量严谨分析的条件。但是你不应就此止步，因为在社会科学中统计方法发展得非常快，数据分析的初级课程对掌握最新的技术而言是不够的，我在本章中介绍了一些最新的技术。因此，我鼓励你将本书看作继续充实你的工具箱的开始并终身学习，就像我自获得博士学位以来的40多年里所做的一样。如果像我这样的老家伙都能学点新东西，你也一定能做到！祝学习愉快！

1702650876

[ 上一页 ] [ :1.702650827e+09 ] [ 下一页 ]