打字猴:1.702644431e+09

1702644431

1702644432 随机控制实验。安排实验组和对照组的一个最直接的方式就是——可能说出来有些多余——创造一个实验组和一个对照组。在使用这种方式时会遇到两大挑战。第一个挑战是，在很多时候是没有办法拿人做实验的，而且这一限制恐怕在短期内都无法解决。因此，只有当我们有理由认为治疗效果可能会给人带来积极作用时，才能以人作为对象进行对照实验。但这种情况少之又少（例如，人们关心的更多是药物试验或高中辍学率），因此我们就需要接着学习其他策略。

1702644433

1702644434 第二个挑战是，人作为实验对象要比实验室里的小白鼠变化得更多。治疗效果会因为实验组和对照组在其他方面的差异而变得异常复杂，而你的实验对象中难免会有个子高的、个子矮的、生病的、健康的、男的、女的、罪犯、酗酒者、投资银行家等。我们如何才能保证这些不同的特性不会影响到实验结果？好消息是：人生中难得有几次机会能够像这次用最少的劳动换来最优的结果！这里所指的创造实验组和对照组的最佳方法就是将研究对象随机分配到两个组里。随机性的好处就在于，与实验无关的变量一般会在两个小组里实现平均分配，既包括那些显而易见的特性如性别、种族、年龄和教育，也包括其他难以察觉但可以干扰实验结果的特性。

1702644435

1702644436 设想一下，假如我们的样本中包含1000名女性，那么当我们将这个样本随机分成两组时，最有可能出现的结果是每个组中的女性数量为500名。当然，我们无法保证每次都这么准确，但概率又一次地站在了我们这边，某一组的女性数量大大超出另外一组的概率并不高（同理可知，某一组具有某种特性的个体大大超出另一组的概率也不大）。例如，在一个数量为1000人的样本中，女性占1/2,那么有超过450位女性同时被分配到同一组的概率还不足1/100。由此可见，样本数量越大，随机分配的作用就越明显，实验组和对照组的相似性也越强。

1702644437

1702644438 医学试验就是典型的随机控制实验。理想的情况是“双盲”的临床试验，这意味着无论是病人还是医生都不知道哪一组是治疗组，哪一组是对照组。但如果治疗里包含了手术（心脏外科医生当然知道要给哪些病人做搭桥手术），那“双盲”显然是不可能了。但即使要做手术，病人依然可以被蒙在鼓里，因为就算进了手术室，他们也不知道自己是否接受了心脏搭桥。我最欣赏的研究之一是一份有关某种缓解膝盖疼痛的手术评估报告，治疗组的病人接受了膝盖手术，而对照组病人则接受了一次“冒充手术”，医生只在这组病人的膝盖部位划了3道极小的口子，“假装在给他们动手术”。最后的结果是，真正的手术在缓解膝盖疼痛方面并没有比“冒充手术”有效。

1702644439

1702644440 我们可以用随机试验来测试一些有趣的现象。例如，陌生人的祈祷是否可以加快病人的术后恢复？人们对于宗教的认识和理解或许千差万别，但《美国心脏期刊》主办了一次控制实验，观察做过心脏搭桥手术的病人是否会因为有一大群陌生人为他们的健康和快速恢复祈祷而减轻术后并发症的严重程度。一共有1800名病人和来自全美国3个宗教团体的人士参与其中。所有病人均接受了心脏搭桥手术并被分为3组：第一组没有人为他们祈祷，第二组有人为他们祈祷，而且病人自身也知道，第三组也有人为他们祈祷，但研究人员只告诉这组病人，有可能有陌生人为他们祈祷，也有可能没有（这样就相当于控制了祈祷的安慰作用）。与此同时，来自宗教团体的人士会为某些指定的病人祈祷，祈祷时如何念病人的名字也有要求，祈祷词的范围也有规定，必须要包含“愿某某手术成功、健康恢复、没有并发症”。

1702644441

1702644442 结果如何？祈祷会成为美国摇摇欲坠的医疗体系的“救命稻草”吗？恐怕没那么简单。经过30天的观察，研究人员并没有在得到祈祷的病人和没得到祈祷的病人之间发现任何术后恢复上的不同。但是，也有人批评这项研究遗漏了一个潜在的变量：来自于其他渠道的祈祷。《纽约时报》总结道，“专家称这项研究无法克服一个最大的障碍，即每一个人收到的来自未知渠道的祈祷——朋友、家人、全世界各地每天为生病和处于弥留之际的人所进行的祈祷。”

1702644443

1702644444 在人身上做实验可能会遭到逮捕，也有可能让你坐上国际刑事法庭的被告席，对此你应该心里有数。但是在社会科学领域，以人作为研究对象进行随机控制实验依然存在空间。大名鼎鼎且影响深远的田纳西州STAR项目就是其中之一，其实验目的就是观察小班教学对学生学习的促进效果。班级大小和学习之间的关系极为重要，全世界的国家都在积极寻求提高教学水平的途径。假如其他情况都不变，小班教学能够促进更加有效率的学习，那么整个社会就应该在教师的培养和上岗方面加大投人来实现小班教学。但反过来，由于培养教师的成本高昂，假如小班教学的学生之所以考试表现好是因为其他方面的因素，而跟班级大小无关，则我们就应该停止小班教学的推广，而把有限的教学经费投入到其他方面。

1702644445

1702644446 出人意料的是，班级大小和学生成绩之间的关系异常复杂。一般来说，能够开设小班教学的学校拥有的资源也更多，这些学校的学生和老师与大班教学的学校存在差别。具体到学校内部，小班教学的出现原因也各不相同。校长可能会让成绩垫底的学生组成小班一起上课，从而导致小班教学与学生成绩之间的负相关关系。或者经验丰富的教师可能会选择去教小班，这样的话，小班教学的好处就可能不是因为学生少老师教得更精心，而是因为选择教小班的老师水平普遍较高。

1702644447

1702644448 田纳西州STAR项目始于1985年，针对小班教学进行了控制实验。（拉玛•亚历山大时任田纳西州州长，后被美国前总统老布什任命为教育部部长）。在幼儿园教育阶段，来自于79个不同学校的孩子们被随机分到小班（13〜17个学生）、常规班（22~25个学生，老师和助教均为常规水平），教师也同样被随机分配到不同的班级中去。按照实验安排，学生将会在其被分配的班级中学习一整年，但不断变化的现实总是在侵蚀实验的随机性：一些学生中途才加入实验，而一些学生中途就离开了；一些学生因为违反纪律被安排到了其他班级，还有一些家长四处求情终于将自己的孩子转班到了小班，诸如此类。

1702644449

1702644450 至今，STAR项目依然是测试小班教学效果唯一的随机实验，其结论无论是在统计学意义还是社会意义方面都是非凡的。总体上看，小班学生在统考中的表现要比常规班级学生高出0.15个标准差，小班里黑人学生的进步更是达到了两倍之多。但坏消息是，STAR项目实验共花费约1200万美元，有关祈祷对术后恢复的效果的研究也花掉了240万美元，最精致的研究与其他任何精致的事物一样，都有一个共同点，那就是价格不菲。

1702644451

1702644452 自然实验。并不是所有人都有能力随随便便投资几百万美元来运行一个大型随机实验。一个更为经济的替代方案是寻找到一个自然实验，当某个事件自然而然地发生时，恰好营造出一个接近于随机、对照的实验环境。本章一开始举的那个有关华盛顿特区警察的案例就是一个自然实验。生活有时候出于偶然而创造了一个实验组和一个对照组，在这个时候，研究人员应该主动出击，对眼前的现象进行分析并得出结论。如果要大家将教育和寿命放在一起联想，那么我们会对这一对看似不相关实则纵横交错的变量作何评价？受教育程度高的人往往活得更久，这个结论在控制了其他如收入、能享受到的医疗资源等因素后依然存在。《纽约时报》报道：“无论是哪个国家的研究人员，一个他们达成共识的与长寿相关的社会因素就是教育。一个人受教育程度的高低与寿命长短的相关性比种族和收入因素都要显着。”但至少到目前为止，这还只是一个相关关系。在其他情况都相同的前提下，更多的教育是否就能够带来更健康的身体？如果你把教育看作一种“治疗”，那么接受更多的“治疗（教育）”是否就能保证你活得更久？

1702644453

1702644454 这是一个看似不可能得到回答的问题，因为选择接受教育的人与不希望读更多书的人肯定在某些方面是不一样的。高中学历与本科学历的人之间的差别绝不仅限于大学4年的教育，在那些选择继续求学的人当中，极有可能存在某些他们所共有的除了教育以外的隐藏特性，从而使得这些人更加长寿。假如这是真的，那么让那些原本没想过继续念书的人上大学；对延长他们的寿命并不会有帮助。健康状况的改善不能归功于提高的教育程度，而是来自于那类选择提高自身教育程度的人所共有的特质。

1702644455

1702644456 我们不能用随机实验来解决这一难题，因为这会让某些实验对象在不情愿的状态下过早地离开校园（如果跟一个人说：你不能去上大学，因为你在对照组。想想就觉得残忍）。测试教育对寿命的因果作用的唯一可行的办法就是，借助某些让不想深造的人继续留在学校的自然实验得出结论，至少这在道德上是可以被接受的，因为我们预测会看到一个积极正面的治疗效果。但是，我们还是不能强迫别人留在学校，这太不符合美国的“自由”精神了。

1702644457

1702644458 可理想往往照不进现实。美国的每一个州都制定了相关法律来保证最低受教育年限，但在历史上，这些法律都曾发生过变化。像这类非研究对象本人所能决定的影响受教育程度的外部变化正是研究人员梦寐以求的。哥伦比亚大学研究生奥德丽安娜•莱拉斯·姆耐发现，美国不同的州在不同时期对各自的最低受教育年限进行过调整，并由此认为这是一个具有研究潜力的课题。她通过翻阅大量史料和人口普查数据，对这些州的义务教育法律中有关最低受教育年限的条款变化以及相对应的居民寿命变化进行了记录。但她依然面临着一个实验方法上的挑战：即使某一个州的居民在最低受教育年限提升之后活得更久，我们也不能将寿命的延长归功于学校教育的增加。这是因为人的平均寿命从总体上看一直在增加，无论对州法律进行何种调整，生于20世纪90年代的人就是活得比生于19世纪50年代的人久。

1702644459

1702644460 但莱拉斯·姆耐还有一个天然的对照组：那些没有对最低受教育年限进行调整的州。她的研究接近于一个大型的实验室实验：按照法律，伊利诺伊州的居民不得不在学校接受7年的教育，而他们的邻居——印第安纳州的居民只需要完成6年的学业就可以选择离开学校了。它与实验室实验唯一的区别就在于，对照组的形成完全是因为一个历史巧合，而这恰恰是“自然实验”的应有之义。

1702644461

1702644462 那结果是什么呢？伊利诺伊州年龄在35周岁及以上的成年人，就因为比印第安纳州的同龄人多上了一年学，他们的预期寿命要比后者多出一年半。莱拉斯-姆耐的研究结论在其他国家的研究中也得到了证实，义务教育年限的差异导致了类似的自然实验。随之而来的就是一些质疑，我们至今也没搞明白多上学可以活得更久背后的原理到底是什么。

1702644463

1702644464 非对等对照实验。有些时候研究治疗效果最佳且可行的方式，并非完全随机地分配实验组和对照组。当环境不允许我们进行随机分配的时候，我们当然希望最终的实验组和对照组能够大体相似，不对结论的准确性产生影响。好消息是，我们有一个实验组，一个对照组。坏消息是，任何非随机分配都会产生偏见，至少是有存在偏见的可能性。就算你认为你的分组毫无破绽，但或许在实验组和对照组之间还有一些难以察觉的差异，正是这些差异影响了小组成员的分配和组成，从而产生跟现实有偏差的结论，这就是我们所说的“非对等对照”。

1702644465

1702644466 一个非对等对照组依然可以成为非常有用的工具。让我们回过头来思考一下本章开头提出的那个问题：进入一所顶尖大学学习真的会给人的一生带来巨大的优势吗？哈佛、普林斯顿、达特茅斯等名牌大学毕业的学生确实非常出色，他们的工资更高，生活也更加精致和丰富多彩，相比之下那些毕业于一般院校的学生就过得惨淡多了。（PayScale网站于2008年曾进行过一项调查，发现工作10~20年的达特茅斯大学毕业生的工资中位数为13.4万美元，是所有本科院校中最高的；普林斯顿大学位居第二，工资中位数为13.1万美元）。我希望大家在这个时候应该能意识到，这些令人脸红心跳的数字其实跟达特茅斯或普林斯顿大学的教育价值毫无关系。进入达特茅斯和普林斯顿大学的学生在高中毕业申请学校时就已经非常出色了，这也是他们能够被这些大学录取的原因。无论他们是否接受过大学教育，都有可能成为生活中的赢家。

1702644467

1702644468 我们所不知道的是，接受像哈佛或耶鲁大学这类顶尖大学的精英教育会产生怎样的效果？从这些名牌大学毕业出来的人之所以能够成功，到底是因为他们当初在跨入校门时就已经才华出众，还是因为这些大学通过精选优秀人才、培养他们的竞争力而使得他们的“附加值”增加，又或者两者都有？

1702644469

1702644470 我们还是不能通过随机实验的方法来回答这个问题。很少有高中毕业生愿意被随机分配到一所大学就读，哈佛和达特茅斯大学肯定也不愿意接收随机分配给它们的学生。研究似乎陷入了僵局，到底怎么样才能检验大学教育的效果呢？开动脑筋就能找到出路！两位经济学家斯塔西•戴尔和阿兰•克鲁格发现，其实有很多学生在高中毕业时会同时申请多所大学，通过对这一事实的“挖掘”，研究出现了转机。一些学生被名牌大学录取之后便高高兴兴地去报到了，而有一些学生在收到名牌大学的录取通知书后，经过再三考虑，还是去了普通大学或学院深造。于是现在我们就有了一个实验组（进入名牌大学学习的同学）和一个非对等对照组（凭才华和实力足以进入名牌大学却选择去竞争没那么激烈的高校学习）。

1702644471

1702644472 戴尔和克鲁格对两个组学生的纵向数据进行了分析。虽然这不是一个苹果对苹果的完美比较，而且收入只不过是人生成就的一部分，但他们的发现应该能够舒缓高中生及其父母的紧张情绪。毕业于名牌大学的人在收入方面并没有超过实力相当，但选择就读一般大学的人，唯一的例外就是出生于低收入家庭的人，他们从名牌院校毕业后的收入会有明显的增长优势。戴尔和克鲁格的方法有效地将实验效果（在名牌大学读4年书）从选择效果（最有才华的学生都被名牌大学挑走了）中剥离了出来。阿兰•克鲁格在《纽约时报》上撰文指出，“相比起毕业证书上的学校名字，正确认识自己的兴趣、抱负和能力更能成就人的一生”，这其实也间接回答了本章开头所提出的那个问题。

1702644473

1702644474 差分类差分实验。观察原因和结果的一个最佳方式就是放手去做，然后看看会发生什么，因为这就是婴儿和小孩（有时候也包括成年人）认识世界的途径。我的小孩很快就发现，如果他们在厨房乱扔食物（原因），家里的小狗就会兴高采烈地追着食物跑（结果）。当然，同样的观察方式也可以帮我们认识生活中的其他现象。假如美国政府推出了减税政策，经济就会跟着好转，那么减税政策一定是经济的助推剂。

1702644475

1702644476 然而，这一方式存在着一个巨大的陷阱：生活可比在厨房扔食物复杂多了。的确，政府的减税政策或许正好在某个时间点出台，但在同一时期可能还有其他“介人”因素在发挥作用：越来越多的女性进入大学学习，互联网以及其他科技创新正在提升美国工人的生产效率，中国的人民币价值被低估，芝加哥小熊棒球队总经理被解雇，等等。无论减税政策出台后发生了什么事情，都不能只归功或归咎于减税政策本身。任何“前与后”类的分析均面临着一个挑战，那就是仅凭一件事情紧随另一件事情的发生，并不能推断两件事情之间存在因果关系。

1702644477

1702644478 “差分类差分”法可以通过两个步骤来明确某个介入因素的效果。首先，我们对某个群体接受某项介入因素或治疗之前和之后的数据进行比较，例如推广促进就业政策之前和之后某个县的失业率变化情况。其次，我们将这些数据与另一个没有推出就业政策的同类县同期的失业率情况进行比较。

1702644479

1702644480 重要的是，用于分析的两个对象除了是否有介入因素，其他方面的情况基本上都相似；因此，两个对象的观察结果若存在任何显着差异，就应该被认为是所评估的项目或政策的效果。举个例子，假设伊利诺伊州的一个县为了应对高失业率,推出了一个就业培训项目，但在接下来的两年时间里，失业率依然呈上升走势，这是不是就意味着就业培训项目失败了？谁能告诉我们答案？

[ 上一页 ] [ :1.702644431e+09 ] [ 下一页 ]