1702644414
赤裸裸的统计学:除去大数据的枯燥外衣,呈现真实的数字之美 第14章 项目评估与“反现实”
1702644415
1702644416
哈佛大学等世界顶尖大学的毕业生进入社会后,其收入往往高于一般大学的毕业生,让他们获得高收入的究竞是常春藤大学的教育优势,还是他们本身就很出色?
1702644417
1702644418
出色的研究者之所以出色,并不是因为他们不用纸笔就可以在脑中进行复杂的计算,也不是因为他们总能在电视智力竞赛中赢得更多的奖品(虽然这些本领也很重要)。这些改变了我们的知识世界的研究者之所以能够得到我们的尊敬和崇拜,主要是因为他们作为个人或团队,总是能够找到有创意的方式来控制变量,使得对照实验能够进行下去。在对某项疗法或某种介人手段进行测量时,我们需要制定一些类似于标尺的东西来提供参照。上哈佛大学会给你的人生带来什么影响?要回答这个问题,我们就必须知道你去哈佛大学读书以后发生了什么,如果没去哈佛大学读书又发生了什么。显然,这两个数据我们是无法兼得的,但聪明的研究者就能找到有创意的方式来测量某种疗法或介人手段(比如去哈佛大学念书)的影响,也就是在现实与“反现实”(在介入手段缺失的前提下所发生的结果)之间搭建比较的桥梁。
1702644419
1702644420
为了让大家能够更好地理解,我们先来回答一个看上去相对简单的问题:派出大量警察上街巡逻能降低犯罪率吗?这是一个非常具有社会意义的问题,因为犯罪加剧了社会运行的成本,给普通人的生活带来了巨大损失。假如更多站岗或巡逻的警察通过自身的震慑力以及抓捕坏人减少了犯罪,那么这项在增加警力方面的投入就可谓是收到了很好的效果。但是,如果这项举措对减少犯罪没有或几乎没有任何作用,那么政府就应该考虑如何更好地利用这笔资金(比如投入到打击犯罪的高科技手段的运用上,增加监控摄像头的安装数量等)。
1702644421
1702644422
更多的警察与犯罪率的因果关系是什么?这样一个看似简单的问题其实暗藏玄机,让人无从下手。到了本书的这一章,作为读者的你一定也意识到了我们不能简单地用人均警察数这一个变量来解释犯罪率。苏黎世不是洛杉矶,就算是位于美国境内的大城市,它们彼此之间也存在难以忽略的差异,洛杉矶、纽约、休斯敦、迈阿密、底特律以及芝加哥都是有着各自特征的城市,它们的人口组成不同,打击犯罪所面临的挑战也各不相同。
1702644423
1702644424
我们通常的做法是试图列出一个回归方程式,对这些差异进行控制,但这次就算是多元回归分析也无能为力了。假如我们试图用人均警察数量作为解释变量(同时控制其他因素)来解释犯罪率(因变量),就存在一个非常严重的因果倒置问题。尽管从理论上来说,我们有确凿的证据证明派更多的警察上街巡逻能够降低犯罪率,但也完全有可能是高犯罪率“导致”了更多的警察不得不上街巡逻。我们可以轻松地在犯罪率和警察数量之间找到一个显着,但也极具误导作用的正相关关系:拥有最多警察的地方也是犯罪问题最严重的地方。当然,拥有最多医生的地方常常也是病人最为密集的地方,但并不是这些医生导致人们生病的,他们只不过是到了那些最需要医生的地方而已(与此同时,病人们也会聚集到这些能够提供优质医疗服务的地方)。在佛罗里达州有大量的肿瘤专家和心脏病专家,如果将他们赶到其他州去治疗病人,佛罗里达州的退休人口会因此变得更加健康吗?显然不会。
1702644425
1702644426
欢迎来到项目评估阶段,在这里我们会探索与测量某些介人手段的因果作用,从新型的癌症药物到就业解决政策,从高中的辍学率到派更多的警察上街巡逻。所有这些我们所关心的介入手段都可以称为“治疗”,虽然这个词更多的是出现在统计学语境里而非日常口语中。治疗可以是其表面的含义,即某种医学干预,也可以表示上大学、出狱后参加就业培训等。关键在于将某个因素的效果分离出来,理想的情景是,将除了是否接受过“治疗”以外其他方面情况完全相同的两组人员放在一起进行比较。
1702644427
1702644428
在难以弄清原因和结果的时候,项目评估提供了一系列用于隔离治疗效果的工具。回到刚才警察和犯罪率的问题上,让我们来看看宾夕法尼亚大学的乔纳森·克里克和乔治•梅森大学的亚历山大•塔巴洛克是如何解决这个问题的。他们的研究策略是借助恐怖袭击预警系统。具体来说,华盛顿特区由于其首都的独特政治地位,自然成为恐怖分子的主要袭击目标,因此在发出“高度戒备”预警的日子里,城里的某些区域会增派巡逻警力。假设街头犯罪和恐怖威胁之间没有相关性,那么在华盛顿特区增加警力就与传统的犯罪率之间不存在相关性,也就是所谓的“外生变量”。这两位研究人员最有价值的贡献就在于发现了一个自然实验:恐怖袭击“高度戒备”预警会给传统犯罪带来什么影响?
1702644429
1702644430
回答是:恐怖袭击预警级别为橙色时(高度警戒、更多警察上街>的犯罪率要比黄色时(警戒级别略低,没有增加额外的执法巡逻)低约7%。两位研究员还发现,在高度警戒的日子里,那些警力增派最多的警区的犯罪率下降的幅度是最大的(这是因为这些警区是白宫、国会大厦和国家广场的所在地)。一个重要的启示就是,我们只需要开动脑筋,就能够回答棘手但很重要的社会问题。下面就来介绍一些隔离“治疗”效果最常用的方法。
1702644431
1702644432
随机控制实验。安排实验组和对照组的一个最直接的方式就是——可能说出来有些多余——创造一个实验组和一个对照组。在使用这种方式时会遇到两大挑战。第一个挑战是,在很多时候是没有办法拿人做实验的,而且这一限制恐怕在短期内都无法解决。因此,只有当我们有理由认为治疗效果可能会给人带来积极作用时,才能以人作为对象进行对照实验。但这种情况少之又少(例如,人们关心的更多是药物试验或高中辍学率),因此我们就需要接着学习其他策略。
1702644433
1702644434
第二个挑战是,人作为实验对象要比实验室里的小白鼠变化得更多。治疗效果会因为实验组和对照组在其他方面的差异而变得异常复杂,而你的实验对象中难免会有个子高的、个子矮的、生病的、健康的、男的、女的、罪犯、酗酒者、投资银行家等。我们如何才能保证这些不同的特性不会影响到实验结果?好消息是:人生中难得有几次机会能够像这次用最少的劳动换来最优的结果!这里所指的创造实验组和对照组的最佳方法就是将研究对象随机分配到两个组里。随机性的好处就在于,与实验无关的变量一般会在两个小组里实现平均分配,既包括那些显而易见的特性如性别、种族、年龄和教育,也包括其他难以察觉但可以干扰实验结果的特性。
1702644435
1702644436
设想一下,假如我们的样本中包含1000名女性,那么当我们将这个样本随机分成两组时,最有可能出现的结果是每个组中的女性数量为500名。当然,我们无法保证每次都这么准确,但概率又一次地站在了我们这边,某一组的女性数量大大超出另外一组的概率并不高(同理可知,某一组具有某种特性的个体大大超出另一组的概率也不大)。例如,在一个数量为1000人的样本中,女性占1/2,那么有超过450位女性同时被分配到同一组的概率还不足1/100。由此可见,样本数量越大,随机分配的作用就越明显,实验组和对照组的相似性也越强。
1702644437
1702644438
医学试验就是典型的随机控制实验。理想的情况是“双盲”的临床试验,这意味着无论是病人还是医生都不知道哪一组是治疗组,哪一组是对照组。但如果治疗里包含了手术(心脏外科医生当然知道要给哪些病人做搭桥手术),那“双盲”显然是不可能了。但即使要做手术,病人依然可以被蒙在鼓里,因为就算进了手术室,他们也不知道自己是否接受了心脏搭桥。我最欣赏的研究之一是一份有关某种缓解膝盖疼痛的手术评估报告,治疗组的病人接受了膝盖手术,而对照组病人则接受了一次“冒充手术”,医生只在这组病人的膝盖部位划了3道极小的口子,“假装在给他们动手术”。最后的结果是,真正的手术在缓解膝盖疼痛方面并没有比“冒充手术”有效。
1702644439
1702644440
我们可以用随机试验来测试一些有趣的现象。例如,陌生人的祈祷是否可以加快病人的术后恢复?人们对于宗教的认识和理解或许千差万别,但《美国心脏期刊》主办了一次控制实验,观察做过心脏搭桥手术的病人是否会因为有一大群陌生人为他们的健康和快速恢复祈祷而减轻术后并发症的严重程度。一共有1800名病人和来自全美国3个宗教团体的人士参与其中。所有病人均接受了心脏搭桥手术并被分为3组:第一组没有人为他们祈祷,第二组有人为他们祈祷,而且病人自身也知道,第三组也有人为他们祈祷,但研究人员只告诉这组病人,有可能有陌生人为他们祈祷,也有可能没有(这样就相当于控制了祈祷的安慰作用)。与此同时,来自宗教团体的人士会为某些指定的病人祈祷,祈祷时如何念病人的名字也有要求,祈祷词的范围也有规定,必须要包含“愿某某手术成功、健康恢复、没有并发症”。
1702644441
1702644442
结果如何?祈祷会成为美国摇摇欲坠的医疗体系的“救命稻草”吗?恐怕没那么简单。经过30天的观察,研究人员并没有在得到祈祷的病人和没得到祈祷的病人之间发现任何术后恢复上的不同。但是,也有人批评这项研究遗漏了一个潜在的变量:来自于其他渠道的祈祷。《纽约时报》总结道,“专家称这项研究无法克服一个最大的障碍,即每一个人收到的来自未知渠道的祈祷——朋友、家人、全世界各地每天为生病和处于弥留之际的人所进行的祈祷。”
1702644443
1702644444
在人身上做实验可能会遭到逮捕,也有可能让你坐上国际刑事法庭的被告席,对此你应该心里有数。但是在社会科学领域,以人作为研究对象进行随机控制实验依然存在空间。大名鼎鼎且影响深远的田纳西州STAR项目就是其中之一,其实验目的就是观察小班教学对学生学习的促进效果。班级大小和学习之间的关系极为重要,全世界的国家都在积极寻求提高教学水平的途径。假如其他情况都不变,小班教学能够促进更加有效率的学习,那么整个社会就应该在教师的培养和上岗方面加大投人来实现小班教学。但反过来,由于培养教师的成本高昂,假如小班教学的学生之所以考试表现好是因为其他方面的因素,而跟班级大小无关,则我们就应该停止小班教学的推广,而把有限的教学经费投入到其他方面。
1702644445
1702644446
出人意料的是,班级大小和学生成绩之间的关系异常复杂。一般来说,能够开设小班教学的学校拥有的资源也更多,这些学校的学生和老师与大班教学的学校存在差别。具体到学校内部,小班教学的出现原因也各不相同。校长可能会让成绩垫底的学生组成小班一起上课,从而导致小班教学与学生成绩之间的负相关关系。或者经验丰富的教师可能会选择去教小班,这样的话,小班教学的好处就可能不是因为学生少老师教得更精心,而是因为选择教小班的老师水平普遍较高。
1702644447
1702644448
田纳西州STAR项目始于1985年,针对小班教学进行了控制实验。(拉玛•亚历山大时任田纳西州州长,后被美国前总统老布什任命为教育部部长)。在幼儿园教育阶段,来自于79个不同学校的孩子们被随机分到小班(13〜17个学生)、常规班(22~25个学生,老师和助教均为常规水平),教师也同样被随机分配到不同的班级中去。按照实验安排,学生将会在其被分配的班级中学习一整年,但不断变化的现实总是在侵蚀实验的随机性:一些学生中途才加入实验,而一些学生中途就离开了;一些学生因为违反纪律被安排到了其他班级,还有一些家长四处求情终于将自己的孩子转班到了小班,诸如此类。
1702644449
1702644450
至今,STAR项目依然是测试小班教学效果唯一的随机实验,其结论无论是在统计学意义还是社会意义方面都是非凡的。总体上看,小班学生在统考中的表现要比常规班级学生高出0.15个标准差,小班里黑人学生的进步更是达到了两倍之多。但坏消息是,STAR项目实验共花费约1200万美元,有关祈祷对术后恢复的效果的研究也花掉了240万美元,最精致的研究与其他任何精致的事物一样,都有一个共同点,那就是价格不菲。
1702644451
1702644452
自然实验。并不是所有人都有能力随随便便投资几百万美元来运行一个大型随机实验。一个更为经济的替代方案是寻找到一个自然实验,当某个事件自然而然地发生时,恰好营造出一个接近于随机、对照的实验环境。本章一开始举的那个有关华盛顿特区警察的案例就是一个自然实验。生活有时候出于偶然而创造了一个实验组和一个对照组,在这个时候,研究人员应该主动出击,对眼前的现象进行分析并得出结论。如果要大家将教育和寿命放在一起联想,那么我们会对这一对看似不相关实则纵横交错的变量作何评价?受教育程度高的人往往活得更久,这个结论在控制了其他如收入、能享受到的医疗资源等因素后依然存在。《纽约时报》报道:“无论是哪个国家的研究人员,一个他们达成共识的与长寿相关的社会因素就是教育。一个人受教育程度的高低与寿命长短的相关性比种族和收入因素都要显着。”但至少到目前为止,这还只是一个相关关系。在其他情况都相同的前提下,更多的教育是否就能够带来更健康的身体?如果你把教育看作一种“治疗”,那么接受更多的“治疗(教育)”是否就能保证你活得更久?
1702644453
1702644454
这是一个看似不可能得到回答的问题,因为选择接受教育的人与不希望读更多书的人肯定在某些方面是不一样的。高中学历与本科学历的人之间的差别绝不仅限于大学4年的教育,在那些选择继续求学的人当中,极有可能存在某些他们所共有的除了教育以外的隐藏特性,从而使得这些人更加长寿。假如这是真的,那么让那些原本没想过继续念书的人上大学;对延长他们的寿命并不会有帮助。健康状况的改善不能归功于提高的教育程度,而是来自于那类选择提高自身教育程度的人所共有的特质。
1702644455
1702644456
我们不能用随机实验来解决这一难题,因为这会让某些实验对象在不情愿的状态下过早地离开校园(如果跟一个人说:你不能去上大学,因为你在对照组。想想就觉得残忍)。测试教育对寿命的因果作用的唯一可行的办法就是,借助某些让不想深造的人继续留在学校的自然实验得出结论,至少这在道德上是可以被接受的,因为我们预测会看到一个积极正面的治疗效果。但是,我们还是不能强迫别人留在学校,这太不符合美国的“自由”精神了。
1702644457
1702644458
可理想往往照不进现实。美国的每一个州都制定了相关法律来保证最低受教育年限,但在历史上,这些法律都曾发生过变化。像这类非研究对象本人所能决定的影响受教育程度的外部变化正是研究人员梦寐以求的。哥伦比亚大学研究生奥德丽安娜•莱拉斯·姆耐发现,美国不同的州在不同时期对各自的最低受教育年限进行过调整,并由此认为这是一个具有研究潜力的课题。她通过翻阅大量史料和人口普查数据,对这些州的义务教育法律中有关最低受教育年限的条款变化以及相对应的居民寿命变化进行了记录。但她依然面临着一个实验方法上的挑战:即使某一个州的居民在最低受教育年限提升之后活得更久,我们也不能将寿命的延长归功于学校教育的增加。这是因为人的平均寿命从总体上看一直在增加,无论对州法律进行何种调整,生于20世纪90年代的人就是活得比生于19世纪50年代的人久。
1702644459
1702644460
但莱拉斯·姆耐还有一个天然的对照组:那些没有对最低受教育年限进行调整的州。她的研究接近于一个大型的实验室实验:按照法律,伊利诺伊州的居民不得不在学校接受7年的教育,而他们的邻居——印第安纳州的居民只需要完成6年的学业就可以选择离开学校了。它与实验室实验唯一的区别就在于,对照组的形成完全是因为一个历史巧合,而这恰恰是“自然实验”的应有之义。
1702644461
1702644462
那结果是什么呢?伊利诺伊州年龄在35周岁及以上的成年人,就因为比印第安纳州的同龄人多上了一年学,他们的预期寿命要比后者多出一年半。莱拉斯-姆耐的研究结论在其他国家的研究中也得到了证实,义务教育年限的差异导致了类似的自然实验。随之而来的就是一些质疑,我们至今也没搞明白多上学可以活得更久背后的原理到底是什么。
[
上一页 ]
[ :1.702644413e+09 ]
[
下一页 ]