打字猴:1.702644394e+09

1702644394 连续抛硬币的结果都是正面朝上显然只是凭运气，周围的学生都是见证人。但是，统计学却有可能不这么认为。连续5次抛出正面朝上的概率为1/32，约0.03,完全低于我们通常要推翻零假设时所定的0.05的门槛。在这个例子中，我们的零假设是学生抛硬币时并不存在特殊能力；而刚刚连续抛出5次正面朝上的运气（如果我召集了大量学生参与实验，那么这种情况至少能够发生在一位同学身上）就足以让我们推翻零假设，宣布备择假设成立，即这位学生拥有抛硬币总是正面朝上的特殊能力。在他结束了这一令人印象深刻的“神技”表演之后，我们便可以从他下手，寻找成功抛硬币的蛛丝马迹了：他抛硬币的动作、他的体育训练、当硬币在空中时他的注意力放在哪里，等等。自然，所有这一切到最后都可以用“荒唐”二字来概括。

1702644395

1702644396 这一现象甚至还蔓延到了正式、严肃的研究中。一个广为接受的研究惯例是，在零假设成立的前提下，如果某个概率小于或等于1/20的偶然结果真的发生了，则我们就可以推翻零假设。当然，假如我们进行20次试验，或在某个回归方程式中加入20个无关变量，那么一般说来就会出现一个具有统计学意义的伪发现。《纽约时报》就引用了医学统计专家和流行病学家理查德•彼托的话很好地概括了这一令人不安的现实：“流行病学是一门如此美妙的学科，为我们了解人类生命和死亡提供了重要的视角，但同时也出版了多得令人咋舌的学术垃圾。”

1702644397

1702644398 甚至连医学研究的黄金标准——采取随机抽样的临床试验都应该以怀疑的眼光来审视。2011年，《华尔街日报》头版刊登了一篇有关医学研究的“一个不可见人的秘密”的文章，报纸这样写道：“绝大部分的试验结果，包括那些刊登在顶级同行间审阅的学术期刊上的论文，都是无法复制的。”（同行间审阅期刊上的研究成果和文章，在刊登之前都需要经过同领域的其他专家的审阅以确保研究的可靠性,这类刊物被视作学术研究成果的“把关人”。）之所以会有这样一个“不可见人的秘密”，其中一个原因就是在前面的章节中介绍的“发表性偏见”，如果研究人员和医学杂志大量关注肯定性发现而忽略否定性发现，那么它们就有可能发表唯一的一篇结论为某试验药物有效的论文，而忽略其他19篇证明该药物没有疗效的论文。某些临床试验同样有可能采用小型样本（比如某一种罕见的疾病），这样就提升了观察结果中一些随机偏离的数据在统计的过程中被过度重视的可能性。此外，研究人员可能原本就具有一些有意无意的偏见，或者是出于某个先入为主、根深蒂固的观点，或者是因为某项肯定性发现对他们的事业更有帮助（毕竟，没有人会因为证明某药不能治愈癌症而发财或出名的）。

1702644399

1702644400 出于上述种种原因，有大量发表的专家研究最后被证明是错误的。希腊医生和流行病学家约翰•艾奥尼蒂斯对3本最有声望的医学期刊里刊登的49篇学术研究论文进行了统计，每一篇论文的研究发现都被转引了至少1000次，但其中差不多有1/3的研究成果都被后续的研究否定了。（例如，有一些研究是支持雌激素补充疗法的）。根据艾奥尼蒂斯博士的观察，在已经出版的科学论文中，差不多有1/2最终会被证明是错误的。他的研究成果刊登在《美国医学协会学报》上，有趣的是这就是他所研究的3本期刊中的其中一本。这难免令人产生困惑：假如艾奥尼蒂斯博士的研究发现是正确的，那他的研究发现就很有可能是错误的。

1702644401

1702644402 无论怎么样，回归分析依然是一个非常棒的统计学工具（好吧，我承认上一章中将其形容为“神奇的万金油”有一点儿言过其实），它能够让我们从大型的数据样本中寻找到关键的相关关系，而这些相关关系又通常是重要的医学和社会科学研究的关键所在。统计学为我们在评价这些相关关系时提供了客观的标准，如果使用得当，回归分析将会是科学方法的一个重要组成部分。那么，就把这一章看作必须引起重视的警示篇吧。

1702644403

1702644404 本章精选的所有警示其实都可以浓缩为两个基本经验。第一，设计一个好的回归方程式，想清楚应该考虑哪些变量、应该从哪里收集数据，一个好的方程式要比统计计算本身更加重要。这个过程可以通过对方程式的评价和回归方程的具体化来实现。优秀的研究人员能够对变量进行逻辑思考，决定哪些变量可以加入到回归方程式中，发现还有哪些遗漏的变量，以及正确解读最终的分析结果。

1702644405

1702644406 第二，与绝大部分统计推断一样，回归分析始终以观察样本为立足点。两个变量之间的相关关系就像是犯罪现场的一个指纹，能够为我们指出正确的方向，但在大多数时候还不足以定罪（有些时候在犯罪现场发现的指纹甚至都不是凶手的）。对于任何回归分析来说，都需要在以下方面得到理论支持：为什么方程式里要有这些解释变量？通过其他学科领域是否也能解释这个分析结果？例如，我们为什么会认为穿紫色鞋子可以提高SAT考试数学部分的成绩？为什么吃爆米花可以帮助预防前列腺癌？分析得出的结论需要具有可复制性，至少也得与其他科学发现相一致。

1702644407

1702644408 如果不按指示操作，那么就算是“神奇的万金油”也会失效的。

1702644409

1702644410

1702644411

1702644412

1702644413 赤裸裸的统计学：除去大数据的枯燥外衣，呈现真实的数字之美 [:1702642314]

1702644414 赤裸裸的统计学：除去大数据的枯燥外衣，呈现真实的数字之美第14章项目评估与“反现实”

1702644415

1702644416 哈佛大学等世界顶尖大学的毕业生进入社会后，其收入往往高于一般大学的毕业生，让他们获得高收入的究竞是常春藤大学的教育优势，还是他们本身就很出色？

1702644417

1702644418 出色的研究者之所以出色，并不是因为他们不用纸笔就可以在脑中进行复杂的计算，也不是因为他们总能在电视智力竞赛中赢得更多的奖品（虽然这些本领也很重要）。这些改变了我们的知识世界的研究者之所以能够得到我们的尊敬和崇拜，主要是因为他们作为个人或团队，总是能够找到有创意的方式来控制变量，使得对照实验能够进行下去。在对某项疗法或某种介人手段进行测量时，我们需要制定一些类似于标尺的东西来提供参照。上哈佛大学会给你的人生带来什么影响？要回答这个问题，我们就必须知道你去哈佛大学读书以后发生了什么，如果没去哈佛大学读书又发生了什么。显然，这两个数据我们是无法兼得的，但聪明的研究者就能找到有创意的方式来测量某种疗法或介人手段（比如去哈佛大学念书）的影响，也就是在现实与“反现实”（在介入手段缺失的前提下所发生的结果）之间搭建比较的桥梁。

1702644419

1702644420 为了让大家能够更好地理解，我们先来回答一个看上去相对简单的问题：派出大量警察上街巡逻能降低犯罪率吗？这是一个非常具有社会意义的问题，因为犯罪加剧了社会运行的成本，给普通人的生活带来了巨大损失。假如更多站岗或巡逻的警察通过自身的震慑力以及抓捕坏人减少了犯罪，那么这项在增加警力方面的投入就可谓是收到了很好的效果。但是，如果这项举措对减少犯罪没有或几乎没有任何作用，那么政府就应该考虑如何更好地利用这笔资金（比如投入到打击犯罪的高科技手段的运用上，增加监控摄像头的安装数量等）。

1702644421

1702644422 更多的警察与犯罪率的因果关系是什么？这样一个看似简单的问题其实暗藏玄机，让人无从下手。到了本书的这一章，作为读者的你一定也意识到了我们不能简单地用人均警察数这一个变量来解释犯罪率。苏黎世不是洛杉矶，就算是位于美国境内的大城市，它们彼此之间也存在难以忽略的差异，洛杉矶、纽约、休斯敦、迈阿密、底特律以及芝加哥都是有着各自特征的城市，它们的人口组成不同，打击犯罪所面临的挑战也各不相同。

1702644423

1702644424 我们通常的做法是试图列出一个回归方程式，对这些差异进行控制，但这次就算是多元回归分析也无能为力了。假如我们试图用人均警察数量作为解释变量（同时控制其他因素）来解释犯罪率（因变量），就存在一个非常严重的因果倒置问题。尽管从理论上来说，我们有确凿的证据证明派更多的警察上街巡逻能够降低犯罪率，但也完全有可能是高犯罪率“导致”了更多的警察不得不上街巡逻。我们可以轻松地在犯罪率和警察数量之间找到一个显着，但也极具误导作用的正相关关系：拥有最多警察的地方也是犯罪问题最严重的地方。当然，拥有最多医生的地方常常也是病人最为密集的地方，但并不是这些医生导致人们生病的，他们只不过是到了那些最需要医生的地方而已（与此同时，病人们也会聚集到这些能够提供优质医疗服务的地方）。在佛罗里达州有大量的肿瘤专家和心脏病专家，如果将他们赶到其他州去治疗病人，佛罗里达州的退休人口会因此变得更加健康吗？显然不会。

1702644425

1702644426 欢迎来到项目评估阶段，在这里我们会探索与测量某些介人手段的因果作用，从新型的癌症药物到就业解决政策，从高中的辍学率到派更多的警察上街巡逻。所有这些我们所关心的介入手段都可以称为“治疗”，虽然这个词更多的是出现在统计学语境里而非日常口语中。治疗可以是其表面的含义，即某种医学干预，也可以表示上大学、出狱后参加就业培训等。关键在于将某个因素的效果分离出来，理想的情景是，将除了是否接受过“治疗”以外其他方面情况完全相同的两组人员放在一起进行比较。

1702644427

1702644428 在难以弄清原因和结果的时候，项目评估提供了一系列用于隔离治疗效果的工具。回到刚才警察和犯罪率的问题上，让我们来看看宾夕法尼亚大学的乔纳森·克里克和乔治•梅森大学的亚历山大•塔巴洛克是如何解决这个问题的。他们的研究策略是借助恐怖袭击预警系统。具体来说，华盛顿特区由于其首都的独特政治地位，自然成为恐怖分子的主要袭击目标，因此在发出“高度戒备”预警的日子里，城里的某些区域会增派巡逻警力。假设街头犯罪和恐怖威胁之间没有相关性，那么在华盛顿特区增加警力就与传统的犯罪率之间不存在相关性，也就是所谓的“外生变量”。这两位研究人员最有价值的贡献就在于发现了一个自然实验：恐怖袭击“高度戒备”预警会给传统犯罪带来什么影响？

1702644429

1702644430 回答是：恐怖袭击预警级别为橙色时（高度警戒、更多警察上街>的犯罪率要比黄色时（警戒级别略低，没有增加额外的执法巡逻）低约7%。两位研究员还发现，在高度警戒的日子里，那些警力增派最多的警区的犯罪率下降的幅度是最大的（这是因为这些警区是白宫、国会大厦和国家广场的所在地）。一个重要的启示就是，我们只需要开动脑筋，就能够回答棘手但很重要的社会问题。下面就来介绍一些隔离“治疗”效果最常用的方法。

1702644431

1702644432 随机控制实验。安排实验组和对照组的一个最直接的方式就是——可能说出来有些多余——创造一个实验组和一个对照组。在使用这种方式时会遇到两大挑战。第一个挑战是，在很多时候是没有办法拿人做实验的，而且这一限制恐怕在短期内都无法解决。因此，只有当我们有理由认为治疗效果可能会给人带来积极作用时，才能以人作为对象进行对照实验。但这种情况少之又少（例如，人们关心的更多是药物试验或高中辍学率），因此我们就需要接着学习其他策略。

1702644433

1702644434 第二个挑战是，人作为实验对象要比实验室里的小白鼠变化得更多。治疗效果会因为实验组和对照组在其他方面的差异而变得异常复杂，而你的实验对象中难免会有个子高的、个子矮的、生病的、健康的、男的、女的、罪犯、酗酒者、投资银行家等。我们如何才能保证这些不同的特性不会影响到实验结果？好消息是：人生中难得有几次机会能够像这次用最少的劳动换来最优的结果！这里所指的创造实验组和对照组的最佳方法就是将研究对象随机分配到两个组里。随机性的好处就在于，与实验无关的变量一般会在两个小组里实现平均分配，既包括那些显而易见的特性如性别、种族、年龄和教育，也包括其他难以察觉但可以干扰实验结果的特性。

1702644435

1702644436 设想一下，假如我们的样本中包含1000名女性，那么当我们将这个样本随机分成两组时，最有可能出现的结果是每个组中的女性数量为500名。当然，我们无法保证每次都这么准确，但概率又一次地站在了我们这边，某一组的女性数量大大超出另外一组的概率并不高（同理可知，某一组具有某种特性的个体大大超出另一组的概率也不大）。例如，在一个数量为1000人的样本中，女性占1/2,那么有超过450位女性同时被分配到同一组的概率还不足1/100。由此可见，样本数量越大，随机分配的作用就越明显，实验组和对照组的相似性也越强。

1702644437

1702644438 医学试验就是典型的随机控制实验。理想的情况是“双盲”的临床试验，这意味着无论是病人还是医生都不知道哪一组是治疗组，哪一组是对照组。但如果治疗里包含了手术（心脏外科医生当然知道要给哪些病人做搭桥手术），那“双盲”显然是不可能了。但即使要做手术，病人依然可以被蒙在鼓里，因为就算进了手术室，他们也不知道自己是否接受了心脏搭桥。我最欣赏的研究之一是一份有关某种缓解膝盖疼痛的手术评估报告，治疗组的病人接受了膝盖手术，而对照组病人则接受了一次“冒充手术”，医生只在这组病人的膝盖部位划了3道极小的口子，“假装在给他们动手术”。最后的结果是，真正的手术在缓解膝盖疼痛方面并没有比“冒充手术”有效。

1702644439

1702644440 我们可以用随机试验来测试一些有趣的现象。例如，陌生人的祈祷是否可以加快病人的术后恢复？人们对于宗教的认识和理解或许千差万别，但《美国心脏期刊》主办了一次控制实验，观察做过心脏搭桥手术的病人是否会因为有一大群陌生人为他们的健康和快速恢复祈祷而减轻术后并发症的严重程度。一共有1800名病人和来自全美国3个宗教团体的人士参与其中。所有病人均接受了心脏搭桥手术并被分为3组：第一组没有人为他们祈祷，第二组有人为他们祈祷，而且病人自身也知道，第三组也有人为他们祈祷，但研究人员只告诉这组病人，有可能有陌生人为他们祈祷，也有可能没有（这样就相当于控制了祈祷的安慰作用）。与此同时，来自宗教团体的人士会为某些指定的病人祈祷，祈祷时如何念病人的名字也有要求，祈祷词的范围也有规定，必须要包含“愿某某手术成功、健康恢复、没有并发症”。

1702644441

1702644442 结果如何？祈祷会成为美国摇摇欲坠的医疗体系的“救命稻草”吗？恐怕没那么简单。经过30天的观察，研究人员并没有在得到祈祷的病人和没得到祈祷的病人之间发现任何术后恢复上的不同。但是，也有人批评这项研究遗漏了一个潜在的变量：来自于其他渠道的祈祷。《纽约时报》总结道，“专家称这项研究无法克服一个最大的障碍，即每一个人收到的来自未知渠道的祈祷——朋友、家人、全世界各地每天为生病和处于弥留之际的人所进行的祈祷。”

1702644443

[ 上一页 ] [ :1.702644394e+09 ] [ 下一页 ]