打字猴:1.701024334e+09

1701024334

1701024335 至少我觉得预测正确的概率就这么大。因为我不会像你一样相信肠卜术，我觉得绵羊的内脏不会知道流感爆发的日期，即使两者正好吻合，也纯属巧合。换句话说，只要涉及通过绵羊内脏来预测未来，我都认为零假设是正确的。因此，根据我的经验，肠卜术实验取得成功的可能性非常小。

1701024336

1701024337 这种可能性到底有多小呢？按照惯例，统计学显著性检验的标准临界值（p值）也是《国际肠卜术杂志》同意发表预测结果的标准临界值，都是0.05或1/20。别忘了，p值的定义明确规定，如果某个实验的零假设为真，即使该实验真的取得了具有统计学显著性的结果，其成功的概率也仅为1/20。如果零假设总是正确，也就是说，如果肠卜术纯粹是一种骗人的把戏，那么在20次实验中，只有一次实验的结果能达到发表的标准。

1701024338

1701024339 然而，肠卜僧有成百上千个，被开膛破肚的绵羊为数更多，因此，即使预测成功的概率仅为1/20，这些成功的实验也能提供大量的证明材料，各种不寻常的实验结果也足以填满每期杂志的版面，让人们相信肠卜术是有效的，神的智慧是不容怀疑的。但是，即使某个实验真的预测成功并且获准发表，如果其他肠卜僧尝试做该实验，也通常会遭遇失败。不过，由于在预测结果不具有统计学显著性时，实验结果不会获准发表，因此人们无法通过重复实验去验证它。而且，即使有人发出质疑的声音，专家们也总能指出重复实验过程中的细微差别，作为跟踪研究失败的借口。他们的理由是：我们确信这个实验是有效的，因为我们进行并通过了统计学显著性检验。

1701024340

1701024341 现代医学与社会科学不是肠卜术，但是近些年来，一些唱反调的科学家不断发出越来越大的声音，向我们传递一个令人不安的信息：在科学界，可能还有更多“肠卜术”，只不过我们不愿意承认罢了。

1701024342

1701024343 发出最大声音的是希腊人约翰·约安尼迪斯（John Ioannidis）。2005年，这位由中学数学明星蜕变而成的生物研究人员，发表了一篇题为“公开发表的研究成果大多不真实的原因何在”的论文，在临床医学领域引发了一场自我批评的狂风暴雨（随之而来的是一波自我辩解的风潮）。有时，作者为了哗众取宠，往往在论文标题中危言耸听，但这篇论文不属于此列。约安尼迪斯严肃地指出，医学研究和肠卜术一样，找不到任何有实际效果的内容，所有的专科就是一个个“毫无内涵的领域”。他认为：“我们可以证明，得到发表的医学研究成果大多是不真实的。”

1701024344

1701024345 约安尼迪斯肯定不愿意大费周折地完成这种“证明”工作，但是这位数学家的确有充分的理由，认为他的这个反传统声明并不是无理取闹。约安尼迪斯认为，我们在医学上尝试使用的介入治疗法大多不会起作用，我们所检测的各种关系大多是子虚乌有。以基因与疾病之间的关系为例。基因序列中有大量基因，其中绝大多数都不会引发癌症、抑郁症或肥胖症等，至少人们没有直接观察到基因会导致人们患此类病症。约安尼迪斯请大家考虑基因对精神分裂症的影响，由于这种疾病有遗传的可能，人们几乎可以肯定是基因在起作用。但是，起作用的基因位于基因序列的什么位置呢？研究人员可能会普遍撒网（毕竟，我们所处的是一个大数据时代），对10万种基因（更精确的名词是“遗传性多态现象”）进行检验，以期找出与精神分裂症有关的基因。约安尼迪斯指出，在这些基因中，大约有10种真的会对精神分裂症产生影响。

1701024346

1701024347 那么，其余的99 990种基因呢？这些基因与精神分裂症没有任何关系。但是，其中的1/20或者说5 000种基因，会顺利通过统计学显著性检验。换句话说，在人们欢呼“天啊，我发现了精神分裂症基因”时，在这些可能获准发表的研究结果中，虚假结果的数量是真实结果的500倍。

1701024348

1701024349 而且，要得到上述结果，我们还得假定所有真的对精神分裂症有影响的基因顺利通过检验。从前文讨论的莎士比亚与篮球的例子可以看出，如果研究方法的功效不足，真实结果就完全有可能被认定为不具有统计学显著性而被排除在外。如果研究功效不足，真正会产生影响的基因可能会有半数顺利通过显著性检测，也就是说，在所有通过检验的导致精神分裂症的那些基因中，只有5种基因会真正致病，而浑水摸鱼、仅凭运气顺利通过检验的基因却有5 000种那么多。

1701024350

1701024351 在方框图中画圆是直观了解相关情况的一个有效方法。

1701024352

1701024353

1701024354

1701024355

1701024356 图中的大小圆圈代表该类型基因的数量。左侧表示阴性检验结果，即没有通过显著性检验的基因；右侧表示阳性检验结果。位于上方的两个格子表示的确对精神分裂症有影响的、为数不多的基因，因此，右上格子中的基因是真阳性（这些基因对精神分裂症有影响，检验结果也表明它们有影响），而左上格子中的基因则表示假阴性结果（这些基因对精神分裂症有影响，但检验结果表明它们没有影响）。下方的两个格子表示对精神分裂症没有影响的基因，大圆圈表示真阴性结果，小圆圈表示假阳性结果。

1701024357

1701024358 从图中可以看出，问题产生的原因并不是显著性检验。显著性检验百分之百地完成了它的使命。在对精神分裂症没有影响的基因当中，顺利通过检验的极少，而我们真正感兴趣的那些基因仅有半数在检验中顺利过关。对精神分裂症没有影响的基因在数量上占据优势，因此，尽管相对于表示真阴性的圆圈而言，表示假阳性结果的圆圈不是很大，但是比表示真阳性结果的那个圆圈大得多。

1701024359

1701024360 赢家诅咒与文件柜问题

1701024361

1701024362 上述糟糕的情形还会进一步加剧。统计功效低下的研究只能找出非常显著的效果，但是我们知道，效果（如果有）有时非常小。换言之，在检验基因的作用时，研究人员有可能认为检验结果不具有统计学显著性，因此将其排除在外；而那些顺利通过检验的结果，要么是假阳性，要么是过度夸大基因作用的真阳性结果。在小型研究比较常见、影响程度通常有限的领域，统计功效低下的风险尤为突出。不久前，心理学领域最重要的杂志之一——《心理科学》（Psychological Science）刊登了一篇论文，指出已婚女性在排卵期时，支持民主党总统候选人米特·罗姆尼的可能性显著提高。在排卵期内接受调查的女性中，有40.4%的人表示支持罗姆尼；而在非排卵期接受调查的女性中，只有23.4%的人支持他。样本虽小，只有228名妇女，但是显著性差异很明显，其p值为0.03，足以顺利通过显著性检验。

1701024363

1701024364 其实，显著性差异太大恰恰是问题所在。在支持罗姆尼的已婚女性中，有接近一半的人每个月还有某些时间竟然表示支持奥巴马，这种现象真的可信吗？如果是真的，难道没有任何人注意到吗？

1701024365

1701024366 即使排卵期真的会影响已婚女性的政治倾向，这种影响也会比上述研究结果要微弱得多。如果研究规模比较小，那么人们在用p值过滤时，往往会排除影响程度较为接近p值的结果，因此，上述检验得到的较大显著性差异是有悖常理的。换言之，我们可以有把握地认为，这次研究得出的显著性结果大多甚至全部是噪声。

1701024367

1701024368 虽然噪声有可能告诉我们真相，但同样有可能把我们引向相反的方向。因此，尽管这样的结果具有统计学显著性，但不可信，我们仍然不知道真相。

1701024369

1701024370 科学家把这个问题称作“赢家诅咒”。有的实验取得了令人信服、广受赞誉的结果，但是人们在重复这些实验时，却常常得到乱七八糟、令人失望的结果。之所以出现这样的情况，赢家诅咒就是一个原因。下面向大家介绍一个有代表性的例子。心理学家克里斯托弗·查布里斯（Christopher Chabris）率领若干科学家，针对基因序列中的13种单核苷酸多态性（SNP）进行了研究。在之前的研究中，人们观察发现，这些多态性与智商分数的相关性存在统计学显著性。我们都知道，能否在智商测试中取得高分，在某种程度上是由遗传因素决定的，因此，寻找遗传标记的做法不无道理。查布里斯的团队将这些SNP与一些大型数据集（例如，以1万人为对象的威斯康星纵向研究）中的智商分数进行了比较研究，结果却发现SNP与智商分数之间的相关性都不具有统计学显著性。因此，我们几乎可以肯定，即使这种相关性真的存在，也是很微弱的，连大型测试都无法检验到。当前，基因学家认为，智商分数可能并不集中取决于为数不多的几种“聪明”的基因，而是众多遗传因素集腋成裘的结果。也就是说，如果我们试图从SNP中寻觅具有统计学显著性的遗传效果，我们也会有所发现，只不过成功的概率与肠卜僧差不多，只有1/20。

1701024371

1701024372 连约安尼迪斯也不相信公开发表的论文只有1/1 000的正确率。大多数人研究基因序列时都不是漫无目的的，他们检验的往往是之前被认为是正确的研究结果，因此在前文的方框图中，位于底层那一排的内容不会明显优于上层一排的内容。但是，重复实验危机依然存在。2012年，加利福尼亚一家名叫安进的生物技术公司开展了一项计划，科研人员通过重复实验去验证癌症生物特征方面的一些著名的实验结果，总计53种。结果，他们只成功验证了其中的6种。

1701024373

1701024374 为什么呢？这并不是因为基因学家与癌症研究人员都是傻瓜，而是由多种因素造成的。重复实验危机反映了一个事实：科学研究的道路上困难重重，我们的大多数观点都是错误的，即使在第一轮检验中侥幸胜出的观点也大多是错误的。

1701024375

1701024376 但是，科学界的一些做法加剧了这种危机的危害性，而这些做法其实是可以改正的。一方面，我们在论文发表这方面出了问题。我们以下文所示的xkcd漫画[1]为例。假定我们在了解基因与我们研究的某种疾病之间是否存在相关性时，测试了20个遗传标记，并发现只有一个测试结果的p值小于0.05，如果我们是数学研究的老手，我们就会知道，在所有的遗传标记都不起作用时，我们的成功率正好是1/20。此时，我们会对歪曲报道的新闻标题嗤之以鼻，而这正是漫画家创作这幅漫画的真实意图所在。

1701024377

1701024378 如果我们测试的是同一种基因或者绿色豆胶糖，而且20次测试中只有一次得到了具有统计学显著性的结果，我们就更加确定这个结果不值一提。

1701024379

1701024380

1701024381

1701024382

1701024383

[ 上一页 ] [ :1.701024334e+09 ] [ 下一页 ]