1701024350
1701024351
在方框图中画圆是直观了解相关情况的一个有效方法。
1701024352
1701024353
1701024354
1701024355
1701024356
图中的大小圆圈代表该类型基因的数量。左侧表示阴性检验结果,即没有通过显著性检验的基因;右侧表示阳性检验结果。位于上方的两个格子表示的确对精神分裂症有影响的、为数不多的基因,因此,右上格子中的基因是真阳性(这些基因对精神分裂症有影响,检验结果也表明它们有影响),而左上格子中的基因则表示假阴性结果(这些基因对精神分裂症有影响,但检验结果表明它们没有影响)。下方的两个格子表示对精神分裂症没有影响的基因,大圆圈表示真阴性结果,小圆圈表示假阳性结果。
1701024357
1701024358
从图中可以看出,问题产生的原因并不是显著性检验。显著性检验百分之百地完成了它的使命。在对精神分裂症没有影响的基因当中,顺利通过检验的极少,而我们真正感兴趣的那些基因仅有半数在检验中顺利过关。对精神分裂症没有影响的基因在数量上占据优势,因此,尽管相对于表示真阴性的圆圈而言,表示假阳性结果的圆圈不是很大,但是比表示真阳性结果的那个圆圈大得多。
1701024359
1701024360
赢家诅咒与文件柜问题
1701024361
1701024362
上述糟糕的情形还会进一步加剧。统计功效低下的研究只能找出非常显著的效果,但是我们知道,效果(如果有)有时非常小。换言之,在检验基因的作用时,研究人员有可能认为检验结果不具有统计学显著性,因此将其排除在外;而那些顺利通过检验的结果,要么是假阳性,要么是过度夸大基因作用的真阳性结果。在小型研究比较常见、影响程度通常有限的领域,统计功效低下的风险尤为突出。不久前,心理学领域最重要的杂志之一——《心理科学》(Psychological Science)刊登了一篇论文,指出已婚女性在排卵期时,支持民主党总统候选人米特·罗姆尼的可能性显著提高。在排卵期内接受调查的女性中,有40.4%的人表示支持罗姆尼;而在非排卵期接受调查的女性中,只有23.4%的人支持他。样本虽小,只有228名妇女,但是显著性差异很明显,其p值为0.03,足以顺利通过显著性检验。
1701024363
1701024364
其实,显著性差异太大恰恰是问题所在。在支持罗姆尼的已婚女性中,有接近一半的人每个月还有某些时间竟然表示支持奥巴马,这种现象真的可信吗?如果是真的,难道没有任何人注意到吗?
1701024365
1701024366
即使排卵期真的会影响已婚女性的政治倾向,这种影响也会比上述研究结果要微弱得多。如果研究规模比较小,那么人们在用p值过滤时,往往会排除影响程度较为接近p值的结果,因此,上述检验得到的较大显著性差异是有悖常理的。换言之,我们可以有把握地认为,这次研究得出的显著性结果大多甚至全部是噪声。
1701024367
1701024368
虽然噪声有可能告诉我们真相,但同样有可能把我们引向相反的方向。因此,尽管这样的结果具有统计学显著性,但不可信,我们仍然不知道真相。
1701024369
1701024370
科学家把这个问题称作“赢家诅咒”。有的实验取得了令人信服、广受赞誉的结果,但是人们在重复这些实验时,却常常得到乱七八糟、令人失望的结果。之所以出现这样的情况,赢家诅咒就是一个原因。下面向大家介绍一个有代表性的例子。心理学家克里斯托弗·查布里斯(Christopher Chabris)率领若干科学家,针对基因序列中的13种单核苷酸多态性(SNP)进行了研究。在之前的研究中,人们观察发现,这些多态性与智商分数的相关性存在统计学显著性。我们都知道,能否在智商测试中取得高分,在某种程度上是由遗传因素决定的,因此,寻找遗传标记的做法不无道理。查布里斯的团队将这些SNP与一些大型数据集(例如,以1万人为对象的威斯康星纵向研究)中的智商分数进行了比较研究,结果却发现SNP与智商分数之间的相关性都不具有统计学显著性。因此,我们几乎可以肯定,即使这种相关性真的存在,也是很微弱的,连大型测试都无法检验到。当前,基因学家认为,智商分数可能并不集中取决于为数不多的几种“聪明”的基因,而是众多遗传因素集腋成裘的结果。也就是说,如果我们试图从SNP中寻觅具有统计学显著性的遗传效果,我们也会有所发现,只不过成功的概率与肠卜僧差不多,只有1/20。
1701024371
1701024372
连约安尼迪斯也不相信公开发表的论文只有1/1 000的正确率。大多数人研究基因序列时都不是漫无目的的,他们检验的往往是之前被认为是正确的研究结果,因此在前文的方框图中,位于底层那一排的内容不会明显优于上层一排的内容。但是,重复实验危机依然存在。2012年,加利福尼亚一家名叫安进的生物技术公司开展了一项计划,科研人员通过重复实验去验证癌症生物特征方面的一些著名的实验结果,总计53种。结果,他们只成功验证了其中的6种。
1701024373
1701024374
为什么呢?这并不是因为基因学家与癌症研究人员都是傻瓜,而是由多种因素造成的。重复实验危机反映了一个事实:科学研究的道路上困难重重,我们的大多数观点都是错误的,即使在第一轮检验中侥幸胜出的观点也大多是错误的。
1701024375
1701024376
但是,科学界的一些做法加剧了这种危机的危害性,而这些做法其实是可以改正的。一方面,我们在论文发表这方面出了问题。我们以下文所示的xkcd漫画[1]为例。假定我们在了解基因与我们研究的某种疾病之间是否存在相关性时,测试了20个遗传标记,并发现只有一个测试结果的p值小于0.05,如果我们是数学研究的老手,我们就会知道,在所有的遗传标记都不起作用时,我们的成功率正好是1/20。此时,我们会对歪曲报道的新闻标题嗤之以鼻,而这正是漫画家创作这幅漫画的真实意图所在。
1701024377
1701024378
如果我们测试的是同一种基因或者绿色豆胶糖,而且20次测试中只有一次得到了具有统计学显著性的结果,我们就更加确定这个结果不值一提。
1701024379
1701024380
1701024381
1701024382
1701024383
1701024384
1701024385
1701024386
但是,如果20组研究人员分别在20个实验室里针对绿色豆胶糖进行了共计20次测试,结果会怎么样呢?有19个实验室不会得出具有统计学显著性的测试结果,他们也不会据此发表论文。这是毫无疑问的,谁会把“吃绿色豆胶糖与得痤疮之间没有相关性”作为重大发现公开发表呢?第20个实验室里的研究人员比较幸运,得出了一个具有统计学显著性的测试结果,原因是他们的运气好,但他们并不知道自己的成功得益于运气。在他们看来,他们对“绿色豆胶糖会诱发痤疮”这个理论只进行了一次检验,而且检验结果是有统计学显著性的。
1701024387
1701024388
如果我们完全根据公开发表的论文来决定吃哪种颜色的豆胶糖,就会犯错误,而且它与美军在计算从德国返航的飞机身上有多少个弹孔时所犯的错误性质一样。亚伯拉罕·瓦尔德说过,如果想了解真实情况,还需要考虑那些没有返航的飞机。
1701024389
1701024390
这就是所谓的“文件柜问题”:由于大众传播受到统计学显著性临界值的影响,导致某个科学领域对某个假设的证据形成了严重歪曲的观点。而我们已经为这个问题赋予了另外一个名字,即“巴尔的摩股票经纪人问题”。那位极其兴奋地准备新闻发布会,并打算宣布“绿色染料”16号与皮肤病有相关性的幸运的研究人员,与那位将毕生积蓄交给不诚实的经纪人、想法天真的投资人一样,都受到了“文件柜问题”的影响。那位投资人与那位研究人员一样,只看到了碰巧过关的那一次实验结果,却没有看到更多的实验以失败告终。
1701024391
1701024392
但是,两者之间有一个重大的不同,那就是科研活动中没有居心不良的骗子,也没有无辜的受害者。如果科学界将失败的实验都装进“文件柜”,它就是在自欺欺人。
1701024393
1701024394
上述结果都是以相关科研人员不弄虚作假为前提的。但是,这样的条件并不总能得到满足。还记得让圣经密码编码者陷入困境的回旋余地问题吗?科研人员唯恐遭到淘汰,他们面临的发表论文的压力很大,因此在面临回旋余地的诱惑时可能会受到影响。如果分析得到的p值为0.06,这些结果就不具有统计学显著性。但是,把多年的心血锁进文件柜,是需要极强的意志力的。是啊,对于研究者来说,看到这些数字难道一点儿都不别扭吗?也许这就是个异常值,或许我们可以把数据表的某一行删除吧。年龄方面的数据得到控制了吗?室外天气方面的数据得到控制了吗?年龄数据与室外天气数据都得到控制了吗?如果我们找出各种理由,修改与研究结果直接相关的统计数据,我们常常可以把p值由0.06降至0.04。乌里·西蒙逊(Uri Simonsohn)是宾夕法尼亚大学的一位教授,他是重复实验研究的开创者,他把这些做法称作“p值操控”。通常,p值操控并不像我说的那样粗暴,而且一般都不是恶意行为。在操控p值时,人们坚信自己的假设是正确的,那些圣经密码编码者们就是这样。此时,人们很容易找到理由,认为自己得出可以发表的研究结果是正确的,甚至还会后悔一开始的时候没有朝这个方向努力。
1701024395
1701024396
但是,大家都知道这种做法并不正确。科学家发现至今仍然有人在这样做,他们把这种做法描述成“对数据进行严刑拷打,直到它们招供才罢手”。因此,所谓的具有统计学显著性的实验结果,不过是通过操控数据去迎合自己的预期罢了。
1701024397
1701024398
美军无法检查坠毁在德国境内的飞机遭受了哪些打击,同样,对锁在文件柜中没有发表的那些论文,我们也查看不到,因此,操控p值的程度难以估计。但是,我们可以向亚伯拉罕·瓦尔德学习,对无法直接测算的数据进行推断。
1701024399
[
上一页 ]
[ :1.70102435e+09 ]
[
下一页 ]