打字猴:1.701024372e+09
1701024372 连约安尼迪斯也不相信公开发表的论文只有1/1 000的正确率。大多数人研究基因序列时都不是漫无目的的,他们检验的往往是之前被认为是正确的研究结果,因此在前文的方框图中,位于底层那一排的内容不会明显优于上层一排的内容。但是,重复实验危机依然存在。2012年,加利福尼亚一家名叫安进的生物技术公司开展了一项计划,科研人员通过重复实验去验证癌症生物特征方面的一些著名的实验结果,总计53种。结果,他们只成功验证了其中的6种。
1701024373
1701024374 为什么呢?这并不是因为基因学家与癌症研究人员都是傻瓜,而是由多种因素造成的。重复实验危机反映了一个事实:科学研究的道路上困难重重,我们的大多数观点都是错误的,即使在第一轮检验中侥幸胜出的观点也大多是错误的。
1701024375
1701024376 但是,科学界的一些做法加剧了这种危机的危害性,而这些做法其实是可以改正的。一方面,我们在论文发表这方面出了问题。我们以下文所示的xkcd漫画[1]为例。假定我们在了解基因与我们研究的某种疾病之间是否存在相关性时,测试了20个遗传标记,并发现只有一个测试结果的p值小于0.05,如果我们是数学研究的老手,我们就会知道,在所有的遗传标记都不起作用时,我们的成功率正好是1/20。此时,我们会对歪曲报道的新闻标题嗤之以鼻,而这正是漫画家创作这幅漫画的真实意图所在。
1701024377
1701024378 如果我们测试的是同一种基因或者绿色豆胶糖,而且20次测试中只有一次得到了具有统计学显著性的结果,我们就更加确定这个结果不值一提。
1701024379
1701024380
1701024381
1701024382
1701024383
1701024384
1701024385
1701024386 但是,如果20组研究人员分别在20个实验室里针对绿色豆胶糖进行了共计20次测试,结果会怎么样呢?有19个实验室不会得出具有统计学显著性的测试结果,他们也不会据此发表论文。这是毫无疑问的,谁会把“吃绿色豆胶糖与得痤疮之间没有相关性”作为重大发现公开发表呢?第20个实验室里的研究人员比较幸运,得出了一个具有统计学显著性的测试结果,原因是他们的运气好,但他们并不知道自己的成功得益于运气。在他们看来,他们对“绿色豆胶糖会诱发痤疮”这个理论只进行了一次检验,而且检验结果是有统计学显著性的。
1701024387
1701024388 如果我们完全根据公开发表的论文来决定吃哪种颜色的豆胶糖,就会犯错误,而且它与美军在计算从德国返航的飞机身上有多少个弹孔时所犯的错误性质一样。亚伯拉罕·瓦尔德说过,如果想了解真实情况,还需要考虑那些没有返航的飞机。
1701024389
1701024390 这就是所谓的“文件柜问题”:由于大众传播受到统计学显著性临界值的影响,导致某个科学领域对某个假设的证据形成了严重歪曲的观点。而我们已经为这个问题赋予了另外一个名字,即“巴尔的摩股票经纪人问题”。那位极其兴奋地准备新闻发布会,并打算宣布“绿色染料”16号与皮肤病有相关性的幸运的研究人员,与那位将毕生积蓄交给不诚实的经纪人、想法天真的投资人一样,都受到了“文件柜问题”的影响。那位投资人与那位研究人员一样,只看到了碰巧过关的那一次实验结果,却没有看到更多的实验以失败告终。
1701024391
1701024392 但是,两者之间有一个重大的不同,那就是科研活动中没有居心不良的骗子,也没有无辜的受害者。如果科学界将失败的实验都装进“文件柜”,它就是在自欺欺人。
1701024393
1701024394 上述结果都是以相关科研人员不弄虚作假为前提的。但是,这样的条件并不总能得到满足。还记得让圣经密码编码者陷入困境的回旋余地问题吗?科研人员唯恐遭到淘汰,他们面临的发表论文的压力很大,因此在面临回旋余地的诱惑时可能会受到影响。如果分析得到的p值为0.06,这些结果就不具有统计学显著性。但是,把多年的心血锁进文件柜,是需要极强的意志力的。是啊,对于研究者来说,看到这些数字难道一点儿都不别扭吗?也许这就是个异常值,或许我们可以把数据表的某一行删除吧。年龄方面的数据得到控制了吗?室外天气方面的数据得到控制了吗?年龄数据与室外天气数据都得到控制了吗?如果我们找出各种理由,修改与研究结果直接相关的统计数据,我们常常可以把p值由0.06降至0.04。乌里·西蒙逊(Uri Simonsohn)是宾夕法尼亚大学的一位教授,他是重复实验研究的开创者,他把这些做法称作“p值操控”。通常,p值操控并不像我说的那样粗暴,而且一般都不是恶意行为。在操控p值时,人们坚信自己的假设是正确的,那些圣经密码编码者们就是这样。此时,人们很容易找到理由,认为自己得出可以发表的研究结果是正确的,甚至还会后悔一开始的时候没有朝这个方向努力。
1701024395
1701024396 但是,大家都知道这种做法并不正确。科学家发现至今仍然有人在这样做,他们把这种做法描述成“对数据进行严刑拷打,直到它们招供才罢手”。因此,所谓的具有统计学显著性的实验结果,不过是通过操控数据去迎合自己的预期罢了。
1701024397
1701024398 美军无法检查坠毁在德国境内的飞机遭受了哪些打击,同样,对锁在文件柜中没有发表的那些论文,我们也查看不到,因此,操控p值的程度难以估计。但是,我们可以向亚伯拉罕·瓦尔德学习,对无法直接测算的数据进行推断。
1701024399
1701024400 我们还是以《国际肠卜术杂志》为例。如果我们仔细阅读该杂志发表的所有论文,然后把所有的p值都记录下来,我们会发现什么问题呢?记住,在这个例子中,零假设永远正确,因为肠卜术是不起作用的。因此,有5%的实验结果的p≤0.05,4%的p≤0.04,3%的p≤0.03,以此类推。换句话说,p值在0.04与0.05之间的实验,与p值在0.03与0.04之间,以及p值在0.02与0.03之间……的实验,数量相当。如果把所有论文的p值绘制成图,我们就会得到下图所示的水平的曲线。
1701024401
1701024402
1701024403
1701024404
1701024405 如果我们阅读的是一份实事求是的杂志,情况会怎么样呢?在我们检验的众多实验结果中,有很多的确是真实有效的,因此,这些实验结果的p值小于0.05的可能性更大。在这种情况下,p值曲线应该向下倾斜。
1701024406
1701024407
1701024408
1701024409
1701024410 不过,现实情况并不完全如此。统计调查人员发现,在政治科学、经济学、心理学及社会学等多个领域里,p值曲线在接近0.05这个临界值时会明显向上倾斜。
1701024411
1701024412
1701024413
1701024414
1701024415 这就是p值操控造成的。这种情况说明,大量本来位于p=0.05 这个临界值之上而无法发表的实验结果,经过对数据的坑蒙拐骗、威逼利诱甚至严刑逼供之后,变成了令人满意的结果。这对急需发表论文的科研人员而言是好事,但对于科学研究来说则是噩耗。
1701024416
1701024417 如果作者不愿意“折磨”他的数据,或者经过“逼供”之后,p值仍顽固地停留在0.05这道红线之上,又会怎么样呢?科研人员仍然有变通的办法,他们会精心编排出各种说辞,竭力为不具有统计学显著性的实验结果辩解。他们会说他们的实验结果“几乎具有统计学显著性”“有显著性倾向”“接近于显著性”“处于显著性的边缘”,甚至会煽情地说这个结果“在显著性边缘徘徊”。[2]对于研究人员处心积虑想出的这些词句,我们当然可以大加嘲弄,但是,我们憎恶的应该是这项活动,而不是这样做的人,因为这种冰火两重天的情况是论文发表门槛导致的。用0.05设置一个生死界线,是在基本范畴的问题上犯错误,把连续变量(我们有多少证据可以证明这种药物有疗效,这种基因可以决定智商分数,排卵期的女性倾向于支持民主党总统候选人)当作二进制变量(对或者错)来处理。也就是说,我们应该允许科研人员报告不具有统计学显著性的研究结果。
1701024418
1701024419 在某些情境中,科研人员必须报告不具有统计学显著性的研究结果。2012年,美国最高法院的一项判决意见被全票通过。这个判决意见是,Zicam感冒药的制造商Matrixx必须做出明确告知,某些人在服用该药物后会丧失嗅觉。该项判决意见的起草人索尼亚·索托马约尔(Sonia Sotomayor)认为,虽然丧失嗅觉的研究没有通过显著性检验,但是在向公司投资人提供的所有信息中应该包含此项内容。p值较弱的实验结果也许只能起很小的证明作用,但是总比没有好。p值较强的实验结果可能有更大的证明作用,但是我们已经知道,它不一定是真实的。
1701024420
1701024421 毕竟,0.05这个p值并没有什么特别之处,它只是主观选择的一个临界值,是费舍尔确定的一种习惯做法。当然,传统做法有其积极意义,一个被广泛接受的临界值,可以帮助大家理解显著性一词的含义。我读过美国传统基金会的罗伯特·芮克特(Robert Rector)与柯克·约翰逊(Kirk Johnson)合写的一篇论文。他们在论文中抱怨,一些科研人员宣扬了一个错误的观点,认为禁欲宣誓对青少年患性疾病的比例大小没有影响。事实上,研究发现,在宣誓新婚夜之前不发生性行为的青少年中,患性疾病的比例略低于样本中的其他青少年,但是两者之间的差异不具有统计学显著性。因此,基金会研究人员认为,可以证明禁欲宣誓起作用的证据并不多,但也不是绝对没有。
[ 上一页 ]  [ :1.701024372e+09 ]  [ 下一页 ]