1701024384
1701024385
1701024386
但是,如果20组研究人员分别在20个实验室里针对绿色豆胶糖进行了共计20次测试,结果会怎么样呢?有19个实验室不会得出具有统计学显著性的测试结果,他们也不会据此发表论文。这是毫无疑问的,谁会把“吃绿色豆胶糖与得痤疮之间没有相关性”作为重大发现公开发表呢?第20个实验室里的研究人员比较幸运,得出了一个具有统计学显著性的测试结果,原因是他们的运气好,但他们并不知道自己的成功得益于运气。在他们看来,他们对“绿色豆胶糖会诱发痤疮”这个理论只进行了一次检验,而且检验结果是有统计学显著性的。
1701024387
1701024388
如果我们完全根据公开发表的论文来决定吃哪种颜色的豆胶糖,就会犯错误,而且它与美军在计算从德国返航的飞机身上有多少个弹孔时所犯的错误性质一样。亚伯拉罕·瓦尔德说过,如果想了解真实情况,还需要考虑那些没有返航的飞机。
1701024389
1701024390
这就是所谓的“文件柜问题”:由于大众传播受到统计学显著性临界值的影响,导致某个科学领域对某个假设的证据形成了严重歪曲的观点。而我们已经为这个问题赋予了另外一个名字,即“巴尔的摩股票经纪人问题”。那位极其兴奋地准备新闻发布会,并打算宣布“绿色染料”16号与皮肤病有相关性的幸运的研究人员,与那位将毕生积蓄交给不诚实的经纪人、想法天真的投资人一样,都受到了“文件柜问题”的影响。那位投资人与那位研究人员一样,只看到了碰巧过关的那一次实验结果,却没有看到更多的实验以失败告终。
1701024391
1701024392
但是,两者之间有一个重大的不同,那就是科研活动中没有居心不良的骗子,也没有无辜的受害者。如果科学界将失败的实验都装进“文件柜”,它就是在自欺欺人。
1701024393
1701024394
上述结果都是以相关科研人员不弄虚作假为前提的。但是,这样的条件并不总能得到满足。还记得让圣经密码编码者陷入困境的回旋余地问题吗?科研人员唯恐遭到淘汰,他们面临的发表论文的压力很大,因此在面临回旋余地的诱惑时可能会受到影响。如果分析得到的p值为0.06,这些结果就不具有统计学显著性。但是,把多年的心血锁进文件柜,是需要极强的意志力的。是啊,对于研究者来说,看到这些数字难道一点儿都不别扭吗?也许这就是个异常值,或许我们可以把数据表的某一行删除吧。年龄方面的数据得到控制了吗?室外天气方面的数据得到控制了吗?年龄数据与室外天气数据都得到控制了吗?如果我们找出各种理由,修改与研究结果直接相关的统计数据,我们常常可以把p值由0.06降至0.04。乌里·西蒙逊(Uri Simonsohn)是宾夕法尼亚大学的一位教授,他是重复实验研究的开创者,他把这些做法称作“p值操控”。通常,p值操控并不像我说的那样粗暴,而且一般都不是恶意行为。在操控p值时,人们坚信自己的假设是正确的,那些圣经密码编码者们就是这样。此时,人们很容易找到理由,认为自己得出可以发表的研究结果是正确的,甚至还会后悔一开始的时候没有朝这个方向努力。
1701024395
1701024396
但是,大家都知道这种做法并不正确。科学家发现至今仍然有人在这样做,他们把这种做法描述成“对数据进行严刑拷打,直到它们招供才罢手”。因此,所谓的具有统计学显著性的实验结果,不过是通过操控数据去迎合自己的预期罢了。
1701024397
1701024398
美军无法检查坠毁在德国境内的飞机遭受了哪些打击,同样,对锁在文件柜中没有发表的那些论文,我们也查看不到,因此,操控p值的程度难以估计。但是,我们可以向亚伯拉罕·瓦尔德学习,对无法直接测算的数据进行推断。
1701024399
1701024400
我们还是以《国际肠卜术杂志》为例。如果我们仔细阅读该杂志发表的所有论文,然后把所有的p值都记录下来,我们会发现什么问题呢?记住,在这个例子中,零假设永远正确,因为肠卜术是不起作用的。因此,有5%的实验结果的p≤0.05,4%的p≤0.04,3%的p≤0.03,以此类推。换句话说,p值在0.04与0.05之间的实验,与p值在0.03与0.04之间,以及p值在0.02与0.03之间……的实验,数量相当。如果把所有论文的p值绘制成图,我们就会得到下图所示的水平的曲线。
1701024401
1701024402
1701024403
1701024404
1701024405
如果我们阅读的是一份实事求是的杂志,情况会怎么样呢?在我们检验的众多实验结果中,有很多的确是真实有效的,因此,这些实验结果的p值小于0.05的可能性更大。在这种情况下,p值曲线应该向下倾斜。
1701024406
1701024407
1701024408
1701024409
1701024410
不过,现实情况并不完全如此。统计调查人员发现,在政治科学、经济学、心理学及社会学等多个领域里,p值曲线在接近0.05这个临界值时会明显向上倾斜。
1701024411
1701024412
1701024413
1701024414
1701024415
这就是p值操控造成的。这种情况说明,大量本来位于p=0.05 这个临界值之上而无法发表的实验结果,经过对数据的坑蒙拐骗、威逼利诱甚至严刑逼供之后,变成了令人满意的结果。这对急需发表论文的科研人员而言是好事,但对于科学研究来说则是噩耗。
1701024416
1701024417
如果作者不愿意“折磨”他的数据,或者经过“逼供”之后,p值仍顽固地停留在0.05这道红线之上,又会怎么样呢?科研人员仍然有变通的办法,他们会精心编排出各种说辞,竭力为不具有统计学显著性的实验结果辩解。他们会说他们的实验结果“几乎具有统计学显著性”“有显著性倾向”“接近于显著性”“处于显著性的边缘”,甚至会煽情地说这个结果“在显著性边缘徘徊”。[2]对于研究人员处心积虑想出的这些词句,我们当然可以大加嘲弄,但是,我们憎恶的应该是这项活动,而不是这样做的人,因为这种冰火两重天的情况是论文发表门槛导致的。用0.05设置一个生死界线,是在基本范畴的问题上犯错误,把连续变量(我们有多少证据可以证明这种药物有疗效,这种基因可以决定智商分数,排卵期的女性倾向于支持民主党总统候选人)当作二进制变量(对或者错)来处理。也就是说,我们应该允许科研人员报告不具有统计学显著性的研究结果。
1701024418
1701024419
在某些情境中,科研人员必须报告不具有统计学显著性的研究结果。2012年,美国最高法院的一项判决意见被全票通过。这个判决意见是,Zicam感冒药的制造商Matrixx必须做出明确告知,某些人在服用该药物后会丧失嗅觉。该项判决意见的起草人索尼亚·索托马约尔(Sonia Sotomayor)认为,虽然丧失嗅觉的研究没有通过显著性检验,但是在向公司投资人提供的所有信息中应该包含此项内容。p值较弱的实验结果也许只能起很小的证明作用,但是总比没有好。p值较强的实验结果可能有更大的证明作用,但是我们已经知道,它不一定是真实的。
1701024420
1701024421
毕竟,0.05这个p值并没有什么特别之处,它只是主观选择的一个临界值,是费舍尔确定的一种习惯做法。当然,传统做法有其积极意义,一个被广泛接受的临界值,可以帮助大家理解显著性一词的含义。我读过美国传统基金会的罗伯特·芮克特(Robert Rector)与柯克·约翰逊(Kirk Johnson)合写的一篇论文。他们在论文中抱怨,一些科研人员宣扬了一个错误的观点,认为禁欲宣誓对青少年患性疾病的比例大小没有影响。事实上,研究发现,在宣誓新婚夜之前不发生性行为的青少年中,患性疾病的比例略低于样本中的其他青少年,但是两者之间的差异不具有统计学显著性。因此,基金会研究人员认为,可以证明禁欲宣誓起作用的证据并不多,但也不是绝对没有。
1701024422
1701024423
与此同时,芮克特与约翰逊在他们合写的另一篇论文中,却指出人种与贫困问题之间的相关性不具有统计学显著性。他们认为:“如果一个变量不具有统计学显著性,就说明该变量的功效系数无法通过统计学方法明显辨识,换言之,这个变量没有任何效果。”然而,证明禁欲宣誓有效的方法,对于证明人种影响应该同样适用。因此,传统做法的价值就在于它对研究人员的约束作用,防止他们受到诱惑,随心所欲地决定哪些结果有效或者哪些结果无效。
1701024424
1701024425
但是,人们在长期遵循传统做法之后,很容易把它误当作现实世界真实存在的规律。试想,如果我们用这样的方法来评估经济状况,会怎么样。经济学家对“经济衰退”有一个严格的定义,与统计学显著性的定义一样,也要依赖于某些主观确定的临界值。人们不会说“我不关心失业率、住房工程、学生贷款总额或者联邦预算赤字;如果不是经济衰退,我们就无须讨论”它们,说这些话的人都是在胡说八道。批评家(他们的人数正逐年增加,批评声也甚嚣尘上)说,科学界的很多做法与这些说法相似,都荒谬至极。
1701024426
1701024427
显著性检验是调查员,不是审判员
1701024428
1701024429
很明显,把“p<0.05”等同于“对”,以及把“p>0.05”等同于“错”,这两种做法都是不对的。人们凭直觉认为归为不可能法是一种有效的方法,事实也的确如此。但是,在挖掘数据背后隐藏的科学真理时,它并不能充当行为准则。
1701024430
1701024431
那么,我们还有什么别的选择呢?如果我们做过实验,就会知道科学真理不会凭空出现或敲锣打鼓地找上门。从海量的数据中做出有效的推理,并不是一件轻而易举的事。
1701024432
1701024433
一个常用的简单办法,就是在显著性检验的基础上报告“置信区间”(confi dence interval)。报告置信区间的做法需要我们稍稍拓宽概念范围,不仅考虑零假设,还要考虑一系列其他假设。假设我们开了一家网店,销售手工锯齿剪刀。因为我们是现代人(除非我们是制作手工锯齿剪刀的人),所以我们设计了一个A–B测试,让一半用户看到网站的当前版本(A),让另一半看到改进版(B)。在改进版页面点击“立刻购买”,人们会看到剪刀唱歌、跳舞的动画。我们发现B的销售额上升了10%,为此我们兴奋不已。但是,如果我们有丰富的促销经验,我们可能会担心:销售额上升会不会仅仅是偶然现象呢?于是我们计算了一下p值,结果发现,如果网站改版没有促销效果(即零假设是正确的),那么取得这个销售佳绩的概率仅为0.03%。[3]
[
上一页 ]
[ :1.701024384e+09 ]
[
下一页 ]