打字猴:1.701024322e+09
1701024322 魔鬼数学:大数据时代,数学思维的力量 [:1701022624]
1701024323 魔鬼数学:大数据时代,数学思维的力量 第9章 肠卜术与科学研究
1701024324
1701024325 统计学家科斯马·沙利兹(Cosma Shalizi)曾经给我讲过一个寓言故事:
1701024326
1701024327 假设你是一位肠卜僧,也就是说,你的工作是杀死绵羊,通过研究绵羊的内脏(尤其是肝脏)特征预测未来。当然,你不会因为自己在完成相关仪式时遵循了伊斯特里亚诸神的神谕,就认为自己的预测十分可靠。你还需要找到相关证据,于是,你和你的同事将预测结果提交给《国际肠卜术杂志》(International Journal of Haruspicy),请同行评议,该杂志要求所有预测结果都必须通过显著性检验才能发表。
1701024328
1701024329 肠卜僧做预测,尤其是严格基于证据的预测,并不是一件简简单单的差事。一方面,你经常会全身沾满污血;另一方面,你的很多次预测都不会成功。你尝试通过研究绵羊的内脏来预测苹果公司的股价,结果失败了;你试图为民主党在西班牙裔美国人当中的投票支持率构建预测模型,结果没有成功;你预测全球石油的供应情况,也失败了。吹毛求疵的诸神,有时并不明示哪种内脏结构以及哪些咒语可以准确地预测未来。有时候,多位肠卜僧所做的实验是一模一样的,但是A成功了,B却失败了。这样的情况令人沮丧,有时候你甚至想放弃做肠卜僧,转而去读法学院。
1701024330
1701024331 但有时候一切又非常顺利,你发现绵羊肝脏的纹路与凸起部位真的可以预测第二年流感爆发的严重程度。这些发现让你觉得自己没有白白地遭遇那些挫折与失败,于是,你默默地感谢神灵,然后把预测结果发表到杂志上。
1701024332
1701024333 你可能会发现,每进行大约20次实验,就会有一次预测是正确的。
1701024334
1701024335 至少我觉得预测正确的概率就这么大。因为我不会像你一样相信肠卜术,我觉得绵羊的内脏不会知道流感爆发的日期,即使两者正好吻合,也纯属巧合。换句话说,只要涉及通过绵羊内脏来预测未来,我都认为零假设是正确的。因此,根据我的经验,肠卜术实验取得成功的可能性非常小。
1701024336
1701024337 这种可能性到底有多小呢?按照惯例,统计学显著性检验的标准临界值(p值)也是《国际肠卜术杂志》同意发表预测结果的标准临界值,都是0.05或1/20。别忘了,p值的定义明确规定,如果某个实验的零假设为真,即使该实验真的取得了具有统计学显著性的结果,其成功的概率也仅为1/20。如果零假设总是正确,也就是说,如果肠卜术纯粹是一种骗人的把戏,那么在20次实验中,只有一次实验的结果能达到发表的标准。
1701024338
1701024339 然而,肠卜僧有成百上千个,被开膛破肚的绵羊为数更多,因此,即使预测成功的概率仅为1/20,这些成功的实验也能提供大量的证明材料,各种不寻常的实验结果也足以填满每期杂志的版面,让人们相信肠卜术是有效的,神的智慧是不容怀疑的。但是,即使某个实验真的预测成功并且获准发表,如果其他肠卜僧尝试做该实验,也通常会遭遇失败。不过,由于在预测结果不具有统计学显著性时,实验结果不会获准发表,因此人们无法通过重复实验去验证它。而且,即使有人发出质疑的声音,专家们也总能指出重复实验过程中的细微差别,作为跟踪研究失败的借口。他们的理由是:我们确信这个实验是有效的,因为我们进行并通过了统计学显著性检验。
1701024340
1701024341 现代医学与社会科学不是肠卜术,但是近些年来,一些唱反调的科学家不断发出越来越大的声音,向我们传递一个令人不安的信息:在科学界,可能还有更多“肠卜术”,只不过我们不愿意承认罢了。
1701024342
1701024343 发出最大声音的是希腊人约翰·约安尼迪斯(John Ioannidis)。2005年,这位由中学数学明星蜕变而成的生物研究人员,发表了一篇题为“公开发表的研究成果大多不真实的原因何在”的论文,在临床医学领域引发了一场自我批评的狂风暴雨(随之而来的是一波自我辩解的风潮)。有时,作者为了哗众取宠,往往在论文标题中危言耸听,但这篇论文不属于此列。约安尼迪斯严肃地指出,医学研究和肠卜术一样,找不到任何有实际效果的内容,所有的专科就是一个个“毫无内涵的领域”。他认为:“我们可以证明,得到发表的医学研究成果大多是不真实的。”
1701024344
1701024345 约安尼迪斯肯定不愿意大费周折地完成这种“证明”工作,但是这位数学家的确有充分的理由,认为他的这个反传统声明并不是无理取闹。约安尼迪斯认为,我们在医学上尝试使用的介入治疗法大多不会起作用,我们所检测的各种关系大多是子虚乌有。以基因与疾病之间的关系为例。基因序列中有大量基因,其中绝大多数都不会引发癌症、抑郁症或肥胖症等,至少人们没有直接观察到基因会导致人们患此类病症。约安尼迪斯请大家考虑基因对精神分裂症的影响,由于这种疾病有遗传的可能,人们几乎可以肯定是基因在起作用。但是,起作用的基因位于基因序列的什么位置呢?研究人员可能会普遍撒网(毕竟,我们所处的是一个大数据时代),对10万种基因(更精确的名词是“遗传性多态现象”)进行检验,以期找出与精神分裂症有关的基因。约安尼迪斯指出,在这些基因中,大约有10种真的会对精神分裂症产生影响。
1701024346
1701024347 那么,其余的99 990种基因呢?这些基因与精神分裂症没有任何关系。但是,其中的1/20或者说5 000种基因,会顺利通过统计学显著性检验。换句话说,在人们欢呼“天啊,我发现了精神分裂症基因”时,在这些可能获准发表的研究结果中,虚假结果的数量是真实结果的500倍。
1701024348
1701024349 而且,要得到上述结果,我们还得假定所有真的对精神分裂症有影响的基因顺利通过检验。从前文讨论的莎士比亚与篮球的例子可以看出,如果研究方法的功效不足,真实结果就完全有可能被认定为不具有统计学显著性而被排除在外。如果研究功效不足,真正会产生影响的基因可能会有半数顺利通过显著性检测,也就是说,在所有通过检验的导致精神分裂症的那些基因中,只有5种基因会真正致病,而浑水摸鱼、仅凭运气顺利通过检验的基因却有5 000种那么多。
1701024350
1701024351 在方框图中画圆是直观了解相关情况的一个有效方法。
1701024352
1701024353
1701024354
1701024355
1701024356 图中的大小圆圈代表该类型基因的数量。左侧表示阴性检验结果,即没有通过显著性检验的基因;右侧表示阳性检验结果。位于上方的两个格子表示的确对精神分裂症有影响的、为数不多的基因,因此,右上格子中的基因是真阳性(这些基因对精神分裂症有影响,检验结果也表明它们有影响),而左上格子中的基因则表示假阴性结果(这些基因对精神分裂症有影响,但检验结果表明它们没有影响)。下方的两个格子表示对精神分裂症没有影响的基因,大圆圈表示真阴性结果,小圆圈表示假阳性结果。
1701024357
1701024358 从图中可以看出,问题产生的原因并不是显著性检验。显著性检验百分之百地完成了它的使命。在对精神分裂症没有影响的基因当中,顺利通过检验的极少,而我们真正感兴趣的那些基因仅有半数在检验中顺利过关。对精神分裂症没有影响的基因在数量上占据优势,因此,尽管相对于表示真阴性的圆圈而言,表示假阳性结果的圆圈不是很大,但是比表示真阳性结果的那个圆圈大得多。
1701024359
1701024360 赢家诅咒与文件柜问题
1701024361
1701024362 上述糟糕的情形还会进一步加剧。统计功效低下的研究只能找出非常显著的效果,但是我们知道,效果(如果有)有时非常小。换言之,在检验基因的作用时,研究人员有可能认为检验结果不具有统计学显著性,因此将其排除在外;而那些顺利通过检验的结果,要么是假阳性,要么是过度夸大基因作用的真阳性结果。在小型研究比较常见、影响程度通常有限的领域,统计功效低下的风险尤为突出。不久前,心理学领域最重要的杂志之一——《心理科学》(Psychological Science)刊登了一篇论文,指出已婚女性在排卵期时,支持民主党总统候选人米特·罗姆尼的可能性显著提高。在排卵期内接受调查的女性中,有40.4%的人表示支持罗姆尼;而在非排卵期接受调查的女性中,只有23.4%的人支持他。样本虽小,只有228名妇女,但是显著性差异很明显,其p值为0.03,足以顺利通过显著性检验。
1701024363
1701024364 其实,显著性差异太大恰恰是问题所在。在支持罗姆尼的已婚女性中,有接近一半的人每个月还有某些时间竟然表示支持奥巴马,这种现象真的可信吗?如果是真的,难道没有任何人注意到吗?
1701024365
1701024366 即使排卵期真的会影响已婚女性的政治倾向,这种影响也会比上述研究结果要微弱得多。如果研究规模比较小,那么人们在用p值过滤时,往往会排除影响程度较为接近p值的结果,因此,上述检验得到的较大显著性差异是有悖常理的。换言之,我们可以有把握地认为,这次研究得出的显著性结果大多甚至全部是噪声。
1701024367
1701024368 虽然噪声有可能告诉我们真相,但同样有可能把我们引向相反的方向。因此,尽管这样的结果具有统计学显著性,但不可信,我们仍然不知道真相。
1701024369
1701024370 科学家把这个问题称作“赢家诅咒”。有的实验取得了令人信服、广受赞誉的结果,但是人们在重复这些实验时,却常常得到乱七八糟、令人失望的结果。之所以出现这样的情况,赢家诅咒就是一个原因。下面向大家介绍一个有代表性的例子。心理学家克里斯托弗·查布里斯(Christopher Chabris)率领若干科学家,针对基因序列中的13种单核苷酸多态性(SNP)进行了研究。在之前的研究中,人们观察发现,这些多态性与智商分数的相关性存在统计学显著性。我们都知道,能否在智商测试中取得高分,在某种程度上是由遗传因素决定的,因此,寻找遗传标记的做法不无道理。查布里斯的团队将这些SNP与一些大型数据集(例如,以1万人为对象的威斯康星纵向研究)中的智商分数进行了比较研究,结果却发现SNP与智商分数之间的相关性都不具有统计学显著性。因此,我们几乎可以肯定,即使这种相关性真的存在,也是很微弱的,连大型测试都无法检验到。当前,基因学家认为,智商分数可能并不集中取决于为数不多的几种“聪明”的基因,而是众多遗传因素集腋成裘的结果。也就是说,如果我们试图从SNP中寻觅具有统计学显著性的遗传效果,我们也会有所发现,只不过成功的概率与肠卜僧差不多,只有1/20。
1701024371
[ 上一页 ]  [ :1.701024322e+09 ]  [ 下一页 ]