1701026523
1701026524
为方便理解,我们从最简单的变量入手,考虑只有两个可能的值的二元变量的情况。二元变量经常被用来回答“你结婚了没有”“你吸烟吗”“你现在或者曾经是医生吗”等问题。
1701026525
1701026526
二元变量的相关性特别简单,易于比较。例如,如果说婚姻状况与吸烟具有负相关性,则表明已婚者吸烟的可能性低于平均值。换言之,吸烟者已婚的可能性低于普通人。我觉得有必要说明这两个说法的确是一样的,第一种表达可以写成下面这个不等式:
1701026527
1701026528
已婚吸烟者/所有已婚者<所有吸烟者/所有人
1701026529
1701026530
第二种表达则可以写成:
1701026531
1701026532
已婚吸烟者/所有吸烟者<所有已婚者/所有人
1701026533
1701026534
在上面两个不等式的两边同时乘以公分母(所有人×所有吸烟者),就会发现这两种表达虽然形式不同,但内容一样。
1701026535
1701026536
已婚吸烟者×所有人<所有吸烟者×所有已婚者
1701026537
1701026538
同样,如果吸烟与婚姻状况存在正相关关系,就会得到“已婚者吸烟的可能性超过平均值”与“吸烟者已婚的可能性高于普通人”这两个结论。
1701026539
1701026540
但是,已婚者中吸烟者的比例与所有人中吸烟者的比例正好相等的概率非常小。因此,如果不考虑这种巧合情况,已婚与吸烟之间就存在相关关系,可能是正相关关系,也可能是负相关关系。同样,性取向、是否为美国公民、姓名首字母是否排在字母表后半部分等,都与吸烟之间存在正相关关系或者负相关关系。我们在第7章讨论的零假设几乎总是错误的,与这个现象非常相似。
1701026541
1701026542
如果我们失去信心,绝望地说:“所有事物之间都存在相关性!”那么,这样的结论没有多大意义。因此,我们不会报告我们发现的所有相关性。如果报告某两个事物之间存在相关性,就是在暗示读者这种相关性“非常强”,值得报告,而且通常是因为该相关性通过了统计学显著性检验。我们知道,统计学显著性检验会招致很多风险,但是我们至少可以借此发出一个信号,让统计学家觉得“这中间肯定有某种玄机”而不敢等闲视之。
1701026543
1701026544
但是,到底有什么玄机呢?接下来讨论的是最麻烦的问题。已婚与吸烟之间存在负相关关系,这是一个事实,用一句的话来表述就是:
1701026545
1701026546
如果你吸烟,你已婚的可能性就比较低。
1701026547
1701026548
但是,如果对这句话稍加改动,意思将截然不同:
1701026549
1701026550
如果你曾经吸烟,你已婚的可能性就比现在低。
1701026551
1701026552
将陈述语气变成虚拟语气之后,句子的意思竟然发生了如此明显的变化,似乎让人摸不着头脑。第一句话表述的是真实情况,而第二句话则涉及一个更加微妙的问题:如果我们改变现实世界中的事物,将会产生什么结果?第一句话表示某种相关性,而第二句话则暗示某种因果关系(曾经吸烟会导致现在已婚的可能性降低)。我们已经讨论过,相关关系与因果关系是不同的概念。吸烟者已婚的可能性低于其他人,这个事实并不意味着戒烟之后你的未来伴侣就会从天而降。自从一个世纪之前高尔顿与皮尔逊完成了他们的研究之后,对相关性的数学描述就固定下来了,而且这些描述非常到位。但是,因果关系这个概念却一直令人困惑。
1701026553
1701026554
我们对相关关系与因果关系这两个概念的理解在某些方面含糊不清。有时候,我们可以凭直觉清楚地发现两者之间的不同,但是直觉有时候也无能为力。我们说优质胆固醇含量与心脏发病率之间存在相关性,我们表述的是这样一个事实:“如果你的优质胆固醇含量较高,你患心脏病的可能性就比较小。”我们很可能会认为优质胆固醇可以发挥某种作用,从而改善心血管健康状况,比如,可以“刮掉”动脉壁上讨厌的油脂。也就是说,如果优质胆固醇真的有益身体健康,那么我们的确有理由认为,所有能提高优质胆固醇含量的治疗方法,都可以降低人们患心脏病的风险。
1701026555
1701026556
但是,优质胆固醇与心脏病之间存在相关性的原因与我们想象的可能有所不同。比如,某个我们还没有发现的因素在提升优质胆固醇含量的同时,还能降低心血管疾病的发病风险。在这种情况下,能提高优质胆固醇含量的药物有可能具有预防心脏病的疗效,也可能没有。如果这种药物是通过作用于这个神秘因素来提高优质胆固醇含量的,就可能对心脏有益;如果这种药物是通过其他方式提高优质胆固醇含量的,我们的希望就会完全落空。蒂姆与萨拉的收益情况与之相似。他们在理财上取得的成功具有相关性,但是,萨拉的盈亏不是由蒂姆的收益决定的,而是另有原因,即同时影响蒂姆与萨拉收益的那个神秘因素——本田公司的股票。在临床上,研究人员把这个现象称作“替代终点问题”(surrogate endpoint problem)。要检验某种药物是否具有延年益寿的效果,需要投入大量时间与资金,因为我们必须等到人们死了之后才能知道他们的寿命。优质胆固醇就是一种理想的替代终点,人们认为这种易于检验的生物标记物是“寿命长、无患心脏病风险”的标志。但是,优质胆固醇与心脏病之间存在相关性,可能并不代表两者之间也存在因果关系。
1701026557
1701026558
甄别相关性是否由因果关系产生,其难度非常大。即使在某些情况下,我们可能觉得两者有明显的区别,例如吸烟与肺癌之间的关系,但是,要清楚地区分它们也是一件令人头疼的事。19世纪末20世纪初,肺癌还是一种极为少见的疾病。但是到了1947年,在因癌症死亡的英国人中,有1/5的人死于肺癌,是几十年前肺癌死亡人数的15倍。起初,很多研究人员认为这是因为肺癌的诊断水平比以前更高,但是,人们很快发现,从肺癌病例数量增长的速度之快、幅度之大来看,这样的解释是说不通的。人们只知道肺癌发病率在上升,但却不知道造成这一变化的罪魁祸首到底是谁:是工厂排放的黑烟,还是越来越多的汽车尾气?是某种我们认为不会造成污染的物质,还是香烟?答案不得而知。
1701026559
1701026560
到20世纪50年代初,英国与美国开展的一些大型研究表明,吸烟与肺癌之间存在非常显著的相关关系。在非吸烟者当中,肺癌依然十分少见,但是对吸烟者而言,患肺癌的风险却非常高。多尔(Doll)与希尔(Hill)于1950年发表的一篇非常有名的论文指出,伦敦20家医院一共有649名男性肺癌患者,其中只有两人不吸烟。今天,这样的比例一定会备受人们关注,但是在20世纪中叶的伦敦,人们并不觉得这个数据能说明什么问题,因为当时吸烟是一个非常普遍的习惯,不吸烟的人远比现在的要少。在因为其他病症而住院接受治疗的649名男性病人之中,不吸烟的人远远超过两个,为27个。而且,烟瘾越大,这种相关性就越明显。在这649名肺癌患者当中,有168人每天吸烟超过25支。
1701026561
1701026562
多尔与希尔收集的数据表明肺癌与吸烟之间存在相关性。尽管两者之间不是严格的决定性关系(有的人吸了很多烟,也没有患肺癌,而有些不吸烟的人却患有肺癌),但它们也不是两个相互独立的现象。在高尔顿与皮尔逊的示意图中,这两者之间的关系处于模糊的中间区域。
1701026563
1701026564
确认相关性的存在与解释其存在的原因不是一回事。多尔与希尔的研究并没有证明肺癌是吸烟导致的,他们在论文中指出,“如果肺癌会导致病人吸烟,或者吸烟与肺癌是同一个原因导致的两个结果,吸烟与肺癌之间就会产生某种联系。”他们认为,肺癌导致病人吸烟这个说法不是很合理,因为肿瘤不会对患者生病之前的行为产生影响,使他们养成一天吸一盒烟的习惯。而同一个原因导致这两个结果的说法则难以确认。
1701026565
1701026566
我们的老朋友、现代统计学的奠基人费舍尔,正是站在这个立场上对香烟–肺癌的相关性表示了强烈的怀疑。费舍尔是继承高尔顿与皮尔逊理念的最合适人选,他于1933年继皮尔逊之后开始担任伦敦大学学院的高尔顿优生学实验室主任(该职位现在已经更名为高尔顿遗传学实验室主任)。
1701026567
1701026568
费舍尔认为,虽然肺癌导致吸烟这一说法似乎绝不可能是正确的,但要完全推翻它仍然为时过早。
1701026569
1701026570
那么,肺癌(在患者表现出明显的肺癌症状之前的几年时间里,即将发生癌变的症状肯定已经存在,而且人们也知道这种症状的存在)会不会是导致人们吸烟的原因之一呢?我认为我们不能不考虑这种可能性。还没有足够的证据证明肺癌的确是导致人们吸烟的一个原因,但是,在即将患上肺癌时,人们会有轻微的慢性炎症的症状。我们的朋友当中可能有人在研究人们吸烟的原因,大家可能会认同,在我们感到烦躁(令人略感失望的事情、意想不到的耽搁、遭到婉拒、遇到挫折等都会让我们感到烦躁)时,我们常常会吸上一支香烟,以此来应对生活的不如意。因此,在身体某个部位出现慢性炎症时(此时,我们不会感觉到明显的疼痛),吸烟者吸烟的频率增加,不吸烟的人开始吸烟,这是完全有可能的。在患肺癌之前的15年时间里,患者可能真的可以从吸烟中获得心理安慰,禁止这些可怜的人吸烟,就像从盲人手中夺走拐杖一样,会让本来就不幸的人更加不幸。
1701026571
1701026572
从这段文字不难看出杰出的统计学家严谨治学的态度,他要求我们以同样的方式去考虑所有的可能性。同时,我们还可以看出终生吸烟的人对吸烟这个习惯的钟爱之情。(有的人认为费舍尔的研究成果具有很强的影响力,可以聘请他担任“烟草制造商常务委员会”这个英国工业组织的顾问;在我看来,费舍尔不愿意断言吸烟与肺癌之间存在因果关系,这与他一贯采用的统计方法一致。)费舍尔认为,多尔与希尔的研究对象之所以吸烟,可能是因为受到了癌变前炎症的影响。不过,他的这个观点并没有得到广泛的认同,而他的“吸烟与肺癌由某一共同原因导致”的观点却吸引了更多人的关注。费舍尔是优生学的虔诚信徒(这与他的学术头衔是相符的),他认为,当今社会在进化问题上十分宽容,因此优质基因正面临着与劣质基因婚配的风险。在费舍尔看来,人们完全有理由认为肺癌与吸烟习惯的背后有一种共同的遗传因素,但是人们还没有找到这种遗传因素。这种观点似乎纯属猜想,但是别忘了,关于“肺癌由吸烟导致”的观点在当时同样无从考证,就连实验也无法证明烟草中含有致癌的化学成分。
[
上一页 ]
[ :1.701026523e+09 ]
[
下一页 ]