1701026510
[3]最小公分母,常喻指“大众化的东西”“最平庸的人”等。
1701026511
1701026512
[4]“波波族”(Bobo)是由“布尔乔亚”(Bourgeois)和“波西米亚”(Bohemia)组合而成的。布尔乔亚和波西米亚这两个性质完全不同,甚至相互冲突的社会阶层混合在一起,构成了一个自相矛盾的“波波族”。波波族既讲究物质层面的极致享乐,又标榜生活方式的自由不羁和浪漫主义。
1701026513
1701026514
[5]茶的英文单词“Tea”也是“税收得够多了”(Taxed Enough Already)的缩写。——译者注
1701026515
1701026516
1701026517
1701026518
1701026520
魔鬼数学:大数据时代,数学思维的力量 第16章 因为患了肺癌你才吸烟的吗?
1701026521
1701026522
如果两个变量之间存在相关性?相关性到底意味着什么呢?
1701026523
1701026524
为方便理解,我们从最简单的变量入手,考虑只有两个可能的值的二元变量的情况。二元变量经常被用来回答“你结婚了没有”“你吸烟吗”“你现在或者曾经是医生吗”等问题。
1701026525
1701026526
二元变量的相关性特别简单,易于比较。例如,如果说婚姻状况与吸烟具有负相关性,则表明已婚者吸烟的可能性低于平均值。换言之,吸烟者已婚的可能性低于普通人。我觉得有必要说明这两个说法的确是一样的,第一种表达可以写成下面这个不等式:
1701026527
1701026528
已婚吸烟者/所有已婚者<所有吸烟者/所有人
1701026529
1701026530
第二种表达则可以写成:
1701026531
1701026532
已婚吸烟者/所有吸烟者<所有已婚者/所有人
1701026533
1701026534
在上面两个不等式的两边同时乘以公分母(所有人×所有吸烟者),就会发现这两种表达虽然形式不同,但内容一样。
1701026535
1701026536
已婚吸烟者×所有人<所有吸烟者×所有已婚者
1701026537
1701026538
同样,如果吸烟与婚姻状况存在正相关关系,就会得到“已婚者吸烟的可能性超过平均值”与“吸烟者已婚的可能性高于普通人”这两个结论。
1701026539
1701026540
但是,已婚者中吸烟者的比例与所有人中吸烟者的比例正好相等的概率非常小。因此,如果不考虑这种巧合情况,已婚与吸烟之间就存在相关关系,可能是正相关关系,也可能是负相关关系。同样,性取向、是否为美国公民、姓名首字母是否排在字母表后半部分等,都与吸烟之间存在正相关关系或者负相关关系。我们在第7章讨论的零假设几乎总是错误的,与这个现象非常相似。
1701026541
1701026542
如果我们失去信心,绝望地说:“所有事物之间都存在相关性!”那么,这样的结论没有多大意义。因此,我们不会报告我们发现的所有相关性。如果报告某两个事物之间存在相关性,就是在暗示读者这种相关性“非常强”,值得报告,而且通常是因为该相关性通过了统计学显著性检验。我们知道,统计学显著性检验会招致很多风险,但是我们至少可以借此发出一个信号,让统计学家觉得“这中间肯定有某种玄机”而不敢等闲视之。
1701026543
1701026544
但是,到底有什么玄机呢?接下来讨论的是最麻烦的问题。已婚与吸烟之间存在负相关关系,这是一个事实,用一句的话来表述就是:
1701026545
1701026546
如果你吸烟,你已婚的可能性就比较低。
1701026547
1701026548
但是,如果对这句话稍加改动,意思将截然不同:
1701026549
1701026550
如果你曾经吸烟,你已婚的可能性就比现在低。
1701026551
1701026552
将陈述语气变成虚拟语气之后,句子的意思竟然发生了如此明显的变化,似乎让人摸不着头脑。第一句话表述的是真实情况,而第二句话则涉及一个更加微妙的问题:如果我们改变现实世界中的事物,将会产生什么结果?第一句话表示某种相关性,而第二句话则暗示某种因果关系(曾经吸烟会导致现在已婚的可能性降低)。我们已经讨论过,相关关系与因果关系是不同的概念。吸烟者已婚的可能性低于其他人,这个事实并不意味着戒烟之后你的未来伴侣就会从天而降。自从一个世纪之前高尔顿与皮尔逊完成了他们的研究之后,对相关性的数学描述就固定下来了,而且这些描述非常到位。但是,因果关系这个概念却一直令人困惑。
1701026553
1701026554
我们对相关关系与因果关系这两个概念的理解在某些方面含糊不清。有时候,我们可以凭直觉清楚地发现两者之间的不同,但是直觉有时候也无能为力。我们说优质胆固醇含量与心脏发病率之间存在相关性,我们表述的是这样一个事实:“如果你的优质胆固醇含量较高,你患心脏病的可能性就比较小。”我们很可能会认为优质胆固醇可以发挥某种作用,从而改善心血管健康状况,比如,可以“刮掉”动脉壁上讨厌的油脂。也就是说,如果优质胆固醇真的有益身体健康,那么我们的确有理由认为,所有能提高优质胆固醇含量的治疗方法,都可以降低人们患心脏病的风险。
1701026555
1701026556
但是,优质胆固醇与心脏病之间存在相关性的原因与我们想象的可能有所不同。比如,某个我们还没有发现的因素在提升优质胆固醇含量的同时,还能降低心血管疾病的发病风险。在这种情况下,能提高优质胆固醇含量的药物有可能具有预防心脏病的疗效,也可能没有。如果这种药物是通过作用于这个神秘因素来提高优质胆固醇含量的,就可能对心脏有益;如果这种药物是通过其他方式提高优质胆固醇含量的,我们的希望就会完全落空。蒂姆与萨拉的收益情况与之相似。他们在理财上取得的成功具有相关性,但是,萨拉的盈亏不是由蒂姆的收益决定的,而是另有原因,即同时影响蒂姆与萨拉收益的那个神秘因素——本田公司的股票。在临床上,研究人员把这个现象称作“替代终点问题”(surrogate endpoint problem)。要检验某种药物是否具有延年益寿的效果,需要投入大量时间与资金,因为我们必须等到人们死了之后才能知道他们的寿命。优质胆固醇就是一种理想的替代终点,人们认为这种易于检验的生物标记物是“寿命长、无患心脏病风险”的标志。但是,优质胆固醇与心脏病之间存在相关性,可能并不代表两者之间也存在因果关系。
1701026557
1701026558
甄别相关性是否由因果关系产生,其难度非常大。即使在某些情况下,我们可能觉得两者有明显的区别,例如吸烟与肺癌之间的关系,但是,要清楚地区分它们也是一件令人头疼的事。19世纪末20世纪初,肺癌还是一种极为少见的疾病。但是到了1947年,在因癌症死亡的英国人中,有1/5的人死于肺癌,是几十年前肺癌死亡人数的15倍。起初,很多研究人员认为这是因为肺癌的诊断水平比以前更高,但是,人们很快发现,从肺癌病例数量增长的速度之快、幅度之大来看,这样的解释是说不通的。人们只知道肺癌发病率在上升,但却不知道造成这一变化的罪魁祸首到底是谁:是工厂排放的黑烟,还是越来越多的汽车尾气?是某种我们认为不会造成污染的物质,还是香烟?答案不得而知。
1701026559
[
上一页 ]
[ :1.70102651e+09 ]
[
下一页 ]