打字猴:1.70102646e+09
1701026460 在去年的总统大选中,与硅谷、芝加哥北岸、康涅狄格州城郊等美国各地的其他高收入地区一样,蒙哥马利县支持的是民主党,共和党和民主党的选票分别占34%和63%;而富兰克林县则把大部分选票投给了共和党,两党得到的选票分别占67%和30%。
1701026461
1701026462 首先,这里说的“各地”有点儿言过其实了。威斯康星州最富裕的县是沃基莎,小布什在这里击败了阿尔·戈尔(Al Gore),但是,在全州范围内戈尔以微弱的优势取得了胜利。
1701026463
1701026464 其次,布鲁克斯说的是实情,我们在前面介绍的散点图中已经清楚地看到了这个现象。从当今美国大选来看,富裕的州更有可能把选票投给民主党。密西西比州和俄克拉何马州都是共和党的地盘,但是共和党根本不会奢望主导纽约州和加利福尼亚州。换言之,居住在富裕的州与把选票投给民主党,两者之间存在正相关性。
1701026465
1701026466 但是,统计学家安德鲁·格尔曼(Andrew Gelman)认为,布鲁克斯描述的其实是一种新型的自由主义者,他们喝着拿铁,开着丰田普锐斯,住着有品位的大房子,印有“NPR”(美国国家公共电台)字样的大手提袋中装满了现金,而实际情况更加复杂。事实上,几十年以来,有钱人把选票投给民主党的可能性一直高于那些囊中羞涩的人,而且这种情况持续存在。格尔曼及其合作伙伴深入分析每个州的统计数据,结果发现了一个非常有意思的规律。在某些州,例如得克萨斯州和威斯康星州,富裕的县会把更多的选票投给共和党。但是在马里兰、加利福尼亚与纽约等州,富裕的县则更倾向于支持民主党,而众多政治专家正好就住在这些州。他们坐在家中放眼一看,在他们周围这片富足的土地上生活的都是有钱的自由主义者,便自然而然地认为全美各地都是这样。的确,他们有这样的想法是很自然的,但是,如果看一看总体数据,我们就会知道这是一个错误的想法。
1701026467
1701026468 不过,这里似乎存在一个悖论。家境富裕与居住在富裕的州,这两者之间毫无疑问是存在正相关关系的,居住在富裕的州与把选票投给民主党也存在正相关关系,这是不是意味着家境富裕与把选票投给民主党之间肯定也存在正相关关系呢?用几何语言表述的话,就是:如果向量1与向量2的夹角为锐角,向量2与向量3的夹角也是锐角,那么向量1与向量3的夹角是不是也一定是锐角呢?
1701026469
1701026470 并非如此,我们可以画图证明。
1701026471
1701026472
1701026473
1701026474
1701026475 某些关系(例如“大于”)是可以“传递”的。如果我比我儿子重,我儿子又比我女儿重,那么,我肯定比我女儿重。“与……居住在同一座城市”也具有可传递性。如果我和比尔住在同一座城市,比尔与鲍勃住在同一座城市,那么我和鲍勃一定也住在同一座城市。
1701026476
1701026477 但是,相关性不具有可传递性,相关性与“血缘关系”比较类似。从血缘方面讲,我与我儿子有血缘关系,我儿子与我妻子有血缘关系,但是我和我妻子之间并没有血缘关系。事实上,如果把存在相关性的变量理解成“部分DNA相同”,就不会有多大问题。假设我经营的小型理财公司只有三位投资者——劳拉、萨拉和蒂姆。他们的股票头寸非常简单:劳拉的一半头寸是脸谱网的股票,一半是谷歌的股票;蒂姆的头寸是通用汽车的股票和本田的股票各占一半;萨拉的头寸中新经济和传统经济各占半壁江山,即一半是本田的股票,一半是脸谱网的股票。很明显,劳拉的收益肯定与萨拉的存在正相关关系,因为他们的投资组合有一半是相同的,萨拉的收益与蒂姆的收益也存在正相关关系;但是,我们没有理由认为蒂姆的收益与劳拉的收益一定存在正相关关系。他们的头寸就像一对夫妻,分别贡献一半“遗传基因”,形成了一种结合体,即萨拉的头寸。
1701026478
1701026479 从某种意义上讲,相关性的不可传递性是显而易见的,但又不容易理解。以共同基金为例,如果知道蒂姆的收益有所上升,我们不会错误地认为可以据此推断劳拉的收益。但是,我们的直觉在其他领域的表现却没有这么好,例如,我们在考虑“优质胆固醇”时就是这样。“优质胆固醇”指的是血液中HDL(高密度脂蛋白)携带的胆固醇,几十年来,人们一直认为优质胆固醇含量与心血管问题发生率之间存在相关性,优质胆固醇含量越高,出现心血管问题的风险就越低。通俗地讲,如果你的优质胆固醇含量充足,那么你捂着胸口倒地而亡的可能性往往比较小。
1701026480
1701026481 我们还知道某些药物可以有效地增加优质胆固醇的含量,其中比较常见的是维生素B族中的烟酸(niacin)。如果烟酸可以增加优质胆固醇含量,那么,大量摄入烟酸应该可以取得比较好的效果。我的医生就提议我这样做,估计你的医生也会给出类似的建议,除非你还未成年或者是马拉松选手这种代谢能力很强的人。
1701026482
1701026483 问题是,我们并不清楚烟酸是否有效。小规模临床试验结果表明补充烟酸的做法可以取得较好的疗效,但是,2011年,美国国家心肺血液研究所提前一年半中止了该所的一个大规模临床试验,原因是结果非常不理想。服用烟酸补充剂的病人的确提升了体内的优质胆固醇含量,但是他们患心脏病与中风的概率跟其他人没有任何区别。为什么会这样呢?这是因为相关性是不可传递的。烟酸与优质胆固醇含量之间存在相关性,高含量的优质胆固醇与低心脏发病率之间存在相关性,但这并不意味着烟酸可以预防心脏病。
1701026484
1701026485 然而,这也不意味着增加血液中HDL携带的优质胆固醇含量的做法行不通。每种药物都不相同,而临床效果有可能与增加优质胆固醇含量的方法有关系。我们回过头再讨论一下理财公司的问题。我们知道蒂姆的收益与萨拉的收益存在相关性,因此,我们有可能采取某些措施增加蒂姆的收益,从而增加萨拉的收益。如果我们采取的方式是通过发布虚假的利好消息来促使通用汽车的股票涨价,蒂姆的收益就会提高,而萨拉的收益却没有变化。但是,如果我们发布的是关于本田股票的虚假利好消息,那么蒂姆与萨拉的收益都会提高。
1701026486
1701026487 如果相关性具有可传递性,医学研究就会容易得多,因为几十年来我们积累了大量的观察结果和相关数据,已经知道很多现象之间存在相关性。如果相关性真的具有可传递性,医生只需要这些相关性之间建立联系,就可以有效地治疗各种疾病。我们知道女性的雌性激素与低心脏发病率之间存在相关性,我们还知道荷尔蒙替代疗法可以提高雌性激素的含量,因此,我们可能会认为荷尔蒙替代疗法可以降低妇女患心脏病的风险。事实上,这是临床治疗的传统观点,而真实情况则要复杂得多。21世纪初,一项涉及大量随机临床试验的长期研究——妇女健康临床研究的报告称,采用雌性激素与黄体酮组合的荷尔蒙替代疗法,实际上增加了研究对象患心脏病的风险。后来的研究又得出了另外一些结果:荷尔蒙替代疗法对不同女性人群的疗效也不相同,单纯采用雌性激素的治疗方案可能比采用雌性激素与黄体酮组合的治疗方案,更有利于女性的心脏健康,等等。
1701026488
1701026489 在现实生活中,我们几乎根本无法预测某种药物对某种疾病有什么样的疗效,即使我们非常了解这种药物对优质胆固醇或者雌性激素含量等生物标记物的影响。人体是一个异常复杂的系统,我们可以测量的特征为数甚少,更不用说操控这些特征了,但我们可以在相关性的基础上进行观察。有可能取得预期疗效的药物非常多,因此我们只能通过临床试验找出合适的药物。但是,大多数临床试验会遭遇失败,令我们一次次地感到沮丧。因此,开发新药不仅需要大量资金,更需要的是持之以恒、越挫越勇的心态。
1701026490
1701026491 不存在相关性不代表没有任何关系
1701026492
1701026493 我们已经知道,如果两个变量之间存在相关性,它们就会在某个方面相互关联。那么,如果它们之间不存在相关性,是不是就意味着这两个变量之间不存在任何关系,相互间也不会产生任何影响呢?实际情况远非如此。高尔顿的相关性概念有一个非常重要的局限性:这个概念探究的是两个变量之间的线性关系,一个变量增加的同时,另一个变量往往会成比例地增加(或减少)。但是,有的线不是直线,同样,也不是所有的关系都是线性关系。
1701026494
1701026495 我们看下面这幅画:
1701026496
1701026497
1701026498
1701026499
1701026500 这幅图是我根据2011年12月5日政治民意调查的结果绘制的。图中有1 000个点,每个点分别代表一个选民对民调的23个问题的回答。点在横轴上的位置表示政治倾向的“左”和“右”:声称支持奥巴马总统,支持民主党,反对“茶党”[5]的人通常位于左侧;而支持共和党,不喜欢哈里·瑞德(Harry Reid),认为将会发生旨在取缔圣诞节的“圣诞之战”的那些人则位于右侧。纵轴粗略地表示“了解程度”,位于图下半部分的人在回答“你赞成还是反对(参议院少数党领袖)米切·麦康纳(Mitch McConnell)的行为”等涉及更多政治内幕的问题时,给出的答案往往是“不知道”,并且对2012年总统大选表现出不关注或者无所谓的态度。
1701026501
1701026502 看看这幅图我们就能知道,两个坐标轴代表的变量之间不存在相关性,越靠近图的上部,这些点向左右两侧偏斜的趋势就越明显。但是,这并不意味着这两个变量之间没有任何关系。事实上,上图已经清楚地表现出它们之间存在某种关系。该图呈“心形”,两侧各有一个叶瓣,底端形成一个顶点。当选民得到的信息增多时,他们倾向于支持民主党或共和党的程度不会有显著变化,但是他们两极分化的态势却更加明显:左右两侧与中心的距离越来越远,而中间稀疏的部位变得更加稀疏。在图的下半部分,对政治了解程度较低的选民往往会采取更加中立的态度。这幅图反映了一个重要的政治事实:总体来说,某些选民摇摆不定并不是因为他们没有盲从某些政治信条,正在认真地比较候选人孰优孰劣,而是因为他们几乎不关注总统选举。目前,这个事实已经成为政治科学文献中一个老生常谈的问题了。
1701026503
1701026504 数学工具与所有的科学工具一样,不可能适用于探究所有现象。就像照相机无法探测伽马射线一样,相关性研究也无法在这幅散点图上的心形图案中有所发现。如果有人说他发现自然界或社会中有两种现象之间不存在相关性,此时,我们一定要记住这并不意味着这两种现象之间没有任何关系,只不过相关性研究无法探究出它们之间的关系罢了。
1701026505
1701026506 [1]75华氏度≈23.9摄氏度,50华氏度≈10摄氏度。——编者注
1701026507
1701026508 [2]我得承认,原因不完全在于像素之间的相关性,但最根本的原因的确是图像所承载的信息量(按照香农的理解)。
1701026509
[ 上一页 ]  [ :1.70102646e+09 ]  [ 下一页 ]