打字猴:1.701026491e+09
1701026491 不存在相关性不代表没有任何关系
1701026492
1701026493 我们已经知道,如果两个变量之间存在相关性,它们就会在某个方面相互关联。那么,如果它们之间不存在相关性,是不是就意味着这两个变量之间不存在任何关系,相互间也不会产生任何影响呢?实际情况远非如此。高尔顿的相关性概念有一个非常重要的局限性:这个概念探究的是两个变量之间的线性关系,一个变量增加的同时,另一个变量往往会成比例地增加(或减少)。但是,有的线不是直线,同样,也不是所有的关系都是线性关系。
1701026494
1701026495 我们看下面这幅画:
1701026496
1701026497
1701026498
1701026499
1701026500 这幅图是我根据2011年12月5日政治民意调查的结果绘制的。图中有1 000个点,每个点分别代表一个选民对民调的23个问题的回答。点在横轴上的位置表示政治倾向的“左”和“右”:声称支持奥巴马总统,支持民主党,反对“茶党”[5]的人通常位于左侧;而支持共和党,不喜欢哈里·瑞德(Harry Reid),认为将会发生旨在取缔圣诞节的“圣诞之战”的那些人则位于右侧。纵轴粗略地表示“了解程度”,位于图下半部分的人在回答“你赞成还是反对(参议院少数党领袖)米切·麦康纳(Mitch McConnell)的行为”等涉及更多政治内幕的问题时,给出的答案往往是“不知道”,并且对2012年总统大选表现出不关注或者无所谓的态度。
1701026501
1701026502 看看这幅图我们就能知道,两个坐标轴代表的变量之间不存在相关性,越靠近图的上部,这些点向左右两侧偏斜的趋势就越明显。但是,这并不意味着这两个变量之间没有任何关系。事实上,上图已经清楚地表现出它们之间存在某种关系。该图呈“心形”,两侧各有一个叶瓣,底端形成一个顶点。当选民得到的信息增多时,他们倾向于支持民主党或共和党的程度不会有显著变化,但是他们两极分化的态势却更加明显:左右两侧与中心的距离越来越远,而中间稀疏的部位变得更加稀疏。在图的下半部分,对政治了解程度较低的选民往往会采取更加中立的态度。这幅图反映了一个重要的政治事实:总体来说,某些选民摇摆不定并不是因为他们没有盲从某些政治信条,正在认真地比较候选人孰优孰劣,而是因为他们几乎不关注总统选举。目前,这个事实已经成为政治科学文献中一个老生常谈的问题了。
1701026503
1701026504 数学工具与所有的科学工具一样,不可能适用于探究所有现象。就像照相机无法探测伽马射线一样,相关性研究也无法在这幅散点图上的心形图案中有所发现。如果有人说他发现自然界或社会中有两种现象之间不存在相关性,此时,我们一定要记住这并不意味着这两种现象之间没有任何关系,只不过相关性研究无法探究出它们之间的关系罢了。
1701026505
1701026506 [1]75华氏度≈23.9摄氏度,50华氏度≈10摄氏度。——编者注
1701026507
1701026508 [2]我得承认,原因不完全在于像素之间的相关性,但最根本的原因的确是图像所承载的信息量(按照香农的理解)。
1701026509
1701026510 [3]最小公分母,常喻指“大众化的东西”“最平庸的人”等。
1701026511
1701026512 [4]“波波族”(Bobo)是由“布尔乔亚”(Bourgeois)和“波西米亚”(Bohemia)组合而成的。布尔乔亚和波西米亚这两个性质完全不同,甚至相互冲突的社会阶层混合在一起,构成了一个自相矛盾的“波波族”。波波族既讲究物质层面的极致享乐,又标榜生活方式的自由不羁和浪漫主义。
1701026513
1701026514 [5]茶的英文单词“Tea”也是“税收得够多了”(Taxed Enough Already)的缩写。——译者注
1701026515
1701026516
1701026517
1701026518
1701026519 魔鬼数学:大数据时代,数学思维的力量 [:1701022633]
1701026520 魔鬼数学:大数据时代,数学思维的力量 第16章 因为患了肺癌你才吸烟的吗?
1701026521
1701026522 如果两个变量之间存在相关性?相关性到底意味着什么呢?
1701026523
1701026524 为方便理解,我们从最简单的变量入手,考虑只有两个可能的值的二元变量的情况。二元变量经常被用来回答“你结婚了没有”“你吸烟吗”“你现在或者曾经是医生吗”等问题。
1701026525
1701026526 二元变量的相关性特别简单,易于比较。例如,如果说婚姻状况与吸烟具有负相关性,则表明已婚者吸烟的可能性低于平均值。换言之,吸烟者已婚的可能性低于普通人。我觉得有必要说明这两个说法的确是一样的,第一种表达可以写成下面这个不等式:
1701026527
1701026528 已婚吸烟者/所有已婚者<所有吸烟者/所有人
1701026529
1701026530 第二种表达则可以写成:
1701026531
1701026532 已婚吸烟者/所有吸烟者<所有已婚者/所有人
1701026533
1701026534 在上面两个不等式的两边同时乘以公分母(所有人×所有吸烟者),就会发现这两种表达虽然形式不同,但内容一样。
1701026535
1701026536 已婚吸烟者×所有人<所有吸烟者×所有已婚者
1701026537
1701026538 同样,如果吸烟与婚姻状况存在正相关关系,就会得到“已婚者吸烟的可能性超过平均值”与“吸烟者已婚的可能性高于普通人”这两个结论。
1701026539
1701026540 但是,已婚者中吸烟者的比例与所有人中吸烟者的比例正好相等的概率非常小。因此,如果不考虑这种巧合情况,已婚与吸烟之间就存在相关关系,可能是正相关关系,也可能是负相关关系。同样,性取向、是否为美国公民、姓名首字母是否排在字母表后半部分等,都与吸烟之间存在正相关关系或者负相关关系。我们在第7章讨论的零假设几乎总是错误的,与这个现象非常相似。
[ 上一页 ]  [ :1.701026491e+09 ]  [ 下一页 ]