1701778148
有一种简洁精巧的用以测量概率的统计方法叫作卡方检验,它只通过两个分类变量的差别就足以反映出其是否存在真正的相关性。如果两个分类变量的差别在统计学意义上具有显著性,那么我们认为两者的相关性为真。
1701778149
1701778150
通常我们用以判断“相关的显著性”的标准是,检验(卡方检验或其他统计学检验)是否能显示出关联程度发生的概率为在100次中发生5次。如果的确如此,我们称其显著性为0.05。显著性检验不仅可应用于两分的数据(非此即彼),也可用于连续的数据。
1701778151
1701778152
当变量呈连续分布之态时,我们想知道每个变量彼此之间的相关性有多高,此时我们会用到的统计学工具是“相关性”。两个明显有关联的变量是高度和重量。当然,它们之间的关联并不完美,因为我们会想到许多例子,像是一些矮却更重或高却更轻的人。
1701778153
1701778154
应用一系列不同的统计学工具可以让我们明白,两个变量之间的相关性究竟有多高。一个经常被用于检验连续变量相关性的统计工具是皮尔逊积矩相关系数。零相关性意味着两个变量之间没有一点儿关联。相关系数为+1表示两个变量呈完全正相关。当变量1的值上升,则变量2的值也会上升相应的程度。相关系数为–1表示两个变量呈完全负相关。
1701778155
1701778156
利用散点图,下图从视觉上展示出一个特定的相关性有多强。图中的每一张图都被称作散点图,因为它们展示出各点偏离“直线,即完全相关”的程度。
1701778157
1701778158
1701778159
1701778160
1701778161
散点图和相关性
1701778162
1701778163
若相关性的值达到0.3,视觉上几乎无法辨别,但是在实际中有着重大意义。若相关性为0.3,我们就能从一个人的智商情况预测其收入,能从学生大学的课业成绩预测其在研究生院的表现。同样程度的相关性也可以帮我们从一个人体重过轻、达到平均水平或超重来预测其患有早期心血管疾病的可能性。
1701778164
1701778165
相关性达到0.3真的很重要,这并非开玩笑:它意味着如果某人在变量A上的排位是前84%(高于均值一个标准差),那么这个人在变量B上的表现会是前63%(高于均值0.3个标准差)。这是一个对变量B的相当有含金量的预估了,比你不知道任何关于变量A的信息的情况要好很多。如果你什么都不知道,那就只能猜测每个人的排位都是50%,即变量B分布的均值。这很容易帮你判断你的生意究竟会做大,还是会破产。
1701778166
1701778167
相关性为0.5可以反映一个人在普通工作上体现出的智商与表现之间的相关程度。(对于难度更大的工作,相关性更高;对于难度较低的工作,则相关性更低。)
1701778168
1701778169
相关性为0.7可以反映出人身高和体重之间的联系——虽然很有说服力但依然不甚完美。相关性为0.8可以反映出以下两种变量的联系程度:你在今年SAT考试数学部分的得分与下一年在同样部分的得分。这种联系程度很高,但就平均情况而言,在两个分数之间还是会有比较大的浮动空间。
1701778170
1701778171
相关性并不能建立起因果联系
1701778172
1701778173
相关系数是进行因果关系分析过程中的一个步骤。如果变量A与变量B之间不存在相关性,那在两者之间(可能)不存在因果关系。(一种例外的情况是,如果存在第三个变量C,它促使变量A和变量B之间产生了相关性,而变量A与变量B之间是存在因果关系的。)如果变量A与变量B之间存在相关性,这并不能说明变量A一定导致了变量B。可能是A导致了B,也可能是B导致了A,而联系也可能是由A和B都与某个第三种变量C有联系而产生的,其实在A与B之间没有丝毫的因果关系。
1701778174
1701778175
几乎每个达到高中毕业水平的人都能在思维上认可以上论断。然而,某种特定相关性总是伴随着我们假想中的因果关系出现,以至我们心照不宣地接受了相关性意味着因果联系的观点。我们是如此善于制造因果假设,以至于这种做法几乎成了自发的习惯,我们总是控制不住自己去做因果推断。如果我告诉你吃了更多巧克力的人脸上有更多的粉刺,那么你很难不去揣测,可能是吃巧克力引起了粉刺。(实际上并不是这样。)如果我告诉你,那些精心准备婚礼的夫妇经历了更长久的婚姻,那么你很自然便会推测,怎样精心准备的婚礼可以造就更长久的婚姻。事实上,一份著名报纸最近刊登的一篇文章报道了两者的相关性,并推测了严肃的婚礼准备工作带来更长久婚姻关系的原因。然而,如果你深入思考这种相关性,你会意识到精心的婚礼准备并不是一种随机出现的情况,能精心准备婚礼的人更可能有更多的朋友,夫妇两人有更多的相处时间、有更多的钱,或者其他一些更优越的条件。拥有这些东西中的任何一种,或者拥有全部这些条件,那么必然会让婚姻更长久。从这张复杂的网中抽出一个事实,并将它当作一种原因,其实是没有太大意义的。
1701778176
1701778177
请看一看工具箱1(见下方灰底方框),其中提到的所有联系都是真实存在的。你会看到,有些因果链看起来似乎是高度可信的,而有些则高度可疑。无论你认为这些因果链可信与否,都请看看你是否能给出下面几种类型的解释:A导致B;B导致A;有一个因素和A与B都相关,且是导致A和B的原因,但A和B之间不存在因果链。随后,请在工具箱2里寻找答案。
1701778178
1701778179
工具箱1 思考联系:下述情况中存在什么样的因果关系?
1701778180
1701778181
1.《时代》杂志报道,一些家长努力控制自己孩子的饭量,这一行为导致这些孩子超重。如果家里有超重孩子的父母不再控制孩子的饭量,那么这些孩子的体重能减轻吗?
1701778182
1701778183
2.国民智商平均得分更高的国家有更多的财富(以国内生产总值为准)。国民更聪明会让一个国家更富裕吗?
1701778184
1701778185
3.去教堂参加宗教活动的人比不去教堂的人的道德素质低。这是否意味着信仰上帝可以让人活得更久?
1701778186
1701778187
4.养狗的人感到抑郁的情况比其他人少。如果你把一条狗送给一个情绪低落的人,那么他会开心起来吗?
1701778188
1701778189
5.禁止进行性教育的州的谋杀率较高。是因为这种“谈性色变”的状况引发了袭击行为吗?如果你为那些州的学生提供更多的性教育方面的知识,那么谋杀率会下降吗?
1701778190
1701778191
6.聪明的男人的精子质量更高——更多的精子,更有活力的精子。这是否意味着男人可以通过念大学而变得更聪明,进而提高其精子的质量?
1701778192
1701778193
7.吸食了大麻的人更有可能吸食可卡因。那么,是吸食大麻引起了吸食可卡因的行为吗?
1701778194
1701778195
8.在20世纪50年代,小儿麻痹症仍是一种棘手难治的疾病。当时,食用冰激凌和患小儿麻痹症之间几乎存在一种正相关关系。那么为了民众身体健康而禁止售卖冰激凌是一种明智的举措吗?
1701778196
1701778197
工具箱2 有关工具箱1中的各类联系的参考答案
[
上一页 ]
[ :1.701778148e+09 ]
[
下一页 ]