1701778126
1701778127
请看下面的图表,病状X与疾病A有关联吗?换句话说,是否能根据病状X诊断病人患有疾病A?
1701778128
1701778129
疾病A与病状X的关联
1701778130
1701778131
1701778132
1701778133
1701778134
如何解读上表呢?在一群人中,有20人患有疾病A,同时具有病状X;有80人患有疾病A,但没有病状X;10人未患疾病A,但有症状X;40人既无疾病A,也无症状X。乍看之下,这似乎是对于共变现象最简单的观察了。数据呈现出两分的状态(非此即彼)。你不必搜集信息,或者对不同数据进行编码、对其分别赋值,甚至不必刻意记住任何数据。你不能有任何先入为主的成见,用以判断不同的数据结构。数据的综合分析已经做好了,呈现在你面前。那么,人们如何应对这个最基本的共变数据分析任务呢?
1701778135
1701778136
事实上,人们表现得相当差劲。
1701778137
1701778138
人们普遍会犯的一个错误是,只依赖“是疾病A/存在病状X”的那一格中的数据。“是的,这种病状和这种疾病有关系。有些具有病状X的人患了疾病A。”这种认知倾向是确认偏误的一个例子,即人倾向于寻找可以证实自己的假想的证据,而不寻找会否定自己假想的证据。
1701778139
1701778140
另一些人看到这张表格时会关注两个单元格。其中一部分人会认为病症X与疾病A有关联,“因为在具有病状X的人中,患有疾病A的人比未患有该病的人多”。另一部分人则认为两者没有关联,“因为在患有疾病A的人中,没有症状X的人比有该症状的人多”。
1701778141
1701778142
如果没有学习过统计学知识,很少有人能意识到要回答哪怕是关于事物相关性的简单问题也要对四个单元格进行综合分析。
1701778143
1701778144
你需要计算出患疾病A且有症状X的人数与患疾病A但没有症状X的人数的比值。而后,你还需要计算出没有患疾病A但有症状X的人数与既没有疾病A也无症状X的人数的比值。因为这两个比值是相同的,你明白了症状X与疾病A有无关系的概率大体相同。
1701778145
1701778146
你可能会对一个事实感到震惊,即大部分人,包括那些每日和疾病治疗打交道的医生、护士,常常也会在面对上表的时候做出错误的分析。比如,你可以向他们展示一张表格,里面显示了患疾病B、接受疗法Y而痊愈的人数,患疾病B、接受疗法Y却没有痊愈的人数,患疾病B、未接受疗法Y而痊愈的人数,以及患疾病B、未接受疗法Y而没有痊愈的人数。医生们有时可能会认为是某种特定疗法治愈了病人,因为大部分接受了该疗法的病人的病情好转了。实际上,如果不知道未接受某种特定疗法而好转的人数与未接受某种特定疗法且未好转的人数之比,那么得出的任何结论都是不准确的。顺便提一句,类似上表的表格有时被称作“2×2表格”,有时被称作“四重表”。
1701778147
1701778148
有一种简洁精巧的用以测量概率的统计方法叫作卡方检验,它只通过两个分类变量的差别就足以反映出其是否存在真正的相关性。如果两个分类变量的差别在统计学意义上具有显著性,那么我们认为两者的相关性为真。
1701778149
1701778150
通常我们用以判断“相关的显著性”的标准是,检验(卡方检验或其他统计学检验)是否能显示出关联程度发生的概率为在100次中发生5次。如果的确如此,我们称其显著性为0.05。显著性检验不仅可应用于两分的数据(非此即彼),也可用于连续的数据。
1701778151
1701778152
当变量呈连续分布之态时,我们想知道每个变量彼此之间的相关性有多高,此时我们会用到的统计学工具是“相关性”。两个明显有关联的变量是高度和重量。当然,它们之间的关联并不完美,因为我们会想到许多例子,像是一些矮却更重或高却更轻的人。
1701778153
1701778154
应用一系列不同的统计学工具可以让我们明白,两个变量之间的相关性究竟有多高。一个经常被用于检验连续变量相关性的统计工具是皮尔逊积矩相关系数。零相关性意味着两个变量之间没有一点儿关联。相关系数为+1表示两个变量呈完全正相关。当变量1的值上升,则变量2的值也会上升相应的程度。相关系数为–1表示两个变量呈完全负相关。
1701778155
1701778156
利用散点图,下图从视觉上展示出一个特定的相关性有多强。图中的每一张图都被称作散点图,因为它们展示出各点偏离“直线,即完全相关”的程度。
1701778157
1701778158
1701778159
1701778160
1701778161
散点图和相关性
1701778162
1701778163
若相关性的值达到0.3,视觉上几乎无法辨别,但是在实际中有着重大意义。若相关性为0.3,我们就能从一个人的智商情况预测其收入,能从学生大学的课业成绩预测其在研究生院的表现。同样程度的相关性也可以帮我们从一个人体重过轻、达到平均水平或超重来预测其患有早期心血管疾病的可能性。
1701778164
1701778165
相关性达到0.3真的很重要,这并非开玩笑:它意味着如果某人在变量A上的排位是前84%(高于均值一个标准差),那么这个人在变量B上的表现会是前63%(高于均值0.3个标准差)。这是一个对变量B的相当有含金量的预估了,比你不知道任何关于变量A的信息的情况要好很多。如果你什么都不知道,那就只能猜测每个人的排位都是50%,即变量B分布的均值。这很容易帮你判断你的生意究竟会做大,还是会破产。
1701778166
1701778167
相关性为0.5可以反映一个人在普通工作上体现出的智商与表现之间的相关程度。(对于难度更大的工作,相关性更高;对于难度较低的工作,则相关性更低。)
1701778168
1701778169
相关性为0.7可以反映出人身高和体重之间的联系——虽然很有说服力但依然不甚完美。相关性为0.8可以反映出以下两种变量的联系程度:你在今年SAT考试数学部分的得分与下一年在同样部分的得分。这种联系程度很高,但就平均情况而言,在两个分数之间还是会有比较大的浮动空间。
1701778170
1701778171
相关性并不能建立起因果联系
1701778172
1701778173
相关系数是进行因果关系分析过程中的一个步骤。如果变量A与变量B之间不存在相关性,那在两者之间(可能)不存在因果关系。(一种例外的情况是,如果存在第三个变量C,它促使变量A和变量B之间产生了相关性,而变量A与变量B之间是存在因果关系的。)如果变量A与变量B之间存在相关性,这并不能说明变量A一定导致了变量B。可能是A导致了B,也可能是B导致了A,而联系也可能是由A和B都与某个第三种变量C有联系而产生的,其实在A与B之间没有丝毫的因果关系。
1701778174
1701778175
几乎每个达到高中毕业水平的人都能在思维上认可以上论断。然而,某种特定相关性总是伴随着我们假想中的因果关系出现,以至我们心照不宣地接受了相关性意味着因果联系的观点。我们是如此善于制造因果假设,以至于这种做法几乎成了自发的习惯,我们总是控制不住自己去做因果推断。如果我告诉你吃了更多巧克力的人脸上有更多的粉刺,那么你很难不去揣测,可能是吃巧克力引起了粉刺。(实际上并不是这样。)如果我告诉你,那些精心准备婚礼的夫妇经历了更长久的婚姻,那么你很自然便会推测,怎样精心准备的婚礼可以造就更长久的婚姻。事实上,一份著名报纸最近刊登的一篇文章报道了两者的相关性,并推测了严肃的婚礼准备工作带来更长久婚姻关系的原因。然而,如果你深入思考这种相关性,你会意识到精心的婚礼准备并不是一种随机出现的情况,能精心准备婚礼的人更可能有更多的朋友,夫妇两人有更多的相处时间、有更多的钱,或者其他一些更优越的条件。拥有这些东西中的任何一种,或者拥有全部这些条件,那么必然会让婚姻更长久。从这张复杂的网中抽出一个事实,并将它当作一种原因,其实是没有太大意义的。
[
上一页 ]
[ :1.701778126e+09 ]
[
下一页 ]