1701778119
逻辑思维:拥有智慧思考的工具 第8章 错误的“关联”
1701778120
1701778121
若想准确描述事物,统计学是十分有效的,有时甚至是必要的工具。在确定两个事物是否存在一定关联时,统计学同样重要。正如你所猜想的那样,确定一种关联是否存在甚至比准确描述事物更困难。
1701778122
1701778123
你需要分别正确描述类型1和类型2,然后分析类型1伴随类型2出现的概率是怎样的,反之亦然。如果是连续变量,分析就会更复杂。我们需要辨别类型1中的较大样本值是否与类型2中的较大样本值存在关联。当我们对关联性进行抽象描述时,很有可能在评估变量的关联程度高低时出现大问题。事实上,我们在探索共变(或相关性)时的确出现了严重的问题,我们估计的结果可能会大错特错。
1701778124
1701778125
相关性
1701778126
1701778127
请看下面的图表,病状X与疾病A有关联吗?换句话说,是否能根据病状X诊断病人患有疾病A?
1701778128
1701778129
疾病A与病状X的关联
1701778130
1701778131
1701778132
1701778133
1701778134
如何解读上表呢?在一群人中,有20人患有疾病A,同时具有病状X;有80人患有疾病A,但没有病状X;10人未患疾病A,但有症状X;40人既无疾病A,也无症状X。乍看之下,这似乎是对于共变现象最简单的观察了。数据呈现出两分的状态(非此即彼)。你不必搜集信息,或者对不同数据进行编码、对其分别赋值,甚至不必刻意记住任何数据。你不能有任何先入为主的成见,用以判断不同的数据结构。数据的综合分析已经做好了,呈现在你面前。那么,人们如何应对这个最基本的共变数据分析任务呢?
1701778135
1701778136
事实上,人们表现得相当差劲。
1701778137
1701778138
人们普遍会犯的一个错误是,只依赖“是疾病A/存在病状X”的那一格中的数据。“是的,这种病状和这种疾病有关系。有些具有病状X的人患了疾病A。”这种认知倾向是确认偏误的一个例子,即人倾向于寻找可以证实自己的假想的证据,而不寻找会否定自己假想的证据。
1701778139
1701778140
另一些人看到这张表格时会关注两个单元格。其中一部分人会认为病症X与疾病A有关联,“因为在具有病状X的人中,患有疾病A的人比未患有该病的人多”。另一部分人则认为两者没有关联,“因为在患有疾病A的人中,没有症状X的人比有该症状的人多”。
1701778141
1701778142
如果没有学习过统计学知识,很少有人能意识到要回答哪怕是关于事物相关性的简单问题也要对四个单元格进行综合分析。
1701778143
1701778144
你需要计算出患疾病A且有症状X的人数与患疾病A但没有症状X的人数的比值。而后,你还需要计算出没有患疾病A但有症状X的人数与既没有疾病A也无症状X的人数的比值。因为这两个比值是相同的,你明白了症状X与疾病A有无关系的概率大体相同。
1701778145
1701778146
你可能会对一个事实感到震惊,即大部分人,包括那些每日和疾病治疗打交道的医生、护士,常常也会在面对上表的时候做出错误的分析。比如,你可以向他们展示一张表格,里面显示了患疾病B、接受疗法Y而痊愈的人数,患疾病B、接受疗法Y却没有痊愈的人数,患疾病B、未接受疗法Y而痊愈的人数,以及患疾病B、未接受疗法Y而没有痊愈的人数。医生们有时可能会认为是某种特定疗法治愈了病人,因为大部分接受了该疗法的病人的病情好转了。实际上,如果不知道未接受某种特定疗法而好转的人数与未接受某种特定疗法且未好转的人数之比,那么得出的任何结论都是不准确的。顺便提一句,类似上表的表格有时被称作“2×2表格”,有时被称作“四重表”。
1701778147
1701778148
有一种简洁精巧的用以测量概率的统计方法叫作卡方检验,它只通过两个分类变量的差别就足以反映出其是否存在真正的相关性。如果两个分类变量的差别在统计学意义上具有显著性,那么我们认为两者的相关性为真。
1701778149
1701778150
通常我们用以判断“相关的显著性”的标准是,检验(卡方检验或其他统计学检验)是否能显示出关联程度发生的概率为在100次中发生5次。如果的确如此,我们称其显著性为0.05。显著性检验不仅可应用于两分的数据(非此即彼),也可用于连续的数据。
1701778151
1701778152
当变量呈连续分布之态时,我们想知道每个变量彼此之间的相关性有多高,此时我们会用到的统计学工具是“相关性”。两个明显有关联的变量是高度和重量。当然,它们之间的关联并不完美,因为我们会想到许多例子,像是一些矮却更重或高却更轻的人。
1701778153
1701778154
应用一系列不同的统计学工具可以让我们明白,两个变量之间的相关性究竟有多高。一个经常被用于检验连续变量相关性的统计工具是皮尔逊积矩相关系数。零相关性意味着两个变量之间没有一点儿关联。相关系数为+1表示两个变量呈完全正相关。当变量1的值上升,则变量2的值也会上升相应的程度。相关系数为–1表示两个变量呈完全负相关。
1701778155
1701778156
利用散点图,下图从视觉上展示出一个特定的相关性有多强。图中的每一张图都被称作散点图,因为它们展示出各点偏离“直线,即完全相关”的程度。
1701778157
1701778158
1701778159
1701778160
1701778161
散点图和相关性
1701778162
1701778163
若相关性的值达到0.3,视觉上几乎无法辨别,但是在实际中有着重大意义。若相关性为0.3,我们就能从一个人的智商情况预测其收入,能从学生大学的课业成绩预测其在研究生院的表现。同样程度的相关性也可以帮我们从一个人体重过轻、达到平均水平或超重来预测其患有早期心血管疾病的可能性。
1701778164
1701778165
相关性达到0.3真的很重要,这并非开玩笑:它意味着如果某人在变量A上的排位是前84%(高于均值一个标准差),那么这个人在变量B上的表现会是前63%(高于均值0.3个标准差)。这是一个对变量B的相当有含金量的预估了,比你不知道任何关于变量A的信息的情况要好很多。如果你什么都不知道,那就只能猜测每个人的排位都是50%,即变量B分布的均值。这很容易帮你判断你的生意究竟会做大,还是会破产。
1701778166
1701778167
相关性为0.5可以反映一个人在普通工作上体现出的智商与表现之间的相关程度。(对于难度更大的工作,相关性更高;对于难度较低的工作,则相关性更低。)
[
上一页 ]
[ :1.701778118e+09 ]
[
下一页 ]