1701778106
1701778107
基本归因谬误主要是由我们忽视情境因素的倾向而导致的,但是我们“忽视掉一个人只是组成人类行为的一个微小样本”这件事也是导致错误的原因。这两个错误引发了访谈错觉——我们总是对自己过度自信,相信从某个人30分钟的言行里就能了解他。
1701778108
1701778109
只有当样本不存在偏差的时候,增加样本容量才能有效减少错误。最佳方式是给总体中的每一件物品、每件事或每个人同等的机会被选为样本。至少我们得重视样本偏差出现的概率:在卓希皮亚公司时,我和简相处得轻松愉快,还是说因为她的挑剔我总感到紧张?如果本就有偏见存在的话,更大的样本量会让我们对自己的错误估计更有信心。
1701778110
1701778111
标准差是一个便捷的可用于我们衡量连续变量在均值附近离散情况的指标。某个给定类型的样本的标准差越大,我们越无法确定一个特定样本值能否接近样本均值。某一种投资类型若有较大的标准差,则意味着它未来价值变化的不确定性会更大。
1701778112
1701778113
如果我们知道某个样本值位于连续变量正态分布曲线中的极端位置,则新出现的样本值将会不那么极端。一个在上次考试中获得最高分的学生可能下次考试也确实发挥得不错,但他不太可能再次拿到最高分。去年某个领域的10只表现最佳的股票在今年不可能蝉联十佳。极端分数或其他一些极端值的出现是因为它们在当时的情境下恰好吉星高照(或霉运当头)。这些幸运符下次可不会在同样的位置出现的。
1701778114
1701778115
1701778116
1701778117
1701778119
逻辑思维:拥有智慧思考的工具 第8章 错误的“关联”
1701778120
1701778121
若想准确描述事物,统计学是十分有效的,有时甚至是必要的工具。在确定两个事物是否存在一定关联时,统计学同样重要。正如你所猜想的那样,确定一种关联是否存在甚至比准确描述事物更困难。
1701778122
1701778123
你需要分别正确描述类型1和类型2,然后分析类型1伴随类型2出现的概率是怎样的,反之亦然。如果是连续变量,分析就会更复杂。我们需要辨别类型1中的较大样本值是否与类型2中的较大样本值存在关联。当我们对关联性进行抽象描述时,很有可能在评估变量的关联程度高低时出现大问题。事实上,我们在探索共变(或相关性)时的确出现了严重的问题,我们估计的结果可能会大错特错。
1701778124
1701778125
相关性
1701778126
1701778127
请看下面的图表,病状X与疾病A有关联吗?换句话说,是否能根据病状X诊断病人患有疾病A?
1701778128
1701778129
疾病A与病状X的关联
1701778130
1701778131
1701778132
1701778133
1701778134
如何解读上表呢?在一群人中,有20人患有疾病A,同时具有病状X;有80人患有疾病A,但没有病状X;10人未患疾病A,但有症状X;40人既无疾病A,也无症状X。乍看之下,这似乎是对于共变现象最简单的观察了。数据呈现出两分的状态(非此即彼)。你不必搜集信息,或者对不同数据进行编码、对其分别赋值,甚至不必刻意记住任何数据。你不能有任何先入为主的成见,用以判断不同的数据结构。数据的综合分析已经做好了,呈现在你面前。那么,人们如何应对这个最基本的共变数据分析任务呢?
1701778135
1701778136
事实上,人们表现得相当差劲。
1701778137
1701778138
人们普遍会犯的一个错误是,只依赖“是疾病A/存在病状X”的那一格中的数据。“是的,这种病状和这种疾病有关系。有些具有病状X的人患了疾病A。”这种认知倾向是确认偏误的一个例子,即人倾向于寻找可以证实自己的假想的证据,而不寻找会否定自己假想的证据。
1701778139
1701778140
另一些人看到这张表格时会关注两个单元格。其中一部分人会认为病症X与疾病A有关联,“因为在具有病状X的人中,患有疾病A的人比未患有该病的人多”。另一部分人则认为两者没有关联,“因为在患有疾病A的人中,没有症状X的人比有该症状的人多”。
1701778141
1701778142
如果没有学习过统计学知识,很少有人能意识到要回答哪怕是关于事物相关性的简单问题也要对四个单元格进行综合分析。
1701778143
1701778144
你需要计算出患疾病A且有症状X的人数与患疾病A但没有症状X的人数的比值。而后,你还需要计算出没有患疾病A但有症状X的人数与既没有疾病A也无症状X的人数的比值。因为这两个比值是相同的,你明白了症状X与疾病A有无关系的概率大体相同。
1701778145
1701778146
你可能会对一个事实感到震惊,即大部分人,包括那些每日和疾病治疗打交道的医生、护士,常常也会在面对上表的时候做出错误的分析。比如,你可以向他们展示一张表格,里面显示了患疾病B、接受疗法Y而痊愈的人数,患疾病B、接受疗法Y却没有痊愈的人数,患疾病B、未接受疗法Y而痊愈的人数,以及患疾病B、未接受疗法Y而没有痊愈的人数。医生们有时可能会认为是某种特定疗法治愈了病人,因为大部分接受了该疗法的病人的病情好转了。实际上,如果不知道未接受某种特定疗法而好转的人数与未接受某种特定疗法且未好转的人数之比,那么得出的任何结论都是不准确的。顺便提一句,类似上表的表格有时被称作“2×2表格”,有时被称作“四重表”。
1701778147
1701778148
有一种简洁精巧的用以测量概率的统计方法叫作卡方检验,它只通过两个分类变量的差别就足以反映出其是否存在真正的相关性。如果两个分类变量的差别在统计学意义上具有显著性,那么我们认为两者的相关性为真。
1701778149
1701778150
通常我们用以判断“相关的显著性”的标准是,检验(卡方检验或其他统计学检验)是否能显示出关联程度发生的概率为在100次中发生5次。如果的确如此,我们称其显著性为0.05。显著性检验不仅可应用于两分的数据(非此即彼),也可用于连续的数据。
1701778151
1701778152
当变量呈连续分布之态时,我们想知道每个变量彼此之间的相关性有多高,此时我们会用到的统计学工具是“相关性”。两个明显有关联的变量是高度和重量。当然,它们之间的关联并不完美,因为我们会想到许多例子,像是一些矮却更重或高却更轻的人。
1701778153
1701778154
应用一系列不同的统计学工具可以让我们明白,两个变量之间的相关性究竟有多高。一个经常被用于检验连续变量相关性的统计工具是皮尔逊积矩相关系数。零相关性意味着两个变量之间没有一点儿关联。相关系数为+1表示两个变量呈完全正相关。当变量1的值上升,则变量2的值也会上升相应的程度。相关系数为–1表示两个变量呈完全负相关。
1701778155
[
上一页 ]
[ :1.701778106e+09 ]
[
下一页 ]