打字猴:1.701039704e+09
1701039704 统计数据会说谎:让你远离数据陷阱 [:1701039018]
1701039705
1701039706 统计数据会说谎:让你远离数据陷阱
1701039707
1701039708
1701039709
1701039710
1701039711
1701039712 统计数据会说谎:让你远离数据陷阱
1701039713
1701039714 曾经有人想方设法地要研究,与不抽烟的人相比,抽烟者是否成绩更差。事实证明的确如此——抽烟者成绩更糟。这个结论让许多人非常高兴,自此以后,他们就经常拿这个结果说事儿。貌似想要成绩好就得戒烟,进一步还能得出一个合理的结论:抽烟会让人变笨!
1701039715
1701039716 我相信这一研究操作得当,其样本规模足够庞大,选择样本时谨慎且诚实,而且具备很高的相关性,诸如此类。
1701039717
1701039718 这是一种非常古老的谬误推理,而且经常出现在统计学书籍上。被一堆令人印象深刻的数据包装过后,这种谬误就会误导人。具体来说,这种谬误就是“如果B事件发生在A事件之后,那么,就是A事件引起了B事件”。由于抽烟和成绩同时出现,所以人们做出了一个毫无根据的假设:正是抽烟导致了成绩不好。那么,有没有可能事实恰好相反?也许成绩糟糕没有促使学生酗酒,而是抽烟。如果情况真是这样,这个结论也许会与上述结论一样合理,而且铁证如山。但是,宣传人员却未必对此感到满意。
1701039719
1701039720 然而,似乎还有一种可能性更大的说法:这两件事互不为彼此的因果,它们都是某个第三事件的产物。有没有可能是热衷社交的家伙更喜欢抽烟而非读书?或者有线索能证实曾经有人在性格外向与低成绩之间建立过关联?这之间的相关性明显要比成绩和智商更紧密。也许,性格外向的人比性格内向的人更能抽烟。问题是,如果有很多种合理解释,你很难有权去选择自己最喜欢的并坚持你的选择。可的确有许多人这样做。
1701039721
1701039722
1701039723
1701039724
1701039725 为了避免陷入这种因果谬误,从而相信许多似是而非的东西,你需要严格检验各种与相关性有关的说明。相关性往往是通过一些令人信服的精确数据来证明两件事情之间的因果关系。但事实上,这种相关性却有多种类型。
1701039726
1701039727 一种是机缘巧合之下得出的相关。你可以通过这种方法将一组数据放到一起来证明一些不可能的事。但如果你换一组数据,你就再没办法证明。索性就像那些似乎能减少蛀牙的牙膏制造商一样,你直接将你不想要的结果抛开,只留下你满意的结果并将其公之于众。如果你的样本规模较小,你就能发现你能想到的两个事物之间都能建立显著的相关性。
1701039728
1701039729 还有一种更为常见的类型叫“协变关系”,指的是两个变量之间确实存在相关性,但无法确定哪个是因,哪个是果。在某些情况下,因与果可能会随时交换位置;或者两个变量互相既是因,又是果。收入和拥有的股票之间的相关就属于这种类型。你赚的钱越多,你能买的股票就越多;而你买到的股票越多,你赚的钱也就越多。此时,你就很难说清两者谁是因,谁是果。
1701039730
1701039731 也许在所有类型中最狡猾的那类也最为普遍:两个变量之间不存在因果关系,但变量之间的确存在着某种相关性。有的人就通过这种方式干了不少龌龊事。抽烟者成绩不好的推理正属于此。此外,不少医学统计数据也是不加验证地就被拿去使用。尽管这些数据变量之间的确存在相关,但所谓的因果关系也不过是一种推测而已。这里就有个后来被证明是瞎扯的统计真事:曾有人高兴地指出,马萨诸塞州长老会牧师的工资与哈瓦那的朗姆酒价格密切相关。
1701039732
1701039733 那么,哪个是因,哪个又是果呢?换言之,难道这些牧师会从朗姆酒贸易中获利?还是说牧师支持买卖朗姆酒?好吧,这实在是太牵强附会了,一听你就会觉得荒唐可笑。但有些因果颠倒的运用更加微妙,我们要格外注意。在这个牧师和朗姆酒的例子中,我们不难发现这两个数据都在增长,因为它们都受第三个因素的影响。这里的第三个因素就是那个历史时期全世界的物价上涨。
1701039734
1701039735 再来看看另一个例子。曾有数据表明,六月的自杀率为全年最高。那么,是自杀促使女孩子成为“六月新娘”[1]呢,还是说六月的婚礼会促使被抛弃者自杀身亡?这有一个让人比较信服(同样还未被证实)的解释:整个冬天都在治疗情伤的家伙原本盼着来年春天情况会有所好转,未料到了六月他还是感觉很糟,于是决定用自杀来表示他放弃了一切。
1701039736
1701039737
1701039738
1701039739
1701039740 还有一种结论需要注意——当原本论证的相关数据超出一定范围,但你还坚持要得出某种结论。不难推测雨水越多,庄稼长势越好,就仿佛雨是来自上天的恩赐。但是,如果暴雨连连就会影响庄稼的收成,更有甚者则会颗粒无收。正相关达到一个极点就会马上转变为负相关。如果降雨超过一定量,雨水越多,庄稼收成就会越少。
1701039741
1701039742 我们不妨再花点时间来关注一下教育的货币价值的问题。但是,我们的前提是已证明高中毕业生比辍学者挣的钱更多,而且每一年的大学学习都会增加相应的收入。不过,要留心那种“在学校待的时间越长,能挣到的钱就越多”的一般结论。要注意的是,大学毕业后的情况还未被证明也是如此,这条结论可能不适用这类人群。获得博士学位的人多半会成为大学教师,但他们不属于收入最高的阶层。
1701039743
1701039744 相关表示的是一种趋势,这种趋势却并非人们理想的“一对一”关系。一般来说,个子高的男生要比个子矮的更重,所以这是一个正相关。但你也不难发现,一个5英尺(约1.52米)高的人比一个6英尺(约1.83米)高的人更重,所以两者之间的相关系数小于1。简单来讲,负相关指的是在一个变量增加的同时,另一个变量在减少。物理学中将负相关叫作“成反比”。例如,你离灯越远,投在书上的光线就越弱;你与灯的距离在增加,而光的密度却在减少。物理学中的这种关系一般具有确定的相关性,但是,与经济学、社会学和医学相关的数据却未必具有如此清晰的相关性。即使受教育能增加收入,但要证明教育会使某人破产也并非难事。必须要谨记:就算某种相关性存在,并有真实的因果关系,你仍不能凭此进行决策。
1701039745
1701039746
1701039747
1701039748
1701039749 曾有人收集过大量数据,为的就是证明大学教育能带来更多的收入。然后基于这些数据,这些人多多少少得出了一些结论。他们将数据和结论印制成小册子并四处分发,以吸引未来大学生的注意力。我并不反对这种意图,我本人很支持教育事业,特别是基础统计学的相关课程。这些数据的确能让人信服——上了大学的人挣的钱就是比没上大学的人多。当然也有不少例外,但是,这种趋势总体是十分明确的。
1701039750
1701039751 现在唯一的问题就是,人们依据这些数据和事实推出了一个未经证实的结论,这正是因果谬误的绝佳案例。这个结论告诉你:如果你(或你的儿子、女儿)去上大学而不是干其他事,你(或你的儿子、女儿)就能挣更多钱。这个结论是基于一个同样未经证实的假设得出来的。这个假设认为:因为受过高等教育的家伙赚的钱更多,所以他们赚的钱多是因为上过大学。而实际情况是,就算这些人不上大学,他们赚的钱也不少。有两个原因足以证明以上结论。大学里有两类人占大多数:聪明人和有钱人。聪明人就算不上大学,他们也有挣大钱的本事。而至于有钱人……他们已经有了各种各样挣钱的资本,无论上不上大学,有钱人的孩子都不会属于低收入的群体。
1701039752
1701039753 下面一段文章摘自《本周》杂志(这是一本发行量很大的周末增刊)上的读者问答。也许你会像我一样觉得这段话很有趣,因为这篇文章的作者还写过一篇题为《流行观念:是真是假?》的文章。
[ 上一页 ]  [ :1.701039704e+09 ]  [ 下一页 ]