打字猴:1.701039685e+09
1701039685 这两组数据根本没什么可比性。海军的主要构成人员是年轻人,大家都知道他们是年富力强的代表。而市民中包含了婴儿、老年人、病人等,这些人不管放在哪里都是高死亡率的人群。所以这些数据并不能证明符合海军征兵标准的人就一定比部队之外的人更长寿。反之,他们也无法证明相反的观点。
1701039686
1701039687 也许你曾听说这样一则令人沮丧的消息:1952年是医学史上患小儿麻痹症人数最多的一年。这个结论是基于所有人都会询问的证据得出的:这一年所上报的病例比之前的任何一年都多。
1701039688
1701039689 但当专家们回过头再次研究这些数据时,他们发现了一些鼓舞人心的东西:首先,因为1952年有更多孩子处于体质最敏感的时期,如果发病率保持一定水平,那么更多病例就会被记录在案;其次,当时社会上已经对小儿麻痹症有了一定的认识,因此能诊断出更多病患,甚至一些轻微病例也被登记;最后,由于当年的财政刺激增加,小儿麻痹症保险和来自美国国家小儿麻痹症基金会的援助也有所增加。以上原因统统使得人们怀疑小儿麻痹症患病人数的增长,后来的死亡人数使人们更加肯定了这种怀疑。
1701039690
1701039691 有趣的是,在测量一种疾病的发病情况时,死亡率或死亡人数往往比发病率的数据更为客观。这是因为在上报或记录死亡情况时,死亡人数的数据质量更高,情况更真实。显然,在这种情况下,看似相关或半相关的数据要比表面上看起来完全相关的数据更好。
1701039692
1701039693 在美国,这种看似相关的数据每4年就会出现一次兴盛。这并不能说明这种数据是周期性出现的,造成这种现象的原因是美国每4年就有一次总统大选。1948年10月共和党发表的一篇竞选陈述就是基于一些貌似相关,实则不然的数据:
1701039694
1701039695 1942年杜威(Dewey)当选为纽约州州长时,一些地区的教师最低工资为每年900美元。而如今,该州的教师享有全世界最高的工资。1947年,根据委员会的表决,杜威州长安排立法机关从州财政盈余中划拨了3 200万美元直接用于提高教师的工资待遇。因此,纽约州的教师最低工资水平提高至每年2 500美元至5 325美元不等。
1701039696
1701039697 这件事足以证明杜威先生真是老师的好朋友,但这些数据未必能证明这一点。这里使用的是那一套前后对照的老把戏:使用了一个未被说明的数据,然后让这个数据看起来与原来的不一样。这里,你可以看到“之前”的教师年薪为900美元,“之后”的为2 500~5 325美元,这听起来的确像是大幅增长。但是,前者是纽约州农村地区教师的最低工资,而后者则是纽约市的最低工资。所以说在杜威州长的领导下,教师们的工资也许提高了,也许没提高。
1701039698
1701039699 我们经常可以在杂志和广告上见到陈述中滥用的前后对照图表的统计形式。有两张照片照的是同一间客厅,这是为了证明刷上一层油漆后的显著不同。但是在两次照相期间,广告商会加入新的家具,更何况“之前”的照片只是一张光线很差的黑白小照,而“之后”的照片则是一张色泽鲜明的彩色大照。还有个例子:有两张照片能向你展示一个姑娘使用护发素前后的明显不同。天啊!她使用了护发素后,看起来是多么漂亮啊!但你若仔细检验,会发现她之所以变美多半是由于她的嫣然一笑以及打在她头发上的背光。因此,这应归功于摄影师而非护发素。
1701039700
1701039701
1701039702
1701039703
1701039704 统计数据会说谎:让你远离数据陷阱 [:1701039018]
1701039705
1701039706 统计数据会说谎:让你远离数据陷阱
1701039707
1701039708
1701039709
1701039710
1701039711
1701039712 统计数据会说谎:让你远离数据陷阱
1701039713
1701039714 曾经有人想方设法地要研究,与不抽烟的人相比,抽烟者是否成绩更差。事实证明的确如此——抽烟者成绩更糟。这个结论让许多人非常高兴,自此以后,他们就经常拿这个结果说事儿。貌似想要成绩好就得戒烟,进一步还能得出一个合理的结论:抽烟会让人变笨!
1701039715
1701039716 我相信这一研究操作得当,其样本规模足够庞大,选择样本时谨慎且诚实,而且具备很高的相关性,诸如此类。
1701039717
1701039718 这是一种非常古老的谬误推理,而且经常出现在统计学书籍上。被一堆令人印象深刻的数据包装过后,这种谬误就会误导人。具体来说,这种谬误就是“如果B事件发生在A事件之后,那么,就是A事件引起了B事件”。由于抽烟和成绩同时出现,所以人们做出了一个毫无根据的假设:正是抽烟导致了成绩不好。那么,有没有可能事实恰好相反?也许成绩糟糕没有促使学生酗酒,而是抽烟。如果情况真是这样,这个结论也许会与上述结论一样合理,而且铁证如山。但是,宣传人员却未必对此感到满意。
1701039719
1701039720 然而,似乎还有一种可能性更大的说法:这两件事互不为彼此的因果,它们都是某个第三事件的产物。有没有可能是热衷社交的家伙更喜欢抽烟而非读书?或者有线索能证实曾经有人在性格外向与低成绩之间建立过关联?这之间的相关性明显要比成绩和智商更紧密。也许,性格外向的人比性格内向的人更能抽烟。问题是,如果有很多种合理解释,你很难有权去选择自己最喜欢的并坚持你的选择。可的确有许多人这样做。
1701039721
1701039722
1701039723
1701039724
1701039725 为了避免陷入这种因果谬误,从而相信许多似是而非的东西,你需要严格检验各种与相关性有关的说明。相关性往往是通过一些令人信服的精确数据来证明两件事情之间的因果关系。但事实上,这种相关性却有多种类型。
1701039726
1701039727 一种是机缘巧合之下得出的相关。你可以通过这种方法将一组数据放到一起来证明一些不可能的事。但如果你换一组数据,你就再没办法证明。索性就像那些似乎能减少蛀牙的牙膏制造商一样,你直接将你不想要的结果抛开,只留下你满意的结果并将其公之于众。如果你的样本规模较小,你就能发现你能想到的两个事物之间都能建立显著的相关性。
1701039728
1701039729 还有一种更为常见的类型叫“协变关系”,指的是两个变量之间确实存在相关性,但无法确定哪个是因,哪个是果。在某些情况下,因与果可能会随时交换位置;或者两个变量互相既是因,又是果。收入和拥有的股票之间的相关就属于这种类型。你赚的钱越多,你能买的股票就越多;而你买到的股票越多,你赚的钱也就越多。此时,你就很难说清两者谁是因,谁是果。
1701039730
1701039731 也许在所有类型中最狡猾的那类也最为普遍:两个变量之间不存在因果关系,但变量之间的确存在着某种相关性。有的人就通过这种方式干了不少龌龊事。抽烟者成绩不好的推理正属于此。此外,不少医学统计数据也是不加验证地就被拿去使用。尽管这些数据变量之间的确存在相关,但所谓的因果关系也不过是一种推测而已。这里就有个后来被证明是瞎扯的统计真事:曾有人高兴地指出,马萨诸塞州长老会牧师的工资与哈瓦那的朗姆酒价格密切相关。
1701039732
1701039733 那么,哪个是因,哪个又是果呢?换言之,难道这些牧师会从朗姆酒贸易中获利?还是说牧师支持买卖朗姆酒?好吧,这实在是太牵强附会了,一听你就会觉得荒唐可笑。但有些因果颠倒的运用更加微妙,我们要格外注意。在这个牧师和朗姆酒的例子中,我们不难发现这两个数据都在增长,因为它们都受第三个因素的影响。这里的第三个因素就是那个历史时期全世界的物价上涨。
1701039734
[ 上一页 ]  [ :1.701039685e+09 ]  [ 下一页 ]