1701039969
1701039970
统计数据会说谎:让你远离数据陷阱
1701039971
1701039972
1701039973
1701039974
1701039975
1701039976
统计数据会说谎:让你远离数据陷阱
1701039977
1701039978
到现在,我一直把你当作一个渴望能细致学习如何使用短剑的海盗。在最后一章,我要放弃那些文字游戏,转而直面我认为潜伏在这本书表象之下的严肃目的:就是要向你说明如何看穿并揭穿那些伪劣的统计资料;同样重要的还有如何从前几章探讨过的众多骗术中识别出真实可用的数据。
1701039979
1701039980
并不是你遇见的所有统计信息都能用化学分析或化验室里那一套设备来检验。但是你可以提出5个简单的问题来探讨,从而通过问题的答案来避免被一些明显似是而非的东西所迷惑。
1701039981
1701039982
是谁这么说?
1701039983
1701039984
首先,要找的第一样东西是偏差。比如说,某实验室为了研究理论、获取名利而证实某事,或是报社为了发表一条能上头版的新闻,或是在发生利害冲突时对工资水平动手脚等,这都是产生偏差的原因。
1701039985
1701039986
要找有意识的偏差。这种偏差可以体现为直接的错误陈述或是含糊不清的措辞,这两种手段都很高明,一般情况下人们不会觉得它们有问题。有意识的偏差还可以体现为选出对自己有利的数据,剔除对自己不利的数据;也可以改变衡量的标准,比如在对比时先用某一年为基期,而后又选择对自己更为有利的另一年为基期;或是使用不恰当的测算方式,例如,明明是中位数更能说明问题(或许是过于能够说明问题),却使用了均值来计算,最后还用了一个狡猾的措辞——平均数——来掩盖事实真相。
1701039987
1701039988
更要注意那些无意识的偏差,因为它的危害更大。1928年,正是由于无意识的偏差使得不少统计学家和经济学家通过图表,预测出惊人的结论。经济结构中出现的漏洞被过于乐观地忽略,专家们不但引用了各种各样的证据,还从统计学的角度予以支持,从而试图说明国家已进入繁荣时期。
1701039989
1701039990
为了找出“是谁这么说”的答案,我们至少要多看一眼文中的描述。这么说的人可能就藏在斯蒂芬·波特(Stephen Potter)的著作《虚张声势之人》中,通常人们将其称之为“专家”。任何与医学专业相关的东西都是“专家”说的;科学实验室的结论也是“专家”研究得出;高校也是如此,尤其是在技术领域表现卓越的各个大学。前几章中提到的那个声称上大学会导致女性结婚概率降低的作者正是利用了康奈尔大学的“专家”地位。请注意,这里虽然作者使用的数据来自康奈尔大学,但结论却完全是作者自行研究得出。但是康奈尔大学的“专家”声誉却让你糊里糊涂地将结论看成了康奈尔大学说的。
1701039991
1701039992
当你再看见“专家”的字样,先确定字面信息下隐藏的那个人到底是不是权威人士,还是说只和权威沾了点边儿。
1701039993
1701039994
也许你曾看过芝加哥《商业日报》(Journal of Commerce)上一份引以为豪的声明。报纸做了一个关于囤积物品、哄抬物价的调查,在169家公司的答复中,有2/3的公司认为自己是朝鲜战争造成的物价上涨的受害者。“调查表明,”这份报纸如是说(看到这里你要格外警惕这些字眼!),“这些公司的做法与美国商业系统的敌人所控诉的完全相反。”由于《商业日报》是这件事的相关一方,因此我们要问清“是谁这么说”。这里,我们更应该提出我们的第二个问题。
1701039995
1701039996
1701039997
1701039998
1701039999
他怎么知道?
1701040000
1701040001
事实证明,起初该报社是向1 200家大型公司发去了调查问卷,但只有14%的公司予以回复。86%的公司压根儿就不愿意公开表明自己对“囤积物品、哄抬物价”这一问题的看法。
1701040002
1701040003
《商业日报》对这件事表面上是一副若无其事的态度,但事实表明它没有什么可以炫耀的资本。据说情况是这样的:收到问卷的1 200家公司中,9%的公司表示它们没有抬高物价,5%的公司表示它们抬高了,还有86%的公司什么都没说。这些回复了问卷的公司就组成了一个可能带有偏差的样本。
1701040004
1701040005
要格外注意那些带有偏差的样本,到底是因为选择不当,还是像这个案例一样,调查者有意识地选择对自己有利的资料从而造成了偏差?不妨提出我们前几章的一个问题:这个样本的规模是否足够庞大,以确保任何根据这个样本而得出的结论都真实可信?
1701040006
1701040007
同样,当你看到关于“相关性”的报道时也要想想:它的规模是否大到足以说明问题?案例是否多到具备显著性?作为一般读者,你无法使用显著性检验或通过足够大的样本得出一个准确结论。但对于许多报道中的内容,你在一瞥之下(或者是长长的一瞥),就能发现这些内容都缺乏足够的案例,无法让人信服。
1701040008
1701040009
1701040010
1701040011
1701040012
1701040013
1701040014
1701040015
漏掉了什么?
1701040016
1701040017
通常,你无法得知样本中包含了多少案例。尤其是当数据来源关系到利益问题时,数据缺乏就会让人对整件事情产生怀疑。同样,一个相关如果缺乏可信的测算方式(比如概率误差、标准误差)检验,那么也就没必要把这个相关当真。
[
上一页 ]
[ :1.701039968e+09 ]
[
下一页 ]