1701040000
1701040001
事实证明,起初该报社是向1 200家大型公司发去了调查问卷,但只有14%的公司予以回复。86%的公司压根儿就不愿意公开表明自己对“囤积物品、哄抬物价”这一问题的看法。
1701040002
1701040003
《商业日报》对这件事表面上是一副若无其事的态度,但事实表明它没有什么可以炫耀的资本。据说情况是这样的:收到问卷的1 200家公司中,9%的公司表示它们没有抬高物价,5%的公司表示它们抬高了,还有86%的公司什么都没说。这些回复了问卷的公司就组成了一个可能带有偏差的样本。
1701040004
1701040005
要格外注意那些带有偏差的样本,到底是因为选择不当,还是像这个案例一样,调查者有意识地选择对自己有利的资料从而造成了偏差?不妨提出我们前几章的一个问题:这个样本的规模是否足够庞大,以确保任何根据这个样本而得出的结论都真实可信?
1701040006
1701040007
同样,当你看到关于“相关性”的报道时也要想想:它的规模是否大到足以说明问题?案例是否多到具备显著性?作为一般读者,你无法使用显著性检验或通过足够大的样本得出一个准确结论。但对于许多报道中的内容,你在一瞥之下(或者是长长的一瞥),就能发现这些内容都缺乏足够的案例,无法让人信服。
1701040008
1701040009
1701040010
1701040011
1701040012
1701040013
1701040014
1701040015
漏掉了什么?
1701040016
1701040017
通常,你无法得知样本中包含了多少案例。尤其是当数据来源关系到利益问题时,数据缺乏就会让人对整件事情产生怀疑。同样,一个相关如果缺乏可信的测算方式(比如概率误差、标准误差)检验,那么也就没必要把这个相关当真。
1701040018
1701040019
要留心那些未加说明的平均数,因为无论在什么时候,均值和中位数都有着本质的差别。
1701040020
1701040021
许多数据由于无法进行对比而变得没有意义。《观察》(Look)杂志上的一篇文章在讲到唐氏综合征时曾说:“在2 800个案例中,一大半病患者母亲的年龄都达到或超过了35岁。”事实上,如果你想获知更有意义的信息,你还需要了解一下这些母亲普遍的生育年龄。但很少有人知道这些。
1701040022
1701040023
这里有一段摘自1953年1月31日《纽约客》杂志“伦敦来信”栏目的文字。
1701040024
1701040025
卫生部近日发布的一份数据表明,在大雾天气的一周内,大伦敦地区的死亡人数猛增至2 800人。这对公众而言无疑很震撼,因为他们向来将英国的不宜气候看作是讨厌鬼而非夺命杀手……这个冬天致命性大雾天气的造访……
1701040026
1701040027
但是,这个造访怎么会是致命的呢?这一周内死亡率比平时高这么多难道不是例外吗?所有的事情都处在变化之中。那么,随后几周情况如何?死亡率降至平均水平以下,是否意味着大雾中死去的人本来就已不久于人世?这个数据的确让人印象深刻,但由于没有其他数据可以对比,所以这个数据也变得没什么意义。
1701040028
1701040029
有时,材料只给出了百分数,却没有给出原始数据,这种数据也带有欺骗性。很久之前,约翰·霍普金斯大学开始招收女性学生,有个特别反对男女同校的人报道了一则让人大吃一惊的消息:约翰·霍普金斯大学33%(也就是1/3)的女生嫁给了该校的男老师!最后还是原始数据还原了事实的真相——其实当年只有3名女生入学,其中之一嫁给了大学老师。
1701040030
1701040031
若干年前,波士顿商会推选出了一些做出杰出贡献的女性,其中有16人随后被载入了《美国名人录》。据说这16个人总共有“60个学位,育有18个孩子”。似乎这个信息颇为全面,不过后来你会发现,这16人中还有弗吉尼娅·吉尔德斯利夫(Virginia Gildersleeve)院长和莉莲·吉尔布雷思(Lillian M. Gilbreth)夫人。这两人的学位加起来就占了60个学位的1/3,而仅是吉尔布雷思夫人一人就育有12个孩子。
1701040032
1701040033
一家公司宣布3 003人持有该公司的股份,每人平均持有约660股。这倒是实话。不过同样是实话的还有,公司共有200万股股票,其中,3位大股东的股份就占了3/4,而剩下的3 000人总共持有的股份只占1/4。
1701040034
1701040035
1701040036
1701040037
1701040038
如果给你一个指数,你也许要问是不是漏掉了什么。该指数也许是被挑来用以扭曲事实的。一个全国性的工人组织曾经表示:经济萧条过后,利润和生产指数的增长要比工资指数的增长快得多。但是,有人找到漏掉的数据时,这个作为要求涨工资的论据就失去了效力。这是因为经济萧条时期利润已经降至一个较低水平,其基数较小,所以利润在此基数上增长的百分比一定会比工资的大。
1701040039
1701040040
有时候被漏掉的还有导致变化发生的因素。这种遗漏往往暗示着其他因素才是导致变化发生的主要原因。有人发布了一份数据,对比了今年四月和去年四月的零售销售额,目的是要证明今年经济处于复苏阶段。但遗漏的事实是,去年复活节假期在三月,而今年的则是在四月。
1701040041
1701040042
1701040043
1701040044
1701040045
一份报告曾指出“过去25年内因癌症死亡的人数大幅增长”。这份报告也带有误导性,除非你知道这个结论是一些不相干因素的产物。例如:以前“原因不明”的病症现在都被确诊为癌症;尸体解剖更加频繁,因此诊断更为确切;医学统计材料的上报和编纂更为完善;此外,现在人均寿命延长,因此,更多人能活到容易患癌症的年龄。而且,你看到的应该是死亡总人数而非死亡率——不要忽略这个事实,因为现在的人口总数比以前要多。
1701040046
1701040047
有人偷换了概念吗?
1701040048
1701040049
在分析一份统计数据时,你要注意在原始数据和最终结论之间有没有什么地方被偷换了概念。将一件事说成是另一件事可是常有的。
[
上一页 ]
[ :1.70104e+09 ]
[
下一页 ]