打字猴:1.701039799e+09
1701039799 统计数据会说谎:让你远离数据陷阱 [:1701039019]
1701039800
1701039801 统计数据会说谎:让你远离数据陷阱
1701039802
1701039803
1701039804
1701039805
1701039806
1701039807 统计数据会说谎:让你远离数据陷阱
1701039808
1701039809 通过利用统计材料给他人传递错误的信息,这一行为在统计学上可称为人为操纵。我们将这个概念用一个词来表示(尽管不是很好):统计操纵。
1701039810
1701039811 本书的书名及书中所讲的内容看起来都是在暗示所有的操纵行为都带有目的明确的欺骗性。美国统计学会(The American Statistical Association)的某一分会主席曾为此严厉地指责我。他认为一般都是由于无知、粗心才造成了误传,而非蓄意欺瞒。也许他说的不无道理[1],但是,我并不确定这种假设不会比另一种假设更让统计学家生气。也许更应谨记的是,刻意歪曲统计数据、故意操纵统计数据的人并不是专业的统计学家。放在统计学家桌子上的数据一旦到了推销员、公共关系专家、记者和广告文案撰写人的手里,马上就被歪曲夸大、过分简化,或是在层层筛选中变得面目全非。
1701039812
1701039813 但是,无论在何种情况下犯错的人,都很难让人们相信他是因无知、粗心而导致犯错。杂志和报纸上的虚假图表常常会浓墨重彩地夸大事实,从而造成耸人听闻的效果,它们很少会将事实轻描淡写、一笔带过。以我的经验来看,那些代表厂家进行统计论证的人很少能给员工或顾客比实际情况更多的好处,相反,通常他们给的都是不好的东西。工会怎么可能去雇一个不称职的统计人员,使得自己在劳工案件中处境被动呢?
1701039814
1701039815 只要这些错误是单方面的,我们就很难将之归咎于粗心或意外。
1701039816
1701039817 在利用统计数据误导人的方法中,最狡猾的手段当属地图。在地图上画上一堆变量,这样一来事实就被掩盖,事物之间的关系就被扭曲。在这方面,最狡猾的做法是阴影绘图法。波士顿第一国民银行(The First National Bank of Boston)就曾印制发行了这种地图,然后此图被所谓的纳税人集团、不少报社和《新闻周刊》杂志大量转发。
1701039818
1701039819 这张地图描绘的是国民收入中被联邦政府使用、花费的数额。图上将密西西比州以西的州(除路易斯安那州、阿肯色州及部分的密苏里州之外)全都涂上了黑色,以表示联邦政府的花销与这些州的国民收入总额相当。
1701039820
1701039821 这张图玩弄的手段是选择了地广人稀、相对收入较低的州。用同样诚实(或同样不诚实)的方法,制图者也可以将纽约州或新英格兰涂黑,这样得出的地图阴影部分只占极小的面积,也不会给人以深刻印象。虽然使用的是相同的数据,但制图者却给看图的人制造出两种大相径庭的印象。不过,没有人会不厌其烦地散发第二种地图。至少在我看来,没有哪个有钱有势的集团会对公共支出比实际收入更少这件事感兴趣。
1701039822
1701039823 如果制图者的目的只不过是简单地传达信息,他肯定会省事地选择画第二种图。他也可以选择美国中部的几个州,这些州面积总和与全美国面积的比例相当于其国民收入与全美国总国民收入的比例。
1701039824
1701039825 这张地图之所以臭名远扬,是因为它在误导人时所使用的手段并不新颖。这不但是老把戏,而且早已沦为了笑柄。印发这张图的银行早在很久以前就发过这张地图的另一个版本,用以表示1929—1937年联邦政府的花销。时隔不久,这张图突然出现在威拉德·科普·布林顿(Willard Cope Brinton)编写的《图示》(Graphic Presentation)这本典范性著作中,不过是被当成了反面教材。“这种方法简直就是扭曲事实。”布林顿直言不讳。但是这家银行仍在绘制这种地图,而《新闻周刊》和其他人应该(或者可能)了解内幕的人也仍在重印这种地图,他们对读者既没有警告,也不曾致歉。
1701039826
1701039827 美国家庭的平均年收入为多少?我们前面提过,美国人口普查局在1949年公布“美国家庭的平均年收入为3 100美元”。但如果你仔细看了报纸上拉塞尔·赛奇基金会(The Russell Sage Foundation)发起的“慈善捐助”活动的相关报道,你就会发现在同一年,美国家庭的平均年收入高达5 004美元。也许你会为大家生活得如此之好而感到由衷地高兴,但你也会为这个数据与平时你所观察到的事实有着天壤之别而大吃一惊。也许是你观察了不同的人吧。
1701039828
1701039829
1701039830
1701039831
1701039832 为了证明我们没有骗人,我们特意也将马里兰州、特拉华州和罗得岛州涂上了阴影。
1701039833
1701039834
1701039835
1701039836
1701039837 为什么拉塞尔·赛奇基金会与美国人口普查局的结果会相差这么大?美国人口普查局计算时用的是中位数,当然这是合理的方法。但就算拉塞尔·赛奇基金会用的是均值,差别也不应如此之大。最后事实证明,拉塞尔·赛奇基金会创造了一种只能被形容为“虚假家庭”的东西,从而发现了这个非凡的高收入。基金会的人解释说(当被要求解释说明时)他们的方法是将美国国民总收入除以了149 000 000这个全国总人数,从而得出了每人1 251美元的平均年收入。他们补充说:“然后将1 251乘以4,就变成了一个四口之家5 004美元的平均年收入。”
1701039838
1701039839
1701039840
1701039841
1701039842 这个奇怪的统计操纵在两个方面有所夸大:首先,它用的是那种叫作“均值”的平均数,而非数额更小但更为贴切的中位数——这个问题我们已经在前面的章节做过分析;其次,这个统计操纵假设了家庭收入与家庭人数成正比。我有4个孩子,我倒是希望事情能像刚刚探讨的那样美好,但事实并非如此。四口之家的财产绝不可能是两口之家的2倍。
1701039843
1701039844 平心而论,拉塞尔·赛奇基金会的统计人员并不是要蓄意欺瞒,应该说他们主要是想绘制一张给予而非索取的图。那个可笑的家庭平均年收入不过是一个副产品。但是,它的欺骗性却并未因此而减少,而且这也是一个为什么不能相信未加说明的平均数的绝佳案例。
1701039845
1701039846 为了给声名狼藉的统计制造一个精准的假象,你应该考虑使用小数。去问一问100位市民昨晚睡了多久,比方说得出了一个总数为783.1小时的结果。所有类似的数据从一开始就不够精确,大多数人的回答都会与实际情况有15分钟或更大的误差,况且我们无法确保这些误差刚好能互相抵消。我们都知道人们会将睡不着的5分钟当作半个晚上的失眠。但是不管这些,你继续计算,然后你可以宣布人们每晚的平均睡眠时间为7.831小时。这听起来好像你非常清楚所谈论的事情。如果你愚蠢到只宣布人们平均每晚睡眠时间为7.8小时(大约8小时),这就不算什么能让人为之一振的事情。就像是这件事本身一样,它不过是个可怜的大概数据,比其他人的猜测也强不了多少。
1701039847
1701039848
[ 上一页 ]  [ :1.701039799e+09 ]  [ 下一页 ]