1701039222
1701039223
统计数据会说谎:让你远离数据陷阱
1701039224
1701039225
1701039226
1701039227
1701039228
1701039229
统计数据会说谎:让你远离数据陷阱
1701039230
1701039231
我相信你并非势利小人,当然我也不靠房地产来赚钱。但现在假设你是个势利的人,我是个卖房的。我住在离加利福尼亚山谷不远的一条路上,而此时你正在这条路上想买房子。
1701039232
1701039233
为了促成这笔生意,我煞费苦心地告诉你这片街区里住户的平均收入为每年15 000美元,也许就是因为这个原因让你想要住到这里。无论如何,你最终买下了一套房子,而且你对这个漂亮的数字记忆深刻。既然我们刚才假设你是个势利的人,那么当你把新地址告诉你的朋友们时,你多半会顺便对此大加吹嘘。
1701039234
1701039235
过了一年左右,我们再次遇见。我是某个纳税人委员会的成员,正在向政府请求降低税率,或是降低财产估值,或是降低公交车费。我的理由是这些费用的上涨让百姓承受不起,毕竟这一带住户的平均收入仅为每年3 500美元。也许你会支持我和我的委员会——再假设你不但是个势利的人,而且还是个铁公鸡——但是,当你听到这个微不足道的3 500美元时,你不禁大吃一惊。到底是我此刻在说谎,还是去年就已经说了谎?
1701039236
1701039237
无论什么时候你都不能怪我不说实话。这就是利用统计学撒谎的奥妙所在。这两个数据都是合情合理的平均数。它们都代表了相同的数据、相同的群体以及相同的收入。虽然其中至少有一个明显是在误导人,甚至就是一个不折不扣的弥天大谎!
1701039238
1701039239
我的诀窍在于每次使用了不同种类的平均数。“平均数”一词的定义其实非常广泛。对于那些想要影响公众意见或是推销广告版面的人来说,这是他们经常使用的伎俩。有时这种手段是无心的,但更多的时候是明知故犯。当有人告诉你一个平均数时,你对此还知之甚少,除非你能发现他所说的到底是哪一种平均数——均值、中位数还是众数?
1701039240
1701039241
当我需要较大数据时我就使用15 000美元,这是该街区所有家庭年收入的算术平均数,将所有家庭年收入相加并除以家庭个数就会得到这个均值。而3 500美元这个较小的数据则是一个中位数,它表示这些家庭中有一半的年收入超过3 500美元,另一半则低于3 500美元。或者我会使用众数,这是一组数据中出现次数最多的数值。如果这一街区年收入为5 000美元的家庭数量多于其他收入的家庭数量,那么5 000美元就是这个街区年收入的众数。
1701039242
1701039243
因此在这个案例中,未加限定的平均数其实是毫无意义的,然而一般与收入挂钩的数据多半如此。此外,还有一个原因致使情况更为复杂,就是所有平均数含有的信息非常接近,如果只是随便用用而已,区分它们倒是不太重要。
1701039244
1701039245
如果你读到某地某个群体中男性平均身高仅为5英尺(约1.52米),你就会对这个地方的人的身高有一个大致印象。你不用问这个平均数是均值、中位数还是众数,事实证明它们都差不多。(当然如果你从事与这些人相关的制造业,你就需要更多详细信息,而不是这些随处可见的平均数。这与范围和偏差有关,我们将在下一章详细探讨。)
1701039246
1701039247
1701039248
1701039249
1701039250
在处理数据时,例如研究与人体特点相关的数据,不同平均数的取值会非常接近,具备“正态分布”的特点。如果画一张曲线图来代表正态分布,那么画出的图形就像一口大钟,图中均值、中位数、众数都落在同一点上。
1701039251
1701039252
因此,要描述男性平均身高,用这三个平均数中的任何一个都可以。但你要描述这些男性的经济状况,情况可就大不相同了。如果要你列出某个城市中所有家庭的平均年收入,你也许会发现他们的年收入从几百、几千到50 000美元不等。极少数的家庭年收入很高,而95%的家庭年收入则低于10 000美元。将10 000美元这个数据放在曲线图的左侧,这时曲线图的形状并不是像一口大钟那样对称,而是有点倾斜,看起来有点像儿童用的滑梯。梯子陡直地突起到一个顶点,滑道则缓缓接近地面。这时均值和中位数相差甚远。在这种对比下,你就会明白为何一年的平均数(均值)和另外一年的平均数(中位数)的差别竟会如此之大。
1701039253
1701039254
在我卖给你房子的街区,这两个平均数的差别就非常大,因为曲线图上分布明显倾斜。假设你的邻居都是小农场主、在附近村庄干活拿工资的人,还有依靠养老金生活的退休老人,但是有三户邻居是在这里度周末的百万富翁,他们一下就能拉高这个街区的总年收入,因此平均年收入的算术平均数就变得很大,形成了一个年收入很高的“假数据”。但事实上,这个街区每家每户的年收入都远远低于这个数据。所以,这种假数据只是个玩笑或是一种修辞而已:几乎所有住户的年收入都低于这个平均数。
1701039255
1701039256
1701039257
1701039258
1701039259
如果你看到某位公司经理或者老板宣称公司员工的平均收入很高时,你就知道这个数据也许能说明一些问题,也许不能,这就是原因所在。如果这个平均数是中位数,你就能从中得知一些重要信息:一半的员工收入比这高;另一半的员工收入比这低。但如果这个平均数是均值的话(请相信我,如果没有特别限定平均数的性质,一般指的就是均值),你就会再清楚不过:说是45 000美元的平均年收入,其实主要都是老板的,员工们的工资非常低。“5 700美元的平均年收入”隐含了两条信息:每年仅为2 000美元的员工低收入,还有老板以巨额薪水的形式抽走的利润。
1701039260
1701039261
让我们再仔细研究一下这个数据。第28页的图表示各个阶层的收入情况。老板可能会通过使用那个欺骗性的均值,把情况描述成“平均年收入为5 700美元”。但是,众数却更能说明问题:这家公司大多数人的年收入为2 000美元。当然,中位数比其他任何一个数据都能揭示更多:一半的人年收入高于3 000美元,另一半则低于3 000美元。
1701039262
1701039263
许多公司的公告中都藏有一个高明的骗局,所以往往是表面情况越好,事实真相越糟。我们不妨用个简单的方法来证明。
1701039264
1701039265
假设你与另外两个合伙人经营一家小型制造业工厂,年底算来收入颇丰。你支出了198 000美元用于90位员工的工资。他们制造并装运椅子,或任何你公司生产的产品。你们三位老板的年薪为每人11 000美元。这时你们发现今年还有45 000美元的利润可以平分。那么,对此你会怎样描述?为了表达得清楚明白,你采用了平均数的办法。由于所有的员工都做的是相同的工作,拿的工资也差不多,所以你是用均值还是中位数并无多大差别。下面是你计算得出的结果:
1701039266
1701039267
员工的年平均工资:2 200美元
1701039268
1701039269
老板的年平均薪水和利润:26 000美元
1701039270
[
上一页 ]
[ :1.701039221e+09 ]
[
下一页 ]