1701039197
第一个问题是:“如果日本战胜美国,黑人在美国的待遇会得到改善还是会变得更糟?”黑人调查组的结果显示他们的调查对象中9%的人认为是“得到改善”,而白人调查组的调查结果显示只有2%的人这样认为。黑人调查组的结果中有25%的人认为黑人的待遇会更加糟糕,而白人调查组的结果则是45%。
1701039198
1701039199
第二个问题是将第一个问题中的“日本”替换成“纳粹”,对这一问题调查所得结果和第一个问题的调查结果相近。
1701039200
1701039201
第三个问题旨在探求被调查者对前两个问题的真实态度。“打败轴心国与改进国内的民主制度二者相比,您认为哪个更重要?”黑人调查组得出的结果是39%的人支持“打败轴心国”,而白人调查组的结果则是62%。
1701039202
1701039203
这就是受未知因素影响而导致的偏差。可能最有影响力的因素是在民意调查时,人们普遍都有一种说好话的倾向,这种倾向在阅读民意调查时往往应该被考虑进来。在战时回答一个暗含对国家是否忠诚的问题时,南方黑人对白人的回答都是一些冠冕堂皇的话,而不是他们内心的真实想法,这不是很正常吗?此外,不同的调查员可能会选择不同的群体进行调查,也可能是造成偏差的原因。
1701039204
1701039205
在任何情况下,调查结果都明显带有一定的偏差,因此这些调查毫无价值。你自己可以判断一下有多少民意调查的结论是带有偏差且毫无价值的,但是却没有什么有效的办法能避免。
1701039206
1701039207
1701039208
1701039209
1701039210
一般而言,民意调查都会带有特定方向的偏差。如果你对这些民意调查的结果有所质疑,你可以收集有力证据来证明,比如《文学摘要》的方向错误。《文学摘要》的错误在于它选择了与普通人相比生活更为宽裕、受过良好教育、消息灵通、警惕性高、着装雅致、行为保守且爱好较为固定的群体作为调查对象。
1701039211
1701039212
我不妨举个例子,这样你就能看出这样的偏差会产生怎样的结果。假设你是一位被分派到街道某个角落的调查员,你发现了两个符合调查对象条件的人:年逾40岁且居于城市,其中一人衣着整洁、文质彬彬,另一位却邋遢粗暴。为了完成你的任务,你自然而然会走向那个外表博人好感的家伙,而你遍布全美国的同事也会做出同样的选择。
1701039213
1701039214
在自由人士和左翼团体中有不少人强烈反对民意调查,他们普遍认为这种调查都是人为操纵的。之所以会产生这种看法,是因为民意调查的结果往往不符合保守之人的观点和意愿。以1936年总统选举的民意调查为例,他们指出调查结果显示的是共和党人会当选,然而不久之后选民们却做出了完全相反的选择。
1701039215
1701039216
事实正如我们所见,完全没有必要操纵一场民意调查,也不用为了制造一种假象而刻意扭曲调查结果。如果样本的偏差与期望的结果一致,就能达到自动操纵的效果。
1701039217
1701039218
1701039219
1701039220
1701039222
1701039223
统计数据会说谎:让你远离数据陷阱
1701039224
1701039225
1701039226
1701039227
1701039228
1701039229
统计数据会说谎:让你远离数据陷阱
1701039230
1701039231
我相信你并非势利小人,当然我也不靠房地产来赚钱。但现在假设你是个势利的人,我是个卖房的。我住在离加利福尼亚山谷不远的一条路上,而此时你正在这条路上想买房子。
1701039232
1701039233
为了促成这笔生意,我煞费苦心地告诉你这片街区里住户的平均收入为每年15 000美元,也许就是因为这个原因让你想要住到这里。无论如何,你最终买下了一套房子,而且你对这个漂亮的数字记忆深刻。既然我们刚才假设你是个势利的人,那么当你把新地址告诉你的朋友们时,你多半会顺便对此大加吹嘘。
1701039234
1701039235
过了一年左右,我们再次遇见。我是某个纳税人委员会的成员,正在向政府请求降低税率,或是降低财产估值,或是降低公交车费。我的理由是这些费用的上涨让百姓承受不起,毕竟这一带住户的平均收入仅为每年3 500美元。也许你会支持我和我的委员会——再假设你不但是个势利的人,而且还是个铁公鸡——但是,当你听到这个微不足道的3 500美元时,你不禁大吃一惊。到底是我此刻在说谎,还是去年就已经说了谎?
1701039236
1701039237
无论什么时候你都不能怪我不说实话。这就是利用统计学撒谎的奥妙所在。这两个数据都是合情合理的平均数。它们都代表了相同的数据、相同的群体以及相同的收入。虽然其中至少有一个明显是在误导人,甚至就是一个不折不扣的弥天大谎!
1701039238
1701039239
我的诀窍在于每次使用了不同种类的平均数。“平均数”一词的定义其实非常广泛。对于那些想要影响公众意见或是推销广告版面的人来说,这是他们经常使用的伎俩。有时这种手段是无心的,但更多的时候是明知故犯。当有人告诉你一个平均数时,你对此还知之甚少,除非你能发现他所说的到底是哪一种平均数——均值、中位数还是众数?
1701039240
1701039241
当我需要较大数据时我就使用15 000美元,这是该街区所有家庭年收入的算术平均数,将所有家庭年收入相加并除以家庭个数就会得到这个均值。而3 500美元这个较小的数据则是一个中位数,它表示这些家庭中有一半的年收入超过3 500美元,另一半则低于3 500美元。或者我会使用众数,这是一组数据中出现次数最多的数值。如果这一街区年收入为5 000美元的家庭数量多于其他收入的家庭数量,那么5 000美元就是这个街区年收入的众数。
1701039242
1701039243
因此在这个案例中,未加限定的平均数其实是毫无意义的,然而一般与收入挂钩的数据多半如此。此外,还有一个原因致使情况更为复杂,就是所有平均数含有的信息非常接近,如果只是随便用用而已,区分它们倒是不太重要。
1701039244
1701039245
如果你读到某地某个群体中男性平均身高仅为5英尺(约1.52米),你就会对这个地方的人的身高有一个大致印象。你不用问这个平均数是均值、中位数还是众数,事实证明它们都差不多。(当然如果你从事与这些人相关的制造业,你就需要更多详细信息,而不是这些随处可见的平均数。这与范围和偏差有关,我们将在下一章详细探讨。)
1701039246
[
上一页 ]
[ :1.701039197e+09 ]
[
下一页 ]