1701039098
1701039099
统计数据会说谎:让你远离数据陷阱
1701039100
1701039101
1701039102
1701039103
1701039104
1701039105
统计数据会说谎:让你远离数据陷阱
1701039106
1701039107
在评论《纽约太阳报》(Sun)有关报道时,《时代》(Time)杂志曾特别指出:“耶鲁大学1924届毕业生平均年收入高达25 111美元。”
1701039108
1701039109
哇哦,他们实在太厉害了!
1701039110
1701039111
但稍等一下。这一令人惊叹的数据究竟意味着什么?它是否像表面看起来的那样,足以证明如果你将自己的孩子送进耶鲁大学,你就可以安享晚年,你的孩子也可衣食无忧了?
1701039112
1701039113
在充满怀疑地乍一看之后,我们发现这个数据有两个可疑之处:首先,它精确得让人吃惊;其次,它给人带来难以置信的好处。
1701039114
1701039115
把那些四处分散的人的平均年薪搞清楚并精确到个位数,这个可能性实在很小。就算你对自己去年的收入要做到一清二楚都不太可能,除非这些收入全部源自薪水。而25 111美元的年收入通常并非全部来自薪水,这部分耶鲁毕业生很可能还有零零散散的各种投资。
1701039116
1701039117
毫无疑问,这一令人羡慕的平均数是根据耶鲁毕业生自己报出的数据计算而来的。即便1924届毕业生在位于纽黑文市的耶鲁大学念书时谨遵其信用制度,我们也不能因此肯定多年之后,他们依然恪守该信用制度,他们口中的这些数据依然真实可靠。当被问及收入时,他们中的有些人难免会因虚荣或自负而有所虚报;有些人恐怕会尽量瞒报收入,特别在涉及所得税的问题上,他们也许会因担心与其他表单上的数据互相矛盾而犹豫不决,那些税务官们会不会看出什么端倪来呢?这两种倾向——虚报和瞒报——也许会互相抵消,但事实上这不可能。其中一种倾向也许会占上风,但究竟哪种占上风我们不得而知。
1701039118
1701039119
1701039120
1701039121
1701039122
根据常识,这一数据绝对不真实,那么就让我们来分析一下。我们先来看看导致最大误差的原因,就是这个原因炮制出了某些人“平均年收入高达25 111美元”的神话,然而事实上,他们的真正年收入也许仅仅接近这个数字的一半而已。
1701039123
1701039124
这就是抽样过程。在处理各类问题时,抽样过程是你所接触到的统计学主要内容的核心。其基础原理非常简单,尽管在实践中其精细到已衍生出了各种分支原理,而其中一些并不可信。如果你有一桶豆子,有些是红色,有些是白色,现在只有一个办法能让你准确得知每种颜色的豆子各有多少:一颗一颗地数。不过,还有个方法更加简便可行:随便抓一把豆子,然后数出红色豆子有多少颗,设想红色豆子在这一把豆子中所占的比例和桶里红色豆子在所有豆子中所占比例相同,由此便可大致知道桶里红色豆子究竟有多少颗。如果样本规模够大,且选择得当,那么它在大多数情况下完全可以代表整体。否则,这种方法还不如高明的猜测来得精确,除了营造出一种所谓的科学精确性的虚假氛围,这种方法毫无可取之处。可悲的是,各种各样的结论就是从这些要么带有偏差,要么过于微小或二者兼而有之的样本中获得的,而我们却并不知道自己所读到的这些结论或自以为清楚的这些结论来自这样的样本。
1701039125
1701039126
有关耶鲁毕业生的收入报告就来自这样一个样本。我们之所以如此肯定是因为理智告诉我们,要联络到所有尚在人世的1924届毕业生根本不可能。多年之后,许多人的地址已经无从得知。
1701039127
1701039128
1701039129
1701039130
1701039131
而且,就算知道了这些人的详细地址,他们也未必会答复调查问卷,尤其是这种关系到个人隐私的问题。就一些邮寄问卷而言,有5%或10%的回复率就已然很高了。耶鲁大学毕业生的收入调查问卷的回复率也许更高一些,但绝不可能高到百分之百。
1701039132
1701039133
因此,我们得出结论——该收入数据来自这样一个样本,即样本对象由既有明确地址又回复了问卷的毕业生成员组成。该样本具有代表性吗?也就是说,我们能否假定该样本群体成员的收入与那些联系不到或没有回复问卷的成员的收入处于相同水平?
1701039134
1701039135
1701039136
1701039137
1701039138
在耶鲁毕业生名单中,谁是那些“地址不详”的迷途羔羊呢?是华尔街富商、公司董事、制造公司和公共事业部门的高管等这些高收入者吗?不,要想获知这些富人的地址并不难。即使有些巨商富贾早已忘了和校友办公室保持联系,我们仍可以在《美国名人录》(Who’s Who in America)以及其他通信录中找到他们的地址。不妨这样猜测一下,那些失去联系的人在获得耶鲁大学学士学位之后的多年间,没有实现当初的抱负、功成名就。他们沦落成了普通的小职员、机械工、流浪汉、失业的酒鬼、勉强糊口的落魄作家和艺术家……在25 111美元的收入单上,这些人占据了一半甚至更多。他们不常参加同学聚会,因为他们连路费都没有。
1701039139
1701039140
哪些人将问卷丢进了废纸篓?我们对此不能确定,但至少能猜到这些人的工资还没有高到能拿出来炫耀的份儿上。他们有点像这样的人:第一次领薪水时,发现工资单上附了张小纸条,要求对自己的薪水保密,不要打探同事之间的薪水。“放心好了,”他们会对老板说,“我和您一样对这点儿薪水感到丢人。”
1701039141
1701039142
1701039143
1701039144
1701039145
显然,这样的样本遗漏了最有可能拉低年收入平均值的两类群体。25 111美元这一数据本身就能说明问题。即使这是一个真实的数据,它也只代表1924届毕业生中有明确地址并愿意站出来公开自己收入的人的情况。即便如此,前提还得假设这些绅士们说的都是实话。
1701039146
[
上一页 ]
[ :1.701039097e+09 ]
[
下一页 ]