打字猴:1.701039115e+09

1701039115 把那些四处分散的人的平均年薪搞清楚并精确到个位数，这个可能性实在很小。就算你对自己去年的收入要做到一清二楚都不太可能，除非这些收入全部源自薪水。而25 111美元的年收入通常并非全部来自薪水，这部分耶鲁毕业生很可能还有零零散散的各种投资。

1701039116

1701039117 毫无疑问，这一令人羡慕的平均数是根据耶鲁毕业生自己报出的数据计算而来的。即便1924届毕业生在位于纽黑文市的耶鲁大学念书时谨遵其信用制度，我们也不能因此肯定多年之后，他们依然恪守该信用制度，他们口中的这些数据依然真实可靠。当被问及收入时，他们中的有些人难免会因虚荣或自负而有所虚报；有些人恐怕会尽量瞒报收入，特别在涉及所得税的问题上，他们也许会因担心与其他表单上的数据互相矛盾而犹豫不决，那些税务官们会不会看出什么端倪来呢？这两种倾向——虚报和瞒报——也许会互相抵消，但事实上这不可能。其中一种倾向也许会占上风，但究竟哪种占上风我们不得而知。

1701039118

1701039119

1701039120

1701039121

1701039122 根据常识，这一数据绝对不真实，那么就让我们来分析一下。我们先来看看导致最大误差的原因，就是这个原因炮制出了某些人“平均年收入高达25 111美元”的神话，然而事实上，他们的真正年收入也许仅仅接近这个数字的一半而已。

1701039123

1701039124 这就是抽样过程。在处理各类问题时，抽样过程是你所接触到的统计学主要内容的核心。其基础原理非常简单，尽管在实践中其精细到已衍生出了各种分支原理，而其中一些并不可信。如果你有一桶豆子，有些是红色，有些是白色，现在只有一个办法能让你准确得知每种颜色的豆子各有多少：一颗一颗地数。不过，还有个方法更加简便可行：随便抓一把豆子，然后数出红色豆子有多少颗，设想红色豆子在这一把豆子中所占的比例和桶里红色豆子在所有豆子中所占比例相同，由此便可大致知道桶里红色豆子究竟有多少颗。如果样本规模够大，且选择得当，那么它在大多数情况下完全可以代表整体。否则，这种方法还不如高明的猜测来得精确，除了营造出一种所谓的科学精确性的虚假氛围，这种方法毫无可取之处。可悲的是，各种各样的结论就是从这些要么带有偏差，要么过于微小或二者兼而有之的样本中获得的，而我们却并不知道自己所读到的这些结论或自以为清楚的这些结论来自这样的样本。

1701039125

1701039126 有关耶鲁毕业生的收入报告就来自这样一个样本。我们之所以如此肯定是因为理智告诉我们，要联络到所有尚在人世的1924届毕业生根本不可能。多年之后，许多人的地址已经无从得知。

1701039127

1701039128

1701039129

1701039130

1701039131 而且，就算知道了这些人的详细地址，他们也未必会答复调查问卷，尤其是这种关系到个人隐私的问题。就一些邮寄问卷而言，有5%或10%的回复率就已然很高了。耶鲁大学毕业生的收入调查问卷的回复率也许更高一些，但绝不可能高到百分之百。

1701039132

1701039133 因此，我们得出结论——该收入数据来自这样一个样本，即样本对象由既有明确地址又回复了问卷的毕业生成员组成。该样本具有代表性吗？也就是说，我们能否假定该样本群体成员的收入与那些联系不到或没有回复问卷的成员的收入处于相同水平？

1701039134

1701039135

1701039136

1701039137

1701039138 在耶鲁毕业生名单中，谁是那些“地址不详”的迷途羔羊呢？是华尔街富商、公司董事、制造公司和公共事业部门的高管等这些高收入者吗？不，要想获知这些富人的地址并不难。即使有些巨商富贾早已忘了和校友办公室保持联系，我们仍可以在《美国名人录》（Who’s Who in America）以及其他通信录中找到他们的地址。不妨这样猜测一下，那些失去联系的人在获得耶鲁大学学士学位之后的多年间，没有实现当初的抱负、功成名就。他们沦落成了普通的小职员、机械工、流浪汉、失业的酒鬼、勉强糊口的落魄作家和艺术家……在25 111美元的收入单上，这些人占据了一半甚至更多。他们不常参加同学聚会，因为他们连路费都没有。

1701039139

1701039140 哪些人将问卷丢进了废纸篓？我们对此不能确定，但至少能猜到这些人的工资还没有高到能拿出来炫耀的份儿上。他们有点像这样的人：第一次领薪水时，发现工资单上附了张小纸条，要求对自己的薪水保密，不要打探同事之间的薪水。“放心好了，”他们会对老板说，“我和您一样对这点儿薪水感到丢人。”

1701039141

1701039142

1701039143

1701039144

1701039145 显然，这样的样本遗漏了最有可能拉低年收入平均值的两类群体。25 111美元这一数据本身就能说明问题。即使这是一个真实的数据，它也只代表1924届毕业生中有明确地址并愿意站出来公开自己收入的人的情况。即便如此，前提还得假设这些绅士们说的都是实话。

1701039146

1701039147 不要轻率地做出这样的假设。一类被叫作市场调查的抽样研究表明，我们几乎不能做这样的假设。以前有人曾做过一个旨在研究杂志读者群的挨家挨户的调查，其中有这样一个关键问题：你们家一般都看什么杂志？调查人员将调查结果制成表格并加以分析后发现：大多数人喜爱《哈珀斯》（Harper’s）杂志，喜欢《真人真事》（True Story）杂志的人却不多。但当时出版商的数据却清楚地表明：《真人真事》的发行量高达数百万份之多，而《哈珀斯》的发行量只有几十万份。本次调查的设计者们自嘲道：“也许是我们问错了人？”可事实并非如此，这些问卷覆盖了全美国范围内的各类社区。因此，唯一合理的解释就是许多调查对象在回答问题时并未说实话，这导致该调查所发布的数据有偏差。

1701039148

1701039149 最后，人们发现，如果想知道某些人喜欢看哪种杂志，直接问他们是没有用的。登门佯装收购废旧杂志反而会让你收获很多。接下来你要做的无非就是数清楚分别有多少本《耶鲁评论》（Yale Reviews）和《爱情故事》（Love Romances）。就算是这种颇令人感到怀疑的方法也无法令你得知人们究竟在读什么杂志，而只能告诉你他们曾经有什么杂志。

1701039150

1701039151 同样道理，下次若是你读到美国人（最近大家总是听到美国人怎么了，不过大部分内容并不可信）平均每天刷牙1.02次时（该数据是我刚编出来的，不过也许编得和其他数据一样逼真）问自己一个问题：人们怎么可能算得这么精确？如果某位女士通过无数广告宣传得知不刷牙有违社交礼仪，那她还会向陌生人坦陈自己有时并不按时刷牙吗？对那些只想知道人们对刷牙有何看法的人而言，这个统计数据也许才有意义，但在反映人们刷牙的频率问题上，该数据并没多大作用。

1701039152

1701039153

1701039154

1701039155

1701039156 我们知道，一条河流永远不会高过其源头。但如果在某个地方藏有一个水电站，这似乎可以做到。同理，抽样调查的结果不会比它所基于的样本本身更好。当经过层层统计操作，数据被过滤成一个小数点后几位的平均数时，该结果就会令人们坚信。但是，如果对其抽样过程做进一步分析，也许会打破常理。

1701039157

1701039158 在早期，癌症能否被治愈？也许可以。但通常使用的据说最能证明这一点的数据其实并不能证明这一点。康涅狄格州肿瘤研究所挂号处那些数据记录可一直追溯到1935年，这些数据似乎显示，从1935年到1941年间，癌症术后5年的存活率大幅提高。其实，这些数据记录从1941年才开始采集，在此之前的所有数据都是追查所得。许多病人早已离开了康涅狄格州，他们是否尚在人世不得而知。按照医学记者莱昂纳德·恩格尔（Leonard Engel）的说法，由此而导致的偏差足以解释术后存活率为何会出现大幅提高的背后原因。

1701039159

1701039160 为了更具价值，一份基于样本的报告必须使用一个具备代表性的样本，该样本必须排除产生偏差的任何可能性。这正是耶鲁大学毕业生调查数据不具价值的原因，也是许多报纸和杂志内容缺乏实质意义的原因。

1701039161

1701039162 一位心理医生曾写报告说，其实每个人都是神经质的。抛开使用“神经质”一词会破坏该词所具有的意义不谈，先看看这位医生的样本吧。也就是说，这位心理医生的观察对象都是哪些人？原来，这一富有“启发性”的结论是他观察自己的病人得来，这些病人与普通人样本有着天壤之别。如果一个人精神正常，我们的这位医生根本就见不到他。

1701039163

1701039164

[ 上一页 ] [ :1.701039115e+09 ] [ 下一页 ]