1701026132
1701026133
换言之,在身高最高的那群人中,每个人的身高几乎都超过了遗传因素所决定的身高。他们身上的遗传因素有利于他们长高,同时,环境与其他外部因素也会产生推动作用。他们的孩子拥有与其相同的基因,但是,外部因素却不一定会在遗传因素作用的基础上对他们的身高产生有利影响,让他们长得更高。因此,他们的身高会超过平均身高,但不会像他们的父母那么高。正是出于这个原因,高尔顿认为回归平均值“从理论上讲是一个必然的事实”。最初,当他看到数据表现出这个特点时,他感到非常吃惊,但等他明白其中的道理之后,他就知道这是必然现象,没有其他可能。
1701026134
1701026135
商业同样如此,西克里斯特对1922年最赚钱公司的分析并没有错。这些公司很有可能是它们所在领域中管理最到位的公司,同时它们的运气也相当不错。随着时间的推移,这些公司的管理优势可能会保持下去,仍能做到决策明智、判断准确。不过,虽然它们在1922年的运气不错,但是10年过去了,它们的运气不大可能仍然比其他公司好。因此,位于第一个六分相的那些公司,其排名会逐年下滑。
1701026136
1701026137
事实上,生活中随时间产生起伏变化的任何东西,几乎都会受到回归效应的影响。最近你有没有尝试调整饮食结构,改吃杏仁奶油干酪,结果发现体重减轻了3磅呢?再回想一下你决心减肥时的情形。正常情况下,你的体重会有变化,而在你下定决心减肥时,体重很有可能正好处于波峰。你看了一眼体重秤,甚至仅仅低头看了看自己的肚子,就知道自己该减肥了。如果确实如此,那么无论你吃不吃杏仁奶油干酪,体重都有可能回归正常水平,也就是说会减轻3磅。因此,这种饮食疗法是否有减肥效果,你仍然不得而知。
1701026138
1701026139
你可以利用随机抽样的方法,尝试解决这个问题。随机选择200名病人,找出其中体重超重的人,然后让他们采用这种饮食疗法。根据西克里斯特的观点,体重超重的那些人与业绩优秀的企业非常相似,与普通人相比,他们长期超重的可能性肯定更大。但是,在我们给这些人量体重时,他们的体重也很有可能正好处于波峰。在西克里斯特的研究中,那些业绩优秀的企业会随着时间的流逝而趋于平庸,同样,在我们这个实验中,无论饮食疗法是否有效,这些超重病人的体重自然也会减轻。因此,在研究饮食疗法的效果时,更好的做法不是研究一种饮食疗法的效果,而是比较两种备选疗法的效果。回归效应对每一组减肥者的作用应该是相同的,因此这种比较是公平的。
1701026140
1701026141
一位作家在他的第一部小说大获成功之后,或者一个流行乐队在其第一张专辑销售火爆之后,第二部作品受欢迎的程度往往会下降,这是为什么呢?不是(至少不全是)因为大多数艺术家的能力只是昙花一现,而是因为艺术家跟所有人一样,他们的成功也是天赋与运气共同作用的结果,也会受到回归效应的影响。
1701026142
1701026143
在签订期限超过一年的合同之后,美式橄榄球的跑卫们在下一个赛季中带球进攻时的跑动距离会略有下降。[1]有人认为这是因为他们不再受金钱的激励,因此他们不愿意全力奔跑,他们还得出心理因素可能也在其中发挥了某种作用的结论。但是,他们的这种表现还有另外一个重要的原因。这些跑卫之所以能签下这份合同,是因为他们在前一年表现突出。如果在接下来的赛季中,他们的表现没有回归至普通水平,那才奇怪呢。
1701026144
1701026145
“有望如何如何”与“本垒打大赛的诅咒”
1701026146
1701026147
我撰写本章内容的时间是在2014年4月,那时棒球赛季刚刚开始。每年都会有大量新闻报道预测哪些球员“有希望”取得某个不可思议的破纪录的成绩。某一天的娱乐与体育节目电视网(ESPN)告诉我,“道奇队的马特·坎普(Matt Kemp)在赛季初表现抢眼,上垒率为0.460,有希望完成86次本垒打,取得210分的打点,得到172分。”这些令人瞠目结舌的数字(在棒球大联盟的历史上,还从来没有人在一个赛季中打出73次本垒打)就是假线性推理的典型例子。
1701026148
1701026149
同样,应用题“如果玛莎在17天的时间里粉刷了9栋房子,那么在162天的时间里她最多可以粉刷多少栋房子”,也是一种假线性推理。
1701026150
1701026151
在道奇队的前17场比赛中,坎普打出了9次本垒打,每场平均为9/17个本垒打。那么,代数水平比较一般的人可能会写出下面这个线性方程式:
1701026152
1701026153
H=G×(9/17)
1701026154
1701026155
其中,H是坎普整个赛季打出的本垒打次数,G是球队的比赛场次。每支球队在每个赛季中要打162场比赛,因此,如果把162代入G,就会得到86(准确地讲应该是85.764 7,四舍五入后得到86)。
1701026156
1701026157
但是,并不是所有的线都是直线,马特·坎普也不大可能在一个赛季打出86次本垒打,原因就在于回归效应。在赛季的任何时候,本垒打次数居联盟之首的球员,打出漂亮的本垒打的可能性都比较大。的确,从坎普以往的表现来看,他具有打棒球的天赋,经常可以打出力量超大的好球。但是,他的本垒打次数位居联盟之首,其中很可能也有运气的成分。也就是说,无论前景如何,他的排名都很有可能随着赛季的持续而有所下降。
1701026158
1701026159
公平地讲,即使在ESPN,也没有人认为马特·坎普真的可以打出86次本垒打。4月新闻里说的“有望如何如何”的那些话通常是开玩笑,“他当然不可能打出那么多次本垒打,但是,如果他可以保持这种势头呢?”不过,等到了夏天,人们就会认真起来,等到赛程过半时,他们就会使用线性方程式推断某个球员到赛季结束时的各项成绩。
1701026160
1701026161
但是,这种做法仍然不正确。在4月时会发生回归平均值的现象,到了7月,这个现象同样会发生。
1701026162
1701026163
球员们通常都会受到这个现象的影响。人们预测德瑞克·基特(Derek Jeter)有望打破皮特·罗斯(Pete Rose)保持的安打纪录,基特因此备受困扰,他告诉《纽约时报》的记者:“体育竞技中最不应该说的话就是‘有望如何如何’。”他的话非常有道理。
1701026164
1701026165
假设到全明星赛时,我的本垒打次数在全联盟排名第一,那么在剩下的比赛中我可以打出多少次本垒打?
1701026166
1701026167
全明星赛把棒球赛季分成了“上半赛程”和“下半赛程”,下半赛程实际上要短一些,最近几年,下半赛程的比赛场次只有上半赛程的80%~90%。因此,大家预测我下半赛程的本垒打次数可能是上半赛程的85%左右。
1701026168
1701026169
但是,从以往的情况看,这种预测是不对的。为了找出其中的原因,我研究了1976~2000年在美国棒球大联盟19个赛季的上半赛程中本垒打次数最多的那些球员(不包括因为罢工导致赛程缩水的赛季和上半赛程本垒打次数出现并列第一名情况的赛季)。在全明星赛之后的下半赛程,只有三名球员——1978年的吉姆·莱斯(Jim Rice)、1980年的本·奥利维(Ben Oglivie)和1997年的马克·麦维尔(Mark McGwire)——的本垒打次数为上半赛程的85%。1993年,到全明星赛阶段以24次本垒打领先全联盟的米奇·泰托顿(Mickey Tettleton),在下半赛程只打出了8次本垒打,而且每个赛季都会有击球手的情况与此类似。在上半赛程领先其他球员后,这些优秀击球手在下半赛程的本垒打次数平均为上半赛程的60%左右。之所以出现这种下降趋势,不是因为身体疲劳或者8月天气炎热等,否则,整个联盟的本垒打数据也会出现下降趋势。其实原因很简单,即回归平均值现象。
1701026170
1701026171
受它影响的不仅仅是联盟中的那些本垒打高手。每年在全明星赛的本垒打大赛中,优秀的棒球选手利用自动投球器喂球,试图尽可能多地打出超大号本垒打。有的击球手抱怨说,在本垒打大赛后的几周时间内很难打出本垒打,他们把这种影响叫作“本垒打大赛的诅咒”。2009年,《华尔街日报》刊登的一则名为“本垒打大赛的神秘诅咒”的新闻令人瞠目结舌,有统计学知识的棒球博主对其进行了严厉的驳斥,但《华尔街日报》却对他们的批评置若罔闻,于2011年再次刊登了观点相近的文章——“本垒打大赛的诅咒再次发威”。但是,所谓的诅咒纯属子虚乌有。球员们之所以能登上本垒打大赛的赛场,是因为他们在赛季之初表现突出。由于回归效应,他们在赛季后期打出的本垒打次数肯定会减少。
1701026172
1701026173
2012年5月,马特·坎普的腘绳肌拉伤,停赛一个月。等到他伤愈复出时,他的状态明显不如受伤前。因此,他在那个赛季打出的本垒打次数不是86次,而是23次。
1701026174
1701026175
人们有时会出于某种原因而不愿意接受回归平均值的现象,他们更愿意相信是某种力量把那些强大的存在拉下了神坛,而1889年高尔顿的“强大的存在常常徒有其表”的观点并不能得到我们的认同。
1701026176
1701026177
霍林特与西克里斯特的论战
1701026178
1701026179
西克里斯特对这个重要观点并不了解,不过具有数学思维的研究人员却非常清楚。虽然西克里斯特的研究得到了评论者的普遍尊重,但是也有人表示反对。他从统计学角度批评了西克里斯特的研究,而且抨击得非常有道理,这个人就是《美国统计学会杂志》(Journal of the America Statistical Association)的哈罗德·霍特林(Harold Hotelling)。霍特林是明尼苏达人,他的父亲是一位干草经销商。他上大学期间学的是新闻学专业,但却发现自己在数学方面颇具天赋。(如果弗朗西斯·高尔顿当初研究美国名人的遗传情况,那么他会非常惊喜地发现,尽管霍特林出身卑微,但是他的先辈中有一位马萨诸塞湾殖民地的官员和一位坎特伯雷大主教)。与亚伯拉罕·瓦尔德一样,霍特林在普林斯顿大学就读期间学的是理论数学,博士论文写的是代数拓扑学方面的内容。如果他继续研究理论数学,就有可能担任纽约战时统计研究小组的领导人。1933年,在西克里斯特的著作出版时,霍特林还是哥伦比亚大学的一位年轻老师,但他已经在理论统计学,特别是与经济问题有关的统计学领域,做出了非常重要的贡献。据说,他喜欢在头脑中玩“地产大亨”游戏,他能记住游戏的棋盘以及各种随机牌与社区福利牌出现的频率,这个游戏对他来说就是生成随机数字和心算等非常简单的活动。这足以表明霍特林的智力水平与他的喜好。
1701026180
1701026181
霍特林全身心地投入研究,他认为西克里斯特与自己有相似之处,因此撰文对他的研究表示赞同,“直接收集数据的工作量肯定非常大”。
[
上一页 ]
[ :1.701026132e+09 ]
[
下一页 ]