打字猴:1.701026183e+09
1701026183 但接下来却是对西克里斯特的批评。霍特林指出,只要研究的变量同时受到稳定因素和随机性的影响,那么平庸状态的胜利就或多或少是一种必然结果。西克里斯特列举的数百个图表,“除了能证明他所研究的各种比率表现出徘徊的趋势以外,没有任何其他价值”;他的彻底调查的结果“总的说来显而易见,根本不需要引用大量数据加以证明”。霍特林仅列举了一个关键性的观察结果,就清楚地表明了自己的观点。西克里斯特认为回归平庸状态是长期竞争的结果,1916年的优质商店到了1922年仅勉强居于中上游水平,造成这种局面的原因就是竞争。但是,如果研究对象是1922年业绩最优秀的那些商店,我们又会得出什么结果呢?根据高尔顿的分析,这些商店取得良好业绩的原因可能是自身经营有方,也可能是运气不错。如果回溯至1916年,这些公司在1922年采用的优秀管理方法应该具有同样的效果,但是它们的运气可能完全不同。因此,在1916年,这些公司中的绝大多数业绩应该趋近于平庸。换言之,按照西克里斯特的观点,回归平均值是竞争的必然结果,无论时间向前还是向后推移,都会产生相同的影响。
1701026184
1701026185 霍特林对西克里斯特的批评并不严厉但是语气坚定,遗憾的成分明显多于气恼。他认为西克里斯特是一位非常优秀的同行,而且他试图以最温和的方式告诉后者:他的这10年时间算是白白浪费了。但是,西克里斯特并没有领会霍特林的意图,他在随后的一期《美国统计学会杂志》上发表了一篇文章,回应霍特林对他的批评。西克里斯特认为霍林特的评论中有几处理解错误,而且,即使没有这些错误,后者的评论也明显偏离了重点。西克里斯特再次强调回归平庸状态不仅是统计学上的一个笼统原则,而且是根据“受竞争压力与调控措施共同影响的数据”得出的具体结果。事情发展到这个地步,霍特林也不再客气了,他直截了当地指出:“正确解读这本书,就会发现西克里斯特的主题基本没有任何价值……耗费大量时间与金钱,比较多个行业中企业的利润开支比,仅仅是为了‘证明’这样一个结果,这种行为就好比为了证明乘法表,先把大象排成方阵,再换其他多种动物做同样的实验。这种做法虽然有娱乐价值,也有一定的教学价值,但是并不会对动物界或者数学界有所贡献。”
1701026186
1701026187 糠麸对肠道消化真的有帮助吗?
1701026188
1701026189 我们不应该过分指责西克里斯特,即使是高尔顿本人,也花了20年左右的时间才弄清楚回归平均值的全部含义。其后,很多科学家都和西克里斯特一样误解了高尔顿提出的这个概念。生物统计学家瓦特尔·韦尔登(Walter F. R.Weldon)证明,高尔顿在人类特征变异性方面的发现同样适用于虾,他在1905年的一次报告中对高尔顿的研究做出了评价。
1701026190
1701026191 生物学家在使用高尔顿的这个方法时,很少有人会专门研究他采用这些方法的前因后果。我们发现,人们总是认为回归平均值是生物特有的属性,在它的作用下,差异的程度会在世代遗传的过程中逐渐减弱,而物种则保持不变。有人则简单地认为儿童的差异平均值小于其父辈,可能在他们看来,上述观点是站得住脚的。但是,这些人忘记了一个同样明显的事实:上一代也会相对于下一代发生回归,因此从整体来看,不正常儿童的上一代,其不正常的程度会小于他们的后代。明白了这个事实之后,他们要么把这个事实归因于下一代修正上一代不正常的能力也会发生回归,要么认识到他们正在讨论的这个现象到底说明了什么问题。
1701026192
1701026193 生物学家希望从生物学的角度探讨回归的原因,西克里斯特等经营管理学家认为回归源于竞争,文学评论家则把回归现象归因于创作能力枯竭。但是,他们都错了,回归是一个数学问题。
1701026194
1701026195 而且,尽管霍特林、韦尔登与高尔顿等人做出了努力,但是人们仍然没有彻底搞清楚回归这个概念。不仅《华尔街日报》体育版会犯错,科学家们也会犯错。1976年,《英国医学杂志》(British Medical Journal)发表的一篇介绍用糠麸治疗憩室病的文章,就是一个非常典型的例子。(1976年,我已经懂事了,所以我清楚地记得,当时关注健康的人对糠麸的推崇程度,堪比我们现在对欧米茄–3脂肪酸与防腐剂的重视程度。)该文作者记录了每个病人接受糠麸疗法前后的“消化道通过时间”(oral-anal transit time,即一顿饭从入口到排泄所需的时间)。他们发现糠麸有显著的调整作用,“对于消化道通过时间短的人,其消化速度减慢了,通过时间延长至接近48个小时……在通过时间适中的人身上没有引起任何变化……对通过时间长的人,其消化速度加快了,通过时间逐渐缩短至接近48个小时。因此,糠麸可以把过长与过短的消化道通过时间调整至接近48个小时”。其实,我们可以预测,即使糠麸没有任何效果,也会出现这样的结果。
1701026196
1701026197 换言之,无论肠道的健康状况如何,我们在消化方面花费的时间都会时短时长。如果我们在星期一那天的消化道通过时间异乎寻常地短,那么,无论有没有接受糠麸疗法,星期二的通过时间都会更接近平均水平。
1701026198
1701026199 “现身说法”计划的兴衰也属于这类案例。“现身说法”计划的目的是将少年犯带到监狱去听犯人的现身说法,警示他们如果不立即停止犯罪行径,等待他们的将是铁窗生涯。该计划起源于罗威州立监狱,在1978年被拍成纪录片并荣获奥斯卡奖之后,全美国乃至挪威的多个地方纷纷效仿。青少年热烈赞扬“现身说法”计划让他们在道德层面深受触动,而监狱中的看守与囚犯也因为有机会对社会做出积极贡献而高兴。但是,这个计划会让人们想到一个受到普遍认可而且根深蒂固的观念:青少年犯罪归咎于父母与社会对他们的过度溺爱。更重要的是,“现身说法”计划真的发挥了作用。新奥尔良的一份有代表性的报告说,实施该计划后,青少年犯罪率较以前下降了50%。
1701026200
1701026201 其实,这项计划的效果并没有那么明显。就像西克里斯特研究中的那些业绩不佳的商店一样,这些少年犯不是研究人员随机选择的研究对象,他们之所以被选中,是因为他们是同类人群中表现最差的。根据回归理论,如果这一年表现最恶劣,那么下一年仍然有可能会惹麻烦,但是概率并没有人们想象的那么大。即使“现身说法”计划没有任何效果,我们也可以预测到这些青少年的犯罪率会下降。
1701026202
1701026203 这并不意味着“现身说法”计划没有任何效果。人们在少年犯中随机选择了一部分人,让他们参与“现身说法”计划,然后同那些没有参与该计划的少年犯进行比较,以此来检验这项计划的效果。结果,研究人员发现,该计划竟然导致反社会行为有所增加。或许,给这项计划取名“以身试法”更合适。
1701026204
1701026205 [1]这个事实及其解读来自美国国家橄榄球联盟统计部门的布莱恩·伯克(Brian Burke)。伯克善于阐释并密切关注依据统计学做出的准确判断,是严谨认真的体育分析师的典范。
1701026206
1701026207
1701026208
1701026209
1701026210 魔鬼数学:大数据时代,数学思维的力量 [:1701022632]
1701026211 魔鬼数学:大数据时代,数学思维的力量 第15章 父母高,孩子不一定也高
1701026212
1701026213 根据高尔顿的研究,只要研究对象受到随机性的影响,就会发生回归平均值现象。不过,与遗传因素相比,随机性的影响力有多大呢?
1701026214
1701026215 单凭数据,高尔顿无法找出其中的玄机,因此,他必须把这些数字转变成图表的形式。后来,高尔顿回忆说:“我拿出一张白纸,用尺子和笔在上面画出坐标轴,横轴表示孩子的身高,纵轴表示父亲的身高,并标记出对应每个孩子及其父亲身高的那个点。”
1701026216
1701026217 这个直观展示数据的方法汲取了勒内·笛卡儿(René Descartes)解析几何的精髓。解析几何要求我们把平面中的点看成一对数字,分别为横坐标和纵坐标,由此把代数和几何学紧密地联系在一起。
1701026218
1701026219 每对父子都对应两个数字,也就是父亲的身高和孩子的身高。我父亲的身高是73英寸,我也一样,因此我们在高尔顿的数据集中就会被记录成(73,73)。高尔顿在图中表示我们父子时,会在横纵坐标都是73的位置上画一个标记点。在高尔顿的庞大数据集中,每对父子都会在坐标图上对应一个标记点,因此,这张图上会有很多点,能够直观地显示出身高差异的变化情况。就这样,高尔顿发明了现在被我们称为“散点图”(scatterplot)的图表类型。
1701026220
1701026221 在揭示两个变量之间的关系时,散点图可以发挥惊人的作用。随便翻开任何一种科学杂志,我们都能看到散点图。19世纪后期是数据可视化的黄金时代,1869年,查尔斯·密纳德(Charles Minard)完成了他的那幅非常著名的示意图,展示了在入侵俄罗斯的途中拿破仑军队的规模逐渐减小,直至最后从俄罗斯撤退的情形。这幅示意图被称作人类有史以来最伟大的数据图,其实这幅图是在弗罗伦斯·南丁格尔(Florence Nightingale)的“玫瑰图”(coxcomb graph)的基础上演变而来的。南丁格尔完全借助可视化的方法,指出在克里米亚战争中绝大多数英国士兵不是被俄罗斯人杀死的,而是死于传染性疾病。
1701026222
1701026223 玫瑰图与散点图都非常适合我们的认知能力。我们的大脑不习惯接收一列列的数字,但是特别善于在二维图表中找出规律与隐含的信息。
1701026224
1701026225 在某些情况下,这些规律与信息并不难发现。举个例子,假设每对父子的身高都相同,就像我的父亲和我。这种情况说明,随机性没有发挥任何作用,我们的身高完全是由遗传因素决定的。相应地,散点图中所有点的横坐标与纵坐标都相同,换言之,这些点都在方程式x=y表示的直线上。
1701026226
1701026227
1701026228
1701026229
1701026230 请注意,在这条对角线的中间位置点的密度大,而两端的密度小。这是因为身高69英寸的人比身高73英寸或者64英寸的人多。
1701026231
1701026232 如果父子的身高没有任何相关性,那么在这种相反的极端情况下,会出现什么结果呢?此时,我们会得到下面的散点图:
[ 上一页 ]  [ :1.701026183e+09 ]  [ 下一页 ]