1701026348
接下来,我们还要继续讨论前面提到的一个问题。我们已经知道如何利用回归平均值来解释西克里斯特发现的“平庸状态取得胜利”现象。但是,在平庸状态取得的胜利中,还有一些是西克里斯特没有观察到的,对于这些胜利,我们能否用回归平均值现象来解释呢?西克里斯特在分析美国城市的气温时,发现1922年最炎热的城市到了1931年仍然是最炎热的,这对于他证明企业经营业绩的回归是人类特有的现象有着非常重要的意义。然而,如果回归平均值是普遍现象,为什么气温就不存在这种现象呢?
1701026349
1701026350
答案很简单:气温也会回归平均值。
1701026351
1701026352
下表列出的是威斯康星州南部13个气象站收集的1月份平均气温,单位为华氏度。这些气象站两两之间的距离都不超过两个小时的车程。
1701026353
1701026354
1701026355
1701026356
1701026357
如果把这些气温数据绘制成高尔顿式散点图,我们就会发现,总体来说,2011年气温较高的城市到2012年气温仍然较高。
1701026358
1701026359
但是,2011年气温最高的三个气象站(察迈尼、麦迪逊机场和斯托顿),2012年1月的平均气温分别排在第一、第七和第八。同时,2011年气温最低的气象站(科蒂奇格罗夫、洛蒂和波蒂芝)到2012年气温相对有所升高。按照气温由低到高排列,波蒂芝排在第四位,洛蒂排在第二位,而科蒂奇格罗夫的气温已经高于大多数城市了。换言之,气温最高与气温最低的城市都在向中间位置靠拢,这与西克里斯特研究五金店得出的结果十分相似。
1701026360
1701026361
1701026362
1701026363
1701026364
那么,为什么西克里斯特没有发现气温的这种变化情况呢?这是因为他选择的气象站有所不同,并不是集中在中西部偏北的位置,而是很分散。假设我们不研究威斯康星州的气温,而是考察加利福尼亚州各地1月份的气温。
1701026365
1701026366
1701026367
1701026368
1701026369
从这张表中看不出任何回归的迹象。最冷的地方,如内华达山脉的特拉基,仍然非常冷;而最炎热的城市,如圣迭戈和洛杉矶,气温仍然很高。如果把它们绘制成散点图,就会看到与上图完全不同的情况。
1701026370
1701026371
1701026372
1701026373
1701026374
如果根据这10个点绘制高尔顿式椭圆形,这个椭圆形会非常扁。这表明,加利福尼亚的某些地方明显比其他地方寒冷,城市之间气温的差别非常大,因此随机性的影响根本无从体现。用香农的话来说,“信号很丰富,噪声却比较少”。而威斯康星州中部偏南地区各城市的情况正好相反,从气温的角度看,马佐梅尼与阿特金森堡的情况比较接近。在任一年份,这两个城市的气温排名都会受到随机性的显著影响,也就是说,噪声比较多,而信号比较少。
1701026375
1701026376
西克里斯特以为,他历经艰辛发现的回归平均值现象是经济学的一个新定理,有利于提高经济研究的确定性与严谨性。但是,他的心愿落空了。如果把企业比喻成加州的各个城市,用炎热程度来代表商业经营行为中内在的差异性,我们就会发现回归平均值现象并没有那么明显。西克里斯特的发现表明,跟企业更加相似的是威斯康星州的那些城市:优质的管理与敏锐的商业眼光非常重要,但是运气的成分同样不可忽视。
1701026377
1701026378
如果谈到高尔顿却不详细介绍优生学理论,就有点儿奇怪了。优生学在数学界之外享有盛名,高尔顿被称为“优生学之父”。我认为关注数学贴近生活的一面有助于我们规避错误,如果大家都能接受这个观点,那么高尔顿这位在数学问题上目光敏锐的科学家,怎么会大错特错地认为人类可以通过优生的方式有选择地拥有某些特性呢?高尔顿认为他在这方面的观点是中肯、明智的,尽管当代人觉得它们骇人听闻。
1701026379
1701026380
如果有人提出新观点,在大多数情况下,都会有执迷不悟的人提出严厉的反对意见,优生学也遭遇了同样的命运。这些反对者最常用的手段就是歪曲优生学,认为优生学与动物育种一样,必须采取强制性婚配这种方法。事实并非如此。我认为,对于有精神失常、智力低下、经常犯罪、靠救济度日等问题且程度较严重的人,应当采取严格的限制措施,禁止他们随意生育后代,但是这种做法与强制性婚配完全不同。如何限制不恰当的婚姻本来就是一个难题,那么无论我们采取隔离措施,还是采取有待发明且与公众在信息渠道通畅的情况下形成的人道主义观点相一致的其他方法,都很难解决这一难题。
1701026381
1701026382
对此我能说什么呢?数学可以帮助我们规避错误,但是仍然会有漏网之鱼。(对不起,本书一经售出,概不退款!)犯错误就像一种原罪,打从一出生我们就会犯错误,而且会不断犯错误,因此,我们必须时刻保持警惕。数学知识会增强我们分析某些问题的能力,但是,如果对我们的所有信念都充满信心,甚至在未知领域也盲目地自信,就会将自己置于十分危险的境地。
1701026383
1701026384
请大家在阅读本书时多加小心,因为我也可能犯同样的错误。
1701026385
1701026386
相关性与十维空间的探险之旅
1701026387
1701026388
高尔顿提出的相关性概念对我们所处的世界具有不可估量的影响。它的影响力不仅触及统计学,而且涵盖科学活动的所有领域。关于“相关性”一词,我们首先应该了解的是“相关关系并不意味着因果关系”。即使一个现象不会导致另一个现象,根据高尔顿的理解,这两个现象之间也可能存在相关性。其实,这并不是什么新发现。人们早就知道兄弟姐妹更有可能有相同的身体特征,还知道并不是因为哥哥高所以妹妹也高。但是,这个现象背后仍然暗藏着某种因果关系:父母高,在遗传因素的作用下,两个孩子也高。在后高尔顿时代,我们可以大谈特谈两个变量之间的相关性,但是对于两者之间是否存在某种因果关系(无论是直接还是间接的因果关系)却不得而知。从这个意义上讲,高尔顿的相关性概念,与名气比他大的表哥(达尔文)的伟大发现之间有某种共通之处。达尔文指出,在讨论进化时即使不带有任何目的,也可能产生研究价值,而高尔顿的研究则证明,在针对相关性开展有意义的讨论时无须关注潜在的因果关系。
1701026389
1701026390
高尔顿给出的相关性的原始定义存在某种局限性,仅适用于分布遵循钟形曲线定律的变量。但是,卡尔·皮尔逊很快就对他的这个概念进行了修正,使其适用于所有变量。
1701026391
1701026392
皮尔逊的公式里有许多平方根与比例,如果我们对笛卡儿几何学的掌握没有达到驾轻就熟的程度,皮尔逊的公式就不可能对我们有所启发,因此,我在这里就不列出这个公式了,大家也无须查阅相关资料。不过,皮尔逊的公式有一个非常简单的几何描述方法。从笛卡儿开始,数学家就热衷于在现实世界的代数描述与几何描述之间来回切换。代数的优势在于形式严谨,易于输入电脑;而借助几何学,我们则可以凭直觉处理眼前的难题,当拥有绘图能力时,这个优势会更加明显。有很多数学知识我无法真正地理解,但是,一旦了解了它的几何含义之后,我就会豁然开朗。
1701026393
1701026394
那么,在几何学中,相关性指的是什么呢?为方便理解,我们回过头,再次研究2011年1月和2012年1月10个加州城市1月份平均气温的表格。我们发现,2011年的气温与2012年的气温之间存在非常强的正相关性,根据皮尔逊的公式,该相关系数是0.989。
1701026395
1701026396
在研究两个不同年份气温测量数据之间的关系时,我们可以把表中各数据项减去相同的量,这个操作不会影响结果。如果2011年的气温与2012年的气温之间存在相关性,那么它与“2012年的气温+5华氏度”之间也必然存在相关性。我们还可以换一种方法来考虑这个问题:如果我们把图中所有的点都向上移动5英寸,那么高尔顿的椭圆形不会改变,发生改变的只是它的位置。事实证明,如果把这些气温值加上或减去一个相同的量,将更有利于我们的分析研究。比如,在这个案例中,两列数值分别减去2011年与2012年的气温平均值,我们就会得到下表:
1701026397
[
上一页 ]
[ :1.701026348e+09 ]
[
下一页 ]