打字猴:1.70102636e+09
1701026360
1701026361
1701026362
1701026363
1701026364 那么,为什么西克里斯特没有发现气温的这种变化情况呢?这是因为他选择的气象站有所不同,并不是集中在中西部偏北的位置,而是很分散。假设我们不研究威斯康星州的气温,而是考察加利福尼亚州各地1月份的气温。
1701026365
1701026366
1701026367
1701026368
1701026369 从这张表中看不出任何回归的迹象。最冷的地方,如内华达山脉的特拉基,仍然非常冷;而最炎热的城市,如圣迭戈和洛杉矶,气温仍然很高。如果把它们绘制成散点图,就会看到与上图完全不同的情况。
1701026370
1701026371
1701026372
1701026373
1701026374 如果根据这10个点绘制高尔顿式椭圆形,这个椭圆形会非常扁。这表明,加利福尼亚的某些地方明显比其他地方寒冷,城市之间气温的差别非常大,因此随机性的影响根本无从体现。用香农的话来说,“信号很丰富,噪声却比较少”。而威斯康星州中部偏南地区各城市的情况正好相反,从气温的角度看,马佐梅尼与阿特金森堡的情况比较接近。在任一年份,这两个城市的气温排名都会受到随机性的显著影响,也就是说,噪声比较多,而信号比较少。
1701026375
1701026376 西克里斯特以为,他历经艰辛发现的回归平均值现象是经济学的一个新定理,有利于提高经济研究的确定性与严谨性。但是,他的心愿落空了。如果把企业比喻成加州的各个城市,用炎热程度来代表商业经营行为中内在的差异性,我们就会发现回归平均值现象并没有那么明显。西克里斯特的发现表明,跟企业更加相似的是威斯康星州的那些城市:优质的管理与敏锐的商业眼光非常重要,但是运气的成分同样不可忽视。
1701026377
1701026378 如果谈到高尔顿却不详细介绍优生学理论,就有点儿奇怪了。优生学在数学界之外享有盛名,高尔顿被称为“优生学之父”。我认为关注数学贴近生活的一面有助于我们规避错误,如果大家都能接受这个观点,那么高尔顿这位在数学问题上目光敏锐的科学家,怎么会大错特错地认为人类可以通过优生的方式有选择地拥有某些特性呢?高尔顿认为他在这方面的观点是中肯、明智的,尽管当代人觉得它们骇人听闻。
1701026379
1701026380 如果有人提出新观点,在大多数情况下,都会有执迷不悟的人提出严厉的反对意见,优生学也遭遇了同样的命运。这些反对者最常用的手段就是歪曲优生学,认为优生学与动物育种一样,必须采取强制性婚配这种方法。事实并非如此。我认为,对于有精神失常、智力低下、经常犯罪、靠救济度日等问题且程度较严重的人,应当采取严格的限制措施,禁止他们随意生育后代,但是这种做法与强制性婚配完全不同。如何限制不恰当的婚姻本来就是一个难题,那么无论我们采取隔离措施,还是采取有待发明且与公众在信息渠道通畅的情况下形成的人道主义观点相一致的其他方法,都很难解决这一难题。
1701026381
1701026382 对此我能说什么呢?数学可以帮助我们规避错误,但是仍然会有漏网之鱼。(对不起,本书一经售出,概不退款!)犯错误就像一种原罪,打从一出生我们就会犯错误,而且会不断犯错误,因此,我们必须时刻保持警惕。数学知识会增强我们分析某些问题的能力,但是,如果对我们的所有信念都充满信心,甚至在未知领域也盲目地自信,就会将自己置于十分危险的境地。
1701026383
1701026384 请大家在阅读本书时多加小心,因为我也可能犯同样的错误。
1701026385
1701026386 相关性与十维空间的探险之旅
1701026387
1701026388 高尔顿提出的相关性概念对我们所处的世界具有不可估量的影响。它的影响力不仅触及统计学,而且涵盖科学活动的所有领域。关于“相关性”一词,我们首先应该了解的是“相关关系并不意味着因果关系”。即使一个现象不会导致另一个现象,根据高尔顿的理解,这两个现象之间也可能存在相关性。其实,这并不是什么新发现。人们早就知道兄弟姐妹更有可能有相同的身体特征,还知道并不是因为哥哥高所以妹妹也高。但是,这个现象背后仍然暗藏着某种因果关系:父母高,在遗传因素的作用下,两个孩子也高。在后高尔顿时代,我们可以大谈特谈两个变量之间的相关性,但是对于两者之间是否存在某种因果关系(无论是直接还是间接的因果关系)却不得而知。从这个意义上讲,高尔顿的相关性概念,与名气比他大的表哥(达尔文)的伟大发现之间有某种共通之处。达尔文指出,在讨论进化时即使不带有任何目的,也可能产生研究价值,而高尔顿的研究则证明,在针对相关性开展有意义的讨论时无须关注潜在的因果关系。
1701026389
1701026390 高尔顿给出的相关性的原始定义存在某种局限性,仅适用于分布遵循钟形曲线定律的变量。但是,卡尔·皮尔逊很快就对他的这个概念进行了修正,使其适用于所有变量。
1701026391
1701026392 皮尔逊的公式里有许多平方根与比例,如果我们对笛卡儿几何学的掌握没有达到驾轻就熟的程度,皮尔逊的公式就不可能对我们有所启发,因此,我在这里就不列出这个公式了,大家也无须查阅相关资料。不过,皮尔逊的公式有一个非常简单的几何描述方法。从笛卡儿开始,数学家就热衷于在现实世界的代数描述与几何描述之间来回切换。代数的优势在于形式严谨,易于输入电脑;而借助几何学,我们则可以凭直觉处理眼前的难题,当拥有绘图能力时,这个优势会更加明显。有很多数学知识我无法真正地理解,但是,一旦了解了它的几何含义之后,我就会豁然开朗。
1701026393
1701026394 那么,在几何学中,相关性指的是什么呢?为方便理解,我们回过头,再次研究2011年1月和2012年1月10个加州城市1月份平均气温的表格。我们发现,2011年的气温与2012年的气温之间存在非常强的正相关性,根据皮尔逊的公式,该相关系数是0.989。
1701026395
1701026396 在研究两个不同年份气温测量数据之间的关系时,我们可以把表中各数据项减去相同的量,这个操作不会影响结果。如果2011年的气温与2012年的气温之间存在相关性,那么它与“2012年的气温+5华氏度”之间也必然存在相关性。我们还可以换一种方法来考虑这个问题:如果我们把图中所有的点都向上移动5英寸,那么高尔顿的椭圆形不会改变,发生改变的只是它的位置。事实证明,如果把这些气温值加上或减去一个相同的量,将更有利于我们的分析研究。比如,在这个案例中,两列数值分别减去2011年与2012年的气温平均值,我们就会得到下表:
1701026397
1701026398
1701026399
1701026400
1701026401 在这张表中,数据为负值时表示该城市气温较低,如特拉基;数据为正值时表示气温较高,如圣迭戈。
1701026402
1701026403 接下来的步骤非常关键。记录2011年1月气温情况的那一列有10个数字,因此这一列就是一串数字,它还是一个点。这是怎么回事呢?这得归功于笛卡儿。我们可以把两个数字的组合(x, y)看成平面上的一个点,x自原点向右,y自原点向上,并画出一个从原点指向点(x, y)的短箭头,这个箭头叫作“向量”(vector)。
1701026404
1701026405
1701026406
1701026407
1701026408 同样,三维空间中的点可以表示成三个数字的组合(x, y, z)。只要我们不因循守旧,敢于创新,就能有所突破。4个数字的组合可以看成是四维空间中的点,那么,表中表示加州各地气温情况的那10个数字,就是十维空间中的点。不过,更好的做法是把它看成一个十维向量。
1701026409
[ 上一页 ]  [ :1.70102636e+09 ]  [ 下一页 ]