1701026381
1701026382
对此我能说什么呢?数学可以帮助我们规避错误,但是仍然会有漏网之鱼。(对不起,本书一经售出,概不退款!)犯错误就像一种原罪,打从一出生我们就会犯错误,而且会不断犯错误,因此,我们必须时刻保持警惕。数学知识会增强我们分析某些问题的能力,但是,如果对我们的所有信念都充满信心,甚至在未知领域也盲目地自信,就会将自己置于十分危险的境地。
1701026383
1701026384
请大家在阅读本书时多加小心,因为我也可能犯同样的错误。
1701026385
1701026386
相关性与十维空间的探险之旅
1701026387
1701026388
高尔顿提出的相关性概念对我们所处的世界具有不可估量的影响。它的影响力不仅触及统计学,而且涵盖科学活动的所有领域。关于“相关性”一词,我们首先应该了解的是“相关关系并不意味着因果关系”。即使一个现象不会导致另一个现象,根据高尔顿的理解,这两个现象之间也可能存在相关性。其实,这并不是什么新发现。人们早就知道兄弟姐妹更有可能有相同的身体特征,还知道并不是因为哥哥高所以妹妹也高。但是,这个现象背后仍然暗藏着某种因果关系:父母高,在遗传因素的作用下,两个孩子也高。在后高尔顿时代,我们可以大谈特谈两个变量之间的相关性,但是对于两者之间是否存在某种因果关系(无论是直接还是间接的因果关系)却不得而知。从这个意义上讲,高尔顿的相关性概念,与名气比他大的表哥(达尔文)的伟大发现之间有某种共通之处。达尔文指出,在讨论进化时即使不带有任何目的,也可能产生研究价值,而高尔顿的研究则证明,在针对相关性开展有意义的讨论时无须关注潜在的因果关系。
1701026389
1701026390
高尔顿给出的相关性的原始定义存在某种局限性,仅适用于分布遵循钟形曲线定律的变量。但是,卡尔·皮尔逊很快就对他的这个概念进行了修正,使其适用于所有变量。
1701026391
1701026392
皮尔逊的公式里有许多平方根与比例,如果我们对笛卡儿几何学的掌握没有达到驾轻就熟的程度,皮尔逊的公式就不可能对我们有所启发,因此,我在这里就不列出这个公式了,大家也无须查阅相关资料。不过,皮尔逊的公式有一个非常简单的几何描述方法。从笛卡儿开始,数学家就热衷于在现实世界的代数描述与几何描述之间来回切换。代数的优势在于形式严谨,易于输入电脑;而借助几何学,我们则可以凭直觉处理眼前的难题,当拥有绘图能力时,这个优势会更加明显。有很多数学知识我无法真正地理解,但是,一旦了解了它的几何含义之后,我就会豁然开朗。
1701026393
1701026394
那么,在几何学中,相关性指的是什么呢?为方便理解,我们回过头,再次研究2011年1月和2012年1月10个加州城市1月份平均气温的表格。我们发现,2011年的气温与2012年的气温之间存在非常强的正相关性,根据皮尔逊的公式,该相关系数是0.989。
1701026395
1701026396
在研究两个不同年份气温测量数据之间的关系时,我们可以把表中各数据项减去相同的量,这个操作不会影响结果。如果2011年的气温与2012年的气温之间存在相关性,那么它与“2012年的气温+5华氏度”之间也必然存在相关性。我们还可以换一种方法来考虑这个问题:如果我们把图中所有的点都向上移动5英寸,那么高尔顿的椭圆形不会改变,发生改变的只是它的位置。事实证明,如果把这些气温值加上或减去一个相同的量,将更有利于我们的分析研究。比如,在这个案例中,两列数值分别减去2011年与2012年的气温平均值,我们就会得到下表:
1701026397
1701026398
1701026399
1701026400
1701026401
在这张表中,数据为负值时表示该城市气温较低,如特拉基;数据为正值时表示气温较高,如圣迭戈。
1701026402
1701026403
接下来的步骤非常关键。记录2011年1月气温情况的那一列有10个数字,因此这一列就是一串数字,它还是一个点。这是怎么回事呢?这得归功于笛卡儿。我们可以把两个数字的组合(x, y)看成平面上的一个点,x自原点向右,y自原点向上,并画出一个从原点指向点(x, y)的短箭头,这个箭头叫作“向量”(vector)。
1701026404
1701026405
1701026406
1701026407
1701026408
同样,三维空间中的点可以表示成三个数字的组合(x, y, z)。只要我们不因循守旧,敢于创新,就能有所突破。4个数字的组合可以看成是四维空间中的点,那么,表中表示加州各地气温情况的那10个数字,就是十维空间中的点。不过,更好的做法是把它看成一个十维向量。
1701026409
1701026410
此时,大家有足够的理由提出疑问:我应该怎么考虑这个十维向量?它到底是什么样子?
1701026411
1701026412
十维向量的样子如下图所示:
1701026413
1701026414
1701026415
1701026416
1701026417
这是高级几何学中隐藏的一个小秘密。拥有处理十维(甚至一百维、一百万维)几何体的能力似乎是一件非常美妙的事,但是,我们的脑海里只能产生二维最多三维几何体的形象,这是我们思维能力的极限。值得庆幸的是,这种有限的思维能力足以帮助我们处理一些问题。
1701026418
1701026419
高维几何体似乎有些神秘,因为我们生活在一个三维世界里(加上时间维度就是四维,如果我们是弦论学家,就可能是二十六维。即便如此,我们也会认为宇宙在其中大多数维度上的延伸是有限的)。我们为什么要研究高维几何体呢?
1701026420
1701026421
时下特别流行的数据研究给出了一个答案。大家还记得前面讨论的用400万像素照相机拍摄的那幅照片吧,那幅照片被描述成了400万个数字,每个数字对应一个像素。(这是在不考虑颜色的情况下得到的结果。)因此,该影像就是一个四百万维向量,或者说,是四百万维空间中的一个点。随时间变化的影像就可以表示成一个在四百万维空间中移动的点,在四百万维空间中留下一条线。也就是说,不知不觉中,我们已经在研究四百万维向量的微积分问题了,而且,我们还会发现这样的研究其乐无穷。
1701026422
1701026423
接下来我们继续讨论气温问题。表中有两列数据,每列都是一个十维向量,如下图所示:
1701026424
1701026425
1701026426
1701026427
1701026428
这两个向量的方向大致相同,表明这两列数据实际上区别不大。我们已经知道,2011年最冷的城市在2012年也非常冷,气温高的城市情况亦大致如此。
1701026429
1701026430
这就是用几何语言表述的皮尔逊公式,两个变量之间的相关性是由这两个向量之间的夹角决定的。如果用三角学来描述,相关性就是夹角的余弦。至于你是否记得余弦的含义,这并不重要,你只需知道0度角(即两个向量指向相同方向)的余弦为1,180度角(两个向量指向相反方向)的余弦为–1。如果两个向量的夹角为锐角(小于90度的角),那么它们之间存在正相关关系;如果两个向量的夹角大于90度,即为钝角,那么它们之间存在负相关关系。笼统地讲,当夹角为锐角时,两个向量“指向相同方向”;而当夹角为钝角时,两个向量会“指向相反方向”。
[
上一页 ]
[ :1.701026381e+09 ]
[
下一页 ]