打字猴:1.701026419e+09
1701026419 高维几何体似乎有些神秘,因为我们生活在一个三维世界里(加上时间维度就是四维,如果我们是弦论学家,就可能是二十六维。即便如此,我们也会认为宇宙在其中大多数维度上的延伸是有限的)。我们为什么要研究高维几何体呢?
1701026420
1701026421 时下特别流行的数据研究给出了一个答案。大家还记得前面讨论的用400万像素照相机拍摄的那幅照片吧,那幅照片被描述成了400万个数字,每个数字对应一个像素。(这是在不考虑颜色的情况下得到的结果。)因此,该影像就是一个四百万维向量,或者说,是四百万维空间中的一个点。随时间变化的影像就可以表示成一个在四百万维空间中移动的点,在四百万维空间中留下一条线。也就是说,不知不觉中,我们已经在研究四百万维向量的微积分问题了,而且,我们还会发现这样的研究其乐无穷。
1701026422
1701026423 接下来我们继续讨论气温问题。表中有两列数据,每列都是一个十维向量,如下图所示:
1701026424
1701026425
1701026426
1701026427
1701026428 这两个向量的方向大致相同,表明这两列数据实际上区别不大。我们已经知道,2011年最冷的城市在2012年也非常冷,气温高的城市情况亦大致如此。
1701026429
1701026430 这就是用几何语言表述的皮尔逊公式,两个变量之间的相关性是由这两个向量之间的夹角决定的。如果用三角学来描述,相关性就是夹角的余弦。至于你是否记得余弦的含义,这并不重要,你只需知道0度角(即两个向量指向相同方向)的余弦为1,180度角(两个向量指向相反方向)的余弦为–1。如果两个向量的夹角为锐角(小于90度的角),那么它们之间存在正相关关系;如果两个向量的夹角大于90度,即为钝角,那么它们之间存在负相关关系。笼统地讲,当夹角为锐角时,两个向量“指向相同方向”;而当夹角为钝角时,两个向量会“指向相反方向”。
1701026431
1701026432 如果夹角既不是锐角也不是钝角,而是直角,那么这两个变量之间不存在相关性。在几何学中,我们把夹角为直角的两个向量叫作“垂直”(perpendicular)或“正交”(orthogonal)向量。数学家以及那些对三角学情有独钟的人经常延伸“orthogonal”这个词的内涵,用它来表示某个东西与手头上的东西没有任何关系。例如,“你可能以为你深受欢迎的原因与你的数学技能有关,但是,根据我的经验,这两者之间没有任何‘交集’(orthogonal)”。慢慢地,为三角学痴迷者们所青睐的这种用法就变成了人们广泛使用的语言。我从美国高等法院近期发生的口头辩论中摘选了一段,帮助你们了解这个现象。
1701026433
1701026434 弗雷德先生:我认为那个问题与我们在这里讨论的问题没有任何“交集”,因为我们州承认……
1701026435
1701026436 首席法官罗伯茨:对不起。没有任何什么?
1701026437
1701026438 弗雷德先生:交集。两者毫无关联,没有任何相关性。
1701026439
1701026440 首席法官罗伯茨:哦。
1701026441
1701026442 法官萨卡里亚:是哪个词啊?我喜欢这个词。
1701026443
1701026444 弗雷德先生:交集。
1701026445
1701026446 法官萨卡里亚:交集?
1701026447
1701026448 弗雷德先生:对,对。
1701026449
1701026450 法官萨卡里亚:哦。
1701026451
1701026452 (哄堂大笑。)
1701026453
1701026454 对于大家纷纷效仿使用“orthogonal”一词的行为,我是赞成的。数学术语变成日常用语已经不是新鲜事了。现在,“lowest common denominator”[3]这个表达的数学含义几乎消失了,而且这个演变过程是以指数级速度完成的。
1701026455
1701026456 客气地说,将三角学应用于高维向量以量化相关性,并不是人们当初发明余弦函数的初衷。公元前2世纪,尼西亚天文学家希帕恰斯(Hipparchus)写出了第一个三角函数表,目的是计算日食的时间间距,他所使用的向量都是用来描述天体的,而且毫无例外都是三维的。但是,为达到某个目的而发明的数学工具,往往也可以在其他多个方面发挥作用。
1701026457
1701026458 借助几何学来理解相关性这个概念,使统计数据中某些含糊不清的内容变得明晰起来。我们以富有的自由派精英分子为例,一段时间以来,这个略带贬义的词频频出现在政治专家的意见之中。戴维·布鲁克斯(David Brooks)在这个方面的见解可能最专注,也最翔实,他写了一本书介绍被他称作“波波族”的群体。[4]2001年,布鲁克斯在思考兼具城乡特色、经济富裕的马里兰州蒙哥马利县和经济水平居于中游的宾夕法尼亚州富兰克林县之间的差距时,发现根据经济水平进行政治分类的老方法已经严重滞后了。在这种旧的分类体系中,共和党支持的是钱袋子,而民主党支持的则是埋头工作的人。
1701026459
1701026460 在去年的总统大选中,与硅谷、芝加哥北岸、康涅狄格州城郊等美国各地的其他高收入地区一样,蒙哥马利县支持的是民主党,共和党和民主党的选票分别占34%和63%;而富兰克林县则把大部分选票投给了共和党,两党得到的选票分别占67%和30%。
1701026461
1701026462 首先,这里说的“各地”有点儿言过其实了。威斯康星州最富裕的县是沃基莎,小布什在这里击败了阿尔·戈尔(Al Gore),但是,在全州范围内戈尔以微弱的优势取得了胜利。
1701026463
1701026464 其次,布鲁克斯说的是实情,我们在前面介绍的散点图中已经清楚地看到了这个现象。从当今美国大选来看,富裕的州更有可能把选票投给民主党。密西西比州和俄克拉何马州都是共和党的地盘,但是共和党根本不会奢望主导纽约州和加利福尼亚州。换言之,居住在富裕的州与把选票投给民主党,两者之间存在正相关性。
1701026465
1701026466 但是,统计学家安德鲁·格尔曼(Andrew Gelman)认为,布鲁克斯描述的其实是一种新型的自由主义者,他们喝着拿铁,开着丰田普锐斯,住着有品位的大房子,印有“NPR”(美国国家公共电台)字样的大手提袋中装满了现金,而实际情况更加复杂。事实上,几十年以来,有钱人把选票投给民主党的可能性一直高于那些囊中羞涩的人,而且这种情况持续存在。格尔曼及其合作伙伴深入分析每个州的统计数据,结果发现了一个非常有意思的规律。在某些州,例如得克萨斯州和威斯康星州,富裕的县会把更多的选票投给共和党。但是在马里兰、加利福尼亚与纽约等州,富裕的县则更倾向于支持民主党,而众多政治专家正好就住在这些州。他们坐在家中放眼一看,在他们周围这片富足的土地上生活的都是有钱的自由主义者,便自然而然地认为全美各地都是这样。的确,他们有这样的想法是很自然的,但是,如果看一看总体数据,我们就会知道这是一个错误的想法。
1701026467
1701026468 不过,这里似乎存在一个悖论。家境富裕与居住在富裕的州,这两者之间毫无疑问是存在正相关关系的,居住在富裕的州与把选票投给民主党也存在正相关关系,这是不是意味着家境富裕与把选票投给民主党之间肯定也存在正相关关系呢?用几何语言表述的话,就是:如果向量1与向量2的夹角为锐角,向量2与向量3的夹角也是锐角,那么向量1与向量3的夹角是不是也一定是锐角呢?
[ 上一页 ]  [ :1.701026419e+09 ]  [ 下一页 ]