打字猴:1.70102631e+09
1701026310 我们发现,有很多科学问题的解都表现为这三种曲线。不仅天体的运动轨迹如此,曲面镜的优化设计、抛射体的弧形轨道以及彩虹的形状也是如此。
1701026311
1701026312 这三种曲线的应用甚至超出了科学领域。我的同事迈克尔·哈里斯(Michael Harris)是巴黎朱西厄数学研究院的一名杰出的数论学家。哈里斯认为,小说家托马斯·品钦(Thomas Pynchon)有三部作品可以用圆锥体斜截面来表示:《万有引力之虹》(Gravity’s Rainbow)是抛物线(那些刚刚发射和正在坠落的火箭),《梅森和迪克逊》(Mason & Dixon)是椭圆形,《抵抗白昼》(Against the Day)是双曲线。对我而言,用这种方法分析这三部小说的组织结构,效果不比我见过的其他任何方法差。品钦曾经学习物理专业,经常在小说中提到莫比乌斯带、四元数这样的专业词汇,他当然清楚圆锥体斜截面的含义。
1701026313
1701026314 高尔顿观察到自己手绘的这些曲线非常像椭圆形,但是他的几何知识并不丰富,因此无法确定这些曲线就是椭圆形,而不是其他类似的卵形图。由于他一心希望建立一套简洁的普适理论,那么在理解收集来的数据时他会不会因此受到影响呢?果真如此的话,他既不会是科学界犯此类错误的第一个人,也不会是最后一个人。高尔顿一贯谨慎,他找到剑桥大学的数学家汉密尔顿·迪克森(Hamilton Dickson),咨询他的意见。为了不让迪克森偏向于某个结论,他特意隐瞒了数据的来源,诡称在从事物理学研究时遇到了一个问题。迪克森很快确认这个椭圆形不仅是数据所表示的曲线,而且是理论所需要的曲线,这让高尔顿十分高兴。
1701026315
1701026316 高尔顿在他的著作中写道:“这个问题对于一位功底深厚的数学家而言可能并不是特别难,但是,迪克森单凭数学推理就证实了我辛辛苦苦得出的各种统计学结论,而且其细致入微的程度甚至超出了我最乐观大胆的预测。这些数据在某种程度上讲有点儿粗糙,我在处理时必须加倍小心。因此,在得到迪克森的答复之后,数学分析一锤定音的权威性和不容置疑的掌控力,让我深深折服、无限崇拜。”
1701026317
1701026318 谁偷走了世界名画《蒙娜丽莎》?
1701026319
1701026320 高尔顿很快发现,相关系数的应用并不仅限于遗传研究领域,只要两个量彼此之间可能有关系,就可以用相关系数来分析。
1701026321
1701026322 碰巧的是,高尔顿拥有一个人身测量方面的大型数据库。由于阿方斯·贝蒂荣(Alphonse Bertillon)的研究成果,“人身测定法”在19世纪末风靡一时。贝蒂荣是法国的一名犯罪学家,对待科学研究的态度与高尔顿非常相似,他热衷于运用严格的量化方法来研究人类,而且他深信这是一种行之有效的方法。当时,法国警察辨别嫌犯的做法非常随意,没有一套系统的方法,这让贝蒂荣深感不安。他想,如果在每个违法的法国人的资料中附上一系列测量数据,诸如头的长度与宽度、手指与脚掌的长度等,这种办法肯定会大大提高警察辨识嫌犯的效率。根据贝蒂荣的这套方法,每名嫌犯被捕之后,警察都会测量他的数据,并将数据记录存档备用。如果这个人再次被捕,辨识他的身份就变得非常简单:只需要得到他的测量数据,然后与档案中的数据记录进行比对即可。可以用代号取代真实的姓名,“啊哈,15–6–56–42先生,你以为你可以逍遥法外吗?”
1701026323
1701026324 由于贝蒂荣的这套系统性的方法与当时的分析学宗旨十分吻合,因此于1883年被巴黎市警察总局采用,并迅速推广到世界各地。包括布加勒斯特和布宜诺斯艾利斯在内的各大城市的警察局,都采用了贝蒂荣的人身测定法,并把它作为辨识嫌犯的权威方法。1915年,雷蒙德·福斯迪克(Rcoymond Fosdick)指出:“贝蒂荣的人身测量数据文件柜是现代警察机构特有的标志。”这种做法在美国也曾十分盛行,而且没有人对此提出任何异议。2013年,大法官安东尼·肯尼迪(Anthony Kennedy)在为马里兰州诉肯恩一案撰写关键性意见时提到了这个方法,允许各州采集因犯重罪而入狱的犯人的DNA样本。肯尼迪法官认为,DNA序列是21世纪的贝蒂荣人身测定法,是可以被添加到人身测量数据库中的一组数据。
1701026325
1701026326 高尔顿思考了一个问题:贝蒂荣所选择的那些测量数据是不是最合适呢?如果测量更多的数据,有没有可能更准确地辨识嫌犯呢?高尔顿发现,这些人体测量数据有一个问题,它们并不是完全独立的。如果我们测量了嫌犯双手的数据,是不是仍然需要测量他双脚的数据呢?人们普遍相信,如果一个人的手比较大,从统计学的角度看,他的双脚也很有可能大于平均值。因此,在测量了双手的数据之后再测量双脚的尺寸,贝蒂荣人身测定法可以利用的信息并不会如人们最初希望的那样大幅增加。随着测量的数据越来越多(尤其当测量项目的选择不是很科学时),有可能产生边际效用递减的现象。
1701026327
1701026328 为了研究这个问题,高尔顿绘制了另一幅散点图,分析身高与肘长(肘部到中指指尖的距离)之间的关系。结果,同父子身高的关系散点图一样,这幅图也呈现出相似的椭圆形。就这样,高尔顿借助图表再一次证明身高与肘长这两个变量间存在相关关系,尽管两者之间没有显著的相关性。如果两种测量数据高度相关(如左脚和右脚的长度),那么费时费力地把这两个数据都记录下来的做法意义不大。最有效的测量数据应该与其余各项数据都没有相关性,而有相关性的数据可以通过高尔顿收集的大量人体测量数据计算出来。
1701026329
1701026330 高尔顿发明的相关系数概念并没有让贝蒂荣的人身测定法得到大幅改进,其原因主要在于高尔顿本人,他支持的是人身测定法的竞争对手——指纹鉴定法。同贝蒂荣的人身测定法一样,指纹鉴定法也是利用一系列数字或符号来辨识嫌犯,而且这些数据或符号可以记录到卡片上,然后分类归档。指纹鉴定法的优势非常明显,其中最突出的优点是,在罪犯本人不在场的情况下也可以采集他的指纹,这个优点在1911年的温森·佩鲁贾(Vincenzo Peruggia)案中凸显出来。当时,佩鲁贾采取了一个大胆的行动,在光天化日之下从卢浮宫偷走了名画《蒙娜丽莎》。佩鲁贾曾在巴黎被捕过,当时,警察非常尽职地记录了他的相关数据,但是,人们却发现这张人身测定数据记录卡并不能指认佩鲁贾。如果卡片上记录有指纹鉴定信息,那么仅凭佩鲁贾留在被他丢弃的《蒙娜丽莎》画框上的指纹,就可以立刻指证他。
1701026331
1701026332 相关性、《欢乐颂》与数字压缩技术
1701026333
1701026334 我在前面对贝蒂荣人身测定法的介绍并不完全准确。事实上贝蒂荣并没有记录各种人体特征的具体数值,而仅仅给出了大、中、小这三个等级。在测量手指长度时,把罪犯分成三类:手指较短的罪犯、手指长度中等的罪犯和手指较长的罪犯。在接下来测量肘长时,再把这三个类别分别分成三个子类,因此,罪犯一共被分成了9个类别。贝蒂荣人身测定法通常包括5种测量数据,可以把罪犯分成243(即35)个类别。在这243个类别中,每个类别针对眼睛与头发的颜色又有7种选择。因此,贝蒂荣最终把罪犯分成了1 701(即35×7)个类别。如果被逮捕的人数超过1 701个,那么某些类别囊括的嫌犯人数必然超过1个。但是,每个类别囊括的人数会很少,警察就可以很方便地从那些记录卡中找出与嫌犯数据相匹配的人的照片。如果我们愿意增加测量项目,那么每增加一个,类别的数量就会变成以前的三倍。这样,我们可以很容易地把这些类别变得足够小,使每个贝蒂荣代码仅代表一个罪犯(在贝蒂荣的研究中指的是某个法国人)。
1701026335
1701026336 这种利用简短的符号串记录人体特征等复杂事物的手段非常简单明了,而且它的应用并不仅限于人体特征。比如,帕森斯编码可以用于为乐曲分类,下面我来为大家介绍帕森斯编码的工作原理。选择一首我们都知道的乐曲,比如《贝多芬第九交响曲》的华丽终曲《欢乐颂》。我们用符号“*”标记第一个音符,然后从三个符号中选择一个来标记它后面的那个音:如果这个音比前面的音高,就用符号“u”表示;如果比前面的音低,就用符号“d”表示;如果两者相同,就用符号“r”表示。《欢乐颂》的前两个音相同,因此我们在开头部分记下“*r”。随后的两个音相继升高,记作“*ruu”。接下来,第五个音与最高的第四个音相同,随后便是依次降低的4个音,因此,《欢乐颂》第一句的帕森斯编码就是“*ruurdddd”。
1701026337
1701026338 我们不可能根据贝蒂荣的测量结果画出银行抢劫犯的画像,同样,我们也不可能根据帕森斯编码再现贝多芬的代表作。但是,如果我们的文件柜中装满了帕森斯编码,这些符号串就可以帮助我们准确地辨识任何乐曲。比如,如果我们记得《欢乐颂》的旋律,但是想不起它的名字,我们就可以登录“音乐大百科”之类的网站,输入“*ruurdddd”,这一小串符号足以把选择范围缩小至《欢乐颂》与莫扎特《第12号钢琴协奏曲》。如果我们哼唱16个音,就会产生43 046 721(即316)种帕森斯编码。这个数字肯定大于所有乐曲的数目,因此,这个编码代表两首歌的可能性非常小。每增加一个符号,就会把编码的种类扩大到原来的3倍。由于指数级增长的神奇性,利用一段非常短的编码,我们就可以高效地区分两首乐曲。
1701026339
1701026340 但是这种做法存在一个问题,我们还是回过头从贝蒂荣人身测定法说起。如果警察逮捕的那些人的肘长与手指长度都分属同一个类别,会导致什么结果呢?两种测量数据本来能产生9种类别,但在这种情况下只剩下三种:较短的手指/较短的肘长、中等长度的手指/中等长度的肘长、较长的手指/较长的肘长。此时,贝蒂荣人身测量数据文件柜的抽屉有2/3会处于闲置状态。类别的总数不是1 701个,而是少得多的567个,因此,我们辨识罪犯的能力会下降。我们还可以换一种方式来考虑这个问题,我们以为测量了5种数据,但是,如果肘长与手指长度这两个数据项所包含的信息一模一样,那么实际上测得的数据仅有4种,可能得到的卡片数量就会由1 701张(即7×35)锐减至567(即7×34)张。存在相关关系的测量数据越多,有效类别的数量就越少,贝蒂荣人身测定法的效果就越差。
1701026341
1701026342 高尔顿敏锐地发现,即使手指长度与肘长不属于同一个类别,只要它们有相关性,就会产生同样的结果。测量数据间的相关性会使贝蒂荣记录卡包含的信息量变少。高尔顿的敏锐判断力使他在学术上再次表现出先见之明,他的这个发现其实是一种思维方式的雏形。半个世纪之后,克劳德·香农在他的信息论中为之赋予了完整的形式。我们在第13章讨论过,香农的信息论可以给出比特在嘈杂的信息渠道中传输速度的变化范围,他的理论也能以差不多的方式,表现变量之间的相关性使记录卡中信息量减少的程度。也就是说,测量数据间的相关性越强,贝蒂荣记录卡包含的信息量(按照香农的理解)就越少。
1701026343
1701026344 如今,尽管贝蒂荣人身测定法已经风光不再,但是,认为“记录身份的最佳方式是一串数字”这种观念已经占据绝对优势,我们生活的环境成了数字化信息的世界,相关性会使有效信息量减少的理念也成为最核心的组织原则。过去,照片就是在有化学涂层的相纸上将颜料排成某种图案的产物,而现在则变成了一串数字,其中的每个数字代表像素的亮度与颜色。一部400万像素照相机捕捉的画面就是由400万个数字组成的数字串,因此这部照相机在拍摄照片时需要留出不小的内存。但是,这些数字相互之间有很强的相关性。如果一个像素是鲜绿色的,那么下一个像素可能同样是鲜绿色的,所以这幅图像中实际包含的信息远少于400万个数字的信息表达能力。正是出于这个原因,压缩技术才成为一种可能。[2]压缩是一种非常重要的数字技术,可以将图像、视频、音乐和文本储存到远小于我们预期的内存空间中。相关性概念的提出使压缩技术成为可能,但是在实际操作中还涉及一些更现代的概念和想法,例如让·莫雷(Jean Morlet)、斯特凡·马拉特(Stéphane Mallat)、伊夫斯·梅耶尔(Yves Meyer)和英格丽·多贝西(Ingrid Daubechies)等人于20世纪七八十年代提出的“小波理论”,以及发展势头迅猛的压缩传感技术。后者源于2005年伊曼纽尔·康戴斯(Emmanuel Candès)、贾斯汀·罗姆博格(Justin Romberg)与陶哲轩合著的一篇论文,随后迅速发展成应用数学的一个非常活跃的子领域。
1701026345
1701026346 寒冷的城市与炎热的城市
1701026347
1701026348 接下来,我们还要继续讨论前面提到的一个问题。我们已经知道如何利用回归平均值来解释西克里斯特发现的“平庸状态取得胜利”现象。但是,在平庸状态取得的胜利中,还有一些是西克里斯特没有观察到的,对于这些胜利,我们能否用回归平均值现象来解释呢?西克里斯特在分析美国城市的气温时,发现1922年最炎热的城市到了1931年仍然是最炎热的,这对于他证明企业经营业绩的回归是人类特有的现象有着非常重要的意义。然而,如果回归平均值是普遍现象,为什么气温就不存在这种现象呢?
1701026349
1701026350 答案很简单:气温也会回归平均值。
1701026351
1701026352 下表列出的是威斯康星州南部13个气象站收集的1月份平均气温,单位为华氏度。这些气象站两两之间的距离都不超过两个小时的车程。
1701026353
1701026354
1701026355
1701026356
1701026357 如果把这些气温数据绘制成高尔顿式散点图,我们就会发现,总体来说,2011年气温较高的城市到2012年气温仍然较高。
1701026358
1701026359 但是,2011年气温最高的三个气象站(察迈尼、麦迪逊机场和斯托顿),2012年1月的平均气温分别排在第一、第七和第八。同时,2011年气温最低的气象站(科蒂奇格罗夫、洛蒂和波蒂芝)到2012年气温相对有所升高。按照气温由低到高排列,波蒂芝排在第四位,洛蒂排在第二位,而科蒂奇格罗夫的气温已经高于大多数城市了。换言之,气温最高与气温最低的城市都在向中间位置靠拢,这与西克里斯特研究五金店得出的结果十分相似。
[ 上一页 ]  [ :1.70102631e+09 ]  [ 下一页 ]