打字猴:1.701026332e+09
1701026332 相关性、《欢乐颂》与数字压缩技术
1701026333
1701026334 我在前面对贝蒂荣人身测定法的介绍并不完全准确。事实上贝蒂荣并没有记录各种人体特征的具体数值,而仅仅给出了大、中、小这三个等级。在测量手指长度时,把罪犯分成三类:手指较短的罪犯、手指长度中等的罪犯和手指较长的罪犯。在接下来测量肘长时,再把这三个类别分别分成三个子类,因此,罪犯一共被分成了9个类别。贝蒂荣人身测定法通常包括5种测量数据,可以把罪犯分成243(即35)个类别。在这243个类别中,每个类别针对眼睛与头发的颜色又有7种选择。因此,贝蒂荣最终把罪犯分成了1 701(即35×7)个类别。如果被逮捕的人数超过1 701个,那么某些类别囊括的嫌犯人数必然超过1个。但是,每个类别囊括的人数会很少,警察就可以很方便地从那些记录卡中找出与嫌犯数据相匹配的人的照片。如果我们愿意增加测量项目,那么每增加一个,类别的数量就会变成以前的三倍。这样,我们可以很容易地把这些类别变得足够小,使每个贝蒂荣代码仅代表一个罪犯(在贝蒂荣的研究中指的是某个法国人)。
1701026335
1701026336 这种利用简短的符号串记录人体特征等复杂事物的手段非常简单明了,而且它的应用并不仅限于人体特征。比如,帕森斯编码可以用于为乐曲分类,下面我来为大家介绍帕森斯编码的工作原理。选择一首我们都知道的乐曲,比如《贝多芬第九交响曲》的华丽终曲《欢乐颂》。我们用符号“*”标记第一个音符,然后从三个符号中选择一个来标记它后面的那个音:如果这个音比前面的音高,就用符号“u”表示;如果比前面的音低,就用符号“d”表示;如果两者相同,就用符号“r”表示。《欢乐颂》的前两个音相同,因此我们在开头部分记下“*r”。随后的两个音相继升高,记作“*ruu”。接下来,第五个音与最高的第四个音相同,随后便是依次降低的4个音,因此,《欢乐颂》第一句的帕森斯编码就是“*ruurdddd”。
1701026337
1701026338 我们不可能根据贝蒂荣的测量结果画出银行抢劫犯的画像,同样,我们也不可能根据帕森斯编码再现贝多芬的代表作。但是,如果我们的文件柜中装满了帕森斯编码,这些符号串就可以帮助我们准确地辨识任何乐曲。比如,如果我们记得《欢乐颂》的旋律,但是想不起它的名字,我们就可以登录“音乐大百科”之类的网站,输入“*ruurdddd”,这一小串符号足以把选择范围缩小至《欢乐颂》与莫扎特《第12号钢琴协奏曲》。如果我们哼唱16个音,就会产生43 046 721(即316)种帕森斯编码。这个数字肯定大于所有乐曲的数目,因此,这个编码代表两首歌的可能性非常小。每增加一个符号,就会把编码的种类扩大到原来的3倍。由于指数级增长的神奇性,利用一段非常短的编码,我们就可以高效地区分两首乐曲。
1701026339
1701026340 但是这种做法存在一个问题,我们还是回过头从贝蒂荣人身测定法说起。如果警察逮捕的那些人的肘长与手指长度都分属同一个类别,会导致什么结果呢?两种测量数据本来能产生9种类别,但在这种情况下只剩下三种:较短的手指/较短的肘长、中等长度的手指/中等长度的肘长、较长的手指/较长的肘长。此时,贝蒂荣人身测量数据文件柜的抽屉有2/3会处于闲置状态。类别的总数不是1 701个,而是少得多的567个,因此,我们辨识罪犯的能力会下降。我们还可以换一种方式来考虑这个问题,我们以为测量了5种数据,但是,如果肘长与手指长度这两个数据项所包含的信息一模一样,那么实际上测得的数据仅有4种,可能得到的卡片数量就会由1 701张(即7×35)锐减至567(即7×34)张。存在相关关系的测量数据越多,有效类别的数量就越少,贝蒂荣人身测定法的效果就越差。
1701026341
1701026342 高尔顿敏锐地发现,即使手指长度与肘长不属于同一个类别,只要它们有相关性,就会产生同样的结果。测量数据间的相关性会使贝蒂荣记录卡包含的信息量变少。高尔顿的敏锐判断力使他在学术上再次表现出先见之明,他的这个发现其实是一种思维方式的雏形。半个世纪之后,克劳德·香农在他的信息论中为之赋予了完整的形式。我们在第13章讨论过,香农的信息论可以给出比特在嘈杂的信息渠道中传输速度的变化范围,他的理论也能以差不多的方式,表现变量之间的相关性使记录卡中信息量减少的程度。也就是说,测量数据间的相关性越强,贝蒂荣记录卡包含的信息量(按照香农的理解)就越少。
1701026343
1701026344 如今,尽管贝蒂荣人身测定法已经风光不再,但是,认为“记录身份的最佳方式是一串数字”这种观念已经占据绝对优势,我们生活的环境成了数字化信息的世界,相关性会使有效信息量减少的理念也成为最核心的组织原则。过去,照片就是在有化学涂层的相纸上将颜料排成某种图案的产物,而现在则变成了一串数字,其中的每个数字代表像素的亮度与颜色。一部400万像素照相机捕捉的画面就是由400万个数字组成的数字串,因此这部照相机在拍摄照片时需要留出不小的内存。但是,这些数字相互之间有很强的相关性。如果一个像素是鲜绿色的,那么下一个像素可能同样是鲜绿色的,所以这幅图像中实际包含的信息远少于400万个数字的信息表达能力。正是出于这个原因,压缩技术才成为一种可能。[2]压缩是一种非常重要的数字技术,可以将图像、视频、音乐和文本储存到远小于我们预期的内存空间中。相关性概念的提出使压缩技术成为可能,但是在实际操作中还涉及一些更现代的概念和想法,例如让·莫雷(Jean Morlet)、斯特凡·马拉特(Stéphane Mallat)、伊夫斯·梅耶尔(Yves Meyer)和英格丽·多贝西(Ingrid Daubechies)等人于20世纪七八十年代提出的“小波理论”,以及发展势头迅猛的压缩传感技术。后者源于2005年伊曼纽尔·康戴斯(Emmanuel Candès)、贾斯汀·罗姆博格(Justin Romberg)与陶哲轩合著的一篇论文,随后迅速发展成应用数学的一个非常活跃的子领域。
1701026345
1701026346 寒冷的城市与炎热的城市
1701026347
1701026348 接下来,我们还要继续讨论前面提到的一个问题。我们已经知道如何利用回归平均值来解释西克里斯特发现的“平庸状态取得胜利”现象。但是,在平庸状态取得的胜利中,还有一些是西克里斯特没有观察到的,对于这些胜利,我们能否用回归平均值现象来解释呢?西克里斯特在分析美国城市的气温时,发现1922年最炎热的城市到了1931年仍然是最炎热的,这对于他证明企业经营业绩的回归是人类特有的现象有着非常重要的意义。然而,如果回归平均值是普遍现象,为什么气温就不存在这种现象呢?
1701026349
1701026350 答案很简单:气温也会回归平均值。
1701026351
1701026352 下表列出的是威斯康星州南部13个气象站收集的1月份平均气温,单位为华氏度。这些气象站两两之间的距离都不超过两个小时的车程。
1701026353
1701026354
1701026355
1701026356
1701026357 如果把这些气温数据绘制成高尔顿式散点图,我们就会发现,总体来说,2011年气温较高的城市到2012年气温仍然较高。
1701026358
1701026359 但是,2011年气温最高的三个气象站(察迈尼、麦迪逊机场和斯托顿),2012年1月的平均气温分别排在第一、第七和第八。同时,2011年气温最低的气象站(科蒂奇格罗夫、洛蒂和波蒂芝)到2012年气温相对有所升高。按照气温由低到高排列,波蒂芝排在第四位,洛蒂排在第二位,而科蒂奇格罗夫的气温已经高于大多数城市了。换言之,气温最高与气温最低的城市都在向中间位置靠拢,这与西克里斯特研究五金店得出的结果十分相似。
1701026360
1701026361
1701026362
1701026363
1701026364 那么,为什么西克里斯特没有发现气温的这种变化情况呢?这是因为他选择的气象站有所不同,并不是集中在中西部偏北的位置,而是很分散。假设我们不研究威斯康星州的气温,而是考察加利福尼亚州各地1月份的气温。
1701026365
1701026366
1701026367
1701026368
1701026369 从这张表中看不出任何回归的迹象。最冷的地方,如内华达山脉的特拉基,仍然非常冷;而最炎热的城市,如圣迭戈和洛杉矶,气温仍然很高。如果把它们绘制成散点图,就会看到与上图完全不同的情况。
1701026370
1701026371
1701026372
1701026373
1701026374 如果根据这10个点绘制高尔顿式椭圆形,这个椭圆形会非常扁。这表明,加利福尼亚的某些地方明显比其他地方寒冷,城市之间气温的差别非常大,因此随机性的影响根本无从体现。用香农的话来说,“信号很丰富,噪声却比较少”。而威斯康星州中部偏南地区各城市的情况正好相反,从气温的角度看,马佐梅尼与阿特金森堡的情况比较接近。在任一年份,这两个城市的气温排名都会受到随机性的显著影响,也就是说,噪声比较多,而信号比较少。
1701026375
1701026376 西克里斯特以为,他历经艰辛发现的回归平均值现象是经济学的一个新定理,有利于提高经济研究的确定性与严谨性。但是,他的心愿落空了。如果把企业比喻成加州的各个城市,用炎热程度来代表商业经营行为中内在的差异性,我们就会发现回归平均值现象并没有那么明显。西克里斯特的发现表明,跟企业更加相似的是威斯康星州的那些城市:优质的管理与敏锐的商业眼光非常重要,但是运气的成分同样不可忽视。
1701026377
1701026378 如果谈到高尔顿却不详细介绍优生学理论,就有点儿奇怪了。优生学在数学界之外享有盛名,高尔顿被称为“优生学之父”。我认为关注数学贴近生活的一面有助于我们规避错误,如果大家都能接受这个观点,那么高尔顿这位在数学问题上目光敏锐的科学家,怎么会大错特错地认为人类可以通过优生的方式有选择地拥有某些特性呢?高尔顿认为他在这方面的观点是中肯、明智的,尽管当代人觉得它们骇人听闻。
1701026379
1701026380 如果有人提出新观点,在大多数情况下,都会有执迷不悟的人提出严厉的反对意见,优生学也遭遇了同样的命运。这些反对者最常用的手段就是歪曲优生学,认为优生学与动物育种一样,必须采取强制性婚配这种方法。事实并非如此。我认为,对于有精神失常、智力低下、经常犯罪、靠救济度日等问题且程度较严重的人,应当采取严格的限制措施,禁止他们随意生育后代,但是这种做法与强制性婚配完全不同。如何限制不恰当的婚姻本来就是一个难题,那么无论我们采取隔离措施,还是采取有待发明且与公众在信息渠道通畅的情况下形成的人道主义观点相一致的其他方法,都很难解决这一难题。
1701026381
[ 上一页 ]  [ :1.701026332e+09 ]  [ 下一页 ]