1701549513
1701549514
1701549515
1701549516
1701549517
图1-1 机器人“看到”的世界
1701549518
1701549519
事实上,这图只是一张黑色的纸,中间挖了一个环形的洞,让我们透过它得以窥见它背后的景致。在图1-2中的右图,黑色的纸被移除,你会看到,每一对挨着的灰色方块实际上代表物体不同的摆放方式。
1701549520
1701549521
1701549522
1701549523
1701549524
图1-2 覆盖与还原
1701549525
1701549526
大数挨着小数,可能是由于一个物体立在另一个物体的前面,或深颜色纸放在浅颜色纸的上面,或表面涂有两种灰度的阴影,或两个物体紧紧挨着,或白纸上放着灰色玻璃纸,或两面墙相交的内角或外角,或是一个阴影。大脑总得想办法解决这个鸡—蛋难题:根据视网膜的小区域识别出三维物体,通过判断每一片区域是什么东西的一部分,进而区分开每一个小区域是什么(阴影还是涂色,褶皱还是覆盖,透明还是不透明)。
1701549527
1701549528
然而,困难才刚刚开始。在我们知道了如何将由视觉所感受到的世界切割成一个个物体后,我们还需要知道物体是由什么做的,比方说,是雪还是煤。乍一看,问题似乎很简单。如果大数来自亮的区域,小数来自暗的区域,那么大数就等于白色,也就是等于雪,小数就等于黑色,也就是等于煤。对吗?错。照到一小片视网膜上光的数量不仅取决于物体灰或黑的程度,而且取决于照亮物体的光的明亮或微弱程度。摄影师的曝光表会告诉你,屋外一团煤反射的光要比屋内一团雪反射得更多。这就是为什么人们常常会对他们拍出的照片颇感失望,为什么摄影是如此复杂的一门工艺。照相机不会撒谎,它自己的设备决定了,拍出的外景如奶白,内景像泥巴。摄影师(有时照相机中的微芯片也可以)精心处理胶片才得出一幅逼真的图像,他们用到的技巧包括:调整快门时间控制、镜头光圈、拍摄速度、闪光灯以及暗室操纵。
1701549529
1701549530
我们视觉系统的设计要好得多。它设法让我们将室外明亮的煤块看成黑色,把屋内昏暗的雪看成白色。这是个令人愉快的结果,因为这样,我们意识中对颜色和亮度的感觉就可以与世界原本的状况相一致,而不是和世界呈现到我们眼睛中的镜像相一致。不管在室内室外,雪球都是软的、湿的、随时可能会融化的;不管在室内室外,我们也都把它看作是白色的。煤块则总是硬的、脏的,可以燃烧的,我们也总把它看成是黑色的。世界呈现的模样和它实际情况之间的和谐必定是我们神经系统的杰作,因为黑白二色在视网膜上并不是那么简单鲜明。假使你还有怀疑,这里有一个日常生活中的例证。传统CRT电视机关闭时,屏幕上是淡淡的灰绿色。当打开以后,一些磷光点开始发光,显示为图像中明亮的区域。但其他的点则并不是吸收光而呈现为暗的区域,它们只是保持灰色不变。你所看到的黑色区域事实上只是电视机关闭时显像管的灰色阴影。这种黑色是一种虚拟,它是人脑回路的产物,同样的原理也使你能够把煤看作煤。制造电视机的工程师们在设计屏幕时不过是利用了这个回路。
1701549531
1701549532
下一个问题是,如何立体地视物。我们的眼睛将三维世界转化为二维的视网膜图像,第三维则必须由人脑来重新构建。但是,视网膜的小碎片上没有提示标志,没法告诉你每个面相距多远。你手心的一枚邮票可以和屋子对面的一把椅子或几公里外的一栋楼一样,在视网膜上映射出同样大小的一个方块(见图1-3上图)。从正面看一张切割板,随倾斜度不同,同一张板被看成各种不同的不规则四边形(见图1-3下图)。
1701549533
1701549534
1701549535
1701549536
1701549537
图1-3 视网膜成像特点
1701549538
1701549539
要想感受这种几何现象的作用,以及处理这种现象的神经机制的运作,你可以盯着一个灯泡持续几秒钟或者在闪光灯闪烁时看着照相机,这会令你的视网膜上暂时出现一小块儿白色。如果这时你去看一页书,余像会附在上面,看上去有几厘米那么大。如果你看着墙,余像会有几十厘米那么大。如果你看天空,它会有云彩那么大。
1701549540
1701549541
最后的问题是,视觉模块如何认出外界的物体。机器人由此可以给物体起名,或者了解物体可做什么用。最直接的方法是,为每个物体仿照其形状制作一个模板或者切块。当物体出现时,它在视网膜上的映像会和自己的模板相吻合,就像壶盖对壶口一样。模板将会以形状的名字作为标签。例如,在图1-4中是“字母P”。每当与形状符合时,模板便读出其名字。
1701549542
1701549543
1701549544
1701549545
1701549546
图1-4
1701549547
1701549548
遗憾的是,这种简单的机制可能会有两种失效情况。不是P时,它可能会错认为P。例如,图1-5第一个方块中的R被错认为P。有P的情况下,它还可能认不出P。例如,当字母移动位置、倾斜、歪斜、太远、太近或太别出心裁时,这种机制就认不出P了,如图1-5剩下几个方块中的情况。
1701549549
1701549550
1701549551
1701549552
1701549553
图1-5 识别不出字母“P”
1701549554
1701549555
1701549556
1701549557
1701549558
这些问题才只不过是由于一个简单的英文字母造成的。想象一下要认出一件上衣或一张脸,那该怎么设计!确切地说,经过40多年人工智能方面的研究,形状识别的技术已经大大改进。你可以用软件来扫描一页纸,识别字符,并比较准确地把它转化为数码文本文档。但人工的形状识别设备仍远远赶不上我们大脑中的设备。人工的设备是为那些原始的、易于识别的世界所设计的,却应付不了这个杂乱无章、毫无规则的现实世界。支票底端的怪异数字经过了精心的设计,因此没有形状重叠,这是由特殊的设备精确定位后才打印的,以便模板可以识别出这些数字。有朝一日,大厦里装上一台面部识别器来取代门卫,它也不会去尝试解读你的面部轮廓,而会去扫描你的虹膜或视网膜血管的清晰形状。而我们的大脑却对我们认识的每张脸(每个字母、动物、工具等)的形状都保留着相应的记录,这记录总是能够和视网膜上的图像对得上,即使图像如我们图1-5中那样被扭曲也没问题。在第4章中我们将具体探讨人脑是如何完成这一杰作的。
1701549559
1701549560
我们来看看另一个日常生活中神奇的地方:把身体从一处移动到另一处。我想让机器移动,就给它装上轮子。轮子的发明常被人们骄傲地认为是人类文明最杰出的成就之一。许多教科书指出,没有任何动物进化到用轮子来移动,并以此事实为例证明,进化往往不能找到最佳方案来解决工程问题。但这根本就不是一个好例子。即使大自然能够进化出下面长着轮子的驼鹿,驼鹿也肯定选择不要轮子。轮子只有在有道路和铁轨的地方才好用,而在任何松软、湿滑、陡峭或不均匀的地方,轮子都举步维艰。腿比轮子则要好得多。轮子必须沿着不间断的支撑面才能滚动,腿却可以落在一系列分开的立足点上,比如梯子。腿还可以尽量减少歪斜或者跨越障碍。即使现在整个世界好像已经变成了一个大停车场,地球上也只有大约一半陆地可供有轮子或者轨道的交通工具通行,但地球的绝大多数陆地上,有脚的载体——动物却都可以行走。这正是自然选择的设计。
1701549561
1701549562
但腿的存在是伴随着高昂成本的,它需要指挥控制装置。轮子只需转动,逐渐改变支撑点,就可始终承受重量。腿则必须在极短的时间内改变支撑点,这只有卸掉重量才能做到。控制腿的发动机必须将脚落在地面的同时承受和推动负载,然后再卸掉负载使腿能够自由移动,如此往复交替进行。在整个过程中,它们还得在脚所站的极小区域内保持身体重心平衡,使身体不致蹒跚倒地。指挥装置还必须尽量减少无用的上下颠簸运动。在可以行走的棒球投球手玩具中,这个问题的解决依靠了一个精密的机械连接装置,将旋转轴转化为迈步的动作。但这些玩具不能根据地势状况做出调整,找到最佳落脚点。
[
上一页 ]
[ :1.701549513e+09 ]
[
下一页 ]