1701549500
1701549501
我想让您相信,我们的心智充满生机,不是因为一些神秘缥缈的气体或是全能的本原。心智就像阿波罗号航天器一样,是被设计用来解决许多工程问题的产物,因而心智配备了许多高科技系统,而每个系统都是为了解决自身面对的问题。我首先列出这些问题,这些问题既包括机器人的设计规格,也涉及心理学范畴。因为我相信,由认知科学和人工智能学科所发现的、我们自身心智活动所解决的技术难题是科学的伟大发现之一,这一进展足以媲美当初我们发现宇宙是由数以亿计的星系所组成的,或者池塘里的一滴水富含大量的微生物。
1701549502
1701549504
机器人难题:不简单的“看”和“走”
1701549505
1701549506
制造机器人需要什么?我们暂且不考虑计算行星轨道的超计算能力,先说些人类的简单能力:视物、行走、抓握、思考有关人与事的问题或计划如何行动。
1701549507
1701549508
在电影中我们经常看到通过机器人眼睛所呈现的场景,这是通过电影制作的常用技术,导演使用鱼眼镜头带来失真效果,或者镜头当中出现十字准心来实现这一目的。这对我们观众来说不影响什么,因为我们已经有了功能齐备的眼睛和大脑。但对于了解机器人的内部构造,毫无帮助。机器人里面并没有住着“小人”,时刻盯着图片,告诉机器人看到了什么。如果你真能通过机器人的眼睛看世界,那么你将不会看到带有十字准心的电影画面,而是看到图1-1呈现的图案。
1701549509
1701549510
这个视图由数百万个小区域组成,每个数字就代表一个小区域的亮度。小数表示颜色较暗的区域,大数表示颜色较亮的区域。图1-1显示的数字源自瞄准一只手的电子照相机产生的真实信号,当然也可以理解为某人盯着一只手时,从他眼睛到大脑的一些神经纤维的激活率。无论是机器人的大脑,还是人脑,要想识别出物体并且在移动中不撞上去,它必须理解这些数字,猜出世界上哪种东西反射的光会形成这样的影像。这个问题看似简单,其实很难。
1701549511
1701549512
首先,视觉系统必须确定物体边缘的位置,识别出哪里是背景。但世界不像一本彩色的书一样,有着黑色的轮廓和实心颜色的区域。映射到我们眼中的世界是一个由许多小阴影碎片组成的镶嵌图案。也许有人会猜测,视觉脑在寻找大数区域(较亮的区域)与小数区域(较暗的区域)相接的地方。你可以在图1-1中找到这一边界,它就在从顶端右侧到底端中部的斜线上。但不幸的是,大多数时候你找不到物体的边缘,那里只是空白。大数和小数的并列可能是由于许多独特的安排造成的。图1-2中的左图是心理学家帕瓦·辛哈(Pawan Sinha)和爱德华·埃德尔森(Edward Adelson)设计的,它看上去好像是由浅灰和深灰的方砖组成的一道环。
1701549513
1701549514
1701549515
1701549516
1701549517
图1-1 机器人“看到”的世界
1701549518
1701549519
事实上,这图只是一张黑色的纸,中间挖了一个环形的洞,让我们透过它得以窥见它背后的景致。在图1-2中的右图,黑色的纸被移除,你会看到,每一对挨着的灰色方块实际上代表物体不同的摆放方式。
1701549520
1701549521
1701549522
1701549523
1701549524
图1-2 覆盖与还原
1701549525
1701549526
大数挨着小数,可能是由于一个物体立在另一个物体的前面,或深颜色纸放在浅颜色纸的上面,或表面涂有两种灰度的阴影,或两个物体紧紧挨着,或白纸上放着灰色玻璃纸,或两面墙相交的内角或外角,或是一个阴影。大脑总得想办法解决这个鸡—蛋难题:根据视网膜的小区域识别出三维物体,通过判断每一片区域是什么东西的一部分,进而区分开每一个小区域是什么(阴影还是涂色,褶皱还是覆盖,透明还是不透明)。
1701549527
1701549528
然而,困难才刚刚开始。在我们知道了如何将由视觉所感受到的世界切割成一个个物体后,我们还需要知道物体是由什么做的,比方说,是雪还是煤。乍一看,问题似乎很简单。如果大数来自亮的区域,小数来自暗的区域,那么大数就等于白色,也就是等于雪,小数就等于黑色,也就是等于煤。对吗?错。照到一小片视网膜上光的数量不仅取决于物体灰或黑的程度,而且取决于照亮物体的光的明亮或微弱程度。摄影师的曝光表会告诉你,屋外一团煤反射的光要比屋内一团雪反射得更多。这就是为什么人们常常会对他们拍出的照片颇感失望,为什么摄影是如此复杂的一门工艺。照相机不会撒谎,它自己的设备决定了,拍出的外景如奶白,内景像泥巴。摄影师(有时照相机中的微芯片也可以)精心处理胶片才得出一幅逼真的图像,他们用到的技巧包括:调整快门时间控制、镜头光圈、拍摄速度、闪光灯以及暗室操纵。
1701549529
1701549530
我们视觉系统的设计要好得多。它设法让我们将室外明亮的煤块看成黑色,把屋内昏暗的雪看成白色。这是个令人愉快的结果,因为这样,我们意识中对颜色和亮度的感觉就可以与世界原本的状况相一致,而不是和世界呈现到我们眼睛中的镜像相一致。不管在室内室外,雪球都是软的、湿的、随时可能会融化的;不管在室内室外,我们也都把它看作是白色的。煤块则总是硬的、脏的,可以燃烧的,我们也总把它看成是黑色的。世界呈现的模样和它实际情况之间的和谐必定是我们神经系统的杰作,因为黑白二色在视网膜上并不是那么简单鲜明。假使你还有怀疑,这里有一个日常生活中的例证。传统CRT电视机关闭时,屏幕上是淡淡的灰绿色。当打开以后,一些磷光点开始发光,显示为图像中明亮的区域。但其他的点则并不是吸收光而呈现为暗的区域,它们只是保持灰色不变。你所看到的黑色区域事实上只是电视机关闭时显像管的灰色阴影。这种黑色是一种虚拟,它是人脑回路的产物,同样的原理也使你能够把煤看作煤。制造电视机的工程师们在设计屏幕时不过是利用了这个回路。
1701549531
1701549532
下一个问题是,如何立体地视物。我们的眼睛将三维世界转化为二维的视网膜图像,第三维则必须由人脑来重新构建。但是,视网膜的小碎片上没有提示标志,没法告诉你每个面相距多远。你手心的一枚邮票可以和屋子对面的一把椅子或几公里外的一栋楼一样,在视网膜上映射出同样大小的一个方块(见图1-3上图)。从正面看一张切割板,随倾斜度不同,同一张板被看成各种不同的不规则四边形(见图1-3下图)。
1701549533
1701549534
1701549535
1701549536
1701549537
图1-3 视网膜成像特点
1701549538
1701549539
要想感受这种几何现象的作用,以及处理这种现象的神经机制的运作,你可以盯着一个灯泡持续几秒钟或者在闪光灯闪烁时看着照相机,这会令你的视网膜上暂时出现一小块儿白色。如果这时你去看一页书,余像会附在上面,看上去有几厘米那么大。如果你看着墙,余像会有几十厘米那么大。如果你看天空,它会有云彩那么大。
1701549540
1701549541
最后的问题是,视觉模块如何认出外界的物体。机器人由此可以给物体起名,或者了解物体可做什么用。最直接的方法是,为每个物体仿照其形状制作一个模板或者切块。当物体出现时,它在视网膜上的映像会和自己的模板相吻合,就像壶盖对壶口一样。模板将会以形状的名字作为标签。例如,在图1-4中是“字母P”。每当与形状符合时,模板便读出其名字。
1701549542
1701549543
1701549544
1701549545
1701549546
图1-4
1701549547
1701549548
遗憾的是,这种简单的机制可能会有两种失效情况。不是P时,它可能会错认为P。例如,图1-5第一个方块中的R被错认为P。有P的情况下,它还可能认不出P。例如,当字母移动位置、倾斜、歪斜、太远、太近或太别出心裁时,这种机制就认不出P了,如图1-5剩下几个方块中的情况。
1701549549
[
上一页 ]
[ :1.7015495e+09 ]
[
下一页 ]