1701551469
我们的大脑就像这个比喻中的舞台设计师一样,同样面临着由于丰富性带来的困扰。一旦我们允许一个心智“专家”假设颜料涂抹的平面,它就能够将图像中的所有东西都解释为绘画:世界看起来将会是一幅错视画的杰作。类似地,大脑里的照明专家会告诉我们,世界是一部电影。因为这些解释不大令人满意,所以心智应当设法阻止专家们那样做。一种方式是,强迫它们坚持它们的假设,是什么就呈现什么(颜色和照明是均匀的,形状是规则的和平行的),但这样太极端了。世界不总是晴朗日子里的一堆方块;有些时候它确实有复杂的颜色和照明,而且我们能看到。我们不想让专家们否认,世界可以是复杂的。我们想让它们呈现出世界中原本拥有的那么多复杂性,不多也不少。现在的问题是如何让它们去做。
1701551470
1701551471
回到那个比喻。假设舞台设计部门预算有限。专家们的服务是要收取费用的,他们用一张费用清单反映出一项要求的难易和寻常程度。简单寻常的工作是便宜的;复杂、特殊的操作是昂贵的。
1701551472
1701551473
1701551474
1701551475
1701551476
1701551477
1701551478
1701551479
我们还需要一个专家:管理人员。他来决定如何外包这项工作。
1701551480
1701551481
1701551482
1701551483
1701551484
4个解决方案的价格会不同。估算如下:
1701551485
1701551486
1701551487
1701551488
1701551489
管理人员的方案是最便宜的,因为它优化地使用了每一位专家,节省的部分弥补了管理人员的费用。这里的寓意在于,专家们必须要彼此协调合作,不一定需要一个小人来协调,但要通过安排最小化成本,尽可能地便宜和简单。在这个比喻中,简单工作容易做;在视觉系统中,较简单的描述对应于世界中较可能的安排。
1701551490
1701551491
埃德尔森和彭特兰德将这个比喻付诸实施,他们设计了一个计算机视觉仿真程序,它在很大程度上像我们那样解释涂漆的多边形景物。首先,一个形状分析器(一个软件版的金属板工人)努力还原一个最规则的形状,并复制这幅图(见图4-19)。要得到图4-19左图中的简单形状,人们把它看作是一张折叠的板,就像一本侧面拿着的书一样。
1701551492
1701551493
1701551494
1701551495
1701551496
图4-19
1701551497
1701551498
形状专家试图组装一个输入形状的三维模型,如图4-19右图所示。开始时,他所知道的只是需要将模型的角和边与图像中的点和线连在一起;他不知道它们之间距离的深度。模型的外端是杆上滑动的小珠(像投映光线一样),小珠之间的线段是具有无限弹性的带子。专家滑动小珠,直到它到达符合图4-19中右图下方需要的形状。每个构成形状的多边形应当尽可能地规则;也就是说,多边形的角度不应当有太大差异。例如,如果多边形有四条边,专家将努力做一个正方形。多边形应尽量在一个二维平面上,就好像多边形被填塞了一个很难折弯的塑料板。而且多边形应当尽量地紧密,而不是沿着视线一直伸长,就好像塑料板很难拉伸一样。
1701551499
1701551500
当形状专家完成工作后,他交给照明专家的是一个组装严丝合缝的白板。照明专家知道,反射光如何依赖于照明、平面的光亮度和平面角度的指导法则。照明专家可以移动一个远处的光源从各个方向照亮这个模型。最优的方向就是,使得每对板尽可能地交汇于一个侧面的视角,就像图4-19中左图的那样,使得操作者尽可能少地涂抹灰色颜料,即可完成工作。
1701551501
1701551502
最后,反射专家——画师——得到了模型。他是最后一个要依靠的专家,他的任务是负责处理剩余的任何图像与模型间的差异之处。他完成任务的方法是,通过在各个平面上涂抹不同阴影的颜料。
1701551503
1701551504
这个程序有用吗?埃德尔森和彭特兰德给了它一张扇折让它来研究。程序显示了它对物体形状的猜测(图4-20第一列),它对光源方向的猜测(图4-20第二列),它对阴影位置的猜测(图4-20第三列)和它对物体如何被涂色的猜测(图4-20第四列)。程序最初的猜测显示在图4-20最上面一行。
1701551505
1701551506
1701551507
1701551508
1701551509
图4-20
1701551510
1701551511
程序最初估计物体是扁平的,像一幅二维绘画一样平置在桌子上,如图4-20第一列顶端所示。很难向你描述这个,因为你的大脑坚持认为看到了一个锯齿形被折叠为具有不同深度的形状。概略图试着显示一些平置在书页上的线条。程序推测光源是从眼睛的方向正对而来(图4-20第二列的顶端)。有了这样平的光照,就没有阴影了(图4-20第三列顶端)。反射专家承担起所有的责任来复制图像,把它画了上去。程序认为它在看一幅画。
1701551512
1701551513
一旦程序有机会调整它的猜测,它调整后的解释如图4-20中间那行所示。形状专家找到了最规则的三维形状(如图4-20左列的侧视图):方板以合适的角度连接在一起。照明专家发现,从上面照光,这使得影子的效果看起来有些像图像一样。最后,反射专家涂抹些颜料对模型做些润色。图4-20中的第四列——锯齿形三维形状、从上面照光,影子在中间,亮条挨着暗条——对应着人们如何解释最初的图像。
1701551514
1701551515
程序还做了任何像人所做的一样的吗?还记得扇折的深度像一个内克尔立方体一样闪变吧。外折变成内折,内折变成外折。程序以一种方式也可以看到这种闪变;闪变的解释显示在最下面一行。程序对两种程序分配了相同的成本,随机到达了其中一种。当人们看到一个三维形状闪变时,他们通常也会看到光源的方向在闪变:顶端向外折,光来自上方;底端向外折,光来自下方。程序也是一样的。不像一个人,程序并不在两种解释之间闪变,但如果埃德尔森和彭特兰德使专家们在一个限制性网络内相互传递它们的猜测(图2-8内克尔立方体网络或是立体视觉模型),而不是像放在一条工厂生产线上一样地单方向传递下来的话,那么这个程序或许也能表现出这样的行为。
1701551516
1701551517
这个作坊的比喻阐明了这个观点:心智是一个模块集合,器官系统或是一个专家社会。专家是需要的,因为专业技能是需要的:心智的问题技术性很强,也太专业化,无法由一个“万金油”来解决。而且一名专家所需的绝大多数信息与另一名专家所需的无甚关联,而是只与他的工作相关。但一名专家独自工作,他会考虑太多的解决方法或是固执地探究一个不可能的方法;在一定程度上,专家们必须协商。许多专家在试图解释一个世界,这个世界与他们的辛苦工作是不相互作用的,既不提供容易的解决方法,也不会制造迷惑偏离轨迹。所以协调管理的主旨在于,将专家们约束到一个预算之内,使不可能的猜测更为昂贵。这就会迫使他们合作做出对世界状态最为可能的综合猜测。
1701551518
[
上一页 ]
[ :1.701551469e+09 ]
[
下一页 ]