1700676780
与巴洛不同,马尔认为单个神经元的活动不足以解释环路是如何发挥其功能的,也无法解释感知是如何运作的。他曾用一种略带讽刺的口吻来为自己的新方法辩护:
1700676781
1700676782
试图仅仅通过研究神经元来理解感知,就像试图仅仅通过研究羽毛来理解鸟类的飞行一样:根本就不可能。要研究鸟类是如何飞行的,我们必须先了解空气动力学,只有这样,羽毛的结构和鸟类翅膀的不同形状才变得有意义。[21][22]
1700676783
1700676784
要理解某个特定的功能在脑(或计算机)中是如何执行的,马尔的方法是分三步走。首先,待解决的问题必须以遵循逻辑的方式加以陈述,这样的理论方法限定了如何通过实验来探索问题或者对问题进行建模。其次,必须确定系统输入和输出的表征方式,还需要确定将系统从一种状态转换到另一种状态的算法的描述。最后,必须解释第二层在物理上(在脑活动这个问题上,就是在神经系统中)是如何实现的。马尔的观点是,在创造一个可以看见东西的网络(无论是一台机器还是一个脑)这个问题上,面临的约束条件在所有情况下基本上都是一样的,因此应该可以使用类似的算法,即使这些算法在生物体中与在计算机中的运行方式可能大为不同。他认为,通过解决机器的视觉问题,我们可以更好地理解我们脑中的视觉。
1700676785
1700676786
在脑如何识别简单物体(比如一条边)这个问题上,马尔的想法是以休伯尔和维泽尔的发现为基础的。但与“群魔”和感知机不同,他的方法引入了更丰富的计算方案,而不只是一个把线段的各个点叠加在一起,然后与模板对比的层级结构。正如马尔1976年在冷泉港的一次会议上所说的那样,“这个轮廓不是被探测到的,而是被构建出来的”。[23] 这种观点可以追溯到赫尔姆霍兹,它强调了脑并非只是一个接收感官信息的被动观察者。感知还涉及对这些刺激的组合和解释。这种方法对于任何视觉模型来说都是不可或缺的,因为如果机器(或者视网膜)只是在图像的每一个点上识别光度值,那么什么也不会发生。这些是照相机做的事情,而照相机是无法看见东西的。
1700676787
1700676788
虽然有这些深刻的见解,但马尔的机器方法并没有改变我们对机器视觉的理解,也没有改变我们对脑如何看东西的理解。就我们目前对视觉皮层中具体过程的理解而言,同样的算法还没有在生物体和计算机中被发现。[24] 同样麻烦的是,马尔用来理解视觉的方法无法被扩展到脑功能的其他领域去使用。
1700676789
1700676790
尽管我们在计算机面部识别和其他人工场景分析方法上已经取得了巨大的进步,但机器视觉仍然远远落后于我们脑中的视觉。同样地,我们对“看见”东西时究竟发生了什么仍然知之甚少。每个人都同意,在我们的脑中一定有某种对场景的符号表征,但没有人太清楚这究竟是如何发生的。在《视觉》出版30周年之际,马尔的学生肯特·史蒂文斯回顾了马尔的贡献并得出结论说,虽然符号表征在视觉中的重要性毋庸置疑,但“我们仍然无法完全理解符号系统在生物视觉中的地位”。[25]
1700676791
1700676792
在这个问题上,对猴子脑中面部识别细胞的研究或许已经能为我们提供一些见解。2017年,加州理工学院的两名研究者常乐和曹颖向猕猴展示了一系列面孔,并研究了猴子脑中一系列细胞的单细胞反应。[26] 这些细胞总共能识别面部50个维度的信息(眼间距和发际线等),但每个面部识别细胞只对其中一个维度感兴趣。为了说明这些信息是如何结合起来并准确地表征整个面部的,常乐和曹颖记录了200个这类细胞对一系列照片的反应,然后用计算机根据这些神经元的电活动就精确地重建出了原始的图像。有趣的是,他们并没有发现猕猴脑中存在“詹妮弗·安妮斯顿细胞”的证据,或者用他们的话来说,“不存在负责识别特定个体身份的探测细胞”。但另一个研究小组的一项研究表明,猴子的颞叶中似乎有一个区域参与了识别“脸熟”的猴子的面孔的过程。[27]
1700676793
1700676794
曹颖推特的个人简介很简短:“皮层几何学家”。曹颖猜测,她所揭示的面孔检测过程中的特征提取可能是一个发生在视觉皮层的通用过程——“我们认为,整个下颞叶皮层可能使用了相同的方式来把各个连接的区域组织成网络,并且在所有类型的对象识别中使用了相同的编码方式。”[28] 她目前试图解决的问题是理解视错觉(比如著名的花瓶/人脸错觉)的神经基础。正如她指出的那样,在10年前,没有人知道该从哪里下手研究这个问题。但现在我们知道了。
1700676795
1700676796
至于人类是如何识别面孔的——包括我们祖母的脸——我们似乎很可能像猕猴那样,脑中存在某种分散式分布的面孔识别网络。[29] 你脑中的这种算法不同于手机的人脸识别算法或者安保系统筛选犯罪嫌疑人照片的算法,后者完全是为了辨识某些特征定制的,依赖于眼间距、脸形等生物计量特征。生物视觉中的面孔识别要复杂和抽象得多,而且最终是以休伯尔和维泽尔发现的各种元素(线条、斑点等等),而不是以面部每个细节的解剖结构以及彼此之间的关系为基础的。这些元素以某种方式被组织成了一个复杂的层级系统(就像马尔想象的那样),而且这个系统同样适用于环境中的其他特征,而不仅仅是面孔。
1700676797
1700676798
在哈佛大学最近一项结果令人不安但又让人惊叹的研究中,研究人员在猴子身上融合使用了计算和电生理的方法,研究结果揭示了这些层级细胞可能对什么刺激感兴趣。这些科学家把图像投射到屏幕上,并记录清醒猴子的下颞叶皮层的单个细胞的活动。[30] 这倒没什么稀奇的。但这些图像并不是静态的,而是合成的,在不断变化和流动。图像是由一种名为XDREAM的算法“进化”出来的,这种算法会不断调整刺激,以获得细胞最大程度的反应。这种方法并非原创,神经科学家查尔斯·康纳(Charles Connor)和同事在10年前就曾使用过,但这项新研究得出了令人毛骨悚然的结果。在经过一百多次迭代后,图像从一片灰白色的平板“进化”成了梦境一般的超现实主义影像:猴子面部的各个部分被扭曲杂糅到了一起,这里可以辨认出来是眼睛,那里是无形且模糊的身体的某个部分,不同部位的朝向也各不相同。
1700676799
1700676800
这表明在猴脑中,这些细胞真正感兴趣的是这类奇怪的图像,而不是肖像。如果在有“詹妮弗·安妮斯顿细胞”的人的脑中也会出现类似的现象,那就意味着这些细胞其实并没有被设定成对任何照片上的影像做出反应——细胞之所以会有反应,仅仅是因为照片跟细胞真正响应的影像非常相似。与此同时,麻省理工学院的研究人员也发表了类似的结果,不过结果不像哈佛大学科学家的结果那么离奇。他们在猴子视觉皮层中一个与面孔识别无关的区域的细胞上开展了相同的实验。[31] 研究发现,这些细胞似乎只会被某些带有一定生物特征的奇怪的几何图像激活,这些图像就像人在出现严重偏头痛时产生的那类幻象。
1700676801
1700676802
1700676803
1700676804
1700676805
XDREAM算法合成的图像,每一幅都能最大化地诱发猴脑视觉皮层中某个特定细胞的反应。这些图看起来是这样的
1700676806
1700676807
上述发现很容易诱使我们想象,这些奇怪的混合形状才是一只猴子看着另一只猴子时实际上看到的东西。但是请记住,有数百万个细胞参与了对面孔的感知,而且最重要的是,脑中并没有什么微型小猴在审视这些单个细胞的输出。以某种方式产生感知的是整个系统,不是某个细胞,甚至不是一小群细胞。
1700676808
1700676809
最近,在小鼠上开展的研究为理解视觉感知的神经基础提供了一条有力的途径。2019年夏天,利用一种复杂的光遗传学技术,哥伦比亚大学拉斐尔·尤斯特的研究小组和斯坦福大学卡尔·戴瑟罗斯的研究小组在相隔几周的时间里先后发表论文,证明可以重现小鼠在视觉感知过程中脑的活动模式。[32] 在这两项研究中,小鼠都事先经过训练,当它们看到一种条纹图案时就会舔水。研究人员发现,如果用光遗传学方法激活这些模式,即使没有视觉刺激,小鼠也会舔水。两个小组使用了略微不同的技术:戴瑟罗斯的小组精确地刺激了十几个神经元,使其产生相应的活动模式;尤斯特的小组则专注于两个连接紧密的神经元,这两个神经元能够激活脑视觉系统中的一组神经元,从而产生相应的活动模式。尽管这些研究令人印象深刻,但我们仍然无法据此认定这些活动模式就是小鼠的视觉感知,或者就是视觉感知发生——通过其他神经元组合的活动—的必要先决条件。虽然计算科学家和神经生物学家已经付出了数十年的努力,对于当我们看见东西时究竟发生了什么这个问题,我们的理解仍然很模糊。
1700676810
1700676811
1700676812
1700676813
1700676814
20世纪80年代中期,神经科学家和心理学家对能够克服“群魔”和感知机局限性的新的计算方法产生了浓厚的兴趣。这种新方法被称为并行分布式处理(parallel distributed processing,简称PDP),最早出现在一部两卷本的书中。这部著作描述了行为的新型计算机模型以及这些模型在心理学和神经生物学中可能的对应物。[33] 令人惊讶的是,这样一本学术专著竟然售出了超过5万册,并且产生了极大的影响力。[34] 这种方法的发展源自许多人的共同努力,这些研究者包括大卫·鲁姆哈特(David Rumelhart)、詹姆斯·麦克莱兰德(James McClelland),以及目前谷歌的一位资深研究者杰弗里·辛顿(Geoffrey Hinton)[35] ,弗朗西斯·克里克也曾有过贡献。这种方法直接催生了神经网络和深度学习,后者彻底改变了计算神经生物学和人工智能,并经常产生能够登上媒体头条的研究结果。
1700676815
1700676816
各类PDP网络中都有三层继承自感知机的基本结构。其中两层是输入层,在某些特征触发某个给定单元时就会做出响应。另一层是输出层,在前两层完成其工作后会通知外界。神奇之处在于中间层(通常称为隐藏层),它使用各种各样的互联系统以及遵循赫布法则的算法:同时被激活的连接随后会更受青睐。
1700676817
1700676818
这些程序模仿行为的能力在科学界引起了极大的反响,弗朗西斯·克里克将这种感觉称为“令人陶醉”。[36] 克里克曾经也是催生这本突破性著作的PDP小组的一员,不过他后来将自己的角色描述为“一个边缘人,或者可能是一个讨人厌的人”。[37] 对这些研究无比熟悉并没有阻止他最早分享这种喜悦。泰瑞·谢诺夫斯基(Terry Sejnowski)和查理·罗森博格(Charlie Rosenberg)编写的一个名为“网语”(NETtalk)的程序给克里克留下了特别深刻的印象,这个程序能够学习正确地读出英语文字的发音,克里克认为这个结果“非常了不起”。然而,当遇到一段特点新颖的文本时,这个程序就无法正常工作了——它并不是在明确地学习英语发音的规则(就这些规则存在的程度而言)。[38]
1700676819
1700676820
PDP网络能够如此有效地执行任务,这在很大程度上是由于使用了所谓的反向传播(back propagation)算法:信息以一种反馈循环的形式在各层之间双向传递。这使程序能够改进其行为,快速实现准确的输出。军方和学术界的资助者很快就对这种方法的前景感到兴奋不已,随后几十年的研究成果以及计算能力的增长也使谷歌等私营企业对这一课题产生了浓厚的兴趣。
1700676821
1700676822
从开始运行的那一刻起,这些程序就有了自己的生命,可能产生让人意想不到的结果。它们的表现受隐藏层中算法设置方式的影响,如果软件运行不畅后崩溃或者令人沮丧地无法正常运行(我们没怎么听到过这种例子,但肯定有很多),那么显然会导致让人失望的结果。但这些程序也能给人带来惊喜。最早的PDP程序之一是由鲁姆哈特和麦克莱兰德创建的,目的是模拟学习英语动词过去时的过程。在学习的过程中,这个程序不仅成功完成了任务,而且还错误地把它从规则动词中学习到的规则应用到了不规则动词上,就像儿童在学习时常犯的错误一样。例如,对于“go”这个动词,尽管程序一开始已经学会了其正确的过去式是“went”,但最终却会说是“goed”。[39]
1700676823
1700676824
2012年,发生了一件更不寻常的事情。谷歌创造了一个包含10亿个连接的程序,这个程序在1000台计算机上连续运行了3天,从视频网站YouTube上的视频中抓取了1000万张图片。程序没有预设模板,也没有对输出信息设置任何条件。[40] 然而随着时间的推移,这个程序中产生了一个能对猫的面孔做出反应的单元。这个单元称得上是一个能对虚拟的猫做出反应的虚拟“祖母细胞”。这并不是这项研究预期的结果——这个程序并没有被设定成去刻意地找猫,却发现了一张猫的照片而且兴奋起来了。这些图像是以一维数据流的形式呈现给程序的,程序仅仅是学习识别它在训练数据集中经常遇到的数据序列。因此是猫脱颖而出了。这些数据序列对应于猫脸的组成部分——眼睛、三角形的耳朵等等。这些都在视频中反复出现。对这个非同凡响的结果,我需要发表一些看法。在我这种外行人看来,程序所探测出的猫的样子并不明显(参见这篇论文的图6)[41] ,而且当用一组新的图片检测这个程序时,程序正确识别出猫的概率只有16%(比以前的结果有了很大的提高,但仍然很一般)。
1700676825
1700676826
这个程序使用了这个领域当下最前沿的技术——深度学习网络。计算机技术领域许多非凡突破的背后都有它的影子。在我还是学生的时候,这些突破涉及的任务被认为是机器不可能完成的——人脸识别、场景分析、无人驾驶汽车、自然语言识别、翻译、下国际象棋或围棋等等。深度学习系统擅长识别海量数据集中的内容,特别是那些关于自然事物的内容,比如猫。近年来,由于引入了一种有记忆能力的模块——显然借鉴了脑的组织方式——这种网络拥有了更强大的能力。这种模块叫作长短期记忆(long short-term memory),最早提出于1997年。它极大地提高了深度学习的速度和效率,使机器能够以一种真正了不起的方式提取信息。[42]
1700676827
1700676828
2018年,伦敦大学学院和谷歌的研究人员使用深度学习和长短期记忆[43] 的方法来追踪一只虚拟大鼠在一个虚拟空间中的位置。他们惊讶地发现,随着程序的运行,虚拟大鼠的脑中出现了自发的六边形活动模式,这与真实大鼠的海马中为位置细胞提供支持的网格细胞的活动模式颇为相似。更令人印象深刻的是,在一个虚拟迷宫中,这只虚拟大鼠还会使用这些虚拟细胞的输出来导航,包括走捷径。根据论文作者的说法,“这让人联想到了哺乳动物走捷径的行为”。[44]
1700676829
[
上一页 ]
[ :1.70067678e+09 ]
[
下一页 ]