打字猴:1.701550358e+09
1701550358 第二个卖点被称为“优雅地降解”,有助于处理嘈杂的输入或硬件失灵。当输入打印命令pritn file(打印文档)时,计算机回复为信息错误pritn:command not found(pritn:未找到命令)(print拼错为pritn),谁能忍得住不把鞋扔到电脑屏幕上?在伍迪·艾伦的《拿了钱就跑》(Take the Money and Run)中,银行抢劫犯维吉尔·斯塔科维尔由于他的书写而抢劫未遂,因为出纳员问他为什么写下他在拿着一支gub指着她。在那个装点了很多认知心理学家办公室大门的加里·拉尔森卡通片中,一个飞行员正飞临搁浅在一个沙漠孤岛上的一艘遇害难船,他读到画在沙地上的讯息,然后对着步话机大声喊:“等等!等等!……取消行动,我想它写的是‘HELF’。”在现实生活中我们干得要好得多,可能是因为我们装有自动协关器,使用了占优势的相互一致的信息来压倒一个不寻常的信息。“Pritn”会激活更为熟悉的“print”模式,“gub”会倾向于“gun”,“HELF”到“HELP”。类似地,一台计算机如果磁盘中有一个坏比特,一个插槽中有一点腐蚀,或者电源供应中滴入了一滴水,都会导致死机和系统崩溃。但一个疲惫的人、宿醉的人,或是脑受损的人并不会僵掉或崩溃;通常他或她会慢一些,也不太准确,但能够做出一个有智能的回复。
1701550359
1701550360 第三种优势是自动协关器能够做一种简约版的计算,称为限制性满意。人们解决的许多问题都有鸡和蛋的特点。第一章中的一个例子是我们根据对平面角度的猜测来计算平面的光亮度,并根据对光亮度的猜测来计算平面的角度,而二者都不能提前确定。这些问题在知觉、语言和常识推理中大量存在。我是在看一个折还是在看一个边?我听到的是元音[I](就像pin中的一样)还是有着南方口音的元音[e](就像pen中的一样)?我是一次恶意行为的受害者,还是一次愚蠢行为的牺牲者?这些模糊之处有时可以通过选择与对其他模糊事件最多数量的解释相一致的解释而解决,如果它们都能被一次解决的话。例如,如果一个发音的声可以被解释为send(传递)或sinned(犯罪的),要是我们听到一个讲话者用同样的元音嘟囔出这两个词我们就能够解决这个不确定性了。我会推断说,他一定是想说send和pen,因为send a pen(传递一支钢笔)是不违反同样约束条件下唯一可能的推测。Sinned和pin会让我说成sinned a pin(犯罪的一支别针),这违反了语法规则和可理解的含义;send和pin可以通过两个元音发音相同的约束条件而摒弃;sinned和pen能够被剔除是因为它们违背了这两个约束条件。
1701550361
1701550362 如果所有的相容性都只能一次检测一个,这种推理需要花很长时间。但在一个自动协关器中,它们都被提前编码在连接中,网络能够一次性评估所有的相容性。假设每个解释都是一个模型神经元,一个对sinned,一个对send,等等。假设那对解释一致的单位被连接到正电荷,那对解释不一致的被连接到负电荷。激活将会围绕着网络飞掠,如果一切运转正常,它会确定在一个状态,在这种状态中有最大数量相互一致的解释被激活。用一个恰当的比喻:就像是一个肥皂泡在鸡蛋形和变形虫形状之间摇摆不定,被周边邻近的分子拖拽着进到一块区域。
1701550363
1701550364 有时,一个约束网络可以有相互不一致但相等的稳定状态。这说明了这个现象整体的模糊性,即以两种方式来解释整个物体,而不是其各个部分。如果你盯着看图2-8时(称作耐克尔立方),你的知觉会在顶面的俯视感和底面的仰视感之间不停转换。当整体转换发生的时候,对各个局部的解释也被拖着进行转换。每个近边成为远边,每个凸角成为凹角,等等。反之亦然,如果你试着将一个凸角看作凹的,你有时能够促使将对整个立方体的感觉翻转过来。这种动态可以用一个网络来表示(见图2-8下),图中单位代表着局部的解释,三维物体中一致的彼此相互激活,不一致的相互抑制。
1701550365
1701550366 第四种优点来自网络自动归纳概括的能力。如果将字母监测器(将一堆输入单位汇集到决策单位)连接到字母打印器(有一个意图单位散开到一堆输出单位中),我们就制造了一个简单的读写或查询“小幽灵(后台程序)”——例如,一个打印出C来回应输入B的机器。但如果你略过中间人,直接将输入单位连接到输出单位,有趣的事情就发生了。你得到的不是一个忠诚的逐个到字母的查询“小幽灵(后台程序)”,而是一个能够做一些查询归纳的机器(见图2-9)。这种网络被称为一个模式协关器(pattem associator)。
1701550367
1701550368
1701550369
1701550370
1701550371 图2-8
1701550372
1701550373 假设底端的输入单位代表动物的外表:“长毛发的”、“四足的”、“长羽毛的”、“绿的”、“长脖子的”,等等。有了足够的单位,就能通过开启每个动物独特的那组特征的单位来代表它们。开启“长羽毛的”单位,关闭“长毛发的”单位等,就代表了鹦鹉。现在假设顶端的输出单位代表动物学事实,一个代表动物食草,另一个代表动物是温血的,等等。没有单位代表某个特定的动物(也就是说,没有“鹦鹉”单位),但权重自动地代表了动物类别在统计上的知识。它们隐含了这样的知识:长羽毛的动物倾向于是温血的,长毛发的倾向于是年轻的,等等。任何储存在对一个动物的连接中的事实(鹦鹉是温血的)自动地转移到类似的动物(虎皮鹦鹉是温血的),因为网络根本不在乎连接从属于任何一个动物。网络只是说哪些可见的特征可以推测出哪些可见的特征,而略去了关于动物种类共同的表像(见图2-9)。
1701550374
1701550375
1701550376
1701550377
1701550378 图2-9
1701550379
1701550380 从概念上讲,模式协关器的原理就是,如果两个物体在某些方式上相似,那么它们很可能在其他方式上也相似。从物理上讲,相似的物体是由一些完全相同的单位所表征的,所以任何与一个单位的物体相连接的信息事实上就会与其他物体的许多单位相连接。此外,不同程度的包容级别被添加到相同的网络中,因为任何几个单位的小集合都隐含地界定了一个级别。单位越少,级别越大。比如说有对于“移动”“呼吸”“长毛发”“吠叫”“咬”和“见到消防栓就抬腿”这样的输入单位,发散出所有这六项的连接就触发有关狗的事实。发散出前三项的连接触发了关于哺乳动物的事实。发散出前两项的触发了关于动物的事实。只要有合适的权重,为一个动物设定的知识能够既与他的直接家庭成员也与他的远亲成员共通使用。
1701550381
1701550382 神经网络的第五个秘诀是它们从例子中学习,这些学习构成了连接权重的变化。模型建立者(或进化)不需要亲手确定令输出正确所需的上千个权重。假设“老师”将一个输入连同其正确输出供给一个模式协关器,学习机制将网络的实际输出(最初是很随机的)与正确输出相比较,并调整权重为二者的差异最小化。如果网络在一个老师说应当停的输出结点停了下来,我们就想让当前激活输入的汇集更可能在今后也把它开启。所以激活输入对于这个输出的权重就会略微提高。此外,这个输出结点本身的域限也略微地降低了,这样可以让整体都更能感受到这种触发-愉悦。如果网络开启了一个输出结点,老师却说应当关闭,相反的情况就会发生:当前激活的输入线权重会略为下调(有可能将原来超过零的权重调至负值),目标结点的域限则有所上升。这些都使得这个极度活跃的输出结点在今后对应那些输入时更可能关闭。整个系列的输入和它们的输出都呈交到网络,不断往复,导致一浪接一浪的连接权重微调,直到使得每个输入有了正确的输出,至少是尽可能正确的输出。
1701550383
1701550384 具有这种学习技术的模式协关器被称为一个感知器。感知器很有意思,但有一个很大的缺陷。它们就像来自地狱的厨师一样,认为每种成分要是有一点不错,许多所有成分就一定会更好。在决定一组输入是否合理地解释了一个输出的开启时,感知器给予了它们更多的权重并把它们累加起来。这往往会给出错误答案,即使是对于非常简单的问题。这个缺陷的一个教科书例子是感知器对于一个称为“异或”的简单逻辑操作的处理,这个逻辑意为“A或者B,但不是二者都”(见图2-10)。
1701550385
1701550386
1701550387
1701550388
1701550389 图2-10
1701550390
1701550391 当A开启时,网络应该开启A异或B。当B开启时,网络应该开启A异或B。这些事实会诱使网络增加与A相连接的权重(比如说,到0.6),并增加与B相连接的权重(比如说,到0.6),令每一个都足够高可以超过输出单位的域限(比如说,0.5)。但当A和B都开启时,我们的好东西就太多了——即使当我们想让它关闭的时候,A异或B仍一路狂呼乱喊。如果我们尝试小一些的权重或者高一些的域限,当A和B都开启的时候我们可以让它保持安静,但不幸的是,那样的话,当只有A或者只有B开启的时候,它将仍旧不出声。你可以用你自己的权重实验,但你会看到什么也不会发生。“异或”只是不能从感知器中构建的一种“小幽灵(后台程序)”;其他的包括确定开启的单位数是奇数还是偶数的“小幽灵(后台程序)”,确定一串激活的单位是否对称的“小幽灵(后台程序)”,以及得出简单加法问题答案的“小幽灵(后台程序)”。
1701550392
1701550393 解决方法是使得网络更少像一个刺激-反应的生物一样,并在输入和输出层之间给它一个内部表征。它需要一个表征令关于输入的关键信息彰显出来,这样每个输出单位只需累加它的输入就能够得到正确答案。以下就是对于“异或”所能做的(见图2-11)。
1701550394
1701550395
1701550396
1701550397
1701550398 图2-11
1701550399
1701550400 输入与输出之间两个隐藏的单位计算了有用的中间产品。左边的这个计算了简单的情况“A或B”,从而激活了输出结点。右边这个计算繁复的情况“A且B”抑制了输出结点。输出结点可以只计算“(A或B)而不是(A且B)”,这对于它虚弱的力量来说也是力所能及的。要注意,即使是在用模型神经元构建最简单“小幽灵(后台程序)”的微观水平,内部表征也是必不可少的;仅仅刺激-反应的连接是不够的。
1701550401
1701550402 还有更好的,一个隐含层网络经过训练,能够运用一个更加新式的感知器学习程序来确定自己的权重。就像以前一样,老师将每个输入的正确输出都提供给网络,由网络来上下调整连接的权重,试着减少差异。但这提出了一个感知器无须担心的问题:如何将连接从输入单位调整到隐含单位。这是一个问题,因为老师又读不出心智,他无从知道封藏在网络内部的隐含单位的“正确”状态。心理学家戴维·鲁梅尔哈特(David Rumelhart)、杰欧弗瑞·欣顿(Geoffrey Hinton)和罗纳德·威廉姆斯(Ronald Williams)找到一个聪明的解决方法。输出单位对每个隐含单位反向传播了一个信号,代表着隐含单位对其所连接的所有输出单位的误差总和(“你传递了太多的激活”或者“你传递了太少的激活”,以及多多少或少多少)。这个信号可以作为代理教学信号用来调整隐含层的输入。从输入层到每个隐含层的连接都能够被上下推动,来减少隐含层在给定当前输入模式的条件下调整过量或不足的倾向。这个程序被称为“误差反向传播”,简称为“反向传播”,可以被后向迭代至无数层。
1701550403
1701550404 我们已经到达了许多心理学家看作是神经网络建模者的艺术的高度。在某种方式上,我们已经兜了一圈又回到原点,因为一个隐含层网络就像是麦卡尔洛克和匹茨对他们的神经逻辑计算机所提出的逻辑门的任意路线图。概念上讲,隐含层网络是将一组或对或错的命题组合成一个由多个“和”“或”及“非”连接在一起的复杂逻辑函数的一种方式,这种组合是通过两个扭转而成的。其一为值可以是连续的而不是或开启或关闭,所以它们可以表征一些陈述的正确程度或真实的概率,而不是只能处理完全对或完全错的陈述。第二个扭转是网络在许多情况下能够被训练得通过提供输入和它们正确的输出而采用适当的权重。位于这两个扭转上面的是一种态度:从脑中神经元之间的许多连接获得启发,并对构成网络的门和连接数目的天文数字无所愧疚。这种道德观使一个人能够设计出计算许多概率的网络,因而也是利用了外部世界特征之间的统计冗余性的网络。而这反过来又使得神经网络能够从一个输入概括到类似的输入而无须更多训练,只要这个问题是类似的输入产生类似的输出。
1701550405
1701550406 这几个观点是关于我们最小的“小幽灵(后台程序)”及其公告板作为模糊的神经机器如何运作的。这些观点起到一个桥梁的作用,到现在这桥还有点摇晃,它们的解释之路始于概念领域(祖母的直觉心理学以及它背后的各种知识、逻辑和概率理论),延续到规则和表征,最终抵达真实的神经元。神经网络还带来了一些令人愉快的惊喜。在解开心智软件时,最后我们可能会只使用蠢到足以用机器取代的“小幽灵(后台程序)”。如果我们似乎需要聪明点的“小幽灵(后台程序)”,有人就会弄明白怎样用更蠢笨的“小幽灵(后台程序)”来做出这些聪明的来。这一切都发展得太快了,而且有时发展得有所不同,比如当从下至上研究神经元的神经网络建模者能够构建一些“小幽灵(后台程序)”存货时,这些“小幽灵(后台程序)”存货可以做近便的事情,就像一个内容寻址的内存记忆,或是自动概括的模式协关器。心智软件工程师们(事实上,是逆向工程师们)有一个很好的部件目录,他们可以从中订取聪明的“小幽灵(后台程序)”。
1701550407
[ 上一页 ]  [ :1.701550358e+09 ]  [ 下一页 ]