打字猴:1.700519997e+09
1700519997 心智社会:从细胞到人工智能,人类思维的优雅解读 [:1700518439]
1700519998 心智社会:从细胞到人工智能,人类思维的优雅解读 7.6 强化与奖励
1700519999
1700520000 要想达到学习的目的,每次玩游戏的时候都必须产生多得多的信息。这可以通过把问题拆分成若干部分来实现。成功的单元就是目标。如果目标实现,它的子目标就得到了强化;如果没实现,就受到抑制。
1700520001
1700520002 ——艾伦·纽厄尔
1700520003
1700520004 有一件事可以确定:做以前我们做过的事总是会比较容易一些。我们的思维中发生了什么才会这样呢?有这样一种设想:在解决问题的过程中,特定的智能体一定是唤醒了某些特定的其他智能体。如果智能体A的工作是唤醒智能体B,那么让A唤醒B更容易或者让A唤醒其他智能体更困难,在这里就是一种“奖励”。我有一段时间特别痴迷这个理念,所以设计了一台称为Snarc机器,它就是根据这个原则进行学习的。它由40个智能体组成,每个智能体都通过一个“奖励系统”和若干个其他智能体相连,数量随机。这个奖励系统会在每次完成任务时激活,它可以让每个智能体以后更有可能去唤醒它们的接收对象。
1700520005
1700520006 我们向这台机器呈现的问题类似这样:学习在迷宫中找到一条路径,同时还要躲避充满敌意的追捕者。它很快就学会了解决简单的问题,但从来没有学会解决困难的问题,比如建塔或者下棋。很明显,要解决复杂的问题,任何一台尺寸有限的机器都必须能在不同的环境中用不同的方式来重新利用它的智能体,比如“看见”必须同时参与到两个任务中去。但是Snarc试图学习在一个复杂的迷宫中找到路径的时候,一个典型的智能体可能会在某一时刻建议朝一个不错的方向移动,然后又在另一时刻建议朝一个较差的方向走。之后,当我们因为它做了我们喜欢的事而奖励它时,两种决策的可能性都增加了,而且那些好的方向和差的方向都倾向于抵消对方!
1700520007
1700520008 在设计通过“强化”两个智能体之间的联结而进行学习的机器时,上述问题就制造了一个两难困境。在解决难题的过程中,人们通常都会先尝试一些错的方向,然后才能找到正确的道路,实际上这也正是我们将其称为“难”题的原因。为了避免学习那些错误的步骤,我们可以设计一台机器,只强化快要成功之前的最后几步。但这种机器只能学会解决那些只需要几步就能解决的问题。或者我们也可以把奖励设计成在更宽泛的时间范围内起作用,但这样的话,不仅会同时奖励好的和不好的决策,而且会抹杀之前学会的其他事。通过不加区分地强化智能体之间的联结,我们是无法学会解决难题的。对于需要许多步骤的问题或者需要同样的智能组完成不同工作的问题,为什么在所有动物中,只有那些有强大头脑的人类近亲才能学会解决呢?我们要在智能组完成目标时所采用的策略中寻找答案。
1700520009
1700520010 你可能会提出海狸要通过许多步骤才能建堤坝,一群白蚁在建造复杂的巢穴城堡时也是如此。但是这些奇妙的动物并不是靠个体学习到这些成就的,它们只是遵循一些经历了几百万年已经刻入它们基因的程序。你无法训练一只海狸去建造白蚁的巢穴,或者教授白蚁建堤坝的方法。
1700520011
1700520012
1700520013
1700520014
1700520015 心智社会:从细胞到人工智能,人类思维的优雅解读 [:1700518440]
1700520016 心智社会:从细胞到人工智能,人类思维的优雅解读 7.7 本地责任
1700520017
1700520018 设想一家批发商店的老板爱丽丝要求她的经理比尔增加销售额,比尔指导他的销售员查尔斯多卖一些收音机,查尔斯弄到了一个可以获利的大单,但是之后公司因为供应紧缺无法交付这些收音机。应该责怪谁呢?爱丽丝有理由惩罚比尔,因为他的工作是确认存货。问题是,查尔斯应该得到奖励吗?从爱丽丝的角度来看,查尔斯的行为让公司蒙羞了。但是从比尔的角度,查尔斯成功地完成了他的销售任务,而且这件事导致他主管的目标没能完成也并不是查尔斯的错。我们可以从两个方面来看这个例子,我们称为“本地奖励”和“全球奖励”。
1700520019
1700520020 本地(local) 方案会奖励每个有助于完成主管目标的智能体。所以比尔会奖励查尔斯,尽管查尔斯的行动没能助力实现更高层级的目标。
1700520021
1700520022 全球(global) 方案只有在智能体有助于完成最高目标时才给予奖励。所以查尔斯没有得到任何奖励。
1700520023
1700520024 发明一台机器体现本地学习方案是很容易的,因为每项任务所获得的奖励只取决于这个智能体与其主管之间的关系。要实施一个全球学习方案就比较困难一些,因为这要求机器找出哪些智能体通过不间断地完成子目标,自始至终都与原始目标保持联系。本地方案对查尔斯比较慷慨,只要他完成了让他去做的事就会得到奖励。全球方案就比较吝啬。虽然查尔斯是按照上级的要求去做的,但除非他的行动同样有助于完成高层级的事业,否则就没有任何功劳。在这样的方案中,智能体往往无法从过去的经验中学到任何东西。也因此,全球方案的学习过程会更慢一些。
1700520025
1700520026 两种方案有不同的优势。当发生错误会非常危险或系统时间充裕的时候,使用谨慎的全球方案比较合适。这样会产生更多的“负责”行为,因为它会让查尔斯在一定时间后学会自己检查存货,而不是像奴隶一样遵守比尔的命令。如果出现了错误行动,全球方案不会因为“我只是在遵守主管的命令”而给予谅解。另一方面,本地方案可以一次学到更多不同的东西,因为一个智能体可以不断证明自己达成本地目标的能力,不论它们与思维其他部分的关系如何。当然,我们的智能组有若干个这样的选项。不同的时刻,要采用哪个选项,取决于其他智能组的状态,那些智能组的工作就是向自己学习,要使用哪种学习策略取决于环境。
1700520027
1700520028 全球方案不仅要求以某种方式区分哪些智能体的行动帮助解决了问题,还要区分哪些智能体帮助解决了哪些子问题。举例而言,在建塔的过程中,你可能会发现推开某块积木为另一块积木腾出空间很有用。于是你想要记住推开行为有助于建塔,但是如果要以此得出结论,认为一般情况下推开就是一个有用的动作,那你就再也建不成另一座塔了。我们要解决一个困难的问题时,只说某个特定的智能体所做的事对整个事业“有益”还是“无益”是不够的。在某种程度上,人们必须根据本地的环境来判断是好是坏,也就是说,要根据每个智能体所做的工作是如何帮助或阻碍其他相关智能体的工作来判断。奖励一个智能体要产生的效果,应该是让这个智能体的反应在不太妨碍其他更重要的目标的同时,有助于完成某些具体的目标。所有这些都是简单的常识,但是为了更进一步研究,必须澄清我们的语言。我们都经历过追求目标,但经验和理解不是一回事。什么是目标?机器如何获得目标?
1700520029
1700520030
1700520031
1700520032
1700520033 心智社会:从细胞到人工智能,人类思维的优雅解读 [:1700518441]
1700520034 心智社会:从细胞到人工智能,人类思维的优雅解读 7.8 差异发动机
1700520035
1700520036 谈起“目标”,我们总是向这个词中混入上千种意思。每当我们试图改变自我或外部世界的时候,目标就和所有参与其中的未知智能组联系在一起。如果“目标”关系到这么多事,为什么只用这单独一个词来表示呢?当我们认为某些人有目标的时候,通常会期望下面的内容:
1700520037
1700520038 “目标-驱动”系统似乎不会对它所遇到的刺激或情境做直接反应。它会把发现的事物当作物体来利用、避开或忽略,就好像它关注的是其他并不存在的东西。如果任何一项干扰或障碍使得受目标引导的系统从它的轨道上偏离,这个系统似乎会试图移除干扰,绕过它或者把它转变成有利的条件。
1700520039
1700520040 机器中的哪类程序会让人觉得它们拥有带有目的性、坚持性和直接性的目标呢?确实有一种特定的机器看起来拥有这些性质,它是根据以下原则制造的,这些原则是在20世纪50年代末由艾伦·纽厄尔、C.J.肖、赫伯特A.西蒙首先进行研究的。起初,这些系统被称为一般问题解决者,但我就简单地把它们叫作差异发动机好了。
1700520041
1700520042 差异发动机必须包含一个关于“想要的”情境的描述。
1700520043
1700520044 它必须拥有一些次级智能体,想要的情境和实际的情境之间出现的各种差异都可以唤醒这些智能体。
1700520045
1700520046 每个次级智能体都要用某种方式消除那些唤醒了它们的差异。
[ 上一页 ]  [ :1.700519997e+09 ]  [ 下一页 ]