打字猴:1.700519983e+09

1700519983 心智社会：从细胞到人工智能，人类思维的优雅解读 [:1700518438]

1700519984 心智社会：从细胞到人工智能，人类思维的优雅解读 7.5　学习与记忆

1700519985

1700519986 只有得到奖励我们才会学习，这是一个古老而盛行的理念。一些心理学家声称，人类的学习完全是以奖励的“强化”为基础的：就算训练自己不需要外部激励，我们仍然是为了奖励而学习，只不过这种奖励是来自我们内部的信号而已。但是如果一个论据的前提假设正是它要证明的内容，那么它并不可信。而且无论如何，当我们试图用这一理念来解释人们为什么学习解决困难的问题时，就会进入一个死循环。你首先必须有能力做某件事，才能因为做这件事得到奖励！

1700519987

1700519988 一个世纪前，伊万·巴甫洛夫研究条件反射的时候，这种死循环并不是什么大问题。因为在他的实验中，动物从不需要产生某些新行为，它们只需把新刺激与旧行为相联系就可以了。几十年后，哈佛心理学家B.F.斯金纳扩展了巴甫洛夫的研究，他发现更高级的动物有时确实会展示出新的行为，并将其称为“操作”。斯金纳的实验证实，如果某个特定的操作之后伴随着一个奖励的话，之后这个行为更有可能经常出现。他还发现，如果动物无法预测奖励将会在何时出现，这种学习的效果更好。斯金纳的发现被称为“操作性条件反射”或“行为调节”，这在心理学和教育学中产生了很大的影响力，但还是没能解释头脑究竟如何产生新行为。此外，这些动物实验也很少能说明人类是如何学会制订和执行复杂计划的，因为问题在于，那些动物几乎无法学会这样的事。奖励/成功和惩罚/失败，这些成对出现的理念不足以解释这一点：人类如何学会产生新的理念，让他们可以解决困难的问题。这些问题如果没有多年徒劳无益地试错是无法解决的。

1700519989

1700519990 答案一定是：学习更好的学习方法。为了讨论这些事，我们要开始使用一些普通的词汇，比如目标、奖励、学习、思考、识别、喜欢、想要、想象和记忆，所有这些词都基于古老而模糊的理念。我们会发现这里面的许多词都要用新的特性和理念来替换。但它们之间仍然有一些共性：要解决任何一个难题，我们都必须利用各种类型的记忆。在每个时刻，我们都要记录刚刚做了什么，否则可能会把同样的步骤重复一遍又一遍。此外，在某种程度上，我们还必须维持自己的目标，否则最终可能做的是无用功。最后，一旦问题得到解决，我们需要提取如何完成这件事的记录，当未来出现类似的问题就可以拿出来用。

1700519991

1700519992 本书中有很多内容都会涉及记忆，也就是对过去思维的记录。为什么、如何以及什么时候做这种记录呢？人类的头脑解决一个困难的问题时，好几百万的智能体和程序都参与其中。哪些智能体足够聪明，可以猜到那时需要做出什么改变呢？高级的智能体无法知道这种事，它们几乎不知道存在哪些低层级的程序。低层级的智能体也不知道自己的哪些行动帮助我们实现了高层级的目标，它们也几乎不知道高级目标的存在。负责移动我们腿部的智能组并不关心我们是往家走还是往工作场所走，负责目的地的智能体也完全不知道怎样控制肌肉单元。那么是思维中的哪个部分来判断哪些智能体应该表扬，哪些应该批评呢？

1700519993

1700519994

1700519995

1700519996

1700519997 心智社会：从细胞到人工智能，人类思维的优雅解读 [:1700518439]

1700519998 心智社会：从细胞到人工智能，人类思维的优雅解读 7.6　强化与奖励

1700519999

1700520000 要想达到学习的目的，每次玩游戏的时候都必须产生多得多的信息。这可以通过把问题拆分成若干部分来实现。成功的单元就是目标。如果目标实现，它的子目标就得到了强化；如果没实现，就受到抑制。

1700520001

1700520002 ——艾伦·纽厄尔

1700520003

1700520004 有一件事可以确定：做以前我们做过的事总是会比较容易一些。我们的思维中发生了什么才会这样呢？有这样一种设想：在解决问题的过程中，特定的智能体一定是唤醒了某些特定的其他智能体。如果智能体A的工作是唤醒智能体B，那么让A唤醒B更容易或者让A唤醒其他智能体更困难，在这里就是一种“奖励”。我有一段时间特别痴迷这个理念，所以设计了一台称为Snarc机器，它就是根据这个原则进行学习的。它由40个智能体组成，每个智能体都通过一个“奖励系统”和若干个其他智能体相连，数量随机。这个奖励系统会在每次完成任务时激活，它可以让每个智能体以后更有可能去唤醒它们的接收对象。

1700520005

1700520006 我们向这台机器呈现的问题类似这样：学习在迷宫中找到一条路径，同时还要躲避充满敌意的追捕者。它很快就学会了解决简单的问题，但从来没有学会解决困难的问题，比如建塔或者下棋。很明显，要解决复杂的问题，任何一台尺寸有限的机器都必须能在不同的环境中用不同的方式来重新利用它的智能体，比如“看见”必须同时参与到两个任务中去。但是Snarc试图学习在一个复杂的迷宫中找到路径的时候，一个典型的智能体可能会在某一时刻建议朝一个不错的方向移动，然后又在另一时刻建议朝一个较差的方向走。之后，当我们因为它做了我们喜欢的事而奖励它时，两种决策的可能性都增加了，而且那些好的方向和差的方向都倾向于抵消对方！

1700520007

1700520008 在设计通过“强化”两个智能体之间的联结而进行学习的机器时，上述问题就制造了一个两难困境。在解决难题的过程中，人们通常都会先尝试一些错的方向，然后才能找到正确的道路，实际上这也正是我们将其称为“难”题的原因。为了避免学习那些错误的步骤，我们可以设计一台机器，只强化快要成功之前的最后几步。但这种机器只能学会解决那些只需要几步就能解决的问题。或者我们也可以把奖励设计成在更宽泛的时间范围内起作用，但这样的话，不仅会同时奖励好的和不好的决策，而且会抹杀之前学会的其他事。通过不加区分地强化智能体之间的联结，我们是无法学会解决难题的。对于需要许多步骤的问题或者需要同样的智能组完成不同工作的问题，为什么在所有动物中，只有那些有强大头脑的人类近亲才能学会解决呢？我们要在智能组完成目标时所采用的策略中寻找答案。

1700520009

1700520010 你可能会提出海狸要通过许多步骤才能建堤坝，一群白蚁在建造复杂的巢穴城堡时也是如此。但是这些奇妙的动物并不是靠个体学习到这些成就的，它们只是遵循一些经历了几百万年已经刻入它们基因的程序。你无法训练一只海狸去建造白蚁的巢穴，或者教授白蚁建堤坝的方法。

1700520011

1700520012

1700520013

1700520014

1700520015 心智社会：从细胞到人工智能，人类思维的优雅解读 [:1700518440]

1700520016 心智社会：从细胞到人工智能，人类思维的优雅解读 7.7　本地责任

1700520017

1700520018 设想一家批发商店的老板爱丽丝要求她的经理比尔增加销售额，比尔指导他的销售员查尔斯多卖一些收音机，查尔斯弄到了一个可以获利的大单，但是之后公司因为供应紧缺无法交付这些收音机。应该责怪谁呢？爱丽丝有理由惩罚比尔，因为他的工作是确认存货。问题是，查尔斯应该得到奖励吗？从爱丽丝的角度来看，查尔斯的行为让公司蒙羞了。但是从比尔的角度，查尔斯成功地完成了他的销售任务，而且这件事导致他主管的目标没能完成也并不是查尔斯的错。我们可以从两个方面来看这个例子，我们称为“本地奖励”和“全球奖励”。

1700520019

1700520020 本地（local）方案会奖励每个有助于完成主管目标的智能体。所以比尔会奖励查尔斯，尽管查尔斯的行动没能助力实现更高层级的目标。

1700520021

1700520022 全球（global）方案只有在智能体有助于完成最高目标时才给予奖励。所以查尔斯没有得到任何奖励。

1700520023

1700520024 发明一台机器体现本地学习方案是很容易的，因为每项任务所获得的奖励只取决于这个智能体与其主管之间的关系。要实施一个全球学习方案就比较困难一些，因为这要求机器找出哪些智能体通过不间断地完成子目标，自始至终都与原始目标保持联系。本地方案对查尔斯比较慷慨，只要他完成了让他去做的事就会得到奖励。全球方案就比较吝啬。虽然查尔斯是按照上级的要求去做的，但除非他的行动同样有助于完成高层级的事业，否则就没有任何功劳。在这样的方案中，智能体往往无法从过去的经验中学到任何东西。也因此，全球方案的学习过程会更慢一些。

1700520025

1700520026 两种方案有不同的优势。当发生错误会非常危险或系统时间充裕的时候，使用谨慎的全球方案比较合适。这样会产生更多的“负责”行为，因为它会让查尔斯在一定时间后学会自己检查存货，而不是像奴隶一样遵守比尔的命令。如果出现了错误行动，全球方案不会因为“我只是在遵守主管的命令”而给予谅解。另一方面，本地方案可以一次学到更多不同的东西，因为一个智能体可以不断证明自己达成本地目标的能力，不论它们与思维其他部分的关系如何。当然，我们的智能组有若干个这样的选项。不同的时刻，要采用哪个选项，取决于其他智能组的状态，那些智能组的工作就是向自己学习，要使用哪种学习策略取决于环境。

1700520027

1700520028 全球方案不仅要求以某种方式区分哪些智能体的行动帮助解决了问题，还要区分哪些智能体帮助解决了哪些子问题。举例而言，在建塔的过程中，你可能会发现推开某块积木为另一块积木腾出空间很有用。于是你想要记住推开行为有助于建塔，但是如果要以此得出结论，认为一般情况下推开就是一个有用的动作，那你就再也建不成另一座塔了。我们要解决一个困难的问题时，只说某个特定的智能体所做的事对整个事业“有益”还是“无益”是不够的。在某种程度上，人们必须根据本地的环境来判断是好是坏，也就是说，要根据每个智能体所做的工作是如何帮助或阻碍其他相关智能体的工作来判断。奖励一个智能体要产生的效果，应该是让这个智能体的反应在不太妨碍其他更重要的目标的同时，有助于完成某些具体的目标。所有这些都是简单的常识，但是为了更进一步研究，必须澄清我们的语言。我们都经历过追求目标，但经验和理解不是一回事。什么是目标？机器如何获得目标？

1700520029

1700520030

1700520031

1700520032

[ 上一页 ] [ :1.700519983e+09 ] [ 下一页 ]