打字猴:1.700519972e+09

1700519972 在所谓的人工智能（Artificial Intelligence）领域，许多研究关注的都是找到一些方法可以把一个问题拆分成若干个子问题，然后如果有必要，再把这些子问题拆分成更小的问题。在接下来的几部分中，我们将会看到如何用“目标”的形式来表述问题，从而可以实现上述过程。

1700519973

1700519974 使用知识（using knowledge）：解决一个问题最高效的方法就是已经知道如何解决它。这样人们就可以避免检索所有可能性。

1700519975

1700519976 相应地，人工智能研究的另一个分支就是找到一些方法把知识收录到机器中去。但这个问题本身就分为几个部分：我们必须知道如何获得所需的知识，必须学会如何表述这些知识，最后必须开发一些程序以有效地利用这些知识。要完成所有这些事，记忆必须优先呈现那些对我们实现目标可能有帮助的关系，而不是大量的细枝末节。这类研究已经引领出许多可以实际操作的问题解决系统，它们都是“以知识为基础”的系统。其中有一些常常被称为“专家系统”，因为它们的基本原理就是模仿一些特别的从业人员的方法。

1700519977

1700519978 这类研究中还浮现出一个奇怪的现象。与大部分人认为很容易的问题相比，比如用儿童积木搭建一个玩具房子，让机器去解决一些只有受过教育的人努力思考才能解决的特殊问题反而更容易一些，比如下棋，或者证明逻辑或几何定理。这也是我在本书中常常强调“简单”问题的原因。

1700519979

1700519980

1700519981

1700519982

1700519983 心智社会：从细胞到人工智能，人类思维的优雅解读 [:1700518438]

1700519984 心智社会：从细胞到人工智能，人类思维的优雅解读 7.5　学习与记忆

1700519985

1700519986 只有得到奖励我们才会学习，这是一个古老而盛行的理念。一些心理学家声称，人类的学习完全是以奖励的“强化”为基础的：就算训练自己不需要外部激励，我们仍然是为了奖励而学习，只不过这种奖励是来自我们内部的信号而已。但是如果一个论据的前提假设正是它要证明的内容，那么它并不可信。而且无论如何，当我们试图用这一理念来解释人们为什么学习解决困难的问题时，就会进入一个死循环。你首先必须有能力做某件事，才能因为做这件事得到奖励！

1700519987

1700519988 一个世纪前，伊万·巴甫洛夫研究条件反射的时候，这种死循环并不是什么大问题。因为在他的实验中，动物从不需要产生某些新行为，它们只需把新刺激与旧行为相联系就可以了。几十年后，哈佛心理学家B.F.斯金纳扩展了巴甫洛夫的研究，他发现更高级的动物有时确实会展示出新的行为，并将其称为“操作”。斯金纳的实验证实，如果某个特定的操作之后伴随着一个奖励的话，之后这个行为更有可能经常出现。他还发现，如果动物无法预测奖励将会在何时出现，这种学习的效果更好。斯金纳的发现被称为“操作性条件反射”或“行为调节”，这在心理学和教育学中产生了很大的影响力，但还是没能解释头脑究竟如何产生新行为。此外，这些动物实验也很少能说明人类是如何学会制订和执行复杂计划的，因为问题在于，那些动物几乎无法学会这样的事。奖励/成功和惩罚/失败，这些成对出现的理念不足以解释这一点：人类如何学会产生新的理念，让他们可以解决困难的问题。这些问题如果没有多年徒劳无益地试错是无法解决的。

1700519989

1700519990 答案一定是：学习更好的学习方法。为了讨论这些事，我们要开始使用一些普通的词汇，比如目标、奖励、学习、思考、识别、喜欢、想要、想象和记忆，所有这些词都基于古老而模糊的理念。我们会发现这里面的许多词都要用新的特性和理念来替换。但它们之间仍然有一些共性：要解决任何一个难题，我们都必须利用各种类型的记忆。在每个时刻，我们都要记录刚刚做了什么，否则可能会把同样的步骤重复一遍又一遍。此外，在某种程度上，我们还必须维持自己的目标，否则最终可能做的是无用功。最后，一旦问题得到解决，我们需要提取如何完成这件事的记录，当未来出现类似的问题就可以拿出来用。

1700519991

1700519992 本书中有很多内容都会涉及记忆，也就是对过去思维的记录。为什么、如何以及什么时候做这种记录呢？人类的头脑解决一个困难的问题时，好几百万的智能体和程序都参与其中。哪些智能体足够聪明，可以猜到那时需要做出什么改变呢？高级的智能体无法知道这种事，它们几乎不知道存在哪些低层级的程序。低层级的智能体也不知道自己的哪些行动帮助我们实现了高层级的目标，它们也几乎不知道高级目标的存在。负责移动我们腿部的智能组并不关心我们是往家走还是往工作场所走，负责目的地的智能体也完全不知道怎样控制肌肉单元。那么是思维中的哪个部分来判断哪些智能体应该表扬，哪些应该批评呢？

1700519993

1700519994

1700519995

1700519996

1700519997 心智社会：从细胞到人工智能，人类思维的优雅解读 [:1700518439]

1700519998 心智社会：从细胞到人工智能，人类思维的优雅解读 7.6　强化与奖励

1700519999

1700520000 要想达到学习的目的，每次玩游戏的时候都必须产生多得多的信息。这可以通过把问题拆分成若干部分来实现。成功的单元就是目标。如果目标实现，它的子目标就得到了强化；如果没实现，就受到抑制。

1700520001

1700520002 ——艾伦·纽厄尔

1700520003

1700520004 有一件事可以确定：做以前我们做过的事总是会比较容易一些。我们的思维中发生了什么才会这样呢？有这样一种设想：在解决问题的过程中，特定的智能体一定是唤醒了某些特定的其他智能体。如果智能体A的工作是唤醒智能体B，那么让A唤醒B更容易或者让A唤醒其他智能体更困难，在这里就是一种“奖励”。我有一段时间特别痴迷这个理念，所以设计了一台称为Snarc机器，它就是根据这个原则进行学习的。它由40个智能体组成，每个智能体都通过一个“奖励系统”和若干个其他智能体相连，数量随机。这个奖励系统会在每次完成任务时激活，它可以让每个智能体以后更有可能去唤醒它们的接收对象。

1700520005

1700520006 我们向这台机器呈现的问题类似这样：学习在迷宫中找到一条路径，同时还要躲避充满敌意的追捕者。它很快就学会了解决简单的问题，但从来没有学会解决困难的问题，比如建塔或者下棋。很明显，要解决复杂的问题，任何一台尺寸有限的机器都必须能在不同的环境中用不同的方式来重新利用它的智能体，比如“看见”必须同时参与到两个任务中去。但是Snarc试图学习在一个复杂的迷宫中找到路径的时候，一个典型的智能体可能会在某一时刻建议朝一个不错的方向移动，然后又在另一时刻建议朝一个较差的方向走。之后，当我们因为它做了我们喜欢的事而奖励它时，两种决策的可能性都增加了，而且那些好的方向和差的方向都倾向于抵消对方！

1700520007

1700520008 在设计通过“强化”两个智能体之间的联结而进行学习的机器时，上述问题就制造了一个两难困境。在解决难题的过程中，人们通常都会先尝试一些错的方向，然后才能找到正确的道路，实际上这也正是我们将其称为“难”题的原因。为了避免学习那些错误的步骤，我们可以设计一台机器，只强化快要成功之前的最后几步。但这种机器只能学会解决那些只需要几步就能解决的问题。或者我们也可以把奖励设计成在更宽泛的时间范围内起作用，但这样的话，不仅会同时奖励好的和不好的决策，而且会抹杀之前学会的其他事。通过不加区分地强化智能体之间的联结，我们是无法学会解决难题的。对于需要许多步骤的问题或者需要同样的智能组完成不同工作的问题，为什么在所有动物中，只有那些有强大头脑的人类近亲才能学会解决呢？我们要在智能组完成目标时所采用的策略中寻找答案。

1700520009

1700520010 你可能会提出海狸要通过许多步骤才能建堤坝，一群白蚁在建造复杂的巢穴城堡时也是如此。但是这些奇妙的动物并不是靠个体学习到这些成就的，它们只是遵循一些经历了几百万年已经刻入它们基因的程序。你无法训练一只海狸去建造白蚁的巢穴，或者教授白蚁建堤坝的方法。

1700520011

1700520012

1700520013

1700520014

1700520015 心智社会：从细胞到人工智能，人类思维的优雅解读 [:1700518440]

1700520016 心智社会：从细胞到人工智能，人类思维的优雅解读 7.7　本地责任

1700520017

1700520018 设想一家批发商店的老板爱丽丝要求她的经理比尔增加销售额，比尔指导他的销售员查尔斯多卖一些收音机，查尔斯弄到了一个可以获利的大单，但是之后公司因为供应紧缺无法交付这些收音机。应该责怪谁呢？爱丽丝有理由惩罚比尔，因为他的工作是确认存货。问题是，查尔斯应该得到奖励吗？从爱丽丝的角度来看，查尔斯的行为让公司蒙羞了。但是从比尔的角度，查尔斯成功地完成了他的销售任务，而且这件事导致他主管的目标没能完成也并不是查尔斯的错。我们可以从两个方面来看这个例子，我们称为“本地奖励”和“全球奖励”。

1700520019

1700520020 本地（local）方案会奖励每个有助于完成主管目标的智能体。所以比尔会奖励查尔斯，尽管查尔斯的行动没能助力实现更高层级的目标。

1700520021

[ 上一页 ] [ :1.700519972e+09 ] [ 下一页 ]