打字猴:1.707610407e+09

1707610407 世界因何美妙而优雅地运行 [:1707606732]

1707610408 世界因何美妙而优雅地运行 121NATURE IS CLEVERER THAN WE ARE大自然远比人类更智慧

1707610409

1707610410 特伦斯·谢诺沃斯基（Terrence J.Sejnowski）

1707610411

1707610412 萨尔克生物研究所计算神经科学家，弗朗西斯·克里克讲席教授，合著有《计算型大脑》（The Computational Brain）。

1707610413

1707610414 在我们的一生当中，我们慎重作出的每一个重要决策，都在我们的心中留下了清晰的印象，比如从事何种职业、居于何处、与何人相伴一生。但与此信条相反的是，生物学方面的证据表明决策过程发在一个古老的大脑系统之中，该系统被称为基底神经节，那是意识无法进入的大脑回路。尽管如此，心智却尽心尽力地为决策编造着合理的阐释。

1707610415

1707610416 引领该结论的科学线索始于对蜜蜂的观察。工蜂在春天的田野里采集花蜜，通过花的颜色、香气和形状来识别花蜜。蜂脑中的学习回路集中在下颚神经髓腹侧非成对中央细胞（VUMmx1），即接收感官输入的单一神经元，在这之后，再接收花蜜的信息，然后当蜜蜂下一次见到这种花时，它就学会了预测花蜜的价值。这个过程中的延迟相当重要，因为其关键是进行预判，而不是单纯的关联。它同时也是时间差分学习（TD）的核心概念，这包括去学习一系列能达成目标的决定，尤其是在不确定的环境中是极为有效的，比如说我们生活的这个地球。

1707610417

1707610418 在我们的中脑深处有一个小组神经元，对决策起着非常重要的作用，这些神经元在最早的脊椎动物祖先中被发现，之后又扩展到整个皮层和基底神经节。这些神经元释放的神经传导物质叫作多巴胺，它对我们的行为有着巨大的影响。多巴胺被誉为“奖励分子”，但更重要的是，这些神经元有着预测奖励的能力，比如如果从事这样的工作，我会有多快乐？多巴胺神经元是动机与执行时间差分学习的核心，就如同VUMmx1一样。

1707610419

1707610420 时间差分学习解决了找寻达成目标最快捷路径的问题。这是一种即时的演算法，因为在达成目标的过程中，这种演算法可以通过探索发现中间决策的价值。要做到这点，必须创建一个内部的评估函数，用于预测行动的后果。多巴胺神经元能够评估整个皮质当前的状态，并通知大脑在当前状态下最好的行动路径。在许多情形下，最好的行动路径当然是一种猜测，但由于猜测可以不断得以改进，所以时间差分学习会随着时间的流逝而创造出玄妙深奥的价值函数。多巴胺可能是你偶然经历过的“直觉”的源泉。

1707610421

1707610422 在你反复掂量各种选项时，具有前瞻性的大脑回路正在对每个情况进行着评估，多巴胺的瞬间浓度会记住每个决策的预测值。多巴胺的浓度与你的动机强弱相当，也就是高浓度的多巴胺预示着高期望值的奖励，而你也会有更强的动机去追求目标。这在运动系统中表现得更为直接：多巴胺的浓度较高时，会让动作更快。可卡因和安非他命之所以会让人成瘾，是因为这些药物会使多巴胺活性增加，并劫持大脑内部奖励系统。降低多巴胺含量会引发快感缺失，使得无力体验快感；而失去多巴胺神经元则会导致帕金森氏病，让人失去行动和思考的能力。

1707610423

1707610424 时间差分学习威力强大，因为它结合了许多不同维度的价值信息，实际上，在达成遥远目标的过程中，时间差分学习是通过把不相关的事物放在一起做比较而达到效果的，譬如比较苹果和橙子。这很重要，原因就在于要在诸多变数和未知中作出理性决策绝非易事。如果你拥有一个内部系统，该系统能够作出快速的、良好的猜测，这就是你所拥有的一项巨大的优势，在需要快速作出决策之际，不同的决定很有可能就会产生生与死的差别。时间差分学习依赖你人生经验的总和。它在个体都记不住经验细节的时候，就会提取这些经验中的本质要素来帮助我们记忆。

1707610425

1707610426 时间差分学习同时对心理学家训练老鼠和鸽子执行简单任务的实验作出了阐释。增强学习算法，在传统上被认为不太能解释清楚这样的复杂行为，因为来自环境的反馈最小。尽管如此，强化学习几乎适用于所有物种，并会促使一些形式最为复杂的感觉得以协调，比如说钢琴演奏和发表演讲。强化学习已经经过了亿万年的进化萃取，无数物种都从中获益匪浅，尤其是我们人类更是如此。

1707610427

1707610428 那么时间差分学习能够解决多复杂的问题呢？双陆棋是一种电脑程序，其内容是通过和自己比赛，学会如何玩双陆棋。这种方法的困难在于，只有在比赛结束后才能获得奖励，所以玩家不太清楚到底是哪几步棋下得不错，才赢得了最后的胜利。在一开始玩游戏时，玩家只知道游戏规则，但不了解游戏的策略。在和自己下过多次后，玩家可以应用时间差分学习来创造价值函数，对游戏中棋子的布局进行评估，这个游戏让玩家从初学者攀升到专家级别，其在整个过程中都采用类似于人类使用的巧妙策略。经过百万次后，玩家就可以达到总冠军的级别，并且它还会出现让人类专家都惊讶的新布局。类似的游戏途径在围棋中也取得了不俗的表现，并正在往职业级别迈进。

1707610429

1707610430 在可能的结果会出现组合爆炸的情形下，精挑细选的裁剪极有裨益。注意力和工作记忆会让我们专注在问题的重点上。陈述性记忆系统也对增强学习施加更大压力，以此来寻找独特的对象和事件。当大脑在灵长类动物中得以进化时，增加的记忆容量大大增强了他们作出复杂决策的能力，从而发展出了一系列的行为来达成目标。我们是唯一创建教育系统、并让自己接受多年教育和考试的物种。归功于多巴胺控制行为的力量，我们才能够延迟享乐直至到遥远的未来，在某种情形下，还能进入到想象的来世。

1707610431

1707610432 在20世纪60年代的认知革命之初，即使是最聪明的心智也无法想象到，增强学习能够作为智慧行为的基石。我们无法依赖心智，大自然远比我们人类更有智慧。

1707610433

1707610434

1707610435

1707610436

1707610437 世界因何美妙而优雅地运行 [:1707606733]

1707610438 世界因何美妙而优雅地运行 122IMPOSING RANDOMNESS无与伦比的随机性

1707610439

1707610440 迈克尔·诺顿（Michael I.Norton）

1707610441

1707610442 哈佛大学经济学教授，合著有《花钱带来的幸福感》（Happy Money）。

1707610443

1707610444 保罗·迈耶（Paul Meier），于2011年离世，他因发明卡普兰–迈耶估计量而闻名遐迩。与此同时，迈耶在另一个不可估量的解释工具随机化实验的广泛应用方面，也是一位有着重大影响力的人物。这个看起来毫不性感的术语，掩盖了其内在所具有的优雅，其在最佳实践者的手中，已趋于艺术珍品。简而言之，随机化实验提供了独特且强大的方式，为跨学科的科学家们试图回答的问题提供着答案：我们如何得知某些事物有用？

1707610445

1707610446 举一个每年媒体都会反复问到的问题：红酒对我们的身体有益还是无益？通过调查人们饮用和健康的问题来寻找两者之间的关联性，我们已经充分了解了喝红酒的作用。但要评估红酒对健康的特定影响，我们还需要问人们很多的问题，包括他们吃的一切（食物、处方药、不太合理的用药方式）、他们的习惯（运动、睡眠、性生活）、他们的过去（健康史、他们父母辈和祖父母辈的健康史），等等。然后尽量把控好这些因素，把红酒对健康的影响分离出来。这是一项篇幅多么长的调查啊。

1707610447

1707610448 对于我们如何理解红酒的作用，随机化实验构建了完全不同的处理方法。前提是，人们在上述的诸多问题以及其他问题中呈现的差异性，我们需要通过随机指派人们喝或不喝红酒来处理。假设吃甜甜圈和从不运动的人同样可能会在“红酒组”或“控制组”，那我们就可以中规中矩地评估，红酒平均造成的影响等同或超过其他可能的因素影响。这个方法很简单。每次只要通过一个简单的技巧生成许多可观的结论时，我们就会用“优雅”来描述它。

1707610449

1707610450 在社会科学领域，随机化实验始于20世纪50年代（包括迈耶的贡献），但在近些年出现了爆炸性的增长，使其适用范围从医学（测试干预，如认知行为治疗）到政治科学（投票率实验）到教育（指定孩子依靠成绩获得报酬）再到经济学（鼓励储蓄行为）。其实验方法也已渗入到公共政策，比如美国前总统奥巴马任命行为经济学家卡斯·桑斯坦（Cass Sunstein）为信息与法规事务办公室主任；英国首相戴维·卡梅伦组建行为研究小组。

1707610451

1707610452 随机化实验绝对不是阐释的完美工具，实质上某些重大问题不适合使用随机实验，若是使用者的方法错误还会产生危害，譬如臭名昭著的塔斯基吉梅毒实验(22)。但随机实验日益广泛的应用，呈现出该实验的灵活性，从而使得我们知晓，事物是如何运作的以及其背后所存在的原因。

1707610453

1707610454

1707610455

1707610456

[ 上一页 ] [ :1.707610407e+09 ] [ 下一页 ]