1707610420
时间差分学习解决了找寻达成目标最快捷路径的问题。这是一种即时的演算法,因为在达成目标的过程中,这种演算法可以通过探索发现中间决策的价值。要做到这点,必须创建一个内部的评估函数,用于预测行动的后果。多巴胺神经元能够评估整个皮质当前的状态,并通知大脑在当前状态下最好的行动路径。在许多情形下,最好的行动路径当然是一种猜测,但由于猜测可以不断得以改进,所以时间差分学习会随着时间的流逝而创造出玄妙深奥的价值函数。多巴胺可能是你偶然经历过的“直觉”的源泉。
1707610421
1707610422
在你反复掂量各种选项时,具有前瞻性的大脑回路正在对每个情况进行着评估,多巴胺的瞬间浓度会记住每个决策的预测值。多巴胺的浓度与你的动机强弱相当,也就是高浓度的多巴胺预示着高期望值的奖励,而你也会有更强的动机去追求目标。这在运动系统中表现得更为直接:多巴胺的浓度较高时,会让动作更快。可卡因和安非他命之所以会让人成瘾,是因为这些药物会使多巴胺活性增加,并劫持大脑内部奖励系统。降低多巴胺含量会引发快感缺失,使得无力体验快感;而失去多巴胺神经元则会导致帕金森氏病,让人失去行动和思考的能力。
1707610423
1707610424
时间差分学习威力强大,因为它结合了许多不同维度的价值信息,实际上,在达成遥远目标的过程中,时间差分学习是通过把不相关的事物放在一起做比较而达到效果的,譬如比较苹果和橙子。这很重要,原因就在于要在诸多变数和未知中作出理性决策绝非易事。如果你拥有一个内部系统,该系统能够作出快速的、良好的猜测,这就是你所拥有的一项巨大的优势,在需要快速作出决策之际,不同的决定很有可能就会产生生与死的差别。时间差分学习依赖你人生经验的总和。它在个体都记不住经验细节的时候,就会提取这些经验中的本质要素来帮助我们记忆。
1707610425
1707610426
时间差分学习同时对心理学家训练老鼠和鸽子执行简单任务的实验作出了阐释。增强学习算法,在传统上被认为不太能解释清楚这样的复杂行为,因为来自环境的反馈最小。尽管如此,强化学习几乎适用于所有物种,并会促使一些形式最为复杂的感觉得以协调,比如说钢琴演奏和发表演讲。强化学习已经经过了亿万年的进化萃取,无数物种都从中获益匪浅,尤其是我们人类更是如此。
1707610427
1707610428
那么时间差分学习能够解决多复杂的问题呢?双陆棋是一种电脑程序,其内容是通过和自己比赛,学会如何玩双陆棋。这种方法的困难在于,只有在比赛结束后才能获得奖励,所以玩家不太清楚到底是哪几步棋下得不错,才赢得了最后的胜利。在一开始玩游戏时,玩家只知道游戏规则,但不了解游戏的策略。在和自己下过多次后,玩家可以应用时间差分学习来创造价值函数,对游戏中棋子的布局进行评估,这个游戏让玩家从初学者攀升到专家级别,其在整个过程中都采用类似于人类使用的巧妙策略。经过百万次后,玩家就可以达到总冠军的级别,并且它还会出现让人类专家都惊讶的新布局。类似的游戏途径在围棋中也取得了不俗的表现,并正在往职业级别迈进。
1707610429
1707610430
在可能的结果会出现组合爆炸的情形下,精挑细选的裁剪极有裨益。注意力和工作记忆会让我们专注在问题的重点上。陈述性记忆系统也对增强学习施加更大压力,以此来寻找独特的对象和事件。当大脑在灵长类动物中得以进化时,增加的记忆容量大大增强了他们作出复杂决策的能力,从而发展出了一系列的行为来达成目标。我们是唯一创建教育系统、并让自己接受多年教育和考试的物种。归功于多巴胺控制行为的力量,我们才能够延迟享乐直至到遥远的未来,在某种情形下,还能进入到想象的来世。
1707610431
1707610432
在20世纪60年代的认知革命之初,即使是最聪明的心智也无法想象到,增强学习能够作为智慧行为的基石。我们无法依赖心智,大自然远比我们人类更有智慧。
1707610433
1707610434
1707610435
1707610436
1707610438
世界因何美妙而优雅地运行 122IMPOSING RANDOMNESS无与伦比的随机性
1707610439
1707610440
迈克尔·诺顿(Michael I.Norton)
1707610441
1707610442
哈佛大学经济学教授,合著有《花钱带来的幸福感》(Happy Money)。
1707610443
1707610444
保 罗·迈耶(Paul Meier),于2011年离世,他因发明卡普兰–迈耶估计量而闻名遐迩。与此同时,迈耶在另一个不可估量的解释工具随机化实验的广泛应用方面,也是一位有着重大影响力的人物。这个看起来毫不性感的术语,掩盖了其内在所具有的优雅,其在最佳实践者的手中,已趋于艺术珍品。简而言之,随机化实验提供了独特且强大的方式,为跨学科的科学家们试图回答的问题提供着答案:我们如何得知某些事物有用?
1707610445
1707610446
举一个每年媒体都会反复问到的问题:红酒对我们的身体有益还是无益?通过调查人们饮用和健康的问题来寻找两者之间的关联性,我们已经充分了解了喝红酒的作用。但要评估红酒对健康的特定影响,我们还需要问人们很多的问题,包括他们吃的一切(食物、处方药、不太合理的用药方式)、他们的习惯(运动、睡眠、性生活)、他们的过去(健康史、他们父母辈和祖父母辈的健康史),等等。然后尽量把控好这些因素,把红酒对健康的影响分离出来。这是一项篇幅多么长的调查啊。
1707610447
1707610448
对于我们如何理解红酒的作用,随机化实验构建了完全不同的处理方法。前提是,人们在上述的诸多问题以及其他问题中呈现的差异性,我们需要通过随机指派人们喝或不喝红酒来处理。假设吃甜甜圈和从不运动的人同样可能会在“红酒组”或“控制组”,那我们就可以中规中矩地评估,红酒平均造成的影响等同或超过其他可能的因素影响。这个方法很简单。每次只要通过一个简单的技巧生成许多可观的结论时,我们就会用“优雅”来描述它。
1707610449
1707610450
在社会科学领域,随机化实验始于20世纪50年代(包括迈耶的贡献),但在近些年出现了爆炸性的增长,使其适用范围从医学(测试干预,如认知行为治疗)到政治科学(投票率实验)到教育(指定孩子依靠成绩获得报酬)再到经济学(鼓励储蓄行为)。其实验方法也已渗入到公共政策,比如美国前总统奥巴马任命行为经济学家卡斯·桑斯坦(Cass Sunstein)为信息与法规事务办公室主任;英国首相戴维·卡梅伦组建行为研究小组。
1707610451
1707610452
随机化实验绝对不是阐释的完美工具,实质上某些重大问题不适合使用随机实验,若是使用者的方法错误还会产生危害,譬如臭名昭著的塔斯基吉梅毒实验(22)。但随机实验日益广泛的应用,呈现出该实验的灵活性,从而使得我们知晓,事物是如何运作的以及其背后所存在的原因。
1707610453
1707610454
1707610455
1707610456
1707610458
世界因何美妙而优雅地运行 123THE UNIFICATION OF ELECTRICITY AND MAGNETISM电力与磁力的统一
1707610459
1707610460
劳伦斯·克劳斯(Lawrence M.Krauss)
1707610461
1707610462
物理学家、宇宙学家,美国亚利桑那州立大学“起源项目”(Origins Project)主任,著有《无中生有的宇宙》(A Universe from Nothing)。
1707610463
1707610464
在 近代科学史上,就我所知,唯有在19世纪将两个常见的、但看似独特的自然力,电力和磁力,二者结合起来的非凡阐释是深邃、美妙又优雅的。于我而言,这个阐释具有科学的最佳性:它结合了令人惊诧的实证发现,历经曲折,最终获得了兼具浅显易懂与优雅的数学架构,它所阐释的事物远远多于我们的预料,并且在此过程当中所生成的技术成了推动现代文明的生产力。
1707610465
1707610466
跳蛙与电子线路的奇妙实验,最终促成了一项偶然的发现,这让自学成才但依旧是最伟大的实验家迈克尔·法拉第(Michael Faraday),发现了磁性和电流之间的奇妙联结。在当时,众所周知的是,移动的电荷或电流围绕自身会生成电磁场,可排斥或吸引周围临近的磁铁。但还有一个问题未得到回答,即磁铁是否会让带电物体产生电力。当法拉第启动或停止电流时,他偶尔发现,会产生一个随时间增长或减弱的磁场,在磁场变化期间,某个力量会在附近的电路中出现,并移动其中的电荷而产生电流。
1707610467
1707610468
随着日渐被人们熟知,法拉第电磁感应定律不仅是支配所有发电机的基本定律,而且还制造了一个理论难题,该难题需要詹姆斯·克拉克·麦克斯韦来解决,他是另一个在我们的时代中最伟大的理论物理学家,唯有他的智慧,方可解惑。麦克斯韦意识到法拉第的实验结论暗含着一个不断变化的磁场会产生反作用力达到抵偿的效果,它会推动导线内的电荷,从而产生电流。而且法拉第自己在研究过程中引进了图像概念,因为他觉得图像比代数更得心应手。
1707610469
[
上一页 ]
[ :1.70761042e+09 ]
[
下一页 ]