打字猴:1.70053928e+09

1700539280 图11.5　经典Q-learning算法

1700539281

1700539282 图11.6是深度Q-learning算法，其中红色部分为和传统Q-learning不同的部分。

1700539283

1700539284

1700539285

1700539286

1700539287 图11.6　深度Q-learning算法

1700539288

1700539289 比较这两个算法，我们不难发现深度Q-learning和传统的Q-learning的主体框架是相同的，在每一次子迭代中，都是按照以下步骤进行。

1700539290

1700539291 （1）根据当前的Q函数执行一次行动at。

1700539292

1700539293 （2）获得本次收益rt及下一个状态st+1。

1700539294

1700539295

1700539296 （3）以某种方式获得一个四元组。

1700539297

1700539298 （4）计算yj。

1700539299

1700539300 （5）对(yj−Q(sj,aj;θ))2执行一次梯度下降，完成参数更新。

1700539301

1700539302

1700539303

1700539304 表11.1是传统Q-learning与深度Q-learning的对比。以获得状态的方式为例，传统Q-learning直接从环境观测获得当前状态；而在深度Q-learning中，往往需要对观测的结果进行某些处理来获得Q函数的输入状态。比如，用深度Q-learning玩Atari游戏时，是这样对观察值进行处理的：在t时刻观察到的图像序列及对应动作，通过一个映射函数，得到处理后的标准状态。在实际的应用中，φ选择最后4帧图像，并将其堆叠起来。

1700539305

1700539306 表11.1　传统Q-learning与深度Q-learning对比

1700539307

1700539308

1700539309

1700539310

1700539311 逸闻趣事

1700539312

1700539313 　

1700539314

1700539315 从多巴胺到强化学习

1700539316

1700539317 多巴胺是一种让人感到兴奋和愉悦的神经递质，由大脑分泌。多巴胺和强化学习听起来相距甚远，但出人意料的是它们在本质上其实具有很多共通性——都是为了获得延迟到来的奖励。当我们获得超过期望的回报或者奖励时，大脑会释放大量多巴胺，让我们感到兴奋和愉悦。那么决定多巴胺的释放的因素是什么呢？答案是奖励和预期之间的差值。如果你是一个养宠物的人，有没有观察到这种现象：通常在给宠物喂食之前，它们便开始分泌口水。俄国科学家巴普洛夫便做过这样一个试验：在给狗喂食之前先摇铃铛，训练狗将铃响和食物联系在一起，以后没有看到食物时也会流口水。随着检测技术的提高，科学家发现多巴胺的释放并非来源于奖励本身，而是来自于对奖励的预期。当现实的回报高于预期时，会促成多巴胺的释放，让人觉得生活美好。相反的，如果现实的回报总是不及预期，多巴胺的分泌量会降低，人们也会慢慢觉得生活一成不变，缺乏乐趣。平衡预期与回报之间的差距正是时间差分学习（Temporal Difference Learning）的目标：根据现实回报和预期的差值来调整价值函数的值，这与大脑分泌多巴胺的机制异曲同工。时间差分学习可以用于优化V-function也可以用于优化Q-function，而本节介绍的Q-learning正是时间差分算法的一个特例。

1700539318

1700539319

1700539320

1700539321

1700539322 百面机器学习：算法工程师带你去面试 [:1700532236]

1700539323 百面机器学习：算法工程师带你去面试 03　策略梯度

1700539324

1700539325

1700539326

1700539327 场景描述

1700539328

1700539329 Q-learning因为涉及在状态空间上求Q函数的最大值，所以只适用于处理离散的状态空间，对于连续的状态空间，最大化Q函数将变得非常困难。所以对于机器人控制等需要复杂连续输出的领域，Q-learning就显得不太合适了。其次，包括深度Q-learning在内的大多数强化学习算法，都没有收敛性的保证，而策略梯度（Policy Gradient）则没有这些问题，它可以无差别地处理连续和离散状态空间，同时保证至少收敛到一个局部最优解。

[ 上一页 ] [ :1.70053928e+09 ] [ 下一页 ]