1700539280
图11.5 经典Q-learning算法
1700539281
1700539282
图11.6是深度Q-learning算法,其中红色部分为和传统Q-learning不同的部分。
1700539283
1700539284
1700539285
1700539286
1700539287
图11.6 深度Q-learning算法
1700539288
1700539289
比较这两个算法,我们不难发现深度Q-learning和传统的Q-learning的主体框架是相同的,在每一次子迭代中,都是按照以下步骤进行。
1700539290
1700539291
(1)根据当前的Q函数执行一次行动at。
1700539292
1700539293
(2)获得本次收益rt及下一个状态st+1。
1700539294
1700539295
1700539296
(3)以某种方式获得一个四元组。
1700539297
1700539298
(4)计算yj。
1700539299
1700539300
(5)对(yj−Q(sj,aj;θ))2执行一次梯度下降,完成参数更新。
1700539301
1700539302
1700539303
1700539304
表11.1是传统Q-learning与深度Q-learning的对比。以获得状态的方式为例,传统Q-learning直接从环境观测获得当前状态;而在深度Q-learning中,往往需要对观测的结果进行某些处理来获得Q函数的输入状态。比如,用深度Q-learning玩Atari游戏时,是这样对观察值进行处理的:在t时刻观察到的图像序列及对应动作,通过一个映射函数,得到处理后的标准状态。在实际的应用中,φ选择最后4帧图像,并将其堆叠起来。
1700539305
1700539306
表11.1 传统Q-learning与深度Q-learning对比
1700539307
1700539308
1700539309
1700539310
1700539311
逸闻趣事
1700539312
1700539313
1700539314
1700539315
从多巴胺到强化学习
1700539316
1700539317
多巴胺是一种让人感到兴奋和愉悦的神经递质,由大脑分泌。多巴胺和强化学习听起来相距甚远,但出人意料的是它们在本质上其实具有很多共通性——都是为了获得延迟到来的奖励。当我们获得超过期望的回报或者奖励时,大脑会释放大量多巴胺,让我们感到兴奋和愉悦。那么决定多巴胺的释放的因素是什么呢?答案是奖励和预期之间的差值。如果你是一个养宠物的人,有没有观察到这种现象:通常在给宠物喂食之前,它们便开始分泌口水。俄国科学家巴普洛夫便做过这样一个试验:在给狗喂食之前先摇铃铛,训练狗将铃响和食物联系在一起,以后没有看到食物时也会流口水。随着检测技术的提高,科学家发现多巴胺的释放并非来源于奖励本身,而是来自于对奖励的预期。当现实的回报高于预期时,会促成多巴胺的释放,让人觉得生活美好。相反的,如果现实的回报总是不及预期,多巴胺的分泌量会降低,人们也会慢慢觉得生活一成不变,缺乏乐趣。平衡预期与回报之间的差距正是时间差分学习(Temporal Difference Learning)的目标:根据现实回报和预期的差值来调整价值函数的值,这与大脑分泌多巴胺的机制异曲同工。时间差分学习可以用于优化V-function也可以用于优化Q-function,而本节介绍的Q-learning正是时间差分算法的一个特例。
1700539318
1700539319
1700539320
1700539321
1700539323
百面机器学习:算法工程师带你去面试 03 策略梯度
1700539324
1700539325
1700539326
1700539327
场景描述
1700539328
1700539329
Q-learning因为涉及在状态空间上求Q函数的最大值,所以只适用于处理离散的状态空间,对于连续的状态空间,最大化Q函数将变得非常困难。所以对于机器人控制等需要复杂连续输出的领域,Q-learning就显得不太合适了。其次,包括深度Q-learning在内的大多数强化学习算法,都没有收敛性的保证,而策略梯度(Policy Gradient)则没有这些问题,它可以无差别地处理连续和离散状态空间,同时保证至少收敛到一个局部最优解。
[
上一页 ]
[ :1.70053928e+09 ]
[
下一页 ]