1700539297
1700539298
(4)计算yj。
1700539299
1700539300
(5)对(yj−Q(sj,aj;θ))2执行一次梯度下降,完成参数更新。
1700539301
1700539302
1700539303
1700539304
表11.1是传统Q-learning与深度Q-learning的对比。以获得状态的方式为例,传统Q-learning直接从环境观测获得当前状态;而在深度Q-learning中,往往需要对观测的结果进行某些处理来获得Q函数的输入状态。比如,用深度Q-learning玩Atari游戏时,是这样对观察值进行处理的:在t时刻观察到的图像序列及对应动作,通过一个映射函数,得到处理后的标准状态。在实际的应用中,φ选择最后4帧图像,并将其堆叠起来。
1700539305
1700539306
表11.1 传统Q-learning与深度Q-learning对比
1700539307
1700539308
1700539309
1700539310
1700539311
逸闻趣事
1700539312
1700539313
1700539314
1700539315
从多巴胺到强化学习
1700539316
1700539317
多巴胺是一种让人感到兴奋和愉悦的神经递质,由大脑分泌。多巴胺和强化学习听起来相距甚远,但出人意料的是它们在本质上其实具有很多共通性——都是为了获得延迟到来的奖励。当我们获得超过期望的回报或者奖励时,大脑会释放大量多巴胺,让我们感到兴奋和愉悦。那么决定多巴胺的释放的因素是什么呢?答案是奖励和预期之间的差值。如果你是一个养宠物的人,有没有观察到这种现象:通常在给宠物喂食之前,它们便开始分泌口水。俄国科学家巴普洛夫便做过这样一个试验:在给狗喂食之前先摇铃铛,训练狗将铃响和食物联系在一起,以后没有看到食物时也会流口水。随着检测技术的提高,科学家发现多巴胺的释放并非来源于奖励本身,而是来自于对奖励的预期。当现实的回报高于预期时,会促成多巴胺的释放,让人觉得生活美好。相反的,如果现实的回报总是不及预期,多巴胺的分泌量会降低,人们也会慢慢觉得生活一成不变,缺乏乐趣。平衡预期与回报之间的差距正是时间差分学习(Temporal Difference Learning)的目标:根据现实回报和预期的差值来调整价值函数的值,这与大脑分泌多巴胺的机制异曲同工。时间差分学习可以用于优化V-function也可以用于优化Q-function,而本节介绍的Q-learning正是时间差分算法的一个特例。
1700539318
1700539319
1700539320
1700539321
1700539323
百面机器学习:算法工程师带你去面试 03 策略梯度
1700539324
1700539325
1700539326
1700539327
场景描述
1700539328
1700539329
Q-learning因为涉及在状态空间上求Q函数的最大值,所以只适用于处理离散的状态空间,对于连续的状态空间,最大化Q函数将变得非常困难。所以对于机器人控制等需要复杂连续输出的领域,Q-learning就显得不太合适了。其次,包括深度Q-learning在内的大多数强化学习算法,都没有收敛性的保证,而策略梯度(Policy Gradient)则没有这些问题,它可以无差别地处理连续和离散状态空间,同时保证至少收敛到一个局部最优解。
1700539330
1700539331
知识点
1700539332
1700539333
强化学习,Q-learning
1700539334
1700539335
问题 什么是策略梯度,它和传统Q-learning有什么不同,相对于Q-learning来说有什么优势?
1700539336
1700539337
难度:★★★★☆
1700539338
1700539339
分析与解答
1700539340
1700539341
1700539342
1700539343
1700539344
在策略梯度中,我们考虑前后两个状态之间的关系为,其中st、st+1是相继的两个状态,at是t步时所采取的行动,p是环境所决定的下个时刻状态分布。而动作at的生成模型(策略)为,其中πθ是以θ为参变量的一个分布,at从这个分布进行采样。这样,在同一个环境下,强化学习的总收益函数,,完全由θ所决定。策略梯度的基本思想就是,直接用梯度方法来优化R(θ)。可以看出,和Q-learning不同的是,策略梯度并不估算Q函数本身,而是利用当前状态直接生成动作at。这有效避免了在连续状态空间上最大化Q函数的困难。同时,直接用梯度的方法优化R(θ)可以保证至少是局部收敛的。
1700539345
1700539346
[
上一页 ]
[ :1.700539297e+09 ]
[
下一页 ]