1700539272
1700539273
1700539274
1700539275
经典的Q-learning算法如图11.5所示。为了能与Deep Q-learning 作对比,我们把最后一步Q函数更新为等价的描述:令,并对执行一次梯度下降,完成参数更新。
1700539276
1700539277
1700539278
1700539279
1700539280
图11.5 经典Q-learning算法
1700539281
1700539282
图11.6是深度Q-learning算法,其中红色部分为和传统Q-learning不同的部分。
1700539283
1700539284
1700539285
1700539286
1700539287
图11.6 深度Q-learning算法
1700539288
1700539289
比较这两个算法,我们不难发现深度Q-learning和传统的Q-learning的主体框架是相同的,在每一次子迭代中,都是按照以下步骤进行。
1700539290
1700539291
(1)根据当前的Q函数执行一次行动at。
1700539292
1700539293
(2)获得本次收益rt及下一个状态st+1。
1700539294
1700539295
1700539296
(3)以某种方式获得一个四元组。
1700539297
1700539298
(4)计算yj。
1700539299
1700539300
(5)对(yj−Q(sj,aj;θ))2执行一次梯度下降,完成参数更新。
1700539301
1700539302
1700539303
1700539304
表11.1是传统Q-learning与深度Q-learning的对比。以获得状态的方式为例,传统Q-learning直接从环境观测获得当前状态;而在深度Q-learning中,往往需要对观测的结果进行某些处理来获得Q函数的输入状态。比如,用深度Q-learning玩Atari游戏时,是这样对观察值进行处理的:在t时刻观察到的图像序列及对应动作,通过一个映射函数,得到处理后的标准状态。在实际的应用中,φ选择最后4帧图像,并将其堆叠起来。
1700539305
1700539306
表11.1 传统Q-learning与深度Q-learning对比
1700539307
1700539308
1700539309
1700539310
1700539311
逸闻趣事
1700539312
1700539313
1700539314
1700539315
从多巴胺到强化学习
1700539316
1700539317
多巴胺是一种让人感到兴奋和愉悦的神经递质,由大脑分泌。多巴胺和强化学习听起来相距甚远,但出人意料的是它们在本质上其实具有很多共通性——都是为了获得延迟到来的奖励。当我们获得超过期望的回报或者奖励时,大脑会释放大量多巴胺,让我们感到兴奋和愉悦。那么决定多巴胺的释放的因素是什么呢?答案是奖励和预期之间的差值。如果你是一个养宠物的人,有没有观察到这种现象:通常在给宠物喂食之前,它们便开始分泌口水。俄国科学家巴普洛夫便做过这样一个试验:在给狗喂食之前先摇铃铛,训练狗将铃响和食物联系在一起,以后没有看到食物时也会流口水。随着检测技术的提高,科学家发现多巴胺的释放并非来源于奖励本身,而是来自于对奖励的预期。当现实的回报高于预期时,会促成多巴胺的释放,让人觉得生活美好。相反的,如果现实的回报总是不及预期,多巴胺的分泌量会降低,人们也会慢慢觉得生活一成不变,缺乏乐趣。平衡预期与回报之间的差距正是时间差分学习(Temporal Difference Learning)的目标:根据现实回报和预期的差值来调整价值函数的值,这与大脑分泌多巴胺的机制异曲同工。时间差分学习可以用于优化V-function也可以用于优化Q-function,而本节介绍的Q-learning正是时间差分算法的一个特例。
1700539318
1700539319
1700539320
1700539321
[
上一页 ]
[ :1.700539272e+09 ]
[
下一页 ]