1700539230
1700539231
1700539232
1700539233
1700539234
图11.4 策略迭代过程
1700539235
1700539236
1700539237
初始化策略为:不论马里奥处于哪个状态,一律朝下走。根据这一策略进行策略评估不难发现,只有宝藏正上方的状态可以到达宝藏,期望价值为到宝藏的距离(−2,−1和0);其余状态不能通过当前策略到达宝藏,期望价值为负无穷。然后根据当前的期望价值进行策略提升:对于宝藏正上方的状态,策略已经最优,保持不变;对于不在宝藏正上方的状态,根据策略更新公式,最优策略为横向移动一步。
1700539238
1700539239
1700539240
通过上一轮的策略提升,这一轮的策略变为:对于宝藏正上方的状态,向下移动;对于不在宝藏正上方的状态,横向移动一步。根据当前策略进行策略评估,更新各状态期望价值:宝藏正上方的状态价值期望不变,仍等于到宝藏的距离;不在宝藏正上方的状态期望价值更新为 ,即横向移动一步的奖励与目标状态的期望价值之和。然后根据更新后的期望价值进行策略提升:不难发现,对于所有状态,当前策略已经最优,维持不变,中止策略提升过程。
1700539241
1700539242
最终,马里奥只需从初始状态(1,1)开始,按照当前位置的最优策略进行行动,即向右行动一步,然后一直向下行动,即可最快找到宝藏。
1700539243
1700539244
1700539245
1700539246
1700539248
百面机器学习:算法工程师带你去面试 02 视频游戏里的强化学习
1700539249
1700539250
1700539251
1700539252
场景描述
1700539253
1700539254
游戏是强化学习中最有代表性也是最合适的应用领域之一,几乎涵盖了强化学习所有的要素:环境—游戏本身的状态;动作——用户操作;机器人——程序;回馈——得分、输赢等。通过输入原始像素来玩视频游戏,是人工智能成熟的标志之一。雅达利(Atari)是二十世纪七八十年代红极一时的电脑游戏,类似于国内的红白机游戏,但是画面元素要更简单一些。它的模拟器相对成熟,使用雅达利游戏来测试强化学习,可谓量身定做。其应用场景可以描述为:在离散的时间轴上,每个时刻你可以得到当前的游戏画面(环境),选择向游戏机发出一个行动指令(如上、下、左、右、开火等),然后得到一个反馈(奖励)。基于原始像素的强化学习由于对应的状态空间巨大,没有办法直接使用传统的方法。于是,2013年DeepMind提出了深度强化学习模型,开始了深度学习和强化学习的结合[31]。
1700539255
1700539256
传统的强化学习主要使用Q-learning,而深度强化学习也使用Q-learning为基本框架,把Q-learning的对应步骤改为深度形式,并引入了一些技巧,例如经验重放(experience replay)来加快收敛以及提高泛化能力。
1700539257
1700539258
知识点
1700539259
1700539260
强化学习,Q-learning
1700539261
1700539262
问题 什么是深度强化学习,它和传统的强化学习有什么不同?
1700539263
1700539264
难度:★★★☆☆
1700539265
1700539266
分析与解答
1700539267
1700539268
1700539269
1700539270
2013年,DeepMind提出的深度强化学习仍然使用经典的Q-learning框架[31]。Q-learning的本质是,当前状态sj、回馈aj、奖励rj,以及Q函数之间存在关系,其中。如果sj+1是终态,则yj=rj,在传统的Q-learning中,考虑状态序列是无限的,所以并没有终态。依据这个关系,可以对Q函数的取值做迭代改进。所以如果我们有一个四元组(sj,aj,rj,sj+1),我们可以用随机梯度下降法的思想对Q函数迭代前后的平方差距(yj−Q(sj,aj))2做一次梯度下降。
1700539271
1700539272
1700539273
1700539274
1700539275
经典的Q-learning算法如图11.5所示。为了能与Deep Q-learning 作对比,我们把最后一步Q函数更新为等价的描述:令,并对执行一次梯度下降,完成参数更新。
1700539276
1700539277
1700539278
1700539279
[
上一页 ]
[ :1.70053923e+09 ]
[
下一页 ]