打字猴:1.70053923e+09

1700539230

1700539231

1700539232

1700539233

1700539234 图11.4　策略迭代过程

1700539235

1700539236

1700539237 初始化策略为：不论马里奥处于哪个状态，一律朝下走。根据这一策略进行策略评估不难发现，只有宝藏正上方的状态可以到达宝藏，期望价值为到宝藏的距离（−2，−1和0）；其余状态不能通过当前策略到达宝藏，期望价值为负无穷。然后根据当前的期望价值进行策略提升：对于宝藏正上方的状态，策略已经最优，保持不变；对于不在宝藏正上方的状态，根据策略更新公式，最优策略为横向移动一步。

1700539238

1700539239

1700539240 通过上一轮的策略提升，这一轮的策略变为：对于宝藏正上方的状态，向下移动；对于不在宝藏正上方的状态，横向移动一步。根据当前策略进行策略评估，更新各状态期望价值：宝藏正上方的状态价值期望不变，仍等于到宝藏的距离；不在宝藏正上方的状态期望价值更新为，即横向移动一步的奖励与目标状态的期望价值之和。然后根据更新后的期望价值进行策略提升：不难发现，对于所有状态，当前策略已经最优，维持不变，中止策略提升过程。

1700539241

1700539242 最终，马里奥只需从初始状态（1,1）开始，按照当前位置的最优策略进行行动，即向右行动一步，然后一直向下行动，即可最快找到宝藏。

1700539243

1700539244

1700539245

1700539246

1700539247 百面机器学习：算法工程师带你去面试 [:1700532235]

1700539248 百面机器学习：算法工程师带你去面试 02　视频游戏里的强化学习

1700539249

1700539250

1700539251

1700539252 场景描述

1700539253

1700539254 游戏是强化学习中最有代表性也是最合适的应用领域之一，几乎涵盖了强化学习所有的要素：环境—游戏本身的状态；动作——用户操作；机器人——程序；回馈——得分、输赢等。通过输入原始像素来玩视频游戏，是人工智能成熟的标志之一。雅达利（Atari）是二十世纪七八十年代红极一时的电脑游戏，类似于国内的红白机游戏，但是画面元素要更简单一些。它的模拟器相对成熟，使用雅达利游戏来测试强化学习，可谓量身定做。其应用场景可以描述为：在离散的时间轴上，每个时刻你可以得到当前的游戏画面（环境），选择向游戏机发出一个行动指令（如上、下、左、右、开火等），然后得到一个反馈（奖励）。基于原始像素的强化学习由于对应的状态空间巨大，没有办法直接使用传统的方法。于是，2013年DeepMind提出了深度强化学习模型，开始了深度学习和强化学习的结合[31]。

1700539255

1700539256 传统的强化学习主要使用Q-learning，而深度强化学习也使用Q-learning为基本框架，把Q-learning的对应步骤改为深度形式，并引入了一些技巧，例如经验重放（experience replay）来加快收敛以及提高泛化能力。

1700539257

1700539258 知识点

1700539259

1700539260 强化学习，Q-learning

1700539261

1700539262 问题　什么是深度强化学习，它和传统的强化学习有什么不同？

1700539263

1700539264 难度：★★★☆☆

1700539265

1700539266 分析与解答

1700539267

1700539268

1700539269

1700539270 2013年，DeepMind提出的深度强化学习仍然使用经典的Q-learning框架[31]。Q-learning的本质是，当前状态sj、回馈aj、奖励rj，以及Q函数之间存在关系，其中。如果sj+1是终态，则yj=rj，在传统的Q-learning中，考虑状态序列是无限的，所以并没有终态。依据这个关系，可以对Q函数的取值做迭代改进。所以如果我们有一个四元组(sj,aj,rj,sj+1)，我们可以用随机梯度下降法的思想对Q函数迭代前后的平方差距(yj−Q(sj,aj))2做一次梯度下降。

1700539271

1700539272

1700539273

1700539274

1700539275 经典的Q-learning算法如图11.5所示。为了能与Deep Q-learning 作对比，我们把最后一步Q函数更新为等价的描述：令，并对执行一次梯度下降，完成参数更新。

1700539276

1700539277

1700539278

1700539279

[ 上一页 ] [ :1.70053923e+09 ] [ 下一页 ]