打字猴:1.70053915e+09

1700539150

1700539151 问题1　强化学习中有哪些基本概念？在马里奥找宝藏问题中如何定义这些概念？

1700539152

1700539153 难度：★☆☆☆☆

1700539154

1700539155 分析与解答

1700539156

1700539157 强化学习的基本场景可以用图11.2来描述，主要由环境（Environment）、机器人（Agent）、状态（State）、动作（Action）、奖励（Reward）等基本概念构成。一个机器人在环境中会做各种动作，环境会接收动作，并引起自身状态的变迁，同时给机器人以奖励。机器人的目标就是使用一些策略，做合适的动作，最大化自身的收益。

1700539158

1700539159

1700539160

1700539161

1700539162 图11.2　强化学习基本场景

1700539163

1700539164 整个场景一般可以描述为一个马尔可夫决策过程（Markov Decision Process，MDP）。马尔可夫决策过程是马尔可夫过程与确定性的动态规划相结合的产物，指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地做出决策的过程，以俄罗斯数学家安德雷·马尔可夫的名字命名。这个过程包括以下几个要素：

1700539165

1700539166

1700539167

1700539168

1700539169

1700539170 动作：所有可能做出的动作的集合，记作A（可能是无限的）。对于本题，A=马里奥在每个单元格可以行走的方向，即{上、下、左、右}。状态：所有状态的集合，记作S。对于本题，S为棋盘中每个单元格的位置坐标{(x,y); x=1,2,3; y=1,2,3}，马里奥当前位于（1,1），宝藏位于（3,2）。奖励：机器人可能收到的奖励，一般是一个实数，记作r。对于本题，如果马里奥每移动一步，定义r=−1；如果得到宝藏，定义r=0，游戏结束。时间（t=1,2,3…）：在每个时间点t，机器人会发出一个动作at，收到环境给出的收益rt，同时环境进入到一个新的状态st。状态转移：S×A→S满足，也就是说，从当前状态到下一状态的转移，只与当前状态以及当前所采取的动作有关。这就是所谓的马尔可夫性。累积收益：从当前时刻0开始累积收益的计算方法是，在很多时候，我们可以取T=∞。强化学习的核心任务是，学习一个从状态空间S到动作空间A的映射，最大化累积受益。常用的强化学习算法有Q-Learning、策略梯度，以及演员评判家算法（Actor-Critic）等。

1700539171

1700539172 问题2　根据图11.1给定的马里奥的位置以及宝藏的位置，从价值迭代来考虑，如何找到一条最优路线？

1700539173

1700539174 难度：★★☆☆☆

1700539175

1700539176 分析与解答

1700539177

1700539178 上一问已经把强化学习问题形式化为马尔可夫决策过程。下面我们介绍如何利用价值迭代求解马尔可夫决策过程。那么什么是价值呢？我们将当前状态s的价值V(s)定义为：从状态s=(x,y)开始，能够获得的最大化奖励。结合图11.3可以非常直观地理解价值迭代。

1700539179

1700539180

1700539181

1700539182

1700539183 图11.3　迭代过程

1700539184

1700539185 首先，初始化所有状态的价值V(s)=0。然后，在每一轮迭代中，对每个状态s依次执行以下步骤。

1700539186

1700539187

1700539188

1700539189

1700539190 逐一尝试{上、下、左、右}四个动作a，记录到达状态s′和奖励r。计算每个动作的价值q(s,a)=r+V(s′)。从四个动作中选择最优的动作。更新s状态价值。在第一轮迭代中，由于初始状态V(s)均为0，因此对除宝藏所在位置外的状态s均有V(s)=r+V(s′)=−1+0=−1，即从当前位置出发走一步获得奖励r=−1。

1700539191

1700539192 在第二轮迭代中，对于和宝藏位置相邻的状态，最优动作为一步到达V(s′)=0的状态，即宝藏所在的格子。因此，V(s)更新为r+V(s′)=−1+0=−1；其余只能一步到达V(s′)=−1的状态，V(s)更新为r+V(s′)=−1+(−1)=−2。

1700539193

1700539194 第三轮和第四轮迭代如法炮制。可以发现，在第四轮迭代中，所有V(s)更新前后都没有任何变化，价值迭代已经找到了最优策略。最终，只需要从马里奥所在位置开始，每一步选择最优动作，即可最快地找到宝藏。

1700539195

1700539196 上面的迭代过程实际上运用了贝尔曼方程（Bellman Equation），来对每个位置的价值进行更新

1700539197

1700539198

1700539199 ．

[ 上一页 ] [ :1.70053915e+09 ] [ 下一页 ]