打字猴:1.70053913e+09

1700539130

1700539131

1700539132

1700539133 百面机器学习：算法工程师带你去面试 [:1700532234]

1700539134 百面机器学习：算法工程师带你去面试 01　强化学习基础

1700539135

1700539136

1700539137

1700539138 场景描述

1700539139

1700539140 假设我们有一个3×3的棋盘，其中有一个单元格是马里奥，另一个单元格是宝藏，如图11.1所示。在游戏的每个回合，可以往上、下、左、右四个方向移动马里奥，直到马里奥找到宝藏，游戏结束。在这个场景中，强化学习需要定义一些基本概念来完成对问题的数学建模。

1700539141

1700539142

1700539143

1700539144

1700539145 图11.1　超级玛丽找宝藏

1700539146

1700539147 知识点

1700539148

1700539149 强化学习，马尔可夫决策过程，价值迭代（Value Iteration），策略迭代

1700539150

1700539151 问题1　强化学习中有哪些基本概念？在马里奥找宝藏问题中如何定义这些概念？

1700539152

1700539153 难度：★☆☆☆☆

1700539154

1700539155 分析与解答

1700539156

1700539157 强化学习的基本场景可以用图11.2来描述，主要由环境（Environment）、机器人（Agent）、状态（State）、动作（Action）、奖励（Reward）等基本概念构成。一个机器人在环境中会做各种动作，环境会接收动作，并引起自身状态的变迁，同时给机器人以奖励。机器人的目标就是使用一些策略，做合适的动作，最大化自身的收益。

1700539158

1700539159

1700539160

1700539161

1700539162 图11.2　强化学习基本场景

1700539163

1700539164 整个场景一般可以描述为一个马尔可夫决策过程（Markov Decision Process，MDP）。马尔可夫决策过程是马尔可夫过程与确定性的动态规划相结合的产物，指决策者周期地或连续地观察具有马尔可夫性的随机动态系统，序贯地做出决策的过程，以俄罗斯数学家安德雷·马尔可夫的名字命名。这个过程包括以下几个要素：

1700539165

1700539166

1700539167

1700539168

1700539169

1700539170 动作：所有可能做出的动作的集合，记作A（可能是无限的）。对于本题，A=马里奥在每个单元格可以行走的方向，即{上、下、左、右}。状态：所有状态的集合，记作S。对于本题，S为棋盘中每个单元格的位置坐标{(x,y); x=1,2,3; y=1,2,3}，马里奥当前位于（1,1），宝藏位于（3,2）。奖励：机器人可能收到的奖励，一般是一个实数，记作r。对于本题，如果马里奥每移动一步，定义r=−1；如果得到宝藏，定义r=0，游戏结束。时间（t=1,2,3…）：在每个时间点t，机器人会发出一个动作at，收到环境给出的收益rt，同时环境进入到一个新的状态st。状态转移：S×A→S满足，也就是说，从当前状态到下一状态的转移，只与当前状态以及当前所采取的动作有关。这就是所谓的马尔可夫性。累积收益：从当前时刻0开始累积收益的计算方法是，在很多时候，我们可以取T=∞。强化学习的核心任务是，学习一个从状态空间S到动作空间A的映射，最大化累积受益。常用的强化学习算法有Q-Learning、策略梯度，以及演员评判家算法（Actor-Critic）等。

1700539171

1700539172 问题2　根据图11.1给定的马里奥的位置以及宝藏的位置，从价值迭代来考虑，如何找到一条最优路线？

1700539173

1700539174 难度：★★☆☆☆

1700539175

1700539176 分析与解答

1700539177

1700539178 上一问已经把强化学习问题形式化为马尔可夫决策过程。下面我们介绍如何利用价值迭代求解马尔可夫决策过程。那么什么是价值呢？我们将当前状态s的价值V(s)定义为：从状态s=(x,y)开始，能够获得的最大化奖励。结合图11.3可以非常直观地理解价值迭代。

1700539179

[ 上一页 ] [ :1.70053913e+09 ] [ 下一页 ]