1700539175
1700539176
分析与解答
1700539177
1700539178
上一问已经把强化学习问题形式化为马尔可夫决策过程。下面我们介绍如何利用价值迭代求解马尔可夫决策过程。那么什么是价值呢?我们将当前状态s的价值V(s)定义为:从状态s=(x,y)开始,能够获得的最大化奖励。结合图11.3可以非常直观地理解价值迭代。
1700539179
1700539180
1700539181
1700539182
1700539183
图11.3 迭代过程
1700539184
1700539185
首先,初始化所有状态的价值V(s)=0。然后,在每一轮迭代中,对每个状态s依次执行以下步骤。
1700539186
1700539187
1700539188
1700539189
1700539190
逐一尝试{上、下、左、右}四个动作a,记录到达状态s′和奖励r。 计算每个动作的价值q(s,a)=r+V(s′)。 从四个动作中选择最优的动作。 更新s状态价值。 在第一轮迭代中,由于初始状态V(s)均为0,因此对除宝藏所在位置外的状态s均有V(s)=r+V(s′)=−1+0=−1,即从当前位置出发走一步获得奖励r=−1。
1700539191
1700539192
在第二轮迭代中,对于和宝藏位置相邻的状态,最优动作为一步到达V(s′)=0的状态,即宝藏所在的格子。因此,V(s)更新为r+V(s′)=−1+0=−1;其余只能一步到达V(s′)=−1的状态,V(s)更新为r+V(s′)=−1+(−1)=−2。
1700539193
1700539194
第三轮和第四轮迭代如法炮制。可以发现,在第四轮迭代中,所有V(s)更新前后都没有任何变化,价值迭代已经找到了最优策略。最终,只需要从马里奥所在位置开始,每一步选择最优动作,即可最快地找到宝藏。
1700539195
1700539196
上面的迭代过程实际上运用了贝尔曼方程(Bellman Equation),来对每个位置的价值进行更新
1700539197
1700539198
1700539199
.
1700539200
1700539201
(11.1)
1700539202
1700539203
贝尔曼方程中状态s的价值V(s)由两部分组成:
1700539204
1700539205
1700539206
1700539207
采取动作a后带来的奖励r。 采取动作a后到达的新状态的价值V(s′)。 问题3 根据图11.1给定的马里奥的位置以及宝藏的位置,从策略迭代来考虑,如何找到一条最优路线?
1700539208
1700539209
难度:★★☆☆☆
1700539210
1700539211
分析与解答
1700539212
1700539213
本节介绍马尔可夫决策过程的另一种求解方法——策略迭代。什么叫策略?策略就是根据当前状态决定该采取什么动作。以场景中的马里奥寻找宝箱为例,马里奥需要不断朝着宝藏的方向前进:当前状态如果在宝藏左侧,策略应该是朝右走;当前状态如果在宝藏上方,策略应该是朝下走。
1700539214
1700539215
如何衡量策略的好坏?这就需要介绍策略评估(Policy Evaluation)。给定一个策略π,我们可以计算出每个状态的期望价值 V(s)。策略迭代可以帮助我们找到更好的策略,即期望价值更高的策略,具体步骤如下。
1700539216
1700539217
(1)初始化:随机选择一个策略作为初始值。比如“不管什么状态,一律朝下走”,即P(A = 朝下走 | St=s)= 1,P(A = 其他 | St=s)= 0。
1700539218
1700539219
1700539220
1700539221
(2)进行策略评估:根据当前的策略计算。
1700539222
1700539223
1700539224
[
上一页 ]
[ :1.700539175e+09 ]
[
下一页 ]