1700539358
1700539359
,
1700539360
1700539361
(11.3)
1700539362
1700539363
其中sk,ak为轨迹τ上每一步的状态和动作。这样,给定一个策略πθ,我们可以通过模拟获得一些轨迹,对于每条轨迹,可以获得其收益r(τ)以及每一步的<状态、行动>对,从而可以通过式(11.2)和式(11.3)获得当前参数下对梯度的估计。一个简单的算法描述如图11.7所示。
1700539364
1700539365
1700539366
1700539367
1700539368
图11.7 策略梯度算法
1700539369
1700539370
1700539371
1700539372
1700539373
1700539374
1700539375
注意到,∇θR(θ)实际上是一个随机变量g(τ)的期望。我们对g(τ)进行若干次独立采样,可以获得对其期望的一个估计。如果能在不改变期望的前提下减少g(τ)的方差,则能有效提高对其期望估计的效率。我们注意到,所以有。对于任一个常量b,我们定义一个强化梯度,易知,选取合适的b,可以获得一个方差更小的,而维持期望不变。经过计算可以得到最优的b为
1700539376
1700539377
1700539378
1700539379
1700539380
(11.4)
1700539381
1700539382
于是,得到一个改良的算法,如图11.8所示。
1700539383
1700539384
1700539385
1700539386
1700539387
图11.8 改良的策略梯度算法
1700539388
1700539389
在上述策略梯度算法中,通过估算一个新的强化梯度可以有效缩减原来梯度的方差,从而提高梯度估算的效率,那么如何推出最优的b值呢?
1700539390
1700539391
1700539392
1700539393
我们回到策略梯度算法,。定义随机变量,B=r(τ),可以得到E(A)=0。这样问题变成,在E(A)=0的前提下,寻找最优的常量b,使得var(A(B−b))最小。
1700539394
1700539395
1700539396
1700539397
1700539398
1700539399
,
1700539400
1700539401
(11.5)
1700539402
1700539403
即式(11.4)中的结果。
1700539404
1700539405
1700539406
1700539407
[
上一页 ]
[ :1.700539358e+09 ]
[
下一页 ]