打字猴:1.700539358e+09

1700539358

1700539359 ，

1700539360

1700539361 （11.3）

1700539362

1700539363 其中sk，ak为轨迹τ上每一步的状态和动作。这样，给定一个策略πθ，我们可以通过模拟获得一些轨迹，对于每条轨迹，可以获得其收益r(τ)以及每一步的<状态、行动>对，从而可以通过式（11.2）和式（11.3）获得当前参数下对梯度的估计。一个简单的算法描述如图11.7所示。

1700539364

1700539365

1700539366

1700539367

1700539368 图11.7　策略梯度算法

1700539369

1700539370

1700539371

1700539372

1700539373

1700539374

1700539375 注意到，∇θR(θ)实际上是一个随机变量g(τ)的期望。我们对g(τ)进行若干次独立采样，可以获得对其期望的一个估计。如果能在不改变期望的前提下减少g(τ)的方差，则能有效提高对其期望估计的效率。我们注意到，所以有。对于任一个常量b，我们定义一个强化梯度，易知，选取合适的b，可以获得一个方差更小的，而维持期望不变。经过计算可以得到最优的b为

1700539376

1700539377