打字猴:1.700539372e+09
1700539372
1700539373
1700539374
1700539375 注意到,∇θR(θ)实际上是一个随机变量g(τ)的期望。我们对g(τ)进行若干次独立采样,可以获得对其期望的一个估计。如果能在不改变期望的前提下减少g(τ)的方差,则能有效提高对其期望估计的效率。我们注意到,所以有。对于任一个常量b,我们定义一个强化梯度,易知,选取合适的b,可以获得一个方差更小的,而维持期望不变。经过计算可以得到最优的b为
1700539376
1700539377
1700539378
1700539379
1700539380 (11.4)
1700539381
1700539382 于是,得到一个改良的算法,如图11.8所示。
1700539383
1700539384
1700539385
1700539386
1700539387 图11.8 改良的策略梯度算法
1700539388
1700539389 在上述策略梯度算法中,通过估算一个新的强化梯度可以有效缩减原来梯度的方差,从而提高梯度估算的效率,那么如何推出最优的b值呢?
1700539390
1700539391
1700539392
1700539393 我们回到策略梯度算法,。定义随机变量,B=r(τ),可以得到E(A)=0。这样问题变成,在E(A)=0的前提下,寻找最优的常量b,使得var(A(B−b))最小。
1700539394
1700539395
1700539396
1700539397
1700539398
1700539399
1700539400
1700539401 (11.5)
1700539402
1700539403 即式(11.4)中的结果。
1700539404
1700539405
1700539406
1700539407
1700539408 百面机器学习:算法工程师带你去面试 [:1700532237]
1700539409 百面机器学习:算法工程师带你去面试 04 探索与利用
1700539410
1700539411
1700539412
1700539413 场景描述
1700539414
1700539415 在和环境不断交互的过程中,智能体在不同的状态下不停地探索,获取不同的动作的反馈。探索(Exploration)能够帮助智能体通过不断试验获得反馈,利用(Exploitation)是指利用已有的反馈信息选择最好的动作。因此如何平衡探索和利用是智能体在交互中不断学习的重要问题。
1700539416
1700539417 知识点
1700539418
1700539419 强化学习,探索,利用
1700539420
1700539421 问题 在智能体与环境的交互中,什么是探索和利用?如何平衡探索与利用?
[ 上一页 ]  [ :1.700539372e+09 ]  [ 下一页 ]