打字猴:1.70053938e+09
1700539380 (11.4)
1700539381
1700539382 于是,得到一个改良的算法,如图11.8所示。
1700539383
1700539384
1700539385
1700539386
1700539387 图11.8 改良的策略梯度算法
1700539388
1700539389 在上述策略梯度算法中,通过估算一个新的强化梯度可以有效缩减原来梯度的方差,从而提高梯度估算的效率,那么如何推出最优的b值呢?
1700539390
1700539391
1700539392
1700539393 我们回到策略梯度算法,。定义随机变量,B=r(τ),可以得到E(A)=0。这样问题变成,在E(A)=0的前提下,寻找最优的常量b,使得var(A(B−b))最小。
1700539394
1700539395
1700539396
1700539397
1700539398
1700539399
1700539400
1700539401 (11.5)
1700539402
1700539403 即式(11.4)中的结果。
1700539404
1700539405
1700539406
1700539407
1700539408 百面机器学习:算法工程师带你去面试 [:1700532237]
1700539409 百面机器学习:算法工程师带你去面试 04 探索与利用
1700539410
1700539411
1700539412
1700539413 场景描述
1700539414
1700539415 在和环境不断交互的过程中,智能体在不同的状态下不停地探索,获取不同的动作的反馈。探索(Exploration)能够帮助智能体通过不断试验获得反馈,利用(Exploitation)是指利用已有的反馈信息选择最好的动作。因此如何平衡探索和利用是智能体在交互中不断学习的重要问题。
1700539416
1700539417 知识点
1700539418
1700539419 强化学习,探索,利用
1700539420
1700539421 问题 在智能体与环境的交互中,什么是探索和利用?如何平衡探索与利用?
1700539422
1700539423 难度:★★★☆☆
1700539424
1700539425 分析与解答
1700539426
1700539427 假设我们开了一家叫Surprise Me的饭馆,客人来了不用点餐,而是用算法来决定该做哪道菜。具体过程为:
1700539428
1700539429 (1)客人 user = 1,…,T 依次到达饭馆。
[ 上一页 ]  [ :1.70053938e+09 ]  [ 下一页 ]