打字猴:1.70053938e+09

1700539380 （11.4）

1700539381

1700539382 于是，得到一个改良的算法，如图11.8所示。

1700539383

1700539384

1700539385

1700539386

1700539387 图11.8　改良的策略梯度算法

1700539388

1700539389 在上述策略梯度算法中，通过估算一个新的强化梯度可以有效缩减原来梯度的方差，从而提高梯度估算的效率，那么如何推出最优的b值呢？

1700539390

1700539391

1700539392

1700539393 我们回到策略梯度算法，。定义随机变量，B=r(τ)，可以得到E(A)=0。这样问题变成，在E(A)=0的前提下，寻找最优的常量b，使得var(A(B−b))最小。

1700539394

1700539395

1700539396

1700539397

1700539398

1700539399 ，

1700539400

1700539401 （11.5）

1700539402

1700539403 即式（11.4）中的结果。

1700539404

1700539405

1700539406

1700539407

1700539408 百面机器学习：算法工程师带你去面试 [:1700532237]

1700539409 百面机器学习：算法工程师带你去面试 04　探索与利用

1700539410

1700539411

1700539412

1700539413 场景描述

1700539414

1700539415 在和环境不断交互的过程中，智能体在不同的状态下不停地探索，获取不同的动作的反馈。探索（Exploration）能够帮助智能体通过不断试验获得反馈，利用（Exploitation）是指利用已有的反馈信息选择最好的动作。因此如何平衡探索和利用是智能体在交互中不断学习的重要问题。

1700539416

1700539417 知识点

1700539418

1700539419 强化学习，探索，利用

1700539420

1700539421 问题　在智能体与环境的交互中，什么是探索和利用？如何平衡探索与利用？

1700539422

1700539423 难度：★★★☆☆

1700539424

1700539425 分析与解答

1700539426

1700539427 假设我们开了一家叫Surprise Me的饭馆，客人来了不用点餐，而是用算法来决定该做哪道菜。具体过程为：

1700539428

1700539429 （1）客人 user = 1,…,T 依次到达饭馆。

[ 上一页 ] [ :1.70053938e+09 ] [ 下一页 ]