打字猴:1.700539322e+09

1700539322 百面机器学习：算法工程师带你去面试 [:1700532236]

1700539323 百面机器学习：算法工程师带你去面试 03　策略梯度

1700539324

1700539325

1700539326

1700539327 场景描述

1700539328

1700539329 Q-learning因为涉及在状态空间上求Q函数的最大值，所以只适用于处理离散的状态空间，对于连续的状态空间，最大化Q函数将变得非常困难。所以对于机器人控制等需要复杂连续输出的领域，Q-learning就显得不太合适了。其次，包括深度Q-learning在内的大多数强化学习算法，都没有收敛性的保证，而策略梯度（Policy Gradient）则没有这些问题，它可以无差别地处理连续和离散状态空间，同时保证至少收敛到一个局部最优解。

1700539330

1700539331 知识点

1700539332

1700539333 强化学习，Q-learning

1700539334

1700539335 问题　什么是策略梯度，它和传统Q-learning有什么不同，相对于Q-learning来说有什么优势?

1700539336

1700539337 难度：★★★★☆

1700539338

1700539339 分析与解答

1700539340

1700539341

1700539342

1700539343

1700539344 在策略梯度中，我们考虑前后两个状态之间的关系为，其中st、st+1是相继的两个状态，at是t步时所采取的行动，p是环境所决定的下个时刻状态分布。而动作at的生成模型（策略）为，其中πθ是以θ为参变量的一个分布，at从这个分布进行采样。这样，在同一个环境下，强化学习的总收益函数，，完全由θ所决定。策略梯度的基本思想就是，直接用梯度方法来优化R(θ)。可以看出，和Q-learning不同的是，策略梯度并不估算Q函数本身，而是利用当前状态直接生成动作at。这有效避免了在连续状态空间上最大化Q函数的困难。同时，直接用梯度的方法优化R(θ)可以保证至少是局部收敛的。

1700539345

1700539346