打字猴:1.70054071e+09

1700540710

1700540711

1700540712 ，

1700540713

1700540714 （13.36）

1700540715

1700540716 或梯度增强版的

1700540717

1700540718

1700540719 ，

1700540720

1700540721 （13.37）

1700540722

1700540723

1700540724 其中就是生成器的奖励。

1700540725

1700540726

1700540727 强化学习里有两个重要概念，策略和动作值函数。前者记，表示状态s下选择动作a的概率，体现模型根据状态做决策的能力；后者记Qθ(s,a)，表示状态s下做动作a后，根据策略Gθ完成后续动作获得的总奖励期望。结合本例，前T−1个词已选的状态下选第T个词的Qθ(s,a)为：

1700540728

1700540729

1700540730 ．

1700540731

1700540732 （13.38）

1700540733

1700540734 总奖励期望为：

1700540735

1700540736

1700540737 ．

1700540738

1700540739 （13.39）

1700540740

1700540741 上式包含了各序列前缀的状态下策略，以及一个最终的奖励。如果对此式做优化，序列每增加一个长度，计算复杂度将呈指数上升。我们不这么干，利用前后状态下动作值函数的递归关系：

1700540742

1700540743

1700540744 ．

1700540745

1700540746 （13.40）

1700540747

1700540748

1700540749

1700540750 将序列末端的转换为序列初端的，得到一个简化的生成器优化目标：

1700540751

1700540752

1700540753 ．

1700540754

1700540755 （13.41）

1700540756

1700540757 该优化目标的含义是，在起始状态s0下根据策略选择第一个词y1，并在之后依旧根据这个策略选词，总体可得奖励的期望。此时序列末端的奖励成了序列初端的长期奖励。

1700540758

1700540759

[ 上一页 ] [ :1.70054071e+09 ] [ 下一页 ]