打字猴:1.70054075e+09

1700540750 将序列末端的转换为序列初端的，得到一个简化的生成器优化目标：

1700540751

1700540752

1700540753 ．

1700540754

1700540755 （13.41）

1700540756

1700540757 该优化目标的含义是，在起始状态s0下根据策略选择第一个词y1，并在之后依旧根据这个策略选词，总体可得奖励的期望。此时序列末端的奖励成了序列初端的长期奖励。

1700540758

1700540759

1700540760

1700540761

1700540762 图13.19　SeqGAN示意图

1700540763

1700540764 问题3　有了生成器的优化目标，怎样求解它对生成器参数的梯度？

1700540765

1700540766 难度：★★★★★

1700540767

1700540768 分析与解答

1700540769

1700540770

1700540771

1700540772

1700540773

1700540774

1700540775

1700540776

1700540777

1700540778 我们已有目标函数J(θ)，现在对它求梯度。此优化目标是一个求和，里面包含两项：策略Gθ和动作值函数Qθ，它们都含参数θ，根据求导法则，免不了求和。与IRGAN不同，IRGAN中也有两项：策略和即时奖励，但它没有长期奖励，不用计算动作值函数，而且即时奖励不依赖于策略，也就与参数θ无关，只需求策略对θ的梯度。但是在SeqGAN里，策略对θ的梯度和动作值函数对θ的梯度都要求。这里是一个概率函数，计算不难，但是呢？如何计算？

1700540779

1700540780 这确实是一个不小的挑战。前面已给出Qθ的递归公式：

1700540781

1700540782