1700540760
1700540761
1700540762
图13.19 SeqGAN示意图
1700540763
1700540764
问题3 有了生成器的优化目标,怎样求解它对生成器参数的梯度?
1700540765
1700540766
难度:★★★★★
1700540767
1700540768
分析与解答
1700540769
1700540770
1700540771
1700540772
1700540773
1700540774
1700540775
1700540776
1700540777
1700540778
我们已有目标函数J(θ),现在对它求梯度。此优化目标是一个求和,里面包含两项:策略Gθ和动作值函数Qθ,它们都含参数θ,根据求导法则,免不了求和。与IRGAN不同,IRGAN中也有两项:策略和即时奖励,但它没有长期奖励,不用计算动作值函数,而且即时奖励不依赖于策略,也就与参数θ无关,只需求策略对θ的梯度。但是在SeqGAN里,策略对θ的梯度和动作值函数对θ的梯度都要求。这里是一个概率函数,计算不难,但是呢?如何计算?
1700540779
1700540780
这确实是一个不小的挑战。前面已给出Qθ的递归公式:
1700540781
1700540782
1700540783
.
1700540784
1700540785
(13.42)
1700540786
1700540787
1700540788
现在我们推导:
1700540789
1700540790
1700540791
.
1700540792
1700540793
(13.43)
1700540794
1700540795
1700540796
1700540797
像上面,依次用后面的动作值替换前面的动作值,最终可得:
1700540798
1700540799
1700540800
,
1700540801
1700540802
(13.44)
1700540803
1700540804
1700540805
其中记。
1700540806
1700540807
1700540808
1700540809
[
上一页 ]
[ :1.70054076e+09 ]
[
下一页 ]