1700540772
1700540773
1700540774
1700540775
1700540776
1700540777
1700540778
我们已有目标函数J(θ),现在对它求梯度。此优化目标是一个求和,里面包含两项:策略Gθ和动作值函数Qθ,它们都含参数θ,根据求导法则,免不了求和。与IRGAN不同,IRGAN中也有两项:策略和即时奖励,但它没有长期奖励,不用计算动作值函数,而且即时奖励不依赖于策略,也就与参数θ无关,只需求策略对θ的梯度。但是在SeqGAN里,策略对θ的梯度和动作值函数对θ的梯度都要求。这里是一个概率函数,计算不难,但是呢?如何计算?
1700540779
1700540780
这确实是一个不小的挑战。前面已给出Qθ的递归公式:
1700540781
1700540782
1700540783
.
1700540784
1700540785
(13.42)
1700540786
1700540787
1700540788
现在我们推导:
1700540789
1700540790
1700540791
.
1700540792
1700540793
(13.43)
1700540794
1700540795
1700540796
1700540797
像上面,依次用后面的动作值替换前面的动作值,最终可得:
1700540798
1700540799
1700540800
,
1700540801
1700540802
(13.44)
1700540803
1700540804
1700540805
其中记。
1700540806
1700540807
1700540808
1700540809
1700540811
百面机器学习:算法工程师带你去面试 第14章 人工智能的热门应用
1700540812
1700540813
随着机器学习的日趋火热,“人工智能”——词似乎占尽了世人的眼球—AlphaGo一鸣惊人,自动驾驶走进生活、智能机器人逐渐成为居家标配。人工智能已经悄悄来到我们的身边,与生活中的一切产生密不可分的联系。
1700540814
1700540815
前13章通过一系列面试题理清了人工智能领域的知识脉络,涵盖了机器学习领域众多基本算法和模型,不仅是踏入人工智能大门、成为优秀数据工程师的基础,更可以将统计理论、数学模型学以致用,去探寻人工智能时代数据海洋中的规律与本源。只有深入透彻地了解各种机器学习方法、理论体系、实践技巧以及适用场景,才能在实际问题中因地制宜,量体裁衣,选择合适的解决方案。
1700540816
1700540817
“天下之事,闻者不如见者知之为详,见者不如居者知之为尽”。本章将着重实践算法、模型、理论于真实世界的广袤天地,涵盖广告、游戏、自动驾驶、机器翻译、人机交互等诸多领域,为读者揭开触手可及的人工智能那层神秘的面纱。
1700540818
1700540819
1700540820
1700540821
[
上一页 ]
[ :1.700540772e+09 ]
[
下一页 ]