打字猴:1.70054071e+09
1700540710
1700540711
1700540712
1700540713
1700540714 (13.36)
1700540715
1700540716 或梯度增强版的
1700540717
1700540718
1700540719
1700540720
1700540721 (13.37)
1700540722
1700540723
1700540724 其中就是生成器的奖励。
1700540725
1700540726
1700540727 强化学习里有两个重要概念,策略和动作值函数。前者记,表示状态s下选择动作a的概率,体现模型根据状态做决策的能力;后者记Qθ(s,a),表示状态s下做动作a后,根据策略Gθ完成后续动作获得的总奖励期望。结合本例,前T−1个词已选的状态下选第T个词的Qθ(s,a)为:
1700540728
1700540729
1700540730
1700540731
1700540732 (13.38)
1700540733
1700540734 总奖励期望为:
1700540735
1700540736
1700540737
1700540738
1700540739 (13.39)
1700540740
1700540741 上式包含了各序列前缀的状态下策略,以及一个最终的奖励。如果对此式做优化,序列每增加一个长度,计算复杂度将呈指数上升。我们不这么干,利用前后状态下动作值函数的递归关系:
1700540742
1700540743
1700540744
1700540745
1700540746 (13.40)
1700540747
1700540748
1700540749
1700540750 将序列末端的转换为序列初端的,得到一个简化的生成器优化目标:
1700540751
1700540752
1700540753
1700540754
1700540755 (13.41)
1700540756
1700540757 该优化目标的含义是,在起始状态s0下根据策略选择第一个词y1,并在之后依旧根据这个策略选词,总体可得奖励的期望。此时序列末端的奖励成了序列初端的长期奖励。
1700540758
1700540759
[ 上一页 ]  [ :1.70054071e+09 ]  [ 下一页 ]