1700539055
,
1700539056
1700539057
(10.23)
1700539058
1700539059
其中语境向量ci是输入序列全部隐状态h1,h2…hT的一个加权和
1700539060
1700539061
1700539062
,
1700539063
1700539064
(10.24)
1700539065
1700539066
其中注意力权重参数αij并不是一个固定权重,而是由另一个神经网络计算得到
1700539067
1700539068
1700539069
,
1700539070
1700539071
(10.25)
1700539072
1700539073
1700539074
.
1700539075
1700539076
(10.26)
1700539077
1700539078
神经网络a将上一个输出序列隐状态si−1和输入序列隐状态hj作为输入,计算出一个xj,yi对齐的值eij,再归一化得到权重αij。
1700539079
1700539080
我们可以对此给出一个直观的理解:在生成一个输出词时,会考虑每一个输入词和当前输出词的对齐关系,对齐越好的词,会有越大的权重,对生成当前输出词的影响也就越大。图10.7展示了翻译时注意力机制的权重分布,在互为翻译的词对上会有最大的权重[29]。
1700539081
1700539082
1700539083
1700539084
1700539085
图10.7 注意力机制的权重分布
1700539086
1700539087
1700539088
1700539089
在机器翻译这样一个典型的Seq2Seq模型里,生成一个输出词yj,会用到第i个输入词对应的隐状态hi以及对应的注意力权重αij。如果只使用一个方向的循环神经网络来计算隐状态,那么hi只包含了x0到xi的信息,相当于在αij这里丢失了xi后面的词的信息。而使用双向循环神经网络进行建模,第i个输入词对应的隐状态包含了和,前者编码x0到xi的信息,后者编码xi及之后所有词的信息,防止了前后文信息的丢失,如图10.8所示。
1700539090
1700539091
1700539092
1700539093
1700539094
图10.8 双向循环神经网络的注意力机制模型
1700539095
1700539096
注意力机制是一种思想,可以有多种不同的实现方式,在Seq2Seq模型以外的场景也有不少应用。图10.9展示了在图像描述文本生成任务中的结果,可以看到在生成对应词时,图片上对应物体的部分有较大的注意力权重[30]。
1700539097
1700539098
1700539099
1700539100
1700539101
图10.9 注意力机制在图片描述文本生成中的应用
1700539102
1700539103
逸闻趣事
1700539104
[
上一页 ]
[ :1.700539055e+09 ]
[
下一页 ]