打字猴:1.700539055e+09
1700539055
1700539056
1700539057 (10.23)
1700539058
1700539059 其中语境向量ci是输入序列全部隐状态h1,h2…hT的一个加权和
1700539060
1700539061
1700539062
1700539063
1700539064 (10.24)
1700539065
1700539066 其中注意力权重参数αij并不是一个固定权重,而是由另一个神经网络计算得到
1700539067
1700539068
1700539069
1700539070
1700539071 (10.25)
1700539072
1700539073
1700539074
1700539075
1700539076 (10.26)
1700539077
1700539078 神经网络a将上一个输出序列隐状态si−1和输入序列隐状态hj作为输入,计算出一个xj,yi对齐的值eij,再归一化得到权重αij。
1700539079
1700539080 我们可以对此给出一个直观的理解:在生成一个输出词时,会考虑每一个输入词和当前输出词的对齐关系,对齐越好的词,会有越大的权重,对生成当前输出词的影响也就越大。图10.7展示了翻译时注意力机制的权重分布,在互为翻译的词对上会有最大的权重[29]。
1700539081
1700539082
1700539083
1700539084
1700539085 图10.7 注意力机制的权重分布
1700539086
1700539087
1700539088
1700539089 在机器翻译这样一个典型的Seq2Seq模型里,生成一个输出词yj,会用到第i个输入词对应的隐状态hi以及对应的注意力权重αij。如果只使用一个方向的循环神经网络来计算隐状态,那么hi只包含了x0到xi的信息,相当于在αij这里丢失了xi后面的词的信息。而使用双向循环神经网络进行建模,第i个输入词对应的隐状态包含了和,前者编码x0到xi的信息,后者编码xi及之后所有词的信息,防止了前后文信息的丢失,如图10.8所示。
1700539090
1700539091
1700539092
1700539093
1700539094 图10.8 双向循环神经网络的注意力机制模型
1700539095
1700539096 注意力机制是一种思想,可以有多种不同的实现方式,在Seq2Seq模型以外的场景也有不少应用。图10.9展示了在图像描述文本生成任务中的结果,可以看到在生成对应词时,图片上对应物体的部分有较大的注意力权重[30]。
1700539097
1700539098
1700539099
1700539100
1700539101 图10.9 注意力机制在图片描述文本生成中的应用
1700539102
1700539103 逸闻趣事 
1700539104
[ 上一页 ]  [ :1.700539055e+09 ]  [ 下一页 ]