打字猴:1.700539055e+09

1700539055 ，

1700539056

1700539057 （10.23）

1700539058

1700539059 其中语境向量ci是输入序列全部隐状态h1,h2…hT的一个加权和

1700539060

1700539061

1700539062 ，

1700539063

1700539064 （10.24）

1700539065

1700539066 其中注意力权重参数αij并不是一个固定权重，而是由另一个神经网络计算得到

1700539067

1700539068

1700539069 ，

1700539070

1700539071 （10.25）

1700539072

1700539073

1700539074 ．

1700539075

1700539076 （10.26）

1700539077

1700539078 神经网络a将上一个输出序列隐状态si−1和输入序列隐状态hj作为输入，计算出一个xj，yi对齐的值eij，再归一化得到权重αij。

1700539079

1700539080 我们可以对此给出一个直观的理解：在生成一个输出词时，会考虑每一个输入词和当前输出词的对齐关系，对齐越好的词，会有越大的权重，对生成当前输出词的影响也就越大。图10.7展示了翻译时注意力机制的权重分布，在互为翻译的词对上会有最大的权重[29]。

1700539081

1700539082

1700539083

1700539084

1700539085 图10.7　注意力机制的权重分布

1700539086

1700539087

1700539088

1700539089 在机器翻译这样一个典型的Seq2Seq模型里，生成一个输出词yj，会用到第i个输入词对应的隐状态hi以及对应的注意力权重αij。如果只使用一个方向的循环神经网络来计算隐状态，那么hi只包含了x0到xi的信息，相当于在αij这里丢失了xi后面的词的信息。而使用双向循环神经网络进行建模，第i个输入词对应的隐状态包含了和，前者编码x0到xi的信息，后者编码xi及之后所有词的信息，防止了前后文信息的丢失，如图10.8所示。

1700539090

1700539091

1700539092

1700539093

1700539094 图10.8　双向循环神经网络的注意力机制模型

1700539095

1700539096 注意力机制是一种思想，可以有多种不同的实现方式，在Seq2Seq模型以外的场景也有不少应用。图10.9展示了在图像描述文本生成任务中的结果，可以看到在生成对应词时，图片上对应物体的部分有较大的注意力权重[30]。

1700539097

1700539098

1700539099

1700539100

1700539101 图10.9　注意力机制在图片描述文本生成中的应用

1700539102

1700539103 逸闻趣事

1700539104

[ 上一页 ] [ :1.700539055e+09 ] [ 下一页 ]