1700539075
1700539076
(10.26)
1700539077
1700539078
神经网络a将上一个输出序列隐状态si−1和输入序列隐状态hj作为输入,计算出一个xj,yi对齐的值eij,再归一化得到权重αij。
1700539079
1700539080
我们可以对此给出一个直观的理解:在生成一个输出词时,会考虑每一个输入词和当前输出词的对齐关系,对齐越好的词,会有越大的权重,对生成当前输出词的影响也就越大。图10.7展示了翻译时注意力机制的权重分布,在互为翻译的词对上会有最大的权重[29]。
1700539081
1700539082
1700539083
1700539084
1700539085
图10.7 注意力机制的权重分布
1700539086
1700539087
1700539088
1700539089
在机器翻译这样一个典型的Seq2Seq模型里,生成一个输出词yj,会用到第i个输入词对应的隐状态hi以及对应的注意力权重αij。如果只使用一个方向的循环神经网络来计算隐状态,那么hi只包含了x0到xi的信息,相当于在αij这里丢失了xi后面的词的信息。而使用双向循环神经网络进行建模,第i个输入词对应的隐状态包含了和,前者编码x0到xi的信息,后者编码xi及之后所有词的信息,防止了前后文信息的丢失,如图10.8所示。
1700539090
1700539091
1700539092
1700539093
1700539094
图10.8 双向循环神经网络的注意力机制模型
1700539095
1700539096
注意力机制是一种思想,可以有多种不同的实现方式,在Seq2Seq模型以外的场景也有不少应用。图10.9展示了在图像描述文本生成任务中的结果,可以看到在生成对应词时,图片上对应物体的部分有较大的注意力权重[30]。
1700539097
1700539098
1700539099
1700539100
1700539101
图10.9 注意力机制在图片描述文本生成中的应用
1700539102
1700539103
逸闻趣事
1700539104
1700539105
1700539106
1700539107
Bengio兄弟
1700539108
1700539109
很多人或许都听说过约书亚·本吉奥(Yoshua Bengio),他作为深度学习三驾马车之一,参与编撰了两本《深度学习》图书。本吉奥有许多重要的工作,例如门控循环单元、注意力机制,和近来火爆的生成对抗网络等。近来,人工智能领域的顶级会议,NIPS 2017(神经信息处理系统大会)宣布将由萨米·本吉奥担任组委会执行主席。由于本吉奥是一个非常少见的姓氏,那么萨米·本吉奥究竟是约书亚·本吉奥的别名,还是父子或者兄弟,或者没有关系呢?
1700539110
1700539111
顺着八卦之路,萨米·本吉奥的信息如下:他是谷歌的研究科学家,在蒙特利尔大学获得博士学位,并在那里进行了博士后研究。显然他和约书亚·本吉奥不是同一个人,但巧合的是,约书亚·本吉奥就是蒙特利尔大学的教授呀。打开约书亚·本吉奥教授的学生介绍页面,萨米·本吉奥在博士后期间,曾得到他的指导。
1700539112
1700539113
图10.10是本吉奥兄弟的合影。
1700539114
1700539115
1700539116
1700539117
1700539118
图10.10 围观群众与本吉奥兄弟的合影
1700539119
1700539120
约书亚·本吉奥(左一)和萨米·本吉奥(右一)长得非常像,年纪接近,显然是同胞兄弟。看年纪,约书亚应该是萨米的哥哥。兄弟同为深度学习领域资深的科学家,也成就了一番佳话。
1700539121
1700539122
1700539123
1700539124
[
上一页 ]
[ :1.700539075e+09 ]
[
下一页 ]