1700538862
百面机器学习:算法工程师带你去面试 04 长短期记忆网络
1700538863
1700538864
1700538865
1700538866
场景描述
1700538867
1700538868
长短期记忆网络(Long Short Term Memory,LSTM)是循环神经网络的最知名和成功的扩展。由于循环神经网络有梯度消失和梯度爆炸的问题,学习能力有限,在实际任务中的效果往往达不到预期效果。LSTM可以对有价值的信息进行长期记忆,从而减小循环神经网络的学习难度,因此在语音识别、语言建模、机器翻译、命名实体识别、图像描述文本生成等问题中有着广泛应用。
1700538869
1700538870
知识点
1700538871
1700538872
LSTM,门控,激活函数,双曲正切函数,Sigmoid函数
1700538873
1700538874
问题1 LSTM是如何实现长短期记忆功能的?
1700538875
1700538876
难度:★★☆☆☆
1700538877
1700538878
分析与解答
1700538879
1700538880
有图有真相,我们首先结合LSTM结构图以及更新的计算公式探讨这种网络如何实现其功能,如图10.2所示。
1700538881
1700538882
1700538883
1700538884
1700538885
图10.2 长短时记忆模型内部结构示意
1700538886
1700538887
与传统的循环神经网络相比,LSTM仍然是基于xt和ht−1来计算ht,只不过对内部的结构进行了更加精心的设计,加入了输入门it、遗忘门ft以及输出门ot三个门和一个内部记忆单元ct。输入门控制当前计算的新状态以多大程度更新到记忆单元中;遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉;输出门控制当前的输出有多大程度上取决于当前的记忆单元。
1700538888
1700538889
经典的LSTM中,第t步的更新计算公式为
1700538890
1700538891
it=σ(Wixt+Uiht−1+bi) ,
1700538892
1700538893
(10.13)
1700538894
1700538895
ft=σ(Wfxt+Ufht−1+bf) ,
1700538896
1700538897
(10.14)
1700538898
1700538899
ot=σ(Woxt+Uoht−1+bo) ,
1700538900
1700538901
(10.15)
1700538902
1700538903
1700538904
=Tanh(Wcxt+Ucht−1) ,
1700538905
1700538906
(10.16)
1700538907
1700538908
1700538909
ct=ft⊙ct−1+it⊙ ,
1700538910
[
上一页 ]
[ :1.700538861e+09 ]
[
下一页 ]