打字猴:1.700538852e+09
1700538852
1700538853
1700538854 假设采用ReLU 激活函数,且一开始所有的神经元都处于激活中(即输入大于0),则为单位矩阵,有。在梯度传递经历了n层之后,。可以看到,即使采用了ReLU激活函数,只要W不是单位矩阵,梯度还是会出现消失或者爆炸的现象。
1700538855
1700538856 综上所述,当采用ReLU作为循环神经网络中隐含层的激活函数时,只有当W的取值在单位矩阵附近时才能取得比较好的效果,因此需要将W初始化为单位矩阵。实验证明,初始化W为单位矩阵并使用ReLU激活函数在一些应用中取得了与长短期记忆模型相似的结果,并且学习速度比长短期记忆模型更快,是一个值得尝试的小技巧[25]。
1700538857
1700538858
1700538859
1700538860
1700538861 百面机器学习:算法工程师带你去面试 [:1700532230]
1700538862 百面机器学习:算法工程师带你去面试 04 长短期记忆网络
1700538863
1700538864
1700538865
1700538866 场景描述
1700538867
1700538868 长短期记忆网络(Long Short Term Memory,LSTM)是循环神经网络的最知名和成功的扩展。由于循环神经网络有梯度消失和梯度爆炸的问题,学习能力有限,在实际任务中的效果往往达不到预期效果。LSTM可以对有价值的信息进行长期记忆,从而减小循环神经网络的学习难度,因此在语音识别、语言建模、机器翻译、命名实体识别、图像描述文本生成等问题中有着广泛应用。
1700538869
1700538870 知识点
1700538871
1700538872 LSTM,门控,激活函数,双曲正切函数,Sigmoid函数
1700538873
1700538874 问题1 LSTM是如何实现长短期记忆功能的?
1700538875
1700538876 难度:★★☆☆☆
1700538877
1700538878 分析与解答
1700538879
1700538880 有图有真相,我们首先结合LSTM结构图以及更新的计算公式探讨这种网络如何实现其功能,如图10.2所示。
1700538881
1700538882
1700538883
1700538884
1700538885 图10.2 长短时记忆模型内部结构示意
1700538886
1700538887 与传统的循环神经网络相比,LSTM仍然是基于xt和ht−1来计算ht,只不过对内部的结构进行了更加精心的设计,加入了输入门it、遗忘门ft以及输出门ot三个门和一个内部记忆单元ct。输入门控制当前计算的新状态以多大程度更新到记忆单元中;遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉;输出门控制当前的输出有多大程度上取决于当前的记忆单元。
1700538888
1700538889 经典的LSTM中,第t步的更新计算公式为
1700538890
1700538891 it=σ(Wixt+Uiht−1+bi) ,
1700538892
1700538893 (10.13)
1700538894
1700538895 ft=σ(Wfxt+Ufht−1+bf) ,
1700538896
1700538897 (10.14)
1700538898
1700538899 ot=σ(Woxt+Uoht−1+bo) ,
1700538900
1700538901 (10.15)
[ 上一页 ]  [ :1.700538852e+09 ]  [ 下一页 ]