打字猴:1.700538875e+09

1700538875

1700538876 难度：★★☆☆☆

1700538877

1700538878 分析与解答

1700538879

1700538880 有图有真相，我们首先结合LSTM结构图以及更新的计算公式探讨这种网络如何实现其功能，如图10.2所示。

1700538881

1700538882

1700538883

1700538884

1700538885 图10.2　长短时记忆模型内部结构示意

1700538886

1700538887 与传统的循环神经网络相比，LSTM仍然是基于xt和ht−1来计算ht，只不过对内部的结构进行了更加精心的设计，加入了输入门it、遗忘门ft以及输出门ot三个门和一个内部记忆单元ct。输入门控制当前计算的新状态以多大程度更新到记忆单元中；遗忘门控制前一步记忆单元中的信息有多大程度被遗忘掉；输出门控制当前的输出有多大程度上取决于当前的记忆单元。

1700538888

1700538889 经典的LSTM中，第t步的更新计算公式为

1700538890

1700538891 it=σ(Wixt+Uiht−1+bi) ，

1700538892

1700538893 （10.13）

1700538894

1700538895 ft=σ(Wfxt+Ufht−1+bf) ，

1700538896

1700538897 （10.14）

1700538898

1700538899 ot=σ(Woxt+Uoht−1+bo) ，

1700538900

1700538901 （10.15）

1700538902

1700538903

1700538904 =Tanh(Wcxt+Ucht−1) ，

1700538905

1700538906 （10.16）

1700538907

1700538908

1700538909 ct=ft⊙ct−1+it⊙ ，

1700538910

1700538911 （10.17）

1700538912

1700538913 ht=ot⊙Tanh(ct) ．

1700538914

1700538915 （10.18）

1700538916

1700538917 其中it是通过输入xt和上一步的隐含层输出ht−1进行线性变换，再经过激活函数σ得到的。输入门it的结果是向量，其中每个元素是0到1之间的实数，用于控制各维度流过阀门的信息量；Wi、Ui两个矩阵和向量bi为输入门的参数，是在训练过程中需要学习得到的。遗忘门ft和输出门ot的计算方式与输入门类似，它们有各自的参数W、U和b。与传统的循环神经网络不同的是，从上一个记忆单元的状态ct−1到当前的状态ct的转移不一定完全取决于激活函数计算得到的状态，还由输入门和遗忘门来共同控制。

1700538918

1700538919 在一个训练好的网络中，当输入的序列中没有重要信息时，LSTM的遗忘门的值接近于1，输入门的值接近于0，此时过去的记忆会被保存，从而实现了长期记忆功能；当输入的序列中出现了重要的信息时，LSTM应当把其存入记忆中，此时其输入门的值会接近于1；当输入的序列中出现了重要信息，且该信息意味着之前的记忆不再重要时，输入门的值接近1，而遗忘门的值接近于0，这样旧的记忆被遗忘，新的重要信息被记忆。经过这样的设计，整个网络更容易学习到序列之间的长期依赖。

1700538920

1700538921 问题2　LSTM里各模块分别使用什么激活函数，可以使用别的激活函数吗？

1700538922

1700538923 难度：★★★☆☆

1700538924

[ 上一页 ] [ :1.700538875e+09 ] [ 下一页 ]