打字猴:1.700508705e+09

1700508705

1700508706 在RNN模型中会遇到一个很严重的问题，就是梯度消失。梯度消失问题当然不是RNN的专利，不过RNN会在时间这个梯度上发生梯度消失问题，这样序列中离现在较远的状态对当前输出的刺激实际上是极为不足的。为了克服这个问题，改进RNN的学习性能，产生了LSTM衍生算法（如图11-57所示）。

1700508707

1700508708

1700508709

1700508710

1700508711 图11-57　LSTM序列

1700508712

1700508713 基于LSTM（Long-Short Term Memory）算法实现的神经网络也叫作“长短期记忆人工神经网络”，它是RNN网络的一个重要变种（如图11-58所示）。LSTM算法训练的对象就是xi和hi的序列对，xi是输入向量，hi是输出向量。

1700508714

1700508715

1700508716

1700508717

1700508718 图11-58　LSTM网络结构

1700508719

1700508720 在一个LSTM网络中有这样几个结构，分别如图11-59、图11-60、图11-61和图11-62所示。σ就是Sigmoid函数，有

1700508721

1700508722

1700508723

1700508724

1700508725

1700508726

1700508727

1700508728

1700508729 图11-59　LSTM结构（1）图11-60　LSTM结构（2）图11-61　LSTM结构（3）图11-62　LSTM结构（4） ft的激励值来源于ht-1和xt两个元素，也就是当前的xt向量和前一个输出值ht-1。这个输出的ft取值范围为(0, 1)，输出到上面一条横线后通过一个乘法器与上一次的输出值ht-1相乘。这个部分叫作“忘记门”。所谓“忘记”就是指ht-1输入的值在乘以一个取值为0到1之间的百分比之后还剩下多少。如果是0，那就是完全忘记；如果是1，那就是完全记住。

1700508730

1700508731 it这个值的产生方式与前面的ft是一样的，为了区别，下标用t来表示。

1700508732

1700508733