打字猴:1.700508718e+09

1700508718 图11-58　LSTM网络结构

1700508719

1700508720 在一个LSTM网络中有这样几个结构，分别如图11-59、图11-60、图11-61和图11-62所示。σ就是Sigmoid函数，有

1700508721

1700508722

1700508723

1700508724

1700508725

1700508726

1700508727

1700508728

1700508729 图11-59　LSTM结构（1）图11-60　LSTM结构（2）图11-61　LSTM结构（3）图11-62　LSTM结构（4） ft的激励值来源于ht-1和xt两个元素，也就是当前的xt向量和前一个输出值ht-1。这个输出的ft取值范围为(0, 1)，输出到上面一条横线后通过一个乘法器与上一次的输出值ht-1相乘。这个部分叫作“忘记门”。所谓“忘记”就是指ht-1输入的值在乘以一个取值为0到1之间的百分比之后还剩下多少。如果是0，那就是完全忘记；如果是1，那就是完全记住。

1700508730

1700508731 it这个值的产生方式与前面的ft是一样的，为了区别，下标用t来表示。

1700508732

1700508733

1700508734

1700508735

1700508736

1700508737 的含义是通过ht-1和xt向量的刺激产生一个取值范围为(-1, 1)的值。

1700508738

1700508739

1700508740

1700508741

1700508742

1700508743 it和的乘积生成一个在(-1, 1)之间的值作为权重。

1700508744

1700508745

1700508746 传递到下一个状态的Ct是由和Ct-1线性叠加得到的。这个部分是LSTM和传统的RNN区别最大的地方，Ct-1及以前的状态可以通过这样一个普通的线性叠加方式传递到当前状态。

1700508747

1700508748

1700508749

1700508750

1700508751 最后，这个结构决定输出ot和ht。

1700508752

1700508753

1700508754

1700508755

1700508756 在实际应用中，通常根据输入的维度来决定LSTM单元的使用数量。例如，在NLP领域通常滑动窗口会比较大，要至少能够覆盖整个句子。所以，这种情况下可能会使用上百个LSTM单元一起工作。

1700508757

1700508758 数据科学家养成手册 [:1700503600]

1700508759 11.9.8　小结

1700508760

1700508761 目前，国内和国际每年发表的关于神经网络的研究论文数以千计，在神经元设计、激励函数选择、连接方式设计、网络组成等方面，很多研究人员都在不断尝试。由于深度学习网络中蕴涵的VC维极高，所以它适用的非线性可分的场景依然很多，在实验层面的结果也比较令人满意。

1700508762

1700508763 不过，我们从训练方式中不难看出，要想让深度学习网络学学习出来的模型健壮，就必须给它非常多的训练样本，以免产生过拟合现象，而过拟合现象几乎一直在发生。深度学习网络几乎是在以穷举的方式学习样本中蕴涵的维度信息，即使可以通过加大样本量的方式来使网络对没有泛化能力的维度特征尽可能不敏感，但其他样本给模型带来的泛化能力高低仍旧取决于样本数量的多少。这也是深度学习目前仍无法胜任很多应用领域工作的重要原因，我们必须对其有足够的重视。

1700508764

1700508765

1700508766

1700508767

[ 上一页 ] [ :1.700508718e+09 ] [ 下一页 ]