1700508672
1700508673
图11-53 Softmax层
1700508674
1700508675
1700508676
1700508677
1700508678
x是全连接层输出的完整向量。
1700508679
1700508680
最后输出的一层表示预测分类,其中的每一个节点都是某个预测分类(从1到j)概率的输出值。
1700508681
1700508682
1700508683
zi是一个向量,也就是最后一层全连接层的输出向量x与第i个分类节点的wi的内积与偏置bi的加和。表示向量x属于i分类的概率。
1700508684
1700508685
1700508686
通过计也可以得到,含义为一个向量在各个分类中的概率加和为1。
1700508687
1700508688
VGG-16只是众多使用卷积层的网络模型之一,还有很多优秀的网络模型中会用到卷积层及与其他神经元的混编模型。卷积层的目的是做某种特征的提取(我们只要理解这一点就可以了)——帮助人们自动进行特征提取,并通过训练找到更合理的提取方式。训练的过程则是通过样本和输出值描述的损失函数,最终找到每一个卷积层上的w和b,以及最后3个全连接层每个节点的w和b。
1700508689
1700508691
11.9.7 循环神经网络
1700508692
1700508693
下面介绍一种循环神经网络(Recurrent Neural Networks,RNN)。RNN与其他网络的不同之处在于,其中的“循环”部分能使网络具有“记忆”功能(如图11-54和图11-55所示)。
1700508694
1700508695
1700508696
1700508697
图11-54 RNN网络结构(1) 图11-55 RNN网络结构(2) 在观察一个向量序列xi的过程中,xt会通过这个这个网络产生一个输出,而这个输出会在xt+1进入网络的同时作为一个输入项和当前的xt+1一起输入到网络中。从时间上看,如图11-56所示。
1700508698
1700508699
1700508700
1700508701
1700508702
图11-56 RNN网络结构(3)
1700508703
1700508704
从RNN网络的设计中不难看出,它的思路是把从x1到xt的所有影响都叠加到xt+1的训练时刻,应该说还是很巧妙的。所以,这类设计非常适用于上下文相关的序列预测场景,例如自然语言处理、股票行情分析等领域。标准的隐马尔可夫模型也可以用来做序列前后转换概率统计与预测。但隐马尔可夫模型只认为当前状态和前一个状态有关,而不会关注再向前延伸的其他状态,这是两者最大的不同。
1700508705
1700508706
在RNN模型中会遇到一个很严重的问题,就是梯度消失。梯度消失问题当然不是RNN的专利,不过RNN会在时间这个梯度上发生梯度消失问题,这样序列中离现在较远的状态对当前输出的刺激实际上是极为不足的。为了克服这个问题,改进RNN的学习性能,产生了LSTM衍生算法(如图11-57所示)。
1700508707
1700508708
1700508709
1700508710
1700508711
图11-57 LSTM序列
1700508712
1700508713
基于LSTM(Long-Short Term Memory)算法实现的神经网络也叫作“长短期记忆人工神经网络”,它是RNN网络的一个重要变种(如图11-58所示)。LSTM算法训练的对象就是xi和hi的序列对,xi是输入向量,hi是输出向量。
1700508714
1700508715
1700508716
1700508717
1700508718
图11-58 LSTM网络结构
1700508719
1700508720
在一个LSTM网络中有这样几个结构,分别如图11-59、图11-60、图11-61和图11-62所示。σ就是Sigmoid函数,有
1700508721
[
上一页 ]
[ :1.700508672e+09 ]
[
下一页 ]