打字猴:1.700508672e+09

1700508672

1700508673 图11-53　Softmax层

1700508674

1700508675

1700508676

1700508677

1700508678 x是全连接层输出的完整向量。

1700508679

1700508680 最后输出的一层表示预测分类，其中的每一个节点都是某个预测分类（从1到j）概率的输出值。

1700508681

1700508682

1700508683 zi是一个向量，也就是最后一层全连接层的输出向量x与第i个分类节点的wi的内积与偏置bi的加和。表示向量x属于i分类的概率。

1700508684

1700508685

1700508686 通过计也可以得到，含义为一个向量在各个分类中的概率加和为1。

1700508687

1700508688 VGG-16只是众多使用卷积层的网络模型之一，还有很多优秀的网络模型中会用到卷积层及与其他神经元的混编模型。卷积层的目的是做某种特征的提取（我们只要理解这一点就可以了）——帮助人们自动进行特征提取，并通过训练找到更合理的提取方式。训练的过程则是通过样本和输出值描述的损失函数，最终找到每一个卷积层上的w和b，以及最后3个全连接层每个节点的w和b。

1700508689

1700508690 数据科学家养成手册 [:1700503599]

1700508691 11.9.7　循环神经网络

1700508692

1700508693 下面介绍一种循环神经网络（Recurrent Neural Networks，RNN）。RNN与其他网络的不同之处在于，其中的“循环”部分能使网络具有“记忆”功能（如图11-54和图11-55所示）。

1700508694

1700508695

1700508696

1700508697 图11-54　RNN网络结构（1）图11-55　RNN网络结构（2）在观察一个向量序列xi的过程中，xt会通过这个这个网络产生一个输出，而这个输出会在xt+1进入网络的同时作为一个输入项和当前的xt+1一起输入到网络中。从时间上看，如图11-56所示。

1700508698

1700508699

1700508700

1700508701

1700508702 图11-56　RNN网络结构（3）

1700508703

1700508704 从RNN网络的设计中不难看出，它的思路是把从x1到xt的所有影响都叠加到xt+1的训练时刻，应该说还是很巧妙的。所以，这类设计非常适用于上下文相关的序列预测场景，例如自然语言处理、股票行情分析等领域。标准的隐马尔可夫模型也可以用来做序列前后转换概率统计与预测。但隐马尔可夫模型只认为当前状态和前一个状态有关，而不会关注再向前延伸的其他状态，这是两者最大的不同。

1700508705

1700508706 在RNN模型中会遇到一个很严重的问题，就是梯度消失。梯度消失问题当然不是RNN的专利，不过RNN会在时间这个梯度上发生梯度消失问题，这样序列中离现在较远的状态对当前输出的刺激实际上是极为不足的。为了克服这个问题，改进RNN的学习性能，产生了LSTM衍生算法（如图11-57所示）。

1700508707

1700508708

1700508709

1700508710

1700508711 图11-57　LSTM序列

1700508712

1700508713 基于LSTM（Long-Short Term Memory）算法实现的神经网络也叫作“长短期记忆人工神经网络”，它是RNN网络的一个重要变种（如图11-58所示）。LSTM算法训练的对象就是xi和hi的序列对，xi是输入向量，hi是输出向量。

1700508714

1700508715

1700508716

1700508717

1700508718 图11-58　LSTM网络结构

1700508719

1700508720 在一个LSTM网络中有这样几个结构，分别如图11-59、图11-60、图11-61和图11-62所示。σ就是Sigmoid函数，有

1700508721

[ 上一页 ] [ :1.700508672e+09 ] [ 下一页 ]