打字猴:1.70053809e+09

1700538090

1700538091 （1）从计算的角度上，Sigmoid和Tanh激活函数均需要计算指数，复杂度高，而ReLU只需要一个阈值即可得到激活值。

1700538092

1700538093 （2）ReLU的非饱和性可以有效地解决梯度消失的问题，提供相对宽的激活边界。

1700538094

1700538095 （3）ReLU的单侧抑制提供了网络的稀疏表达能力。

1700538096

1700538097 ■ 局限性

1700538098

1700538099

1700538100 ReLU的局限性在于其训练过程中会导致神经元死亡的问题。这是由于函数导致负梯度在经过该ReLU单元时被置为0，且在之后也不被任何数据激活，即流经该神经元的梯度永远为0，不对任何数据产生响应。在实际训练中，如果学习率（Learning Rate）设置较大，会导致超过一定比例的神经元不可逆死亡，进而参数梯度无法更新，整个训练过程失败。

1700538101

1700538102 为解决这一问题，人们设计了ReLU的变种Leaky ReLU（LReLU），其形式表示为

1700538103

1700538104

1700538105

1700538106

1700538107 （9.10）

1700538108

1700538109 ReLU和LReLU的函数曲线对比如图9.9所示。LReLU与ReLU的区别在于，当z<0时其值不为0，而是一个斜率为a的线性函数，一般a为一个很小的正常数，这样既实现了单侧抑制，又保留了部分负梯度信息以致不完全丢失。但另一方面，a值的选择增加了问题难度，需要较强的人工先验或多次重复训练以确定合适的参数值。

1700538110

1700538111

1700538112

1700538113

1700538114 图9.9　函数曲线

1700538115

1700538116 基于此，参数化的PReLU（Parametric ReLU）应运而生。它与LReLU的主要区别是将负轴部分斜率a作为网络中一个可学习的参数，进行反向传播训练，与其他含参数网络层联合优化。而另一个LReLU的变种增加了“随机化”机制，具体地，在训练过程中，斜率a作为一个满足某种分布的随机采样；测试时再固定下来。Random ReLU（RReLU）在一定程度上能起到正则化的作用。关于ReLU系列激活函数，更多详细内容及实验性能对比可以参考相关论文[18]。

1700538117

1700538118

1700538119

1700538120

1700538121 百面机器学习：算法工程师带你去面试 [:1700532222]

1700538122 百面机器学习：算法工程师带你去面试 03　多层感知机的反向传播算法

1700538123

1700538124

1700538125

1700538126 场景描述

1700538127

1700538128

1700538129

1700538130

1700538131 多层感知机中，输入信号通过各个网络层的隐节点产生输出的过程称为前向传播。图9.10定义了一个典型的多层感知机。为便于表示，定义第(l)层的输入为x(l)，输出为a(l)；在每一层中，首先利用输入x(l)和偏置b(l)计算仿射变换z(l)=W(l)x(l)+b(l)；然后激活函数f作用于z(l)，得到；a(l)直接作为下一层的输入，即x(l+1)。设x(l)为m维的向量，z(l)和a(l)为n维的向量，则W(l)为m×n维的矩阵。我们分别用和表示其中的一个元素。

1700538132

1700538133

1700538134

1700538135

1700538136 图9.10　多层感知机结构图

1700538137

1700538138 在网络训练中，前向传播最终产生一个标量损失函数，反向传播算法（Back Propagation）则将损失函数的信息沿网络层向后传播用以计算梯度，达到优化网络参数的目的。反向传播是神经网络中非常重要的算法，从业者需要对反向传播算法熟悉掌握并灵活应用，因此相关问题在面试中也常有涉及。

1700538139

[ 上一页 ] [ :1.70053809e+09 ] [ 下一页 ]