打字猴:1.70053811e+09

1700538110

1700538111

1700538112

1700538113

1700538114 图9.9　函数曲线

1700538115

1700538116 基于此，参数化的PReLU（Parametric ReLU）应运而生。它与LReLU的主要区别是将负轴部分斜率a作为网络中一个可学习的参数，进行反向传播训练，与其他含参数网络层联合优化。而另一个LReLU的变种增加了“随机化”机制，具体地，在训练过程中，斜率a作为一个满足某种分布的随机采样；测试时再固定下来。Random ReLU（RReLU）在一定程度上能起到正则化的作用。关于ReLU系列激活函数，更多详细内容及实验性能对比可以参考相关论文[18]。

1700538117

1700538118

1700538119

1700538120

1700538121 百面机器学习：算法工程师带你去面试 [:1700532222]

1700538122 百面机器学习：算法工程师带你去面试 03　多层感知机的反向传播算法

1700538123

1700538124

1700538125

1700538126 场景描述

1700538127

1700538128

1700538129

1700538130

1700538131 多层感知机中，输入信号通过各个网络层的隐节点产生输出的过程称为前向传播。图9.10定义了一个典型的多层感知机。为便于表示，定义第(l)层的输入为x(l)，输出为a(l)；在每一层中，首先利用输入x(l)和偏置b(l)计算仿射变换z(l)=W(l)x(l)+b(l)；然后激活函数f作用于z(l)，得到；a(l)直接作为下一层的输入，即x(l+1)。设x(l)为m维的向量，z(l)和a(l)为n维的向量，则W(l)为m×n维的矩阵。我们分别用和表示其中的一个元素。

1700538132

1700538133

1700538134

1700538135

1700538136 图9.10　多层感知机结构图

1700538137

1700538138 在网络训练中，前向传播最终产生一个标量损失函数，反向传播算法（Back Propagation）则将损失函数的信息沿网络层向后传播用以计算梯度，达到优化网络参数的目的。反向传播是神经网络中非常重要的算法，从业者需要对反向传播算法熟悉掌握并灵活应用，因此相关问题在面试中也常有涉及。

1700538139

1700538140 知识点

1700538141

1700538142 线性代数，微积分，深度学习

1700538143

1700538144 问题1　写出多层感知机的平方误差和交叉熵损失函数。

1700538145

1700538146 难度：★★☆☆☆

1700538147

1700538148 分析与解答

1700538149

1700538150

1700538151 给定包含m样本的集合，其整体代价函数为

1700538152

1700538153

1700538154 ，

1700538155

1700538156 （9.11）

1700538157

1700538158 其中第一项为平方误差项，第二项为L2正则化项，在功能上可称作权重衰减项，目的是减小权重的幅度，防止过拟合。该项之前的系数λ为权重衰减参数，用于控制损失函数中两项的相对权重。

1700538159

[ 上一页 ] [ :1.70053811e+09 ] [ 下一页 ]