1700538110
1700538111
1700538112
1700538113
1700538114
图9.9 函数曲线
1700538115
1700538116
基于此,参数化的PReLU(Parametric ReLU)应运而生。它与LReLU的主要区别是将负轴部分斜率a作为网络中一个可学习的参数,进行反向传播训练,与其他含参数网络层联合优化。而另一个LReLU的变种增加了“随机化”机制,具体地,在训练过程中,斜率a作为一个满足某种分布的随机采样;测试时再固定下来。Random ReLU(RReLU)在一定程度上能起到正则化的作用。关于ReLU系列激活函数,更多详细内容及实验性能对比可以参考相关论文[18]。
1700538117
1700538118
1700538119
1700538120
1700538122
百面机器学习:算法工程师带你去面试 03 多层感知机的反向传播算法
1700538123
1700538124
1700538125
1700538126
场景描述
1700538127
1700538128
1700538129
1700538130
1700538131
多层感知机中,输入信号通过各个网络层的隐节点产生输出的过程称为前向传播。图9.10定义了一个典型的多层感知机。为便于表示,定义第(l)层的输入为x(l),输出为a(l);在每一层中,首先利用输入x(l)和偏置b(l)计算仿射变换z(l)=W(l)x(l)+b(l);然后激活函数f作用于z(l),得到;a(l)直接作为下一层的输入,即x(l+1)。设x(l)为m维的向量,z(l)和a(l)为n维的向量,则W(l)为m×n维的矩阵。我们分别用和表示其中的一个元素。
1700538132
1700538133
1700538134
1700538135
1700538136
图9.10 多层感知机结构图
1700538137
1700538138
在网络训练中,前向传播最终产生一个标量损失函数,反向传播算法(Back Propagation)则将损失函数的信息沿网络层向后传播用以计算梯度,达到优化网络参数的目的。反向传播是神经网络中非常重要的算法,从业者需要对反向传播算法熟悉掌握并灵活应用,因此相关问题在面试中也常有涉及。
1700538139
1700538140
知识点
1700538141
1700538142
线性代数,微积分,深度学习
1700538143
1700538144
问题1 写出多层感知机的平方误差和交叉熵损失函数。
1700538145
1700538146
难度:★★☆☆☆
1700538147
1700538148
分析与解答
1700538149
1700538150
1700538151
给定包含m样本的集合,其整体代价函数为
1700538152
1700538153
1700538154
,
1700538155
1700538156
(9.11)
1700538157
1700538158
其中第一项为平方误差项,第二项为L2正则化项,在功能上可称作权重衰减项,目的是减小权重的幅度,防止过拟合。该项之前的系数λ为权重衰减参数,用于控制损失函数中两项的相对权重。
1700538159
[
上一页 ]
[ :1.70053811e+09 ]
[
下一页 ]