1700538122
百面机器学习:算法工程师带你去面试 03 多层感知机的反向传播算法
1700538123
1700538124
1700538125
1700538126
场景描述
1700538127
1700538128
1700538129
1700538130
1700538131
多层感知机中,输入信号通过各个网络层的隐节点产生输出的过程称为前向传播。图9.10定义了一个典型的多层感知机。为便于表示,定义第(l)层的输入为x(l),输出为a(l);在每一层中,首先利用输入x(l)和偏置b(l)计算仿射变换z(l)=W(l)x(l)+b(l);然后激活函数f作用于z(l),得到;a(l)直接作为下一层的输入,即x(l+1)。设x(l)为m维的向量,z(l)和a(l)为n维的向量,则W(l)为m×n维的矩阵。我们分别用和表示其中的一个元素。
1700538132
1700538133
1700538134
1700538135
1700538136
图9.10 多层感知机结构图
1700538137
1700538138
在网络训练中,前向传播最终产生一个标量损失函数,反向传播算法(Back Propagation)则将损失函数的信息沿网络层向后传播用以计算梯度,达到优化网络参数的目的。反向传播是神经网络中非常重要的算法,从业者需要对反向传播算法熟悉掌握并灵活应用,因此相关问题在面试中也常有涉及。
1700538139
1700538140
知识点
1700538141
1700538142
线性代数,微积分,深度学习
1700538143
1700538144
问题1 写出多层感知机的平方误差和交叉熵损失函数。
1700538145
1700538146
难度:★★☆☆☆
1700538147
1700538148
分析与解答
1700538149
1700538150
1700538151
给定包含m样本的集合,其整体代价函数为
1700538152
1700538153
1700538154
,
1700538155
1700538156
(9.11)
1700538157
1700538158
其中第一项为平方误差项,第二项为L2正则化项,在功能上可称作权重衰减项,目的是减小权重的幅度,防止过拟合。该项之前的系数λ为权重衰减参数,用于控制损失函数中两项的相对权重。
1700538159
1700538160
以二分类场景为例,交叉熵损失函数定义为
1700538161
1700538162
1700538163
,
1700538164
1700538165
(9.12)
1700538166
1700538167
其中正则项与上式是相同的;第一项衡量了预测o(i)与真实类别y(i)之间的交叉熵,当y(i)与o(i)相等时,熵最大,也就是损失函数达到最小。在多分类的场景中,可以类似地写出相应的损失函数
1700538168
1700538169
1700538170
,
[
上一页 ]
[ :1.700538121e+09 ]
[
下一页 ]