打字猴:1.700538121e+09

1700538121 百面机器学习：算法工程师带你去面试 [:1700532222]

1700538122 百面机器学习：算法工程师带你去面试 03　多层感知机的反向传播算法

1700538123

1700538124

1700538125

1700538126 场景描述

1700538127

1700538128

1700538129

1700538130

1700538131 多层感知机中，输入信号通过各个网络层的隐节点产生输出的过程称为前向传播。图9.10定义了一个典型的多层感知机。为便于表示，定义第(l)层的输入为x(l)，输出为a(l)；在每一层中，首先利用输入x(l)和偏置b(l)计算仿射变换z(l)=W(l)x(l)+b(l)；然后激活函数f作用于z(l)，得到；a(l)直接作为下一层的输入，即x(l+1)。设x(l)为m维的向量，z(l)和a(l)为n维的向量，则W(l)为m×n维的矩阵。我们分别用和表示其中的一个元素。

1700538132

1700538133

1700538134

1700538135

1700538136 图9.10　多层感知机结构图

1700538137

1700538138 在网络训练中，前向传播最终产生一个标量损失函数，反向传播算法（Back Propagation）则将损失函数的信息沿网络层向后传播用以计算梯度，达到优化网络参数的目的。反向传播是神经网络中非常重要的算法，从业者需要对反向传播算法熟悉掌握并灵活应用，因此相关问题在面试中也常有涉及。

1700538139

1700538140 知识点

1700538141

1700538142 线性代数，微积分，深度学习

1700538143

1700538144 问题1　写出多层感知机的平方误差和交叉熵损失函数。

1700538145

1700538146 难度：★★☆☆☆

1700538147

1700538148 分析与解答

1700538149

1700538150

1700538151 给定包含m样本的集合，其整体代价函数为

1700538152

1700538153

1700538154 ，

1700538155

1700538156 （9.11）

1700538157

1700538158 其中第一项为平方误差项，第二项为L2正则化项，在功能上可称作权重衰减项，目的是减小权重的幅度，防止过拟合。该项之前的系数λ为权重衰减参数，用于控制损失函数中两项的相对权重。

1700538159

1700538160 以二分类场景为例，交叉熵损失函数定义为

1700538161

1700538162

1700538163 ，

1700538164

1700538165 （9.12）

1700538166

1700538167 其中正则项与上式是相同的；第一项衡量了预测o(i)与真实类别y(i)之间的交叉熵，当y(i)与o(i)相等时，熵最大，也就是损失函数达到最小。在多分类的场景中，可以类似地写出相应的损失函数

1700538168

1700538169

1700538170 ，

[ 上一页 ] [ :1.700538121e+09 ] [ 下一页 ]