打字猴:1.70053814e+09

1700538140 知识点

1700538141

1700538142 线性代数，微积分，深度学习

1700538143

1700538144 问题1　写出多层感知机的平方误差和交叉熵损失函数。

1700538145

1700538146 难度：★★☆☆☆

1700538147

1700538148 分析与解答

1700538149

1700538150

1700538151 给定包含m样本的集合，其整体代价函数为

1700538152

1700538153

1700538154 ，

1700538155

1700538156 （9.11）

1700538157

1700538158 其中第一项为平方误差项，第二项为L2正则化项，在功能上可称作权重衰减项，目的是减小权重的幅度，防止过拟合。该项之前的系数λ为权重衰减参数，用于控制损失函数中两项的相对权重。

1700538159

1700538160 以二分类场景为例，交叉熵损失函数定义为

1700538161

1700538162

1700538163 ，

1700538164

1700538165 （9.12）

1700538166

1700538167 其中正则项与上式是相同的；第一项衡量了预测o(i)与真实类别y(i)之间的交叉熵，当y(i)与o(i)相等时，熵最大，也就是损失函数达到最小。在多分类的场景中，可以类似地写出相应的损失函数

1700538168

1700538169

1700538170 ，

1700538171

1700538172 （9.13）

1700538173

1700538174 其中ok(i)代表第i个样本的预测属于类别k的概率，yk(i)为实际的概率（如果第i个样本的真实类别为k，则yk(i)=1，否则为0）。

1700538175

1700538176 问题2　根据问题1中定义的损失函数，推导各层参数更新的梯度计算公式。

1700538177

1700538178 难度：★★★★☆

1700538179

1700538180 分析与解答

1700538181

1700538182

1700538183

1700538184

1700538185 回顾之前给出的定义，第(l )层的参数为W(l)和b(l)；每一层的线性变换为；输出为，其中f为非线性激活函数（如Sigmoid、Tanh、ReLU等）；a(l)直接作为下一层的输入，即。

1700538186

1700538187 我们可以利用批量梯度下降法来优化网络参数。梯度下降法中每次迭代对参数W（网络连接权重）和b（偏置）进行更新

1700538188

1700538189

[ 上一页 ] [ :1.70053814e+09 ] [ 下一页 ]