1700538221
.
1700538222
1700538223
(9.18)
1700538224
1700538225
1700538226
可以看作损失函数在第l层第i个节点产生的残差量,记为δi(l),从而递推公式可以表示为
1700538227
1700538228
1700538229
.
1700538230
1700538231
(9.19)
1700538232
1700538233
损失对参数函数的梯度可以写为
1700538234
1700538235
1700538236
1700538237
1700538238
(9.20)
1700538239
1700538240
1700538241
1700538242
.
1700538243
1700538244
(9.21)
1700538245
1700538246
下面针对两种不同的损失函数计算最后一层的残差δ(L);得到δ(L)之后,其他层的残差δ(L−1),…, δ(1)可以根据上面得到的递推公式计算。为了简化起见,这里暂时忽略Batch样本集合和正则化项的影响,重点关注这两种损失函数产生的梯度。
1700538247
1700538248
1700538249
1700538250
1700538251
平方误差损失: ,
1700538252
1700538253
(9.22)
1700538254
1700538255
1700538256
.
1700538257
1700538258
(9.23)
1700538259
1700538260
1700538261
1700538262
1700538263
交叉熵损失: .
1700538264
1700538265
(9.24)
1700538266
1700538267
1700538268
在分类问题中,yk仅在一个类别k时取值为1,其余为0。设实际的类别为,则
1700538269
1700538270
[
上一页 ]
[ :1.700538221e+09 ]
[
下一页 ]