1700538200
1700538201
1700538202
1700538203
问题的核心为求解与。为得到递推公式,我们还需要计算损失函数对隐含层的偏导
1700538204
1700538205
1700538206
,
1700538207
1700538208
(9.16)
1700538209
1700538210
其中sl+1为第l+1层的节点数,而
1700538211
1700538212
1700538213
,
1700538214
1700538215
(9.17)
1700538216
1700538217
1700538218
其中b(l+1)与zi(l)无关可以省去,,因此式(9.17)可写为
1700538219
1700538220
1700538221
.
1700538222
1700538223
(9.18)
1700538224
1700538225
1700538226
可以看作损失函数在第l层第i个节点产生的残差量,记为δi(l),从而递推公式可以表示为
1700538227
1700538228
1700538229
.
1700538230
1700538231
(9.19)
1700538232
1700538233
损失对参数函数的梯度可以写为
1700538234
1700538235
1700538236
1700538237
1700538238
(9.20)
1700538239
1700538240
1700538241
1700538242
.
1700538243
1700538244
(9.21)
1700538245
1700538246
下面针对两种不同的损失函数计算最后一层的残差δ(L);得到δ(L)之后,其他层的残差δ(L−1),…, δ(1)可以根据上面得到的递推公式计算。为了简化起见,这里暂时忽略Batch样本集合和正则化项的影响,重点关注这两种损失函数产生的梯度。
1700538247
1700538248
1700538249
[
上一页 ]
[ :1.7005382e+09 ]
[
下一页 ]