打字猴:1.70053824e+09
1700538240
1700538241
1700538242
1700538243
1700538244 (9.21)
1700538245
1700538246 下面针对两种不同的损失函数计算最后一层的残差δ(L);得到δ(L)之后,其他层的残差δ(L−1),…, δ(1)可以根据上面得到的递推公式计算。为了简化起见,这里暂时忽略Batch样本集合和正则化项的影响,重点关注这两种损失函数产生的梯度。
1700538247
1700538248  
1700538249
1700538250
1700538251 平方误差损失: ,
1700538252
1700538253 (9.22)
1700538254
1700538255
1700538256
1700538257
1700538258 (9.23)
1700538259
1700538260  
1700538261
1700538262
1700538263 交叉熵损失: .
1700538264
1700538265 (9.24)
1700538266
1700538267
1700538268 在分类问题中,yk仅在一个类别k时取值为1,其余为0。设实际的类别为,则
1700538269
1700538270
1700538271
1700538272
1700538273 (9.25)
1700538274
1700538275
1700538276
1700538277
1700538278 (9.26)
1700538279
1700538280
1700538281 f取SoftMax激活函数时,,因此
1700538282
1700538283
1700538284
1700538285
1700538286 (9.27)
1700538287
1700538288 问题3 平方误差损失函数和交叉熵损失函数分别适合什么场景?
1700538289
[ 上一页 ]  [ :1.70053824e+09 ]  [ 下一页 ]