打字猴:1.70053824e+09

1700538240

1700538241

1700538242 ．

1700538243

1700538244 （9.21）

1700538245

1700538246 下面针对两种不同的损失函数计算最后一层的残差δ(L)；得到δ(L)之后，其他层的残差δ(L−1),…, δ(1)可以根据上面得到的递推公式计算。为了简化起见，这里暂时忽略Batch样本集合和正则化项的影响，重点关注这两种损失函数产生的梯度。

1700538247

1700538248

1700538249

1700538250

1700538251 平方误差损失：，

1700538252

1700538253 （9.22）

1700538254

1700538255

1700538256 ．

1700538257

1700538258 （9.23）

1700538259

1700538260

1700538261

1700538262

1700538263 交叉熵损失：．

1700538264

1700538265 （9.24）

1700538266

1700538267

1700538268 在分类问题中，yk仅在一个类别k时取值为1，其余为0。设实际的类别为，则

1700538269

1700538270

1700538271 ，

1700538272

1700538273 （9.25）

1700538274

1700538275

1700538276 ．

1700538277

1700538278 （9.26）

1700538279

1700538280

1700538281 f取SoftMax激活函数时，，因此

1700538282

1700538283

1700538284 ．

1700538285

1700538286 （9.27）

1700538287

1700538288 问题3　平方误差损失函数和交叉熵损失函数分别适合什么场景？

1700538289

[ 上一页 ] [ :1.70053824e+09 ] [ 下一页 ]