打字猴:1.700538271e+09

1700538271 ，

1700538272

1700538273 （9.25）

1700538274

1700538275

1700538276 ．

1700538277

1700538278 （9.26）

1700538279

1700538280

1700538281 f取SoftMax激活函数时，，因此

1700538282

1700538283

1700538284 ．

1700538285

1700538286 （9.27）

1700538287

1700538288 问题3　平方误差损失函数和交叉熵损失函数分别适合什么场景？

1700538289

1700538290 难度：★★★☆☆

1700538291

1700538292 分析与解答

1700538293

1700538294 一般来说，平方损失函数更适合输出为连续，并且最后一层不含Sigmoid或Softmax激活函数的神经网络；交叉熵损失则更适合二分类或多分类的场景。想正确回答出答案也许并不难，但是要想给出具有理论依据的合理原因，还需要对之上一问的梯度推导熟悉掌握，并且具备一定的灵活分析能力。

1700538295

1700538296 为何平方损失函数不适合最后一层含有Sigmoid或Softmax激活函数的神经网络呢？可以回顾上一问推导出的平方误差损失函数相对于输出层的导数

1700538297

1700538298

1700538299 ，

1700538300

1700538301 （9.28）

1700538302

1700538303

1700538304

1700538305 其中最后一项为激活函数的导数。当激活函数为Sigmoid函数时，如果z(L)的绝对值较大，函数的梯度会趋于饱和，即的绝对值非常小，导致δ(L)的取值也非常小，使得基于梯度的学习速度非常缓慢。当使用交叉熵损失函数时，相对于输出层的导数（也可以被认为是残差）为

1700538306

1700538307

1700538308 ．

1700538309

1700538310 （9.29）

1700538311

1700538312 此时的导数是线性的，因此不会存在学习速度过慢的问题。

1700538313

1700538314 逸闻趣事

1700538315

1700538316 　

1700538317

1700538318 神经网络的大起大落

1700538319

1700538320 回顾历史，今天遍地开花的神经网络，并不是最近才冒出来的新鲜玩意，而是名副其实的老古董。深度学习所依附的神经网络技术起源于20世纪50年代，那时候还叫感知机。在人工神经网络领域中，感知机也被认为是单层的人工神经网络，尽管结构简单，却能够学习并解决相当复杂的问题。图9.11是神经网络的发展历史。

[ 上一页 ] [ :1.700538271e+09 ] [ 下一页 ]