打字猴:1.700538271e+09
1700538271
1700538272
1700538273 (9.25)
1700538274
1700538275
1700538276
1700538277
1700538278 (9.26)
1700538279
1700538280
1700538281 f取SoftMax激活函数时,,因此
1700538282
1700538283
1700538284
1700538285
1700538286 (9.27)
1700538287
1700538288 问题3 平方误差损失函数和交叉熵损失函数分别适合什么场景?
1700538289
1700538290 难度:★★★☆☆
1700538291
1700538292 分析与解答
1700538293
1700538294 一般来说,平方损失函数更适合输出为连续,并且最后一层不含Sigmoid或Softmax激活函数的神经网络;交叉熵损失则更适合二分类或多分类的场景。想正确回答出答案也许并不难,但是要想给出具有理论依据的合理原因,还需要对之上一问的梯度推导熟悉掌握,并且具备一定的灵活分析能力。
1700538295
1700538296 为何平方损失函数不适合最后一层含有Sigmoid或Softmax激活函数的神经网络呢?可以回顾上一问推导出的平方误差损失函数相对于输出层的导数
1700538297
1700538298
1700538299
1700538300
1700538301 (9.28)
1700538302
1700538303
1700538304
1700538305 其中最后一项为激活函数的导数。当激活函数为Sigmoid函数时,如果z(L)的绝对值较大,函数的梯度会趋于饱和,即的绝对值非常小,导致δ(L)的取值也非常小,使得基于梯度的学习速度非常缓慢。当使用交叉熵损失函数时,相对于输出层的导数(也可以被认为是残差)为
1700538306
1700538307
1700538308
1700538309
1700538310 (9.29)
1700538311
1700538312 此时的导数是线性的,因此不会存在学习速度过慢的问题。
1700538313
1700538314 逸闻趣事 
1700538315
1700538316  
1700538317
1700538318 神经网络的大起大落
1700538319
1700538320 回顾历史,今天遍地开花的神经网络,并不是最近才冒出来的新鲜玩意,而是名副其实的老古董。深度学习所依附的神经网络技术起源于20世纪50年代,那时候还叫感知机。在人工神经网络领域中,感知机也被认为是单层的人工神经网络,尽管结构简单,却能够学习并解决相当复杂的问题。图9.11是神经网络的发展历史。
[ 上一页 ]  [ :1.700538271e+09 ]  [ 下一页 ]