打字猴:1.70053829e+09
1700538290 难度:★★★☆☆
1700538291
1700538292 分析与解答
1700538293
1700538294 一般来说,平方损失函数更适合输出为连续,并且最后一层不含Sigmoid或Softmax激活函数的神经网络;交叉熵损失则更适合二分类或多分类的场景。想正确回答出答案也许并不难,但是要想给出具有理论依据的合理原因,还需要对之上一问的梯度推导熟悉掌握,并且具备一定的灵活分析能力。
1700538295
1700538296 为何平方损失函数不适合最后一层含有Sigmoid或Softmax激活函数的神经网络呢?可以回顾上一问推导出的平方误差损失函数相对于输出层的导数
1700538297
1700538298
1700538299
1700538300
1700538301 (9.28)
1700538302
1700538303
1700538304
1700538305 其中最后一项为激活函数的导数。当激活函数为Sigmoid函数时,如果z(L)的绝对值较大,函数的梯度会趋于饱和,即的绝对值非常小,导致δ(L)的取值也非常小,使得基于梯度的学习速度非常缓慢。当使用交叉熵损失函数时,相对于输出层的导数(也可以被认为是残差)为
1700538306
1700538307
1700538308
1700538309
1700538310 (9.29)
1700538311
1700538312 此时的导数是线性的,因此不会存在学习速度过慢的问题。
1700538313
1700538314 逸闻趣事 
1700538315
1700538316  
1700538317
1700538318 神经网络的大起大落
1700538319
1700538320 回顾历史,今天遍地开花的神经网络,并不是最近才冒出来的新鲜玩意,而是名副其实的老古董。深度学习所依附的神经网络技术起源于20世纪50年代,那时候还叫感知机。在人工神经网络领域中,感知机也被认为是单层的人工神经网络,尽管结构简单,却能够学习并解决相当复杂的问题。图9.11是神经网络的发展历史。
1700538321
1700538322
1700538323
1700538324
1700538325 图9.11 神经网络的发展历史
1700538326
1700538327 虽然最初被认为有着良好的发展潜能,但感知机最终被证明存在着严重的不可逾越的问题。因为它只能学习线性可分函数,连简单的异或(XOR映射)等线性不可分问题都无能为力。1969年,Marvin Minsky出版的《Perceptrons》是一个历史的转折点,神经网络第一次被打倒。Minsky在书中提出了两个著名的观点。一是单层感知机没用,我们需要用多层感知机来表示简单的非线性函数,比如XOR映射;二是世界上没人有办法将多层感知机训练得足够好。简而言之,要解决感知机(单层神经网络)学习线性不可分函数的问题,就必须发展多层感知机,即中间至少包含一个隐层的多层神经网络,但是当时根本找不到运用在多层神经网络上的有效算法。至此,学术权威开始质疑神经网络,悲观主义开始蔓延。
1700538328
1700538329 从现在看,突破性的误差反向传播算法,即著名的反向传播算法,开启训练多层神经网络的“钥匙”,其实那个时候已经存在了。冰冻10年中,尽管Paul Werbos在1974年的博士毕业论文中深刻分析了将反向传播算法运用于神经网络方面的可能性,成为美国第一位提出可以将其用于神经网络的研究人员,但是他没有发表将反向传播算法用于神经网络这方面的研究,因为这个圈子大体已经失去解决这些问题的信念。这时候,LeCun Yann(他给自己取了个中文名叫杨立昆)大侠上场了,20世纪80年代他在Hinton实验室做博士后期间,提出了神经网络的反向传播算法原型。1986年,Rumelhart、Hinton和Williams合著Learning representations by back-propagating errors,反向传播算法开始流行开来 。
1700538330
1700538331 LeCun Yann和其他人发展的神经网络正开始被热捧的时候,他一生较劲的对象Vapnik(贝尔实验室的同事)出现了。20世纪90年代中期,由Vapnik等人发明的支持向量机诞生,它同样解决了线性不可分问题,但是对比神经网络有全方位优势。比如,高效,可以快速训练;无须调参,没有梯度消失问题;泛化性能好,过拟合风险小。支持向量机迅速打败多层神经网络成为主流。后来一度发展到,只要你的论文中包含神经网络相关的字眼,就非常容易被拒稿,学术界那时对神经网络的态度可想而知。神经网络再次堕入黑暗。10年沉寂中,只有几个学者仍然在坚持研究,比如一再提及的Hinton教授。
1700538332
1700538333 2006年,Hinton在《Science》和相关期刊上发表了论文,首次提出了“深度置信网络”的概念。与传统的训练方式不同,深度信念网络有一个“预训练”的过程,它的作用是让神经网络权值找到一个接近最优解的值,之后再使用“微调”技术,使用反向传播算法或者其他算法作为调优的手段,来对整个网络进行优化训练。这两个技术的运用大幅度提升了模型的性能,而且减少了训练多层神经网络的时间。他给多层神经网络相关的学习方法赋予了一个新名词——“深度学习”。
1700538334
1700538335 后面的故事我们都知道了,2012年Hinton的团队用LeCun赖以成名的卷积神经网络,和自己在深度置信网络的调优技术,碾压了其他机器学习办法。至此,深度学习开始垄断人工智能的新闻报道,Hinton、LeCun和他们的学生像摇滚明星一般受到追捧,学者们的态度也来了个180度大转变,现在是没有和深度学习沾上边的文章很难发表了。除了名,还有利,Google、Facebook等大公司不但把学术界人物挖了个遍,更是重金收购深度学习大佬们所创建的公司,坐了几十年冷板凳的人忽然一夜之间身价暴涨、财务自由。不过,现在主导Facebook AI 实验室的LeCun Yann则不断呼吁学术界对深度学习保持冷静。
1700538336
1700538337
1700538338
1700538339
[ 上一页 ]  [ :1.70053829e+09 ]  [ 下一页 ]