打字猴:1.700538792e+09

1700538792

1700538793 其中n为隐含层ht−1的维度（即隐含单元的个数），对应的n×n维矩阵，又被称为雅可比矩阵。

1700538794

1700538795 由于预测的误差是沿着神经网络的每一层反向传播的，因此当雅克比矩阵的最大特征值大于1时，随着离输出越来越远，每层的梯度大小会呈指数增长，导致梯度爆炸；反之，若雅克比矩阵的最大特征值小于1，梯度的大小会呈指数缩小，产生梯度消失。对于普通的前馈网络来说，梯度消失意味着无法通过加深网络层次来改善神经网络的预测效果，因为无论如何加深网络，只有靠近输出的若干层才真正起到学习的作用。这使得循环神经网络模型很难学习到输入序列中的长距离依赖关系。

1700538796

1700538797 梯度爆炸的问题可以通过梯度裁剪来缓解，即当梯度的范式大于某个给定值时，对梯度进行等比收缩。而梯度消失问题相对比较棘手，需要对模型本身进行改进。深度残差网络是对前馈神经网络的改进，通过残差学习的方式缓解了梯度消失的现象，从而使得我们能够学习到更深层的网络表示；而对于循环神经网络来说，长短时记忆模型[23]及其变种门控循环单元（Gated recurrent unit，GRU）[24]等模型通过加入门控机制，很大程度上弥补了梯度消失所带来的损失。

1700538798

1700538799

1700538800

1700538801

1700538802 百面机器学习：算法工程师带你去面试 [:1700532229]

1700538803 百面机器学习：算法工程师带你去面试 03　循环神经网络中的激活函数

1700538804

1700538805

1700538806

1700538807 场景描述

1700538808

1700538809 我们知道，在卷积神经网络等前馈神经网络中采用ReLU激活函数通常可以有效地改善梯度消失，取得更快的收敛速度和更好的收敛结果。那么在循环神经网络中可以使用ReLU作为每层神经元的激活函数吗？

1700538810

1700538811 知识点

1700538812

1700538813 ReLU，循环神经网络，激活函数

1700538814

1700538815 问题　在循环神经网络中能否使用ReLU作为激活函数？

1700538816

1700538817 难度：★★★☆☆

1700538818

1700538819 分析与解答

1700538820

1700538821 答案是肯定的，但是需要对矩阵的初值做一定限制，否则十分容易引发数值问题。为了解释这个问题，让我们回顾一下循环神经网络的前向传播公式

1700538822

1700538823 nett=Uxt+Wht−1

1700538824

1700538825 （10.9）

1700538826

1700538827 ht=f(nett)

1700538828

1700538829 （10.10）

1700538830

1700538831 根据前向传播公式向前传递一层，可以得到

1700538832

1700538833

1700538834

1700538835

1700538836 （10.11）

1700538837

1700538838

1700538839 如果采用ReLU替代公式中的激活函数f，并且假设ReLU函数一直处于激活区域（即输入大于0），则有f(x)=x,。继续将其展开，nett的表达式中最终包含t个W连乘。如果W不是单位矩阵（对角线上的元素为1，其余元素为0的矩阵），最终的结果将会趋于0或者无穷，引发严重的数值问题。那么为什么在卷积神经网络中不会出现这样的现象呢？这是因为在卷积神经网络中每一层的权重矩阵W是不同的，并且在初始化时它们是独立同分布的，因此可以相互抵消，在多层之后一般不会出现严重的数值问题。

1700538840

1700538841 再回到循环神经网络的梯度计算公式

[ 上一页 ] [ :1.700538792e+09 ] [ 下一页 ]