打字猴:1.70050854e+09
1700508540
1700508541 表11-12 非运算
1700508542
1700508543   维度1输入     输出     1     0     0     1   那么,分别构造一个w和一个b,使其满足上面这个约束。取w=[-20],b=10(取法同样不止1种)。
1700508544
1700508545
1700508546 带入,会得到如表11-13所示的结果。
1700508547
1700508548
1700508549 表11-13 输入与输出(3)
1700508550
1700508551
1700508552   维度1输入     输出     1     -10     0     10   对这样一个结果,再通过Sigmoid激励函数,仍旧可以得到与期望一致的1和0的输出结果。
1700508553
1700508554 当从多个维度输入的时候,通过w矩阵中0值的设置可以“忽略”一些对输出没有影响的维度。通过多个隐含层的叠加,可以构造数量庞大的线性分类器和“与”或“非”计算的组合,进而实现非线性分类器。
1700508555
1700508556 所以,在刚刚讨论的3层BP网络中,第1层的6个节点可以写成一个线性分类器的表达式,第2层的7个节点分别是
1700508557
1700508558
1700508559
1700508560
1700508561 的判断分类线性模型,最后一层的节点是上述7个条件的“或”条件判断线性分类器。
1700508562
1700508563 在训练的过程中,只要对各个w和b的初始化合理,使用梯度下降法是比较容易找到极小值的。
1700508564
1700508565 数据科学家养成手册 [:1700503597]
1700508566 11.9.5 激励函数
1700508567
1700508568 除了前面提到的Sigmoid激励函数以外,还有其他一些激励函数可供使用。
1700508569
1700508570 激励函数在选择的时候有一些先决条件,第一是可导性,第二是单调性(因为连续可导性和单调性可以保证在使用梯度下降法迭代的过程中逐步找到极小值)。
1700508571
1700508572 还有一种与Sigmoid函数的图像相近,曲线也呈S形的激活函数,叫作tanh函数(如图11-46所示)。
1700508573
1700508574
1700508575
1700508576
1700508577
1700508578
1700508579
1700508580 图11-46 tanh函数图像
1700508581
1700508582 从图像上看,tanh函数的取值范围是(-1, 1)。从限制输出波幅的特性上来说,它与Sigmoid函数都能起到比较好的作用。然而,这类S形激活函数在利用梯度下降法进行学习的时候,在学习率η确定的情况下,会产生比较严重的“梯度消失”(在曲线两端近乎直线的部分由于斜率太低而导致w的更新速度极慢的现象),所以现在这两类激励函数在工业上的应用没有之前那么广泛了,取而代之的是在迭代学习中收敛速度较快的激励函数,例如Softplus和ReLu。
1700508583
1700508584 Softplus函数的表达式如下。
1700508585
1700508586
1700508587
1700508588
1700508589 Softplus函数在第一象限的斜率很稳定(如图11-47所示),所以它在第一象限会收敛得很快,也很稳定。
[ 上一页 ]  [ :1.70050854e+09 ]  [ 下一页 ]