打字猴:1.70050854e+09

1700508540

1700508541 表11-12　非运算

1700508542

1700508543 维度1输入输出 1 0 0 1 那么，分别构造一个w和一个b，使其满足上面这个约束。取w＝[－20]，b＝10（取法同样不止1种）。

1700508544

1700508545

1700508546 带入，会得到如表11-13所示的结果。

1700508547

1700508548

1700508549 表11-13　输入与输出（3）

1700508550

1700508551

1700508552 维度1输入输出 1 -10 0 10 对这样一个结果，再通过Sigmoid激励函数，仍旧可以得到与期望一致的1和0的输出结果。

1700508553

1700508554 当从多个维度输入的时候，通过w矩阵中0值的设置可以“忽略”一些对输出没有影响的维度。通过多个隐含层的叠加，可以构造数量庞大的线性分类器和“与”或“非”计算的组合，进而实现非线性分类器。

1700508555

1700508556 所以，在刚刚讨论的3层BP网络中，第1层的6个节点可以写成一个线性分类器的表达式，第2层的7个节点分别是

1700508557

1700508558

1700508559

1700508560

1700508561 的判断分类线性模型，最后一层的节点是上述7个条件的“或”条件判断线性分类器。

1700508562

1700508563 在训练的过程中，只要对各个w和b的初始化合理，使用梯度下降法是比较容易找到极小值的。

1700508564

1700508565 数据科学家养成手册 [:1700503597]

1700508566 11.9.5　激励函数

1700508567

1700508568 除了前面提到的Sigmoid激励函数以外，还有其他一些激励函数可供使用。

1700508569

1700508570 激励函数在选择的时候有一些先决条件，第一是可导性，第二是单调性（因为连续可导性和单调性可以保证在使用梯度下降法迭代的过程中逐步找到极小值）。

1700508571

1700508572 还有一种与Sigmoid函数的图像相近，曲线也呈S形的激活函数，叫作tanh函数（如图11-46所示）。

1700508573

1700508574

1700508575

1700508576

1700508577

1700508578

1700508579

1700508580 图11-46　tanh函数图像

1700508581

1700508582 从图像上看，tanh函数的取值范围是(-1, 1)。从限制输出波幅的特性上来说，它与Sigmoid函数都能起到比较好的作用。然而，这类S形激活函数在利用梯度下降法进行学习的时候，在学习率η确定的情况下，会产生比较严重的“梯度消失”（在曲线两端近乎直线的部分由于斜率太低而导致w的更新速度极慢的现象），所以现在这两类激励函数在工业上的应用没有之前那么广泛了，取而代之的是在迭代学习中收敛速度较快的激励函数，例如Softplus和ReLu。

1700508583

1700508584 Softplus函数的表达式如下。

1700508585

1700508586

1700508587

1700508588

1700508589 Softplus函数在第一象限的斜率很稳定（如图11-47所示），所以它在第一象限会收敛得很快，也很稳定。

[ 上一页 ] [ :1.70050854e+09 ] [ 下一页 ]