打字猴:1.700508416e+09

1700508416 数据科学家养成手册 [:1700503595]

1700508417 11.9.3　损失函数

1700508418

1700508419 和一般机器学习中的SVM、线性回归一样，神经网络中的损失函数也是用每个样本xi带入后的输出值f(xi)及样本中的yi的差异的累加值来描述的。这种差异的描述方式不止一种，常见的方式列举如下。

1700508420

1700508421 绝对值损失函数：

1700508422

1700508423

1700508424

1700508425

1700508426 平方损失函数：

1700508427

1700508428

1700508429

1700508430

1700508431 交叉熵损失函数：

1700508432

1700508433

1700508434

1700508435

1700508436 在寻求损失函数极小化的过程中，目前工业领域应用效果比较好的方法就是通过梯度下降或者随机梯度下降的方式来寻找极小值。对每个wij求偏导，会得到如下矩阵。

1700508437

1700508438

1700508439

1700508440

1700508441 每次通过更新wij进行迭代，经过多次迭代找到极小值的wij。

1700508442

1700508443

1700508444

1700508445

1700508446

1700508447

1700508448

1700508449 其中，η是学习率，即更新时移动的步长基数；和分别对矩阵中的第i行第j列的w和b求偏导数。这种更新方式会使Loss函数优化过程在最初斜率较大的部分移动更新幅度较大，而在临近极小值的部分自动将更新幅度调小。至于每个wij究竟应该移动多少，我们通过推导相对容易的平方损失函数来看一看。这里的“C”代表“Cost”，与“Loss”同义。根据链式法则，有

1700508450

1700508451