打字猴:1.70053656e+09

1700536560

1700536561

1700536562

1700536563

1700536564 ．

1700536565

1700536566 （7.20）

1700536567

1700536568 由此，一阶法的迭代公式表示为

1700536569

1700536570

1700536571 ，

1700536572

1700536573 （7.21）

1700536574

1700536575 其中α称为学习率。一阶法也称梯度下降法，梯度就是目标函数的一阶信息。

1700536576

1700536577 二阶法对函数L(θt+δ)做二阶泰勒展开，得到近似式

1700536578

1700536579

1700536580 ，

1700536581

1700536582 （7.22）

1700536583

1700536584 其中∇2L(θt)是函数L在θt处的Hessian矩阵。通过求解近似优化问题

1700536585

1700536586

1700536587

1700536588

1700536589

1700536590 ，

1700536591

1700536592 （7.23）

1700536593

1700536594 可以得到二阶法的迭代公式

1700536595

1700536596

1700536597

1700536598

1700536599 （7.24）

1700536600

1700536601 二阶法也称为牛顿法，Hessian矩阵就是目标函数的二阶信息。二阶法的收敛速度一般要远快于一阶法，但是在高维情况下，Hessian矩阵求逆的计算复杂度很大，而且当目标函数非凸时，二阶法有可能会收敛到鞍点（Saddle Point）。

1700536602

1700536603 ·总结与扩展·

1700536604

1700536605 俄罗斯著名数学家Yurii Nesterov于1983年提出了一阶法的加速算法[10]，该算法的收敛速率能够达到一阶法收敛速率的理论界。针对二阶法矩阵求逆的计算复杂度过高的问题，Charles George Broyden，Roger Fletcher，Donald Goldfarb和David Shanno于1970年独立提出了后来被称为BFGS的算法 [11—14]，1989年扩展为低存储的L-BFGS算法 [15]。

1700536606

1700536607 逸闻趣事

1700536608

1700536609 　

[ 上一页 ] [ :1.70053656e+09 ] [ 下一页 ]