1700536560
1700536561
1700536562
1700536563
1700536564
.
1700536565
1700536566
(7.20)
1700536567
1700536568
由此,一阶法的迭代公式表示为
1700536569
1700536570
1700536571
,
1700536572
1700536573
(7.21)
1700536574
1700536575
其中α称为学习率。一阶法也称梯度下降法,梯度就是目标函数的一阶信息。
1700536576
1700536577
二阶法对函数L(θt+δ)做二阶泰勒展开,得到近似式
1700536578
1700536579
1700536580
,
1700536581
1700536582
(7.22)
1700536583
1700536584
其中∇2L(θt)是函数L在θt处的Hessian矩阵。通过求解近似优化问题
1700536585
1700536586
1700536587
1700536588
1700536589
1700536590
,
1700536591
1700536592
(7.23)
1700536593
1700536594
可以得到二阶法的迭代公式
1700536595
1700536596
1700536597
1700536598
1700536599
(7.24)
1700536600
1700536601
二阶法也称为牛顿法,Hessian矩阵就是目标函数的二阶信息。二阶法的收敛速度一般要远快于一阶法,但是在高维情况下,Hessian矩阵求逆的计算复杂度很大,而且当目标函数非凸时,二阶法有可能会收敛到鞍点(Saddle Point)。
1700536602
1700536603
·总结与扩展·
1700536604
1700536605
俄罗斯著名数学家Yurii Nesterov于1983年提出了一阶法的加速算法[10],该算法的收敛速率能够达到一阶法收敛速率的理论界。针对二阶法矩阵求逆的计算复杂度过高的问题,Charles George Broyden,Roger Fletcher,Donald Goldfarb和David Shanno于1970年独立提出了后来被称为BFGS的算法 [11—14],1989年扩展为低存储的L-BFGS算法 [15]。
1700536606
1700536607
逸闻趣事
1700536608
1700536609
[
上一页 ]
[ :1.70053656e+09 ]
[
下一页 ]