打字猴:1.70053656e+09
1700536560
1700536561
1700536562
1700536563
1700536564
1700536565
1700536566 (7.20)
1700536567
1700536568 由此,一阶法的迭代公式表示为
1700536569
1700536570
1700536571
1700536572
1700536573 (7.21)
1700536574
1700536575 其中α称为学习率。一阶法也称梯度下降法,梯度就是目标函数的一阶信息。
1700536576
1700536577 二阶法对函数L(θt+δ)做二阶泰勒展开,得到近似式
1700536578
1700536579
1700536580
1700536581
1700536582 (7.22)
1700536583
1700536584 其中∇2L(θt)是函数L在θt处的Hessian矩阵。通过求解近似优化问题
1700536585
1700536586
1700536587
1700536588
1700536589
1700536590
1700536591
1700536592 (7.23)
1700536593
1700536594 可以得到二阶法的迭代公式
1700536595
1700536596
1700536597
1700536598
1700536599 (7.24)
1700536600
1700536601 二阶法也称为牛顿法,Hessian矩阵就是目标函数的二阶信息。二阶法的收敛速度一般要远快于一阶法,但是在高维情况下,Hessian矩阵求逆的计算复杂度很大,而且当目标函数非凸时,二阶法有可能会收敛到鞍点(Saddle Point)。
1700536602
1700536603 ·总结与扩展·
1700536604
1700536605 俄罗斯著名数学家Yurii Nesterov于1983年提出了一阶法的加速算法[10],该算法的收敛速率能够达到一阶法收敛速率的理论界。针对二阶法矩阵求逆的计算复杂度过高的问题,Charles George Broyden,Roger Fletcher,Donald Goldfarb和David Shanno于1970年独立提出了后来被称为BFGS的算法 [11—14],1989年扩展为低存储的L-BFGS算法 [15]。
1700536606
1700536607 逸闻趣事 
1700536608
1700536609  
[ 上一页 ]  [ :1.70053656e+09 ]  [ 下一页 ]