1700536541
1700536542
1700536543
,
1700536544
1700536545
(7.18)
1700536546
1700536547
1700536548
来得到更好的估计值。迭代法又可以分为一阶法和二阶法两类。
1700536549
1700536550
1700536551
一阶法对函数 做一阶泰勒展开,得到近似式
1700536552
1700536553
1700536554
1700536555
1700536556
(7.19)
1700536557
1700536558
由于该近似式仅在δ较小时才比较准确,因此在求解δt时一般加上L2正则项
1700536559
1700536560
1700536561
1700536562
1700536563
1700536564
.
1700536565
1700536566
(7.20)
1700536567
1700536568
由此,一阶法的迭代公式表示为
1700536569
1700536570
1700536571
,
1700536572
1700536573
(7.21)
1700536574
1700536575
其中α称为学习率。一阶法也称梯度下降法,梯度就是目标函数的一阶信息。
1700536576
1700536577
二阶法对函数L(θt+δ)做二阶泰勒展开,得到近似式
1700536578
1700536579
1700536580
,
1700536581
1700536582
(7.22)
1700536583
1700536584
其中∇2L(θt)是函数L在θt处的Hessian矩阵。通过求解近似优化问题
1700536585
1700536586
1700536587
1700536588
1700536589
1700536590
,
[
上一页 ]
[ :1.700536541e+09 ]
[
下一页 ]