1700536710
(7.32)
1700536711
1700536712
其中qi∈(−h,0)。两个式子相减,等号两边同时除以2h,并由于
1700536713
1700536714
1700536715
,
1700536716
1700536717
(7.33)
1700536718
1700536719
根据式(7.31)~式(7.33)可得
1700536720
1700536721
1700536722
.
1700536723
1700536724
(7.34)
1700536725
1700536726
当h充分小时,pi和qi都很接近0,可以近似认为h2项前面的系数是常数M,因此近似式的误差为
1700536727
1700536728
1700536729
1700536730
1700536731
(7.35)
1700536732
1700536733
由此可知,当h较小时,h每减小为原来的10−1,近似误差约减小为原来的10−2,即近似误差是h的高阶无穷小。
1700536734
1700536735
在实际应用中,我们随机初始化θ,取h为较小的数(例如10−7),并对 i=1,2,…,n,依次验证
1700536736
1700536737
1700536738
1700536739
1700536740
(7.36)
1700536741
1700536742
是否成立。如果对于某个下标i,该不等式不成立,则有以下两种可能。
1700536743
1700536744
(1)该下标对应的M过大。
1700536745
1700536746
(2)该梯度分量计算不正确。
1700536747
1700536748
此时可以固定θ,减小h为原来的10−1,并再次计算下标i对应的近似误差,若近似误差约减小为原来的10−2,则对应于第一种可能,我们应该采用更小的h重新做一次梯度验证;否则对应于第二种可能,我们应该检查求梯度的代码是否有错误。
1700536749
1700536750
1700536751
1700536752
1700536754
百面机器学习:算法工程师带你去面试 05 随机梯度下降法
1700536755
1700536756
1700536757
1700536758
场景描述
1700536759
[
上一页 ]
[ :1.70053671e+09 ]
[
下一页 ]