1700536727
1700536728
1700536729
1700536730
1700536731
(7.35)
1700536732
1700536733
由此可知,当h较小时,h每减小为原来的10−1,近似误差约减小为原来的10−2,即近似误差是h的高阶无穷小。
1700536734
1700536735
在实际应用中,我们随机初始化θ,取h为较小的数(例如10−7),并对 i=1,2,…,n,依次验证
1700536736
1700536737
1700536738
1700536739
1700536740
(7.36)
1700536741
1700536742
是否成立。如果对于某个下标i,该不等式不成立,则有以下两种可能。
1700536743
1700536744
(1)该下标对应的M过大。
1700536745
1700536746
(2)该梯度分量计算不正确。
1700536747
1700536748
此时可以固定θ,减小h为原来的10−1,并再次计算下标i对应的近似误差,若近似误差约减小为原来的10−2,则对应于第一种可能,我们应该采用更小的h重新做一次梯度验证;否则对应于第二种可能,我们应该检查求梯度的代码是否有错误。
1700536749
1700536750
1700536751
1700536752
1700536754
百面机器学习:算法工程师带你去面试 05 随机梯度下降法
1700536755
1700536756
1700536757
1700536758
场景描述
1700536759
1700536760
经典的优化方法,如梯度下降法,在每次迭代时需要使用所有的训练数据,这给求解大规模数据的优化问题带来了挑战。如何克服这个挑战,对于掌握机器学习,尤其是深度学习至关重要。
1700536761
1700536762
知识点
1700536763
1700536764
随机梯度下降法,经典优化算法
1700536765
1700536766
问题 当训练数据量特别大时,经典的梯度下降法存在什么问题,需要做如何改进?
1700536767
1700536768
难度:★☆☆☆☆
1700536769
1700536770
分析与解答
1700536771
1700536772
在机器学习中,优化问题的目标函数通常可以表示成
1700536773
1700536774
1700536775
1700536776
[
上一页 ]
[ :1.700536727e+09 ]
[
下一页 ]