打字猴:1.70053676e+09
1700536760 经典的优化方法,如梯度下降法,在每次迭代时需要使用所有的训练数据,这给求解大规模数据的优化问题带来了挑战。如何克服这个挑战,对于掌握机器学习,尤其是深度学习至关重要。
1700536761
1700536762 知识点
1700536763
1700536764 随机梯度下降法,经典优化算法
1700536765
1700536766 问题 当训练数据量特别大时,经典的梯度下降法存在什么问题,需要做如何改进?
1700536767
1700536768 难度:★☆☆☆☆
1700536769
1700536770 分析与解答
1700536771
1700536772 在机器学习中,优化问题的目标函数通常可以表示成
1700536773
1700536774
1700536775
1700536776
1700536777 (7.37)
1700536778
1700536779 其中θ是待优化的模型参数,x是模型输入,f(x,θ)是模型的实际输出,y是模型的目标输出,函数L刻画了模型在数据(x,y)上的损失,Pdata表示数据的分布,E表示期望。因此,L(θ)刻画了当参数为θ时,模型在所有数据上的平均损失。我们希望能够找到平均损失最小的模型参数,也就是求解优化问题
1700536780
1700536781
1700536782
1700536783
1700536784 (7.38)
1700536785
1700536786 经典的梯度下降法采用所有训练数据的平均损失来近似目标函数,即
1700536787
1700536788
1700536789
1700536790
1700536791 (7.39)
1700536792
1700536793
1700536794
1700536795
1700536796 (7.40)
1700536797
1700536798 其中M是训练样本的个数。模型参数的更新公式为
1700536799
1700536800
1700536801
1700536802
1700536803 (7.41)
1700536804
1700536805 因此,经典的梯度下降法在每次对模型参数进行更新时,需要遍历所有的训练数据。当M很大时,这需要很大的计算量,耗费很长的计算时间,在实际应用中基本不可行。
1700536806
1700536807 为了解决该问题,随机梯度下降法(Stochastic Gradient Descent,SGD)用单个训练样本的损失来近似平均损失,即
1700536808
1700536809
[ 上一页 ]  [ :1.70053676e+09 ]  [ 下一页 ]