打字猴:1.700536775e+09

1700536775

1700536776

1700536777 （7.37）

1700536778

1700536779 其中θ是待优化的模型参数，x是模型输入，f(x,θ)是模型的实际输出，y是模型的目标输出，函数L刻画了模型在数据(x,y)上的损失，Pdata表示数据的分布，E表示期望。因此，L(θ)刻画了当参数为θ时，模型在所有数据上的平均损失。我们希望能够找到平均损失最小的模型参数，也就是求解优化问题

1700536780

1700536781

1700536782

1700536783

1700536784 （7.38）

1700536785

1700536786 经典的梯度下降法采用所有训练数据的平均损失来近似目标函数，即

1700536787

1700536788

1700536789 ，

1700536790

1700536791 （7.39）

1700536792

1700536793

1700536794 ，

1700536795

1700536796 （7.40）

1700536797

1700536798 其中M是训练样本的个数。模型参数的更新公式为

1700536799

1700536800

1700536801

1700536802

1700536803 （7.41）

1700536804

1700536805 因此，经典的梯度下降法在每次对模型参数进行更新时，需要遍历所有的训练数据。当M很大时，这需要很大的计算量，耗费很长的计算时间，在实际应用中基本不可行。

1700536806

1700536807 为了解决该问题，随机梯度下降法（Stochastic Gradient Descent，SGD）用单个训练样本的损失来近似平均损失，即

1700536808

1700536809

1700536810

1700536811

1700536812 （7.42）

1700536813

1700536814

1700536815

1700536816

1700536817 （7.43）

1700536818

1700536819 因此，随机梯度下降法用单个训练数据即可对模型参数进行一次更新，大大加快了收敛速率。该方法也非常适用于数据源源不断到来的在线更新场景。

1700536820

1700536821

1700536822 为了降低随机梯度的方差，从而使得迭代算法更加稳定，也为了充分利用高度优化的矩阵运算操作，在实际应用中我们会同时处理若干训练数据，该方法被称为小批量梯度下降法（Mini-Batch Gradient Descent）。假设需要同时处理m个训练数据，则目标函数及其梯度为

1700536823

1700536824

[ 上一页 ] [ :1.700536775e+09 ] [ 下一页 ]