1700538171
1700538172
(9.13)
1700538173
1700538174
其中ok(i)代表第i个样本的预测属于类别k的概率,yk(i)为实际的概率(如果第i个样本的真实类别为k,则yk(i)=1,否则为0)。
1700538175
1700538176
问题2 根据问题1中定义的损失函数,推导各层参数更新的梯度计算公式。
1700538177
1700538178
难度:★★★★☆
1700538179
1700538180
分析与解答
1700538181
1700538182
1700538183
1700538184
1700538185
回顾之前给出的定义,第(l )层的参数为W(l)和b(l);每一层的线性变换为;输出为,其中f为非线性激活函数(如Sigmoid、Tanh、ReLU等);a(l)直接作为下一层的输入,即。
1700538186
1700538187
我们可以利用批量梯度下降法来优化网络参数。梯度下降法中每次迭代对参数W(网络连接权重)和b(偏置)进行更新
1700538188
1700538189
1700538190
,
1700538191
1700538192
(9.14)
1700538193
1700538194
1700538195
.
1700538196
1700538197
(9.15)
1700538198
1700538199
其中α为学习速率,控制每次迭代中梯度变化的幅度。
1700538200
1700538201
1700538202
1700538203
问题的核心为求解与。为得到递推公式,我们还需要计算损失函数对隐含层的偏导
1700538204
1700538205
1700538206
,
1700538207
1700538208
(9.16)
1700538209
1700538210
其中sl+1为第l+1层的节点数,而
1700538211
1700538212
1700538213
,
1700538214
1700538215
(9.17)
1700538216
1700538217
1700538218
其中b(l+1)与zi(l)无关可以省去,,因此式(9.17)可写为
1700538219
1700538220
[
上一页 ]
[ :1.700538171e+09 ]
[
下一页 ]