打字猴:1.70053814e+09
1700538140 知识点
1700538141
1700538142 线性代数,微积分,深度学习
1700538143
1700538144 问题1 写出多层感知机的平方误差和交叉熵损失函数。
1700538145
1700538146 难度:★★☆☆☆
1700538147
1700538148 分析与解答
1700538149
1700538150
1700538151 给定包含m样本的集合,其整体代价函数为
1700538152
1700538153
1700538154
1700538155
1700538156 (9.11)
1700538157
1700538158 其中第一项为平方误差项,第二项为L2正则化项,在功能上可称作权重衰减项,目的是减小权重的幅度,防止过拟合。该项之前的系数λ为权重衰减参数,用于控制损失函数中两项的相对权重。
1700538159
1700538160 以二分类场景为例,交叉熵损失函数定义为
1700538161
1700538162
1700538163
1700538164
1700538165 (9.12)
1700538166
1700538167 其中正则项与上式是相同的;第一项衡量了预测o(i)与真实类别y(i)之间的交叉熵,当y(i)与o(i)相等时,熵最大,也就是损失函数达到最小。在多分类的场景中,可以类似地写出相应的损失函数
1700538168
1700538169
1700538170
1700538171
1700538172 (9.13)
1700538173
1700538174 其中ok(i)代表第i个样本的预测属于类别k的概率,yk(i)为实际的概率(如果第i个样本的真实类别为k,则yk(i)=1,否则为0)。
1700538175
1700538176 问题2 根据问题1中定义的损失函数,推导各层参数更新的梯度计算公式。
1700538177
1700538178 难度:★★★★☆
1700538179
1700538180 分析与解答
1700538181
1700538182
1700538183
1700538184
1700538185 回顾之前给出的定义,第(l )层的参数为W(l)和b(l);每一层的线性变换为;输出为,其中f为非线性激活函数(如Sigmoid、Tanh、ReLU等);a(l)直接作为下一层的输入,即。
1700538186
1700538187 我们可以利用批量梯度下降法来优化网络参数。梯度下降法中每次迭代对参数W(网络连接权重)和b(偏置)进行更新
1700538188
1700538189
[ 上一页 ]  [ :1.70053814e+09 ]  [ 下一页 ]