打字猴:1.70053839e+09

1700538390

1700538391

1700538392

1700538393

1700538394 图9.13　标准网络和Dropout网络的对比

1700538395

1700538396 应用Dropout之后，前向传播公式变为

1700538397

1700538398

1700538399 ，

1700538400

1700538401 （9.32）

1700538402

1700538403

1700538404 ，

1700538405

1700538406 （9.33）

1700538407

1700538408

1700538409 ，

1700538410

1700538411 （9.34）

1700538412

1700538413

1700538414 ．

1700538415

1700538416 （9.35）

1700538417

1700538418 上面的Bernoulli函数的作用是以概率系数p随机生成一个取值为0或1的向量，代表每个神经元是否需要被丢弃。如果取值为 0，则该神经元将不会计算梯度或参与后面的误差传播。

1700538419

1700538420 测试阶段是前向传播的过程。在前向传播的计算时，每个神经元的参数要预先乘以概率系数p，以恢复在训练中该神经元只有p的概率被用于整个神经网络的前向传播计算。

1700538421

1700538422 更多详细内容及实验性能对比请查看参考文献[19]。

1700538423

1700538424 问题3　批量归一化的基本动机与原理是什么？在卷积神经网络中如何使用？

1700538425

1700538426 难度：★★★☆☆

1700538427

1700538428 分析与解答

1700538429

1700538430 神经网络训练过程的本质是学习数据分布，如果训练数据与测试数据的分布不同将大大降低网络的泛化能力，因此我们需要在训练开始前对所有输入数据进行归一化处理。

1700538431

1700538432 然而随着网络训练的进行，每个隐层的参数变化使得后一层的输入发生变化，从而每一批训练数据的分布也随之改变，致使网络在每次迭代中都需要拟合不同的数据分布，增大训练的复杂度以及过拟合的风险。

1700538433

1700538434

1700538435 批量归一化方法是针对每一批数据，在网络的每一层输入之前增加归一化处理（均值为0，标准差为1），将所有批数据强制在统一的数据分布下，即对该层的任意一个神经元（假设为第k维）采用如下公式

1700538436

1700538437

1700538438 ，

1700538439

[ 上一页 ] [ :1.70053839e+09 ] [ 下一页 ]