1700540116
1700540117
分析与解答
1700540118
1700540119
1700540120
传统概率生成模型要定义一个概率分布表达式P(X),通常是一个多变量联合概率分布的密度函数,并基于此做最大似然估计。这过程少不了概率推断计算,比如计算边缘概率P(Xi)、条件概率P(Xi|Xj)以及作分母的Partition Function等。当随机变量很多时,概率模型会变得十分复杂,概率计算变得非常困难,即使做近似计算,效果常不尽人意。GANs在刻画概率生成模型时,并不对概率密度函数p(X)直接建模,而是通过制造样本x,间接体现出分布p(X),就是说我们看不到p(X)的一个表达式。那么怎么做呢?
1700540121
1700540122
1700540123
1700540124
如果随机变量Z和X之间满足某种映射关系X=f(Z),那么它们的概率分布pX(X)和pZ(Z)也存在某种映射关系。当都是一维随机变量时,;当Z,X是高维随机变量时,导数变成雅克比矩阵,即pX=JpZ。因此,已知Z的分布,我们对随机变量间的转换函数f直接建模,就唯一确定了X的分布。
1700540125
1700540126
这样,不仅避开大量复杂的概率计算,而且给f更大的发挥空间,我们可以用神经网络来训练f。近些年神经网络领域大踏步向前发展,涌现出一批新技术来优化网络结构,除了经典的卷积神经网络和循环神经网络,还有ReLu激活函数、批量归一化、Dropout等,都可以自由地添加到生成器的网络中,大大增强生成器的表达能力。
1700540127
1700540128
问题4 GANs在实际训练中会遇到什么问题?
1700540129
1700540130
难度:★★★★☆
1700540131
1700540132
1700540133
实验中训练GANs会像描述的那么完美吗?最小化目标函数求解G会遇到什么问题?你有何解决方案?
1700540134
1700540135
解答与分析
1700540136
1700540137
在实际训练中,早期阶段生成器G很差,生成的模拟样本很容易被判别器D识别,使得D回传给G的梯度极其小,达不到训练目的,这个现象称为优化饱和[33]。为什么会这样呢?我们将D的Sigmoid输出层的前一层记为o,那么D(x)可表示成D(x)=Sigmoid(o(x)),此时有
1700540138
1700540139
1700540140
1700540141
1700540142
(13.7)
1700540143
1700540144
因此训练G的梯度为
1700540145
1700540146
1700540147
1700540148
1700540149
(13.8)
1700540150
1700540151
1700540152
1700540153
当D很容易认出模拟样本时,意味着认错模拟样本的概率几乎为零,即。假定,C为一个常量,则可推出
1700540154
1700540155
1700540156
1700540157
1700540158
1700540159
1700540160
1700540161
(13.9)
1700540162
1700540163
故G获得的梯度基本为零,这说明D强大后对G的帮助反而微乎其微。
1700540164
1700540165
[
上一页 ]
[ :1.700540116e+09 ]
[
下一页 ]