打字猴:1.70054033e+09
1700540330
1700540331
1700540332 图13.9 图像分类
1700540333
1700540334 图像分割任务中,输入一张图片,输出与原图同尺寸的分割图,图片被切成不同区域,同区域的点用同一颜色表示。输入端还是一张图,输出端信息量相比分类任务是有所增加了。注意,传统卷积神经网络中每层的高宽越来越小,丢失大量与像素位置相关的信息,为了进行图像分割任务,研究者们提出了一些新的卷积神经网络结构,比如分数步进卷积层(Fractional-Strided Convolutions),也称反卷积层(Deconvolutions),它让每层的高宽不减反增,从而使得分割任务中最终的输出和原始输入图片尺寸相同,如图13.10所示。
1700540335
1700540336
1700540337
1700540338
1700540339 图13.10 图像分割
1700540340
1700540341 但是,图像生成不是图像分割(见图13.11)。图像分割的输出端虽然与原图同尺寸,但是像素级别的细节信息依然大量丢掉,难以生成高分辨率的图片。图像生成这点事,绝不是信手拈来一个卷积神经网络就能搞定。我们该怎么改进卷积神经网络呢?
1700540342
1700540343
1700540344
1700540345
1700540346 图13.11 图像生成
1700540347
1700540348 知识点
1700540349
1700540350 卷积神经网络,分数步进卷积层(反卷积层),批量归一化,ReLU/LReLU
1700540351
1700540352 问题 在生成器和判别器中应该怎样设计深层卷积结构?
1700540353
1700540354 难度:★★★☆☆
1700540355
1700540356 为了生成高分辨率的优质图片,我们准备在GANs框架内嵌入多层卷积网络。但是,一般的卷积结构达不到我们的期待。
1700540357
1700540358 分析与解答
1700540359
1700540360 为了充分发挥GANs中卷积网络的威力,我们需要搞清楚两件事情:生成器到底做了什么?以及判别器到底做了什么?
1700540361
1700540362 ■ 生成器
1700540363
1700540364 生成器生成图片,可以看成图片分类的一个逆过程。图片分类器的输入是一张图片,输出是一个类别;图片生成器的输出是一张图片,但它的输入是什么呢?输入通常有一个随机向量,如高斯分布产生的100维随机向量。这个随机向量有什么含义?在深度神经网络的黑盒子里,我们无从知道。但是我们可以确定:100维随机向量对比一张128×128小图片(扁平化后是16384维)是一个极低维的向量。
1700540365
1700540366 从低维向量得到高维图片,想高分辨率,这怎么可能?例如,从一个类别到一张图片,信息由少到多,不仅不能压缩或丢失信息,还要补充信息,任务难度必然增大。好比,我一说“狗”,你脑子里闪出狗的画面,可能是金巴,可能是藏獒,你以前一定见过这样的狗,脑子里已经有了它的影像信息,我的一个词就能引起你的想象。即便这样,让你画出狗来,假定你绘画功底很强,你最先画出的是狗的轮廓,而不是一张真实图片,因为有太多的细节需要一点点添加,比如:狗毛发的颜色,狗是跑着的还是卧着的,狗在屋子里还是在草地上……我们可以把100维随机向量,理解成要事先确定一些信息,除了类别还要有细节,它们各项独立并可以相互组合,比如一只装在茶杯里的呆萌茶杯犬(见图13.12)。
1700540367
1700540368
1700540369
1700540370
1700540371 图13.12 图像生成任务需要的一些细节信息
1700540372
1700540373 用随机向量的每维刻画不同的细节,然后生成一张图片。随机向量不含像素级别的位置信息,但是对于图片,每个像素都有它的位置,点构成了线,线组成了面,进而描绘出物体的形状。如果这些位置信息不是从随机向量中产生,那么就应出自生成器的特殊网络结构。
1700540374
1700540375 那么,卷积神经网络能体现位置信息吗?最初设计卷积神经网络时,引入了感受野的概念,捕捉图片邻近区域的特征,只有位置靠近的像素点才能被感受野一次捕捉到。传统多层卷积结构中,越靠近输入端,包含的位置信息越明显,随着层层深入,感受野涵盖的区域扩大,过于细节的位置信息丢失,留下高级语义信息,更好地反映图片的类别。经典的卷积神经网络只是捕捉或识别位置信息,不负责产生位置信息,位置信息来源于输入的图片,当它们不能有效反映图片的高级语义(如类别)时,就会在逐层计算中被丢掉[36]。
1700540376
1700540377 因此,从随机向量造出图片,要在造的过程中产生位置信息。这个生成过程需符合以下两点原则。
1700540378
1700540379 (1)保证信息在逐层计算中逐渐增多。
[ 上一页 ]  [ :1.70054033e+09 ]  [ 下一页 ]