打字猴:1.70054033e+09

1700540330

1700540331

1700540332 图13.9　图像分类

1700540333

1700540334 图像分割任务中，输入一张图片，输出与原图同尺寸的分割图，图片被切成不同区域，同区域的点用同一颜色表示。输入端还是一张图，输出端信息量相比分类任务是有所增加了。注意，传统卷积神经网络中每层的高宽越来越小，丢失大量与像素位置相关的信息，为了进行图像分割任务，研究者们提出了一些新的卷积神经网络结构，比如分数步进卷积层（Fractional-Strided Convolutions），也称反卷积层（Deconvolutions），它让每层的高宽不减反增，从而使得分割任务中最终的输出和原始输入图片尺寸相同，如图13.10所示。

1700540335

1700540336

1700540337

1700540338

1700540339 图13.10　图像分割

1700540340

1700540341 但是，图像生成不是图像分割（见图13.11）。图像分割的输出端虽然与原图同尺寸，但是像素级别的细节信息依然大量丢掉，难以生成高分辨率的图片。图像生成这点事，绝不是信手拈来一个卷积神经网络就能搞定。我们该怎么改进卷积神经网络呢？

1700540342

1700540343

1700540344

1700540345

1700540346 图13.11　图像生成

1700540347

1700540348 知识点

1700540349

1700540350 卷积神经网络，分数步进卷积层（反卷积层），批量归一化，ReLU/LReLU

1700540351

1700540352 问题　在生成器和判别器中应该怎样设计深层卷积结构？

1700540353

1700540354 难度：★★★☆☆

1700540355

1700540356 为了生成高分辨率的优质图片，我们准备在GANs框架内嵌入多层卷积网络。但是，一般的卷积结构达不到我们的期待。

1700540357

1700540358 分析与解答

1700540359

1700540360 为了充分发挥GANs中卷积网络的威力，我们需要搞清楚两件事情：生成器到底做了什么？以及判别器到底做了什么？

1700540361

1700540362 ■ 生成器

1700540363

1700540364 生成器生成图片，可以看成图片分类的一个逆过程。图片分类器的输入是一张图片，输出是一个类别；图片生成器的输出是一张图片，但它的输入是什么呢？输入通常有一个随机向量，如高斯分布产生的100维随机向量。这个随机向量有什么含义？在深度神经网络的黑盒子里，我们无从知道。但是我们可以确定：100维随机向量对比一张128×128小图片（扁平化后是16384维）是一个极低维的向量。

1700540365

1700540366 从低维向量得到高维图片，想高分辨率，这怎么可能？例如，从一个类别到一张图片，信息由少到多，不仅不能压缩或丢失信息，还要补充信息，任务难度必然增大。好比，我一说“狗”，你脑子里闪出狗的画面，可能是金巴，可能是藏獒，你以前一定见过这样的狗，脑子里已经有了它的影像信息，我的一个词就能引起你的想象。即便这样，让你画出狗来，假定你绘画功底很强，你最先画出的是狗的轮廓，而不是一张真实图片，因为有太多的细节需要一点点添加，比如：狗毛发的颜色，狗是跑着的还是卧着的，狗在屋子里还是在草地上……我们可以把100维随机向量，理解成要事先确定一些信息，除了类别还要有细节，它们各项独立并可以相互组合，比如一只装在茶杯里的呆萌茶杯犬（见图13.12）。

1700540367

1700540368

1700540369

1700540370

1700540371 图13.12　图像生成任务需要的一些细节信息

1700540372

1700540373 用随机向量的每维刻画不同的细节，然后生成一张图片。随机向量不含像素级别的位置信息，但是对于图片，每个像素都有它的位置，点构成了线，线组成了面，进而描绘出物体的形状。如果这些位置信息不是从随机向量中产生，那么就应出自生成器的特殊网络结构。

1700540374

1700540375 那么，卷积神经网络能体现位置信息吗？最初设计卷积神经网络时，引入了感受野的概念，捕捉图片邻近区域的特征，只有位置靠近的像素点才能被感受野一次捕捉到。传统多层卷积结构中，越靠近输入端，包含的位置信息越明显，随着层层深入，感受野涵盖的区域扩大，过于细节的位置信息丢失，留下高级语义信息，更好地反映图片的类别。经典的卷积神经网络只是捕捉或识别位置信息，不负责产生位置信息，位置信息来源于输入的图片，当它们不能有效反映图片的高级语义（如类别）时，就会在逐层计算中被丢掉[36]。

1700540376

1700540377 因此，从随机向量造出图片，要在造的过程中产生位置信息。这个生成过程需符合以下两点原则。

1700540378

1700540379 （1）保证信息在逐层计算中逐渐增多。

[ 上一页 ] [ :1.70054033e+09 ] [ 下一页 ]