gan的模型-36氪企服点评

gan的模型根据质量和功能有不同的分类，一共有6种：Wasserstein GAN、Energy-Based、Boundary-Equilibrium GAN、CGAN-条件生成式对抗网络、Pix2Pix模型、CycleGAN。

一、质量提高方面—GAN的三种模型

（一）Wasserstein GAN(WGAN)

GAN的问题，曾在Wasserstein的一篇论文中得到充分表达，当真实样本和生成样本的交集不可度量时，就会出现问题。

其实真实样本和生成样本不能说绝对没有交集，而是它们的交集要么是空集要么是不可度量，因为它是一个低微的流形。

举例：在一个三维的立体空间中，有一个二维平面和另一个二维平面，它们的相交是一条直线，这条直线在三维空间中是没有体积的。现在假设是10000维的高维空间，我们刚才讲的图片属于低微流形，也就是10000维空间中一个低维的超平面而已。与随机向量产生的生成样本之间，是两个超平面，就算有交集，交集的体积也是0（这个体积是多维体积，而不是真实体积）。

这会使得我们的运算出问题，回顾上面的公式：有真实样本和生成样本的分布，它们之间的交集体积为0，那么X和G(Z)几乎没有可度量的重合部分，这样的数对真实样本来说，它的分布为0，对生成样本的分布来说，概率为0，两个必有一个为0。我们知道对数里面取0，就会是一个负无穷，这个时候就会产生问题，使得训练进行不下去。

这里，可以看成是log对真实样本分布和生成样本分布的求积分。计算过程中我们可以发现，这两个分布是没有交集的。对于特定X来说，要么分子为0，要么分母为0，最后计算都无法进行。

GAN研究方法综述

JS距离是基于KL距离的，使用的是两个分布÷2的公式。因为两个分布很有可能其中一个值为0，所以取平均数。计算发现，无论真实样本还是生成样本，两个值一个是1，另一个就是0，结果使得JS距离为一个常数。做深度学习和神经元网络模型训练，我们最不希望遇到一个不变的常量，因为如果遇到，意味着它要么是一个无用的参数，要么它就是最后我们计算出来的损的值，如果这个值是一个常量保持不变，也就意味着我们的梯度没有了。最后模型的训练就会出问题。

【WGAN给我们带来的启示】

1、不要使用基于KL距离或者JS距离的梯度。

WGAN的建议是EM距离，输入X样本，输出Y，Y并不是一个0~1之间的数，而是一个图片。这是WGAN一个创新的地方。

GAN研究方法综述

2、让生成样本集合和真实样本集合之间有可度量的重叠。

比如：给真实样本加噪音。这个噪音可以是高斯分布，也可以是平均分布。加噪音的原因是只有这样的样本，才和随机生成的样本之间有可度量的交集，才能产生梯度，有了梯度，就可以训练生成器和辨别器。

（二）Energy-Based GAN (EBGAN)

GAN研究方法综述

G指生成器，z代表随机向量，x代表真实样本。中间矩形框出的是辨别器，辨别器由Encoder和Decoder两部分组成。

这个模型输入的不管是真实样本还是假样本，都是图片，输出也是图片，比较两张图片是否一致。大家可能觉得奇怪，这不就是复制吗？是的，但在复制过程，先编码生成一维向量，然后一维向量经过解码，恢复图片，再与原始图片比较，如果是真实图片，我们希望两张图片完全一样；如果是生成图片，我们希望两张图片的差别越大越好。这改变了在最早GAN模型中用0和1区分真实样本与生成样本的做法，也避免了上面WGAN中发现的梯度为0的情况发生。

Encoder-Decoder中间会生成一个语义向量，这个语义向量图上没有画出来，但是非常重要。这个向量可以看成是输入向量的一个语义，因为照片之间进行图像操作非常困难，但是向量之间是可以加减乘除的，这样使得我们操作一个人脸改变他的表情，甚至变成另一张人脸的过程是平滑自然的。这就是这个语义向量做的事，如果没有Encoder-Decoder，这个事情就做不成。
GAN研究方法综述

EBGAN定义了一个D(X)函数：X经过Encoder编码，再经过Decoder解码后，得到一个X的预测值，我们希望这个预测值跟X是无差别的。

在这个过程，我们希望真实样本的输入与输出之间的误差D(x)越小越好，生成样本的输入与输出之间的误差D(G(z))越大越好，整个公式就是判别器的损失函数Lost。m-D(G(z))指里面的数如果小于0，整个值就取0；如果大于0数，则这个数是几就取几。这么做的原因是，如果不加m-函数的限制，D(G(z))可以变成无穷大，前加负号就变成无穷小，Lost函数本来就希望无穷小，最后就会没有最小值。用梯度下降法对这个Lost求梯度是没有意义的，用这样的所谓梯度去优化模型，肯定没有结果。所以大家在做模型时，一定要注意：可以对函数求极值，条件是这个极值能达到，而且这个极值不是正无穷也不是负无穷。

另外，把-的误差改成+的误差，就是对生成器的优化。

（三）Boundary-Equilibrium GAN(BEGAN)

BEGAN模型，D函数就是之前的D函数，t指的是计算过程中第几轮训练，不断进行优化。

GAN研究方法综述

小结

对GAN的研究分为两个方向，一个是试图使GAN的精度提高，使生成的图片越像照片；第二个是令它的功能更强大。上面主要讲的是第一个方向，这里再强调一下，GAN在质量提高这条线上的模型，远不止上文介绍的三个。下面我们讲第二个方向，GAN的应用很强，从功能上，我们有哪些模型可以考虑。

二、功能方面—GAN的三种模型

（一）CGAN-条件生成式对抗网络

这个模型的样本是带有标签的，比如输入一个样本，同时需要带上性别标签，表示要求生成一张男人/女人的照片。这个模型是对原始GAN的一个扩展。

对判别器的训练：真实样本和标签，同时输入到判别器，输出要么是0要么是1。

对生成器的训练：随机向量和标签，同时输入生成器，然后标签和生成样本同时输入判别器。从输入的结构角度看出，真实样本的输入由真实样本和标签组成，而假样本的输入也是由假样本与标签组成，这个训练GAN模型的提高是一个比较大的进步。
GAN研究方法综述

（二）Pix2Pix模型

这个模型同时也是一个应用，它的功能是手画一个鞋子或者包的线条，可以变成一个真实的鞋或者包的图片。这个模型的输入过程与上文CGAN一样，唯一区别是不需要随机向量，只需要把简笔画作为生成器的输入。

GAN研究方法综述

但是Pix2Pix在训练时，需要简笔画与真实样本，必须是成对的。比如简笔画是鞋子的线条，照片就需要是那张鞋子的照片，成对输入。然而样本的收集非常难，现在95%以上的时间、精力和费用都在样本的收集上，所以要简笔画与真实照片配对，非常不容易。这是Pix2Pix模型的一个重大缺陷。为解决这个缺陷，提出了CycleGAN的概念。

（三）CycleGAN

以上文简笔画为例，CycleGAN只需要两类，一类是简笔画，一类是照片，不需要一一配对，其它功能与Pix2Pix完全一致。但是取消了配对的限制，使得对样本收集的负担大大减轻。CycleGAN模型的结构，它有两个判别器，两个生成器。其中，B判别器和B生成器是为B图片做一个GAN模型，A判别器和A生成器是为A图片做一个GAN模型。

GAN研究方法综述