生成对抗网络（GANs ）为什么这么火？盘点它诞生以来的主要技术进展

算法与数学之美 · 公众号 · 算法 · 2017-04-16 22:14

正文

请到「今天看啥」查看全文

GANs 的运作方式可被看作是两名玩家之间的零和游戏。原论文的类比是，生成器就像一支造假币的团伙，试图用假币蒙混过关。而判别器就像是警察，目标是检查出假币。生成器想要骗过判别器，判别器想要不上当。当两组模型不断训练，生成器不断生成新的结果进行尝试，它们的能力互相提高，直到生成器生成的人造样本看起来与原始样本没有区别。”

更多“什么是 GANs ？”的详细解说，请参考雷锋网 (公众号：雷锋网) 整理的 Ian Goodfellow NIPS 大会 ppt 演讲， Yan Lecun 演讲，以及香港理工大学博士生李嫣然的 “GANs 最新进展”特约稿。

早期的 GANs 模型有许多问题。Yan Lecun 指出，其中一项主要缺陷是：GANs 不稳定，有时候它永远不会开始学习，或者生成我们认为合格的输出。这需要之后的研究一步步解决。

2. 拉普拉斯金字塔（ Laplacian Pyrami ）的应用

GANs 最重要的应用之一，是生成看起来‘自然’的图像，这要求对生成器的充分训练。以下是 Ian Goodfellow 等人的 2014 年论文中，生成器输出的样本：

可以看出，生成器在生成数字和人脸图像方面做得不错。但是，使用 CIFAR-10 数据库生成的风景、动物图片十分模糊。这是 GANs 早期的主要局限之一。

2015 年 6 月 Emily Denton 等人发表的研究《Deep Generative Image Models using Lapalacian Pyramid of Adversarial Networks》（“深度图像生成模型：在对抗网络应用拉普拉斯金字塔”）改变了这一点。研究人员提出，用一系列的卷积神经网络（CNN）连续生成清晰度不断提高的图像，能最终得到高分辨率图像。该模型被称为 LAPGANs 。

其中的拉普拉斯金字塔，是指同一幅图像在不同分辨率下的一系列过滤图片。与此前 GAN 架构的区别是：传统的 GAN 只有一个生成器 CNN，负责生成整幅图像；而在拉普拉斯金字塔结构中，金字塔的每一层（某特定分辨率），都有一个关联的 CNN。每一个 CNN 都会生成比上一层 CNN 更加清晰的图像输出，然后把该输出作为下一层的输入。这样连续对图片进行升采样，每一步图像的清晰度都有提升。

拉普拉斯金字塔结构图像生成示意

这产生了一个新概念：有条件生成对抗网络（conditional GAN，CGAN)，指的是它有多个输入：低分辨率图片和噪音矢量。该研究生成的高质量图片，在 40% 的情况下被真人裁判当做真实图像。