正文
GANs 的运作方式可被看作是两名玩家之间的零和游戏。原论文的类比是,生成器就像一支造假币的团伙,试图用假币蒙混过关。而判别器就像是警察,目标是检查出假币。生成器想要骗过判别器,判别器想要不上当。当两组模型不断训练,生成器不断生成新的结果进行尝试,它们的能力互相提高,直到生成器生成的人造样本看起来与原始样本没有区别。”
更多“什么是 GANs ?”的详细解说,请参考雷锋网
(公众号:雷锋网)
整理的
Ian Goodfellow NIPS 大会 ppt
演讲,
Yan Lecun 演讲
,以及香港理工大学博士生李嫣然的
“GANs 最新进展”特约稿
。
早期的 GANs 模型有许多问题。Yan Lecun 指出,其中一项主要缺陷是:GANs 不稳定,有时候它永远不会开始学习,或者生成我们认为合格的输出。这需要之后的研究一步步解决。
2. 拉普拉斯金字塔(
Laplacian Pyrami
)的应用
GANs 最重要的应用之一,是生成看起来‘自然’的图像,这要求对生成器的充分训练。以下是 Ian Goodfellow 等人的 2014 年论文中,生成器输出的样本:
可以看出,生成器在生成数字和人脸图像方面做得不错。但是,使用 CIFAR-10 数据库生成的风景、动物图片十分模糊。这是 GANs 早期的主要局限之一。
2015 年 6 月 Emily Denton 等人发表的研究《Deep Generative Image Models using Lapalacian Pyramid of Adversarial Networks》(“深度图像生成模型:在对抗网络应用拉普拉斯金字塔”)改变了这一点。研究人员提出,用一系列的卷积神经网络(CNN)连续生成清晰度不断提高的图像,能最终得到高分辨率图像。该模型被称为 LAPGANs 。
其中的拉普拉斯金字塔,是指同一幅图像在不同分辨率下的一系列过滤图片。
与此前 GAN 架构的区别是:传统的 GAN 只有一个 生成器 CNN,负责生成整幅图像;而在拉普拉斯金字塔结构中,金字塔的每一层(某特定分辨率),都有一个关联的 CNN。
每一个 CNN 都会生成比上一层 CNN 更加清晰的图像输出,然后把该输出作为下一层的输入。这样连续对图片进行升采样,每一步图像的清晰度都有提升。
拉普拉斯金字塔结构图像生成示意
这产生了一个新概念:有条件生成对抗网络(conditional GAN,CGAN),指的是它有多个输入:低分辨率图片和噪音矢量。该研究生成的高质量图片,在 40% 的情况下被真人裁判当做真实图像。