DeepMind爆出无监督表示学习模型BigBiGAN，GAN之父点赞

财经2019-07-09 18:01Autor: 新智元

ZusammenfassungGAN在图像合成方面一次次让人们惊叹不已！

来源：DeepMind

编辑：小芹、大明

AGENT SHOWCASE LISTINGS

GAN在图像合成方面一次次让人们惊叹不已！

例如，被称为史上最强图像生成器的BigGAN——许多人看到BigGAN生成的图像都要感叹“太逼真了！DeepMind太秀了吧！”

BigGAN生成的逼真图像

这不是最秀的。今天，DeepMind的一篇新论文再次引发学术圈热烈反响，论文题为《大规模对抗性表示学习》。

论文链接：

https://arxiv.org/pdf/1907.02544.pdf

在这篇论文中，DeepMind基于最先进的BigGAN模型构建了BigBiGAN模型，通过添加编码器和修改鉴别器将其扩展到表示学习。

BigBiGAN表明，“图像生成质量的进步转化为了表示学习性能的显著提高”。

研究人员广泛评估了BigBiGAN模型的表示学习和生成性能，证明这些基于生成的模型在ImageNet上的无监督表示学习和无条件图像生成方面都达到了state of the art的水平。

这篇论文在Twitter上引发很大反响。GAN发明人Ian Goodfellow说：“很有趣，又回到了表示学习。我读PhD期间，我和大多数合作者都对作为样本生成的副产品的表示学习很感兴趣，而不是样本生成本身。”

Goodfellow说：“当年我们在写最初的GAN论文时，我的合著者@dwf(David Warde-Farley)试图得到一些类似于BiGAN的东西，用于表示学习。5年后看到这一成果，我觉得太酷了。”

Andrej Karpathy 也说：“无监督/自监督学习是一个非常丰富的领域，它将消除目前对大规模数据集的必要性.”

总结而言，这篇论文展示了GAN可以用于无监督表示学习，并在ImageNet上获得了最先进的结果。

下面是BigBiGAN生成的一些重建样本，可以看到，重建是倾向于强调高级语义，而不是像素级的细节。

下面，新智元带来对这篇论文的详细解读。

基于BigGAN打造BigBiGAN：学习高级语义，而非细节

近年来，我们已经看到视觉数据生成模型的快速发展。虽然这些模型以前局限于模式单一或少模式、结构简单、分辨率低的领域，但随着建模和硬件的进步，它们已经获得了令人信服地生成复杂、多模态、高分辨率图像分布的能力。

直观地说，在特定域中生成数据的能力需要高度理解所述域的语义。这一想法长期以来颇具吸引力，因为原始数据既便宜——可以从互联网等来源获得几乎无限的供应——又丰富，图像包含的信息远远超过典型的机器学习模型训练用来预测的类别标签。

然而，尽管生成模型取得的进展不可否认，但仍然存在一些令人困扰的问题：这些模型学到了什么语义，以及如何利用它们进行表示学习?

仅凭原始数据就能真正理解生成这个梦想几乎不可能实现。相反，最成功的无监督学习方法利用了监督学习领域的技术，这是一种被称为自监督学习(self-supervised learnin)的方法。

这些方法通常涉及以某种方式更改或保留数据的某些方面，并训练模型来预测或生成缺失信息的某些方面。

例如，Richard Zhang等人的研究(CVPR 2016)提出了一种非监督学习的图像着色方法，在这种方法中，模型被给予输入图像中颜色通道的子集，并经过训练来预测缺失的通道。

作为无监督学习手段的生成模型为self-supervised的任务提供了一个很有吸引力的替代方案，因为它们经过训练，可以对整个数据分布建模，而不需要修改原始数据。

GAN是一类应用于表示学习的生成模型。GAN框架中的生成器是一个从随机采样的潜在变量(也称为“噪声”)到生成数据的前馈映射，其中学习信号由经过训练的鉴别器提供，用来区分真实数据和生成的数据样本，引导生成器的输出跟随数据分布。

作为GAN框架的扩展，Vincent Dumoulin等人(ICLR 2017)提出adversarially learned inference(ALI)[7]，或Jeff Donahue等人(ICLR 2017)提出 bidirectional GAN (BiGAN)[4]方法，这些方法通过编码器模块将实际数据映射到潜在数据(与生成器学习的映射相反)来增强标准GAN。

在最优判别器的极限下，[4]论文表明确定性BiGAN的行为类似于自编码器，最大限度地降低了重建成本l₀；然而，重建误差曲面的形状是由参数鉴别器决定的，而不是像误差l₂这样的简单像素级度量。

由于鉴别器通常是一个功能强大的神经网络，我们希望它能产生一个误差曲面，在重建时强调“语义”误差，而不是强调低层次的细节。