5熊猫网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

开启左侧
查看: 107|回复: 0
 蜂猴 发表于: 2021-12-30 11:19:00|显示全部楼层|阅读模式

[2021年] 图像生成王者不是GAN?扩散模型最近有点火:靠加入类别条件,效果直达SOTA

 [复制链接]
源自:创事记
  博雯 发自 凹非寺
  量子位
  | 公众号 QbitAI
  OpenAI刚刚推出的年末新作GLIDE,又让扩散模型小火了一把。
  这个基于扩散模型的文本图像生成大模型参数规模更小,但生成的图像质量却更高。
  于是,依旧是OpenAI出品,论文标题就直接号称“在图像生成上打败GAN”的ADM-G模型也重新进入了大众眼中:
5422-3e42942dfa17212d8d5cb0536e0aa6b4.png
光看Papers with Code上基于ImageNet数据集的图像生成模型榜单,从64×64到512×512分辨率都由这一模型占据榜首:
ebf5-b1bf1a23c4da84ecd8eac94251d5766e.png
对比曾号称史上最强图像生成器的BigGAN-deep也不落下风,甚至还能在LSUN和ImageNet 64×64的图像生成效果上达到SOTA。
c316-2c80ca864c48d4c713025937ab88a861.png
有网友对此感叹:前几年图像生成领域一直由GAN主导,现在看来,似乎要变成扩散模型了。
9dd6-96e322aabd9c09894667e91bdb40ff9f.png
加入类别条件的扩散模型
  我们先来看看扩散模型的定义。
  这是一种新的图像生成的方法,其名字中的“扩散”本质上是一个迭代过程。
  具体到推理中,就是从一幅完全由噪声构成的图像开始,通过预测每个步骤滤除的噪声,迭代去噪得到一个高质量的样本,然后再逐步添加更多的细节。
08b0-879b779cdc6b2705780c776c36080b15.gif
而OpenAI的这个ADM-G模型,则是在此基础上向图像生成任务中加入了类别条件,形成了一种独特的消融扩散模型。
  研究人员分别从以下几个方面做了改进:
  基本架构
  基于UNet结构做了五点改进:
  在保持模型大小不变的前提下,增加深度与宽度
  增加注意头(Attention Head)数量
  在32×32、16×16和8×8的分辨率下都使用注意力机制
  使用BigGAN残差块对激活函数进行上采样和下采样
  将残差连接(Residual Connections)缩小为原来的1/根号2
2e3b-b5c451796ce0d27f85754e3fb5e7c0dc.png
类别引导(Classifier Guidance)
  在噪声逐步转换到信号的过程中,研究人员引入了一个预先训练好的分类网络。
  它能够为中间生成图像预测并得到一个标签,也就是可以对生成的图片进行分类。
  之后,再基于分类分数和目标类别之间的交叉熵损失计算梯度,用梯度引导下一步的生成采样。
  缩放分类梯度(Scaling Classifier Gradients)
  按超参数缩放分类网络梯度,以此来控制生成图像的多样性和精度。
  比如像这样,左边是1.0规模大小的分类网络,右边是10.0大小的分类网络,可以看到,右边的生成图像明显类别更加一致:
c129-c99c7e7be257affc2c28ef614b0b3e4a.png
也就是说,分类网络梯度越高,类别就越一致,精度也越高,而同时多样性也会变小。
生成领域的新热点
  目前,这一模型在GitHub上已有近千标星:
489f-0df7c480ef1d650dc451834fe25e1109.png
而与GAN比起来,扩散模型生成的图像还更多样、更复杂。
  基于同样的训练数据集时,扩散模型可以生成拥有全景、局部特写、不同角度的图像:
20c6-df4c2d9eacfc055f2c764f4c5bddfe33.png
△左:BigGAN-deep 右:ADM  其实,自2020年谷歌发表DDPM后,扩散模型就逐渐成为了生成领域的一个新热点
  除了文章中提到的OpenAI的两篇论文之外,还有Semantic Guidence Diffusion、Classifier-Free Diffusion Guidence等多个基于扩散模型设计的生成模型。
  扩散模型接下来还会在视觉任务上有哪些新的应用呢,我们来年再看。
  论文链接:https://arxiv.org/abs/2105.05233
  开源链接:https://github.com/openai/guided-diffusion

§ 参考文献
  [1] https://www.casualganpapers.com/guided_diffusion_langevin_dynamics_classifier_guidance/Guided-Diffusion-explained.html
  [2] https://www.reddit.com/r/MachineLearning/comments/rq1cnm/d_diffusion_models_beat_gans_on_image_synthesis
『 5熊猫网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 5熊猫网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 蜂猴 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 蜂猴 的书面同意;
  4. 本帖子由 蜂猴 发表,仅代表用户本人所为和观点,与『 5熊猫网 』的立场无关,蜂猴 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 蜂猴 发表,帖子内容(可能)转载自其它媒体,但并不代表『 5熊猫网 』赞同其观点和对其真实性负责。
  6. 本帖子由 蜂猴 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 5熊猫网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2025, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2025-5-4 15:27, Processed in 0.062400 second(s), 7 queries, Gzip On, MemCache On
快速回复 返回顶部 返回列表