【CANN训练营】学习笔记——Diffusion和GAN对比,Dalle2和Parti

举报
YJK 发表于 2022/07/23 00:26:20 2022/07/23
【摘要】 个人对于训练营进阶班第三问的一些思考

听了关于GAN的直播课,阅读了一下相关的文章,想利用这个笔记做一个总结。同时这个笔记也是个人对于训练营进阶班第三问的一些思考,问题问如何看待GAN和Diffision的发展潜力,我觉得从现在的SOTA模型出发是最能直观感受他们的能力的,于是便有了这篇文章。除了DALLE2和Parti,我也希望梳理一下他们涉及到的前置工作。由于本人以前没有深入了解过图像生成领域,时间仓促内容可能也有所纰漏。

DALLE2

dalle2.png

如上图所示,Dalle2 的训练被分为两个阶段。虚线上半部分使用CLIP进行对比学习,以获得一个text encoder 和一个image encoder, 他们能够分别将文字和图片编码到向量中并使得图片embedding 和文字embedding尽可能相似。而下半部分则用于图像生成,由prior和Decoder组成。Decoder的作用是将由image encoder所产生的编码反向生成原图片,Prior则将标题文本或text embedding映射到image embedding的空间中。Decoder是一个扩散模型, 和GLIDE相似,但同时将clip image embedding映射添加到原来的输入中。文章给出了两种Prior的结构,自回归和扩散模型。人工评判下,文章使用两种prior分别和GLIDE对比发现扩散模型的在真实性,标题符合度和多样性上效果要略微好于自回归模型

dalle2_2.png


量化的FID指标也显示了扩散模型的优势

dalle2_3.png

Parti基于Google新提出的Pathway架构实现高效的网络训练,最大的版本拥有200亿参数

parti.png

如上图所示,该模型的文本由Transformer Encoder编码,中间的Transformer Decoder将Text-to-Image生成作为一个Seq2Seq任务。而图片由ViT (Vision Transformer)编码(如下图)

vit.png

GAN和Diffusion比较

GAN由于需要同时训练生成器和判别器,比较难平衡,这使得训练不稳定。相比之下,Diffusion只需要训练一个模型,优化更加容易一些。但是Diffusion的p过程需要分步完成也影响了其推理的效率。在Parti使用了VQGAN并取得了比Diffusion更好的效果,但也要注意Parti拥有比以往模型多得多的参数,预训练的文本识别模型也会对最终结果有显著的影响,难以说明模型整体性能的提升是否来自于GAN,在Parti文章的末尾作者也说可以进一步考虑使用Diffusion和autoregression的结合。在图像生成领域,个人感觉diffusion仍然处于主导地位,但是GAN的应用领域更加灵活广泛,这些是Diffusion无法替代的。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。