- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【CANN训练营】学习笔记——Diffusion和GAN对比，Dalle2和Parti

YJK 发表于 2022/07/23 00:26:20 2022/07/23

【摘要】个人对于训练营进阶班第三问的一些思考

听了关于GAN的直播课，阅读了一下相关的文章，想利用这个笔记做一个总结。同时这个笔记也是个人对于训练营进阶班第三问的一些思考，问题问如何看待GAN和Diffision的发展潜力，我觉得从现在的SOTA模型出发是最能直观感受他们的能力的，于是便有了这篇文章。除了DALLE2和Parti,我也希望梳理一下他们涉及到的前置工作。由于本人以前没有深入了解过图像生成领域，时间仓促内容可能也有所纰漏。

DALLE2

如上图所示，Dalle2 的训练被分为两个阶段。虚线上半部分使用CLIP进行对比学习，以获得一个text encoder 和一个image encoder, 他们能够分别将文字和图片编码到向量中并使得图片embedding 和文字embedding尽可能相似。而下半部分则用于图像生成，由prior和Decoder组成。Decoder的作用是将由image encoder所产生的编码反向生成原图片，Prior则将标题文本或text embedding映射到image embedding的空间中。Decoder是一个扩散模型，和GLIDE相似，但同时将clip image embedding映射添加到原来的输入中。文章给出了两种Prior的结构，自回归和扩散模型。人工评判下，文章使用两种prior分别和GLIDE对比发现扩散模型的在真实性，标题符合度和多样性上效果要略微好于自回归模型

量化的FID指标也显示了扩散模型的优势

Parti基于Google新提出的Pathway架构实现高效的网络训练，最大的版本拥有200亿参数

如上图所示，该模型的文本由Transformer Encoder编码，中间的Transformer Decoder将Text-to-Image生成作为一个Seq2Seq任务。而图片由ViT (Vision Transformer)编码（如下图）

GAN和Diffusion比较

GAN由于需要同时训练生成器和判别器，比较难平衡，这使得训练不稳定。相比之下，Diffusion只需要训练一个模型，优化更加容易一些。但是Diffusion的p过程需要分步完成也影响了其推理的效率。在Parti使用了VQGAN并取得了比Diffusion更好的效果，但也要注意Parti拥有比以往模型多得多的参数，预训练的文本识别模型也会对最终结果有显著的影响，难以说明模型整体性能的提升是否来自于GAN，在Parti文章的末尾作者也说可以进一步考虑使用Diffusion和autoregression的结合。在图像生成领域，个人感觉diffusion仍然处于主导地位，但是GAN的应用领域更加灵活广泛，这些是Diffusion无法替代的。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

【CANN训练营】学习笔记——Diffusion和GAN对比，Dalle2和Parti

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

【CANN训练营】学习笔记——Diffusion和GAN对比，Dalle2和Parti

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

推荐阅读

相关产品