【CANN训练营】学习笔记——Diffusion和GAN对比,Dalle2和Parti
听了关于GAN的直播课,阅读了一下相关的文章,想利用这个笔记做一个总结。同时这个笔记也是个人对于训练营进阶班第三问的一些思考,问题问如何看待GAN和Diffision的发展潜力,我觉得从现在的SOTA模型出发是最能直观感受他们的能力的,于是便有了这篇文章。除了DALLE2和Parti,我也希望梳理一下他们涉及到的前置工作。由于本人以前没有深入了解过图像生成领域,时间仓促内容可能也有所纰漏。
DALLE2
如上图所示,Dalle2 的训练被分为两个阶段。虚线上半部分使用CLIP进行对比学习,以获得一个text encoder 和一个image encoder, 他们能够分别将文字和图片编码到向量中并使得图片embedding 和文字embedding尽可能相似。而下半部分则用于图像生成,由prior和Decoder组成。Decoder的作用是将由image encoder所产生的编码反向生成原图片,Prior则将标题文本或text embedding映射到image embedding的空间中。Decoder是一个扩散模型, 和GLIDE相似,但同时将clip image embedding映射添加到原来的输入中。文章给出了两种Prior的结构,自回归和扩散模型。人工评判下,文章使用两种prior分别和GLIDE对比发现扩散模型的在真实性,标题符合度和多样性上效果要略微好于自回归模型
量化的FID指标也显示了扩散模型的优势
Parti基于Google新提出的Pathway架构实现高效的网络训练,最大的版本拥有200亿参数
如上图所示,该模型的文本由Transformer Encoder编码,中间的Transformer Decoder将Text-to-Image生成作为一个Seq2Seq任务。而图片由ViT (Vision Transformer)编码(如下图)
GAN和Diffusion比较
GAN由于需要同时训练生成器和判别器,比较难平衡,这使得训练不稳定。相比之下,Diffusion只需要训练一个模型,优化更加容易一些。但是Diffusion的p过程需要分步完成也影响了其推理的效率。在Parti使用了VQGAN并取得了比Diffusion更好的效果,但也要注意Parti拥有比以往模型多得多的参数,预训练的文本识别模型也会对最终结果有显著的影响,难以说明模型整体性能的提升是否来自于GAN,在Parti文章的末尾作者也说可以进一步考虑使用Diffusion和autoregression的结合。在图像生成领域,个人感觉diffusion仍然处于主导地位,但是GAN的应用领域更加灵活广泛,这些是Diffusion无法替代的。
- 点赞
- 收藏
- 关注作者
评论(0)