- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

多模态原理--扩散模型的反向扩散过程

举报

剑指南天发表于 2026/06/02 20:12:13 2026/06/02

【摘要】反向扩散算法是基于正向扩散算法的。直观上讲，这是合理的，因为对于给定的噪声图像，很难猜测是哪个更低噪声的图像产生了它，但是如果已经有起始图像，这样就比较容易解决。

1.概述

给定一张正常照片，通过逐渐添加随机噪声，图像会变得无法辨认，这个过程称为正向扩散。给定一张噪声图像，通过不断的去噪，目标是重建原始图像，这个过程称为反向扩散。

2. 反向扩散过程

反向扩散过程是从一张完全的高斯噪声图片中，逐步去除噪声，来生成一张图片。但是噪声的数据是很难直接获得的，所以噪声使用神经网络来模拟。

3. 神经网络模型

最常见的是，U-Net 架构被用作扩散模型的主干。以下是一些原因：① U-Net 保留了输入和输出图像的尺寸，确保在整个逆扩散过程中图像大小保持一致。② 其瓶颈架构能够在将整幅图像压缩到潜在空间后将其重建。同时，通过残差连接保留关键图像特征。③ U-Net 最初设计用于生物医学图像分割，其中像素级精度至关重要，它的优势可以很好地转化为需要精确预测单个像素值的扩散任务。

所以神经网络的训练流程如下：

训练神经网络的损失函数如下：

4. 反向扩散的算法

基于正向扩散产生的纯噪声图片 X_T，按照正向扩散的时间步反向逐渐去噪，过程如下：

核心去噪公式：

5. 核心去噪公式的数学证明

5.1 定理：如果前向过程的马尔可夫链的转移概率分布 𝑞(𝑥_𝑡|𝑥_𝑡−1) 是高斯分布，且 𝛽_𝑡充分小，那么反向过程的马尔可夫链的转移概率分布 𝑞(𝑥_𝑡−1|𝑥_𝑡) 也是高斯分布。

贝叶斯公式:

在固定 𝑥_𝑡 的情况下，求 𝑥_𝑡−1的概率，所以 𝑞(𝑥_𝑡) 是个常数。

^{已知 𝑞(𝑥𝑡|𝑥𝑡−1) 是高斯分布，且 𝛽𝑡 充分小。根据拉普拉斯近似}^{逼近的原理，}^{逼近于高斯分布。}

5.2 首先条件是 𝐱₀基于正向扩散产生的纯噪声图片 X_T_。定义为 𝑞(𝑥_𝑡−1|𝑥_𝑡, 𝐱₀)，是一个简单的高斯分布。

已知高斯分布公式：

将高斯公式的指数项展开：

_{所以高斯分布的方差是：}

_均值是：

_{根据前向扩散的闭式公式：}

_所以：

_{6. 总结}

_{①反向扩散算法是基于正向扩散算法的。直观上讲，这是合理的，因为对于给定的噪声图像，很难猜测是哪个更低噪声的图像产生了它，但是如果已经有起始图像，这样就比较容易解决。}

_{② 扩散模型解决了图像怎么生成的问题，这是多模态的重要基础。}

【版权声明】本文为华为云社区用户原创内容，未经允许不得转载，如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

评论（0）

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长