多模态原理--扩散模型的正向扩散过程
1.概述
给定一张正常照片,通过逐渐添加随机噪声,图像会变得无法辨认,这个过程称为正向扩散。给定一张噪声图像,通过不断的去噪,目标是重建原始图像,这个过程称为反向扩散。

2.正向扩散过程
正向扩散是逐步向图像添加噪声。在实践中,最常见的方法是从均值为 0、方差较小的高斯分布中为图片中的每个像素采样一个随机值。然后将这个采样值(可以是正值也可以是负值)添加到像素的原始值中。对所有像素重复此操作会得到原始图像的噪声版本。正向扩散是一个迭代过程,噪声需要不断地应用于图像。随着每次迭代,生成的图像与原始图像的差异越来越大。经过数百次迭代后,图像最终变成一张噪声图片。更多迭代次数意味着相邻步骤中的图像对差异会更小,模型的学习任务更容易。但是更高的迭代次数会增加计算成本。通常,迭代次数选择在 50 到 1000 之间。
3. 正向扩散过程的数学定义


4. 正向扩散过程的相关数学推论
4.1 前向扩散图像分布的迭代公式
如果 𝑧 ∼ 𝒩︀(𝜇, 𝜎2) 的话,那么 𝑧 = 𝜇 + 𝜎𝜀 其中𝜀 ∼ 𝒩︀(0, 1) 。结合正向扩散的数学定义可以得出重参数化表示:
其中𝜀t-1 ∼ 𝒩︀(0, 1)
4.2 两个正态分布(独立)随机变量的和也是正态分布
如果 𝑋∼𝒩︀(𝜇𝑋,𝜎2𝑋) 和 𝑌∼𝒩︀(𝜇𝑌,𝜎2𝑌) ,那么对于 𝑍=𝑋+𝑌 有 𝑍∼𝒩︀(𝜇𝑋+𝜇𝑌,𝜎2𝑋+𝜎2𝑌),也就是 :

4.3 前向扩散的闭合公式的数学推导
已知:

所以:

4.4 给定原始图片 𝑥0 和时间步 𝑡 直接采样出 𝑥𝑡 的公式

5. 总结:扩散模型的正向扩散过程中,相比迭代地向图像中添加噪声,闭合公式在给定原始图片 𝑥0 和时间步 𝑡 可以直接得到添加了 𝑡 步噪声的图像 𝑥𝑡 ,十分方便。噪声图片在训练 U-Net 神经网络是十分关键的.
- 点赞
- 收藏
- 关注作者
评论(0)