- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

从Sora看AIGC发展

雨落无痕发表于 2024/03/27 10:56:18 2024/03/27

【摘要】 2024年2月，OpenAI发布“文字生成视频”大模型Sora，其视频生成能力远超当前现有模型。霎时间，国内外各大模型团队，火力全开，研究Sora的实现方式，并准备推出自己的视频生成大模型。那么本文，将带你了解Sora模型的原理，引导你进行视频生成模型的开发。Sora 是一个 AI 模型，可以从文本指令中创建逼真和富有想象力的场景。通过Sora可以轻松实现以下几项任务：1 基于文字生成视频，...

2024年2月，OpenAI发布“文字生成视频”大模型Sora，其视频生成能力远超当前现有模型。霎时间，国内外各大模型团队，火力全开，研究Sora的实现方式，并准备推出自己的视频生成大模型。

那么本文，将带你了解Sora模型的原理，引导你进行视频生成模型的开发。

Sora 是一个 AI 模型，可以从文本指令中创建逼真和富有想象力的场景。通过Sora可以轻松实现以下几项任务：

1 基于文字生成视频，生成的视频长度高达60s，而业界其他模型基本只有3~10s

2 基于静态图片，可以向前和向后生成视频

3 能够实现视频到视频的过渡，这个过渡和转场效果非常丝滑

4 可以基于文字实现视频风格转换

Sora生成视频示例

相比较其他业界主流视频生成模型，Sora生成的视频质量更高，甚至可以实现一个视频内多镜头的组合而不让人出戏。

Sora功能如此强大，笔者也迫不及待想要使用。很可惜，截止发文前夕，Sora模型仍未向大众开放。OpenAI表示，Sora将首先给一些网络安全教授和视觉艺术家进行体验赏鉴。

好消息是，在OpenAI发布的研究论文《Video generation models as world simulators 》，提到了Sora模型生成视频的一些关键点，那么我们现在来仔细看看：

Sora是一种基于transformer的扩散模型，整体Sora的训练过程如下：

1 将可视化的视频/图片数据转换为一个个的区块

大语言模型（LLM）能够成功，其中有很大部分是将多样性的文本（如代码、数学和各种自然语言）统一成token进行使用。

在Sora模型中，与LLM使用文本token类似，它用区块表示可视化数据。

在实现上，它将可视化数据压缩到一个低维潜在空间中，然后进一步分解成时空区块，从而将可视化数据到区块的转换。

2 视频压缩网络

Sora训练了一个可以降低可视化数据维度的网络，在训练过程中显著的降低的计算量。这个网络以原始视觉数据为输入，转换为在时间和空间上都被压缩的潜在区块，并基于特定的解码器模型，将生成的潜在区块映射回到像素空间。Sora在这个压缩的潜在空间上进行训练，并在此空间中实现视频生成。

3 生成时空潜在区块

针对压缩好的时空潜在区块，Sora使用了一种高效提取的方法，在训练时可以支持多种分辨率、持续时间和宽高比的视频和图像。通过将提取的区块转换为一系列区块，作为token传入transformer网络，实现了对视频内容的高效编码。此外在推理阶段，Sora能通过调整区块在网格中的排列来控制生成视频的尺寸。

4 扩散变换器

Sora模型采用了扩散变换器（Scaling transformer）实现对视频时空潜在区块的稳定扩散，即可以将原始的视频区块，往内逐步扩散增加噪声得到新的噪声区块。在模型接收到扩散的噪声区块和条件信息（如文本提示）后，能够预测出新的视频区块。

5 可变的视频宽高比和强大的语言理解能力

在训练Sora时，没有对训练数据进行裁剪修改，使得Sora能够直接生成多种宽高比的视频文件。同时使用原始宽高比的视频进行训练，还可以提高最终生成视频的画面质量。

Sora对于输入文本提示具备强大的语言理解能力。在训练阶段，Sora使用了在DALL·E 3中引入的重新字幕技术，即针对训练视频数据生成高度描述的标题，实现文本与视频的匹配。在推理阶段，针对用户的文字输入，可以基于GPT模型，转换为更加详细的提示，然后发送给视频模型，便于模型进一步理解。

综上所述，Sora模型的实现流程如上图所示。熟悉AIGC相关模型的读者可以看出，其实Sora模型的基本架构和其他AIGC模型十分相似。我们也给出Stable Diffusion 系列的模型实现流程图：

Sora与Stable Diffusion模型相比，其关键区别在于，将输入的视频/图片进行特殊的编码得到Patch序列，并将原有扩散模型UNet替换为Scaling transformer模型进行扩散生成。

随着科学技术的不断进步，AIGC领域也在蓬勃的发展。现阶段，我们已经可以通过AIGC生成小说、生成代码、生成图片、生成音乐、生成视频……而各行各业也将愈发加大对AIGC技术的使用，甚至有一天，AIGC可以实现人类思考的能力，生成各种各样的思想。

面对目前AIGC的迅猛发展，我们可以开始了解、学习AIGC的技术，掌握AIGC的相关工具，并能创造属于自己的AIGC应用。

为了更加方便大家学习AIGC技术知识，当前华为云倾力打造AI Gallery 百模千态开发社区。在AI Gallery中，我们有很多AIGC的案例供大家进行体验。例如Stable Diffusion 以文生图、ChatGLM 3-6B大语言模型体验、MusicGen文生音乐、zeroscope文生视频等等。

ChatGLM3-6B体验效果

结合华为云一站式AI应用开发平台ModelArts，为AIGC案例提供海量算力支撑，实现案例即开即用，秒级运行。

同时，我们将不定时的进行AIGC案例讲解，欢迎大家学习参加，早一步掌握AIGC技术，做AIGC技术的主人！

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

从Sora看AIGC发展

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

从Sora看AIGC发展

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品