从Sora看AIGC发展

举报
雨落无痕 发表于 2024/03/27 10:56:18 2024/03/27
【摘要】 2024年2月,OpenAI发布“文字生成视频”大模型Sora,其视频生成能力远超当前现有模型。霎时间,国内外各大模型团队,火力全开,研究Sora的实现方式,并准备推出自己的视频生成大模型。那么本文,将带你了解Sora模型的原理,引导你进行视频生成模型的开发。Sora 是一个 AI 模型,可以从文本指令中创建逼真和富有想象力的场景。通过Sora可以轻松实现以下几项任务:1 基于文字生成视频,...

2024年2月,OpenAI发布“文字生成视频”大模型Sora,其视频生成能力远超当前现有模型。霎时间,国内外各大模型团队,火力全开,研究Sora的实现方式,并准备推出自己的视频生成大模型。

那么本文,将带你了解Sora模型的原理,引导你进行视频生成模型的开发。

Sora 是一个 AI 模型,可以从文本指令中创建逼真和富有想象力的场景。通过Sora可以轻松实现以下几项任务:

1 基于文字生成视频,生成的视频长度高达60s,而业界其他模型基本只有3~10s

2 基于静态图片,可以向前和向后生成视频

3 能够实现视频到视频的过渡,这个过渡和转场效果非常丝滑

4 可以基于文字实现视频风格转换

Sora生成视频示例

相比较其他业界主流视频生成模型,Sora生成的视频质量更高,甚至可以实现一个视频内多镜头的组合而不让人出戏。

Sora功能如此强大,笔者也迫不及待想要使用。很可惜,截止发文前夕,Sora模型仍未向大众开放。OpenAI表示,Sora将首先给一些网络安全教授和视觉艺术家进行体验赏鉴。

好消息是,在OpenAI发布的研究论文《Video generation models as world simulators 》,提到了Sora模型生成视频的一些关键点,那么我们现在来仔细看看:

Sora是一种基于transformer的扩散模型,整体Sora的训练过程如下:

1 将可视化的视频/图片数据转换为一个个的区块

大语言模型(LLM能够成功,其中有很大部分是将多样性的文本(如代码、数学和各种自然语言)统一成token进行使用

Sora模型中,与LLM使用文本token类似,它用区块表示可视化数据。

在实现上,它可视化数据压缩到一个低维潜在空间中,然后进一步分解成时空区块,从而将可视化数据区块的转换

2 视频压缩网络

Sora训练了一个可以降低可视化数据维度的网络,在训练过程中显著的降低的计算量。这个网络以原始视觉数据为输入,转换为在时间和空间上都被压缩的潜在区块,并基于特定的解码器模型,将生成的潜在区块映射回到像素空间。Sora在这个压缩的潜在空间上进行训练,并在此空间中实现视频生成。

3 生成时空潜在区块

针对压缩好的时空潜在区块,Sora使用了一种高效提取的方法,在训练时可以支持多种分辨率、持续时间和宽高比的视频和图像。通过将提取的区块转换为一系列区块,作为token传入transformer网络,实现了对视频内容的高效编码。此外在推理阶段,Sora能通过调整区块在网格中的排列来控制生成视频的尺寸。

4 扩散变换

Sora模型采用了扩散变换器(Scaling transformer)实现对视频时空潜在区块的稳定扩散,即可以将原始的视频区块,往内逐步扩散增加噪声得到新的噪声区块。在模型接收到扩散的噪声区块和条件信息(如文本提示)后,能够预测出新的视频区块。

5 可变的视频宽高比和强大的语言理解能力

在训练Sora时,没有对训练数据进行裁剪修改,使得Sora能够直接生成多种宽高比的视频文件。同时使用原始宽高比的视频进行训练,还可以提高最终生成视频的画面质量。

Sora对于输入文本提示具备强大的语言理解能力。在训练阶段,Sora使用了在DALL·E 3中引入的重新字幕技术,即针对训练视频数据生成高度描述的标题,实现文本与视频的匹配。在推理阶段,针对用户的文字输入,可以基于GPT模型,转换为更加详细的提示,然后发送给视频模型,便于模型进一步理解。

综上所述,Sora模型的实现流程如上图所示。熟悉AIGC相关模型的读者可以看出,其实Sora模型的基本架构和其他AIGC模型十分相似。我们也给出Stable Diffusion 系列的模型实现流程图:

Sora与Stable Diffusion模型相比,其关键区别在于,将输入的视频/图片进行特殊的编码得到Patch序列,并将原有扩散模型UNet替换为Scaling transformer模型进行扩散生成。

随着科学技术的不断进步,AIGC领域也在蓬勃的发展。现阶段,我们已经可以通过AIGC生成小说、生成代码、生成图片、生成音乐、生成视频……而各行各业也将愈发加大对AIGC技术的使用,甚至有一天,AIGC可以实现人类思考的能力,生成各种各样的思想。

面对目前AIGC的迅猛发展,我们可以开始了解、学习AIGC的技术,掌握AIGC的相关工具,并能创造属于自己的AIGC应用。

为了更加方便大家学习AIGC技术知识,当前华为云倾力打造AI Gallery 百模千态开发社区 。在AI Gallery中,我们有很多AIGC的案例供大家进行体验。例如Stable Diffusion 文生图 ChatGLM 3-6B大语言模型体验 MusicGen文生音乐 zeroscope文生视频 等等。

ChatGLM3-6B体验效果

结合华为云一站式AI应用开发平台ModelArts,为AIGC案例提供海量算力支撑,实现案例即开即用,秒级运行。

同时,我们将不定时的进行AIGC案例讲解,欢迎大家学习参加,早一步掌握AIGC技术,做AIGC技术的主人!

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。