从Sora看AIGC发展
2024年2月,OpenAI发布“文字生成视频”大模型Sora,其视频生成能力远超当前现有模型。霎时间,国内外各大模型团队,火力全开,研究Sora的实现方式,并准备推出自己的视频生成大模型。
那么本文,将带你了解Sora模型的原理,引导你进行视频生成模型的开发。
Sora 是一个 AI 模型,可以从文本指令中创建逼真和富有想象力的场景。通过Sora可以轻松实现以下几项任务:
1 基于文字生成视频,生成的视频长度高达60s,而业界其他模型基本只有3~10s
2 基于静态图片,可以向前和向后生成视频
3 能够实现视频到视频的过渡,这个过渡和转场效果非常丝滑
4 可以基于文字实现视频风格转换
Sora生成视频示例
相比较其他业界主流视频生成模型,Sora生成的视频质量更高,甚至可以实现一个视频内多镜头的组合而不让人出戏。
Sora功能如此强大,笔者也迫不及待想要使用。很可惜,截止发文前夕,Sora模型仍未向大众开放。OpenAI表示,Sora将首先给一些网络安全教授和视觉艺术家进行体验赏鉴。
好消息是,在OpenAI发布的研究论文《Video generation models as world simulators 》,提到了Sora模型生成视频的一些关键点,那么我们现在来仔细看看:
Sora是一种基于transformer的扩散模型,整体Sora的训练过程如下:
1 将可视化的视频/图片数据转换为一个个的区块
大语言模型(LLM)能够成功,其中有很大部分是将多样性的文本(如代码、数学和各种自然语言)统一成token进行使用。
在Sora模型中,与LLM使用文本token类似,它用区块表示可视化数据。
在实现上,它将可视化数据压缩到一个低维潜在空间中,然后进一步分解成时空区块,从而将可视化数据到区块的转换。
2 视频压缩网络
Sora训练了一个可以降低可视化数据维度的网络,在训练过程中显著的降低的计算量。这个网络以原始视觉数据为输入,转换为在时间和空间上都被压缩的潜在区块,并基于特定的解码器模型,将生成的潜在区块映射回到像素空间。Sora在这个压缩的潜在空间上进行训练,并在此空间中实现视频生成。
3 生成时空潜在区块
针对压缩好的时空潜在区块,Sora使用了一种高效提取的方法,在训练时可以支持多种分辨率、持续时间和宽高比的视频和图像。通过将提取的区块转换为一系列区块,作为token传入transformer网络,实现了对视频内容的高效编码。此外在推理阶段,Sora能通过调整区块在网格中的排列来控制生成视频的尺寸。
4 扩散变换器
Sora模型采用了扩散变换器(Scaling transformer)实现对视频时空潜在区块的稳定扩散,即可以将原始的视频区块,往内逐步扩散增加噪声得到新的噪声区块。在模型接收到扩散的噪声区块和条件信息(如文本提示)后,能够预测出新的视频区块。
5 可变的视频宽高比和强大的语言理解能力
在训练Sora时,没有对训练数据进行裁剪修改,使得Sora能够直接生成多种宽高比的视频文件。同时使用原始宽高比的视频进行训练,还可以提高最终生成视频的画面质量。
Sora对于输入文本提示具备强大的语言理解能力。在训练阶段,Sora使用了在DALL·E 3中引入的重新字幕技术,即针对训练视频数据生成高度描述的标题,实现文本与视频的匹配。在推理阶段,针对用户的文字输入,可以基于GPT模型,转换为更加详细的提示,然后发送给视频模型,便于模型进一步理解。
综上所述,Sora模型的实现流程如上图所示。熟悉AIGC相关模型的读者可以看出,其实Sora模型的基本架构和其他AIGC模型十分相似。我们也给出Stable Diffusion 系列的模型实现流程图:
Sora与Stable Diffusion模型相比,其关键区别在于,将输入的视频/图片进行特殊的编码得到Patch序列,并将原有扩散模型UNet替换为Scaling transformer模型进行扩散生成。
随着科学技术的不断进步,AIGC领域也在蓬勃的发展。现阶段,我们已经可以通过AIGC生成小说、生成代码、生成图片、生成音乐、生成视频……而各行各业也将愈发加大对AIGC技术的使用,甚至有一天,AIGC可以实现人类思考的能力,生成各种各样的思想。
面对目前AIGC的迅猛发展,我们可以开始了解、学习AIGC的技术,掌握AIGC的相关工具,并能创造属于自己的AIGC应用。
为了更加方便大家学习AIGC技术知识,当前华为云倾力打造AI Gallery 百模千态开发社区 。在AI Gallery中,我们有很多AIGC的案例供大家进行体验。例如Stable Diffusion 以 文生图 、ChatGLM 3-6B大语言模型体验 、MusicGen文生音乐 、zeroscope文生视频 等等。
ChatGLM3-6B体验效果
结合华为云一站式AI应用开发平台ModelArts,为AIGC案例提供海量算力支撑,实现案例即开即用,秒级运行。
同时,我们将不定时的进行AIGC案例讲解,欢迎大家学习参加,早一步掌握AIGC技术,做AIGC技术的主人!
- 点赞
- 收藏
- 关注作者
评论(0)