【技术分享】文生视频模型Sora是否会成为开启数字孪生世界的那把钥匙?

举报
开天aPaaS小助手Tracy 发表于 2024/03/08 15:34:25 2024/03/08
【摘要】 导读就在大家沉浸在春节假期中,OPEN AI发布文生视频模型Sora,它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且生成长达1分钟的超长视频,还是一镜到底那种。

导读

就在大家沉浸在春节假期中,OPEN AI发布文生视频模型Sora,它不仅能够根据文字指令创造出既逼真又充满想象力的场景,而且生成长达1分钟的超长视频,还是一镜到底那种。

原文如下
https://openai.com/research/video-generation-models-as-world-simulators

文生视频模型Sora的技术原理

受到了大语言模型(Large Language Model)的启发。Sora模型直接通过在互联网规模的数据上进行训练,从而获得了广泛的能力。当训练量足够大的时候,也产生了类似“涌现”的能力。不同的是LLM把文本转换为Tokens,而Sora把视频内容转换为Patches。

简单而言,Sora实际上是一种扩散型变换器模型(diffusion transformer)。
首先将视频压缩到一个具有关键特征信息"latent space",接着再分解成具有成小的、可管理的块时空特征的Patches。这些Patches可以用于大模型训练,因为它们保留了原始视频中的基本信息。
image.png
然后通过Sora扩散模型;给定输入的噪声补丁(和条件信息,如文本提示),它被训练来预测原始的“干净”Patches。需要关注的是,Sora是一个扩散Transformer模型,它在多个领域都表现出了显著的可扩展特性,包括语言建模、计算机视觉和图像生成。

在提示的文字理解方面,Sora与 DALL·E 3类似,也利用 GPT 将用户的简短提示转化为更详细的字幕,然后发送给视频模型。这使得 SORA 能够生成高质量的视频,这些视频能够准确地跟随用户的提示。

更多的细节可以参考原文链接。

Sora带来的模拟功能

视频模型在大规模训练时表现出许多有趣的新兴功能。这些功能使 Sora 能够模拟现实世界中人、动物和环境的某些方面。这些属性的出现对 3D、物体等没有任何明确的归纳偏差。

3D 一致性:Sora 可以生成带有动态摄像机运动的视频。随着摄像机的移动和旋转,人和场景元素在三维空间中一致移动。

远程相干性和物体持久性:视频生成系统面临的一个重大挑战是在采样长视频时保持时间一致性。Sora 通常(尽管并非总是)能够有效地对短期和长期依赖关系进行建模。例如,模型可以保留人、动物和物体,即使它们被遮挡或离开框架。同样,它可以在单个样本中生成同一角色的多个镜头,并在整个视频中保持其外观。

与世界互动:Sora有时可以用简单的方式模拟影响世界状况的动作。例如,画家可以在画布上留下新的笔触,并随着时间的推移而持续存在,或者一个人可以吃汉堡并留下咬痕。

模拟数字世界:Sora 还能够模拟人工过程,一个例子是视频游戏。Sora 可以同时通过基本策略控制《我的世界》中的玩家,同时以高保真度渲染世界及其动态。这些能力可以通过Prompt“我的世界”相关提示词便可实现。

Sora带来的思考和讨论

文章认为Sora作为一款创新的视频生成模型,不仅展示了人工智能在视觉艺术创作方面的强大能力,也为未来构建更加逼真的虚拟世界提供了新的视角和方法。

视频模型的持续扩展是开发物理和数字世界以及生活在其中的物体、动物和人的高性能模拟器的一条有前途的道路。

特别是Sora通过观察大量视频数据(时空数据),它竟然学会了许多关于世界的物理规律。下面这个片段太令人印象深刻了:

prompt中描绘了「一个短毛绒怪物,跪在一支红蜡烛旁的动画场景」,同时描述了怪物的动作和视频的氛围。随后,Sora就创造了一个类似皮克斯作品的生物,它似乎融合了Furby、Gremlin和《怪兽公司Q》中Sully的DNA。让人震惊的是,Sora对于毛发纹理物理特性的理解,准确得令人惊掉下巴!

想当初,在《怪兽公司》上映时,皮克斯为了创造出怪物在移动时超级复杂的毛发纹理,可是费了好大一番功夫,技术团队直接连肝几个月。而这一点,Sora轻而易举地就实现了,而且从没有人教过它!

项目的研究科学家Tim Brooks表示:「它学会了关于 3D 几何形状和一致性的知识,」「这并非我们预先设定的——它完全是通过观察大量数据自然而然地学会的。」

参考文档

https://openai.com/research/video-generation-models-as-world-simulators
https://mp.weixin.qq.com/s/MyWPPY19wwsJv8zdBMxdFg
https://www.zhihu.com/question/644478200/answer/3397682473
https://www.zhihu.com/question/644478200

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。