- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

文生视频大模型

霍格沃兹测试开发发表于 2024/11/11 15:05:25 2024/11/11

【摘要】简介Sora 官网地址：https://openai.com/sora文生视频指的是将文本描述转化为视频内容的技术，2024年2月15日 OpenAI 正式对外发布 Sora 人工智能模型，在人工智能领域掀起了一场风波，这是计算机视觉领域的一个突破。Sora 这一名称起源于日文中“空”的含义，暗示了其具备的无限潜力。OpenAI 也在报告中将 Sora 定义为 “word simulato...

简介

Sora 官网地址：https://openai.com/sora

文生视频指的是将文本描述转化为视频内容的技术，2024年2月15日 OpenAI 正式对外发布 Sora 人工智能模型，在人工智能领域掀起了一场风波，这是计算机视觉领域的一个突破。

Sora 这一名称起源于日文中“空”的含义，暗示了其具备的无限潜力。OpenAI 也在报告中将 Sora 定义为 “word simulators” 即世界模型或者世界模拟器，可见 OpenAI 对于 sora 的能力具备足够的信心。

注意：个人暂时无法体验。

Sora 的能力

Sora 是一种扩散模型，旨在对语言更深入的理解，使得模型能够准确的识别出文本的含义，OpenAI 官方表明 Sora 能够生成1分钟的高清视频，并且给出了一个视频生成的示例，该示例展示出了 Sora 根据文本内容所生成的一段视频信息：

提示文本：一个时髦的女人走在东京的街道上，街道上充满了温暖发光的霓虹灯和生动的城市标志。她穿着黑色的皮夹克，红色的长裙和黑色的靴子。
视频地址

可以看出，Sora根据文本所产生的视频完美地展示了文本所表达的含义，并且视频的质量非常出色。除了描述的主体内容外，视频还展示了与天气和时间相关的光影效果，增添了画面的层次和真实感。

Sora 除了根据文本生成视频，还可有以下几种生成视频的方式：

图像生成视频：
- 图像
- 视频
扩展生成的视频：
- 视频1
- 视频2
改变视频风格：
- 改变前
- 改变后
连接视频：
- 视频1
- 视频2
- 连接后

扩展能力

3D 一致性

Sora 还可以在单个生成的视频中创建多个镜头，准确地保留视频主体和视频的风格，使得视频主体可以跟随环境的变化而一同变化。

如下这个视频所示，视频从头到尾都围绕着两个人物，当周围场景变换时，两个主体人物也随之自然地调整位置和距离。在切换回大远景时，视频的主题也会自然地从人物转换为城市景观，完美地保持了连贯性和流畅度。

视频地址

远程相干性和物体持久性

Sora 也有处理空间物体依赖性的能力，保持物体在短视频或长视频中的空间关系，如下图所示，虽然场景在不断的进行，但是窗边的斑点狗并不会因为人物的穿行而消失或者覆盖人物。

视频地址

与世界交互性

Sora 还可呈现出视频中物体的变化状态，如下图所示，在被咬过的汉堡上能够成功的出现咬掉的痕迹：

视频地址

Sora 的局限性

不能准确模拟许多基本相互作用的物理过程。
与物体的交互并不总是产生对象状态的正确变化。
混淆提示空间细节，例如混淆左右。

现状

文生视频还处在开发并且测试的阶段，基于安全考虑，目前 Sora 还是仅仅是邀请 “red teamers” 也就是对抗性角色领域的专家来对 Sora 进行安全测试。

并且还会和各个领域的政策制定者，避免 Sora 技术的滥用和可能带来的不良影响。

总结

了解 Sora 的能力。
了解 Sora 的局限性。
了解 Sora 的安全问题。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

文生视频大模型