- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

[洞察] Sora到底效果有多好？为什么说Sora是AGI的重要里程碑？又意味着什么？

郑岩 - 我是郑大师~ 发表于 2024/05/08 15:38:47 2024/05/08

【摘要】题记欢迎来到路边社瞎洞察栏目~~首先还是感谢OpenAI，在春节临近开班才发了新模型Sora，又又一次降维打击了整个AIGC行业，不然可能整个春节大家都不能消停了。TLDR，如果这篇帖子只留一句话，我想说：Sora意味着，AGI真的要来了…PS：无意贩卖焦虑，莫慌。不过，在大趋势面前，每个人都值得理解它、思考自己的选择。目录题记目录 1. Sora vs. Runway Gen2：没...

题记

欢迎来到路边社瞎洞察栏目~~

首先还是感谢OpenAI，在春节临近开班才发了新模型Sora，又又一次降维打击了整个AIGC行业，不然可能整个春节大家都不能消停了。

TLDR，如果这篇帖子只留一句话，我想说：Sora意味着，AGI真的要来了…

PS：无意贩卖焦虑，莫慌。不过，在大趋势面前，每个人都值得理解它、思考自己的选择。

1. Sora vs. Runway Gen2：没有对比就没有伤害

Sora实在是太炸了，可能没追这场AI大戏的同学没感觉，来个对比就知道了：如下是sora vs. runway gen2的对比

ps：runway是当前相当出色的文生视频、图生视频的产品（收费的，差不多15美金能做2分钟视频）

再来一个：

看了Sora，我才理解，之前对于“视频”这两个字有误解，原来生成的可能不太配叫视频。

这里有几个事儿基本上是颠覆性的：
1、之前都是几秒钟，现在可以搞1分钟
2、之前基本是定格动画，现在很丝滑
3、之前基本没有物理交互，现在似乎开窍了，相当有逻辑

所以，基本上整个视频生成行业都没得玩儿了，都等着Sora开放了吧。（ps 现在是非常受限的red team测试阶段）

目前Sora的所有输入都来自OpenAI的文章，如果想知道具体的信息，看啥都不如直接去看原文，那里讲解和DEMO更详细：Sora和Video generation models as world simulators

2. Sora出现比GPT4更重要：AGI真的要来了

ChatGPT让人觉得AI能像人一样聊天，Sora让人觉得AI能像人一样理解世界。

虽然Sora的技术报告信息不多，但核心内容基本都在摘要里了：

这背后还是有几个潜在的趋势在：

大力依然能出奇迹（large scale是关键词）
transformer依然是大腿（transformer + diffusion model）
大模型真的能理解世界运行的规律 – 世界模拟器（world simulators）
涌现依然存在（3D一致性、物体保持、与世界互动、虚拟世界模拟）

其实是这四条单独看还行，加在一起就有了一句潜台词，才是这里最让人细思极恐的：再接着干，真能干出AGI来。

我记得去年这会儿，Yann LeCun不断dis GPT，说GPT不懂世界，只能基于world model来做，要有环境反馈和cost机制。

需要充分的理解世界，是AGI不能绕过去的坎，而Sora将这种能力具象化呈现了。

我不知道Sora背后的world simulator具体包含了哪些，但是这里看到的效果是，一部分世界运行机制，确实通过学习大量的视频patchs悟到了，当然，Sora的报告里也提到了一些还不太行的地方，但是我认为是可以不断补齐的，至少说明路是顺的。

3. Sora的核心意义：不仅仅是文生视频，而是“世界模型”，是“认知”

浅层看，Sora之后，我们得到一个非常优秀的视频生成器，可以用来辅助自媒体、短视频的制作，可以让每个人都可以成为导演，叠加创意（周红衣称之为科技平权）。

但深层次看，就像OpenAI文章里写的，这是对“世界模拟器”的一次成功验证。

之前Ilya Sutskever有提到，GPT某种程度上呈现世界模型的能力，但是之前的体会都是比较浅，需要视频来补充（文不如图，图不如视频）。举个例子，GPT可以做40位的加减法，说明GPT某种意义上实现了一个大数计算器。但是GPT不清楚红色和蓝色哪个颜色离紫色最近，有点像“盲人”。

目前看，Sora验证了视频里确实可以提取更完整的“世界模型”，比汉堡被咬了一口会留下一个嘴巴形状的豁口。这个事儿就有意思了，有了“世界模型”，意味着在“认知”层面，有非常大的提升，可以做很多很多。
（从AI应用的角度看，主要是包含感知、认知、决策，三个环节。感知是目前最成熟的，认知目测有非常大的进展，剩下的决策就顺理成章了。）

随便设想一下：

机器人（具身智能），可以更理解物理世界的反馈机制
强大的社会劳动生产工具，完全超出ChatGPT小助手的范畴，更理解因果

当然，如果有人想干坏事儿，那也更容易了，就单是“杀猪盘”就更容易了（春节前还看到HK有公司被数字人骗了两千多万美金）

4. Sora背后的瞎想：脑子已经不够用了

PS：如下是我的个人理解，或者说，是顺着OpenAI的文章向前理解。但是今天还看到一些AI大佬们的点评，说啥的都有，Yann LeCun一如既往的dis。这块还没最终答案，仅供参考。

前面写涌现的时候，我特别加粗了“虚拟世界模拟”，这个事儿非常值得深究。

故事是这样的，Sora可以通过Minecraft提示词来生成“我的世界”游戏视频。这意味着，Sora已经通过预训练的视频，学到了“我的世界”的世界逻辑。我认为这是一个佐证，证明这套方法可以理解世界运行机制。

反过来想，大模型到底学到了什么？之前我的理解停留在大模型是压缩器的认知上。从Sora来看，不仅压缩了信息，还对世界进行了建模。

那么我就特别好奇了，开始无限联想：

之前我们在游戏里建模，靠的是游戏引擎，里面有物理公式来驱动，但是实际上，这一切规律本来就在这里，客观存在着，AI大模型get了世界规律，就能反过来驱动世界（现实版的“格物致知”）
如果Sora能对世界建模，那提炼的到底是啥？
如果宏观世界可以建模，微观世界如何？宏大叙事可以，个体如何？
如果只是看的足够多，就能建模，那真正的个人助手、员工助手，应该是时刻盯着你、看你怎么生活、工作就够了（这让我又想起前阵子看的 rewind.ai ）
如果能建模、能生成，如果给充分的输入，岂不是可以各种模拟，模拟城市、模拟人生、模拟XX？
…

不管咋的，这波OpenAI又秀到了，而且极大的推进了AGI的进程。

春节回老家，大部分人对于AI还是完全不理解的状态。时代滚滚向前，无人能挡。可能后续除了科技上的发展，哲学上的发展也要跟进了。

那么，AGI不是梦，降临派、拯救派、幸存派，你站哪个？

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

[洞察] Sora到底效果有多好？为什么说Sora是AGI的重要里程碑？又意味着什么？

题记

目录

1. Sora vs. Runway Gen2：没有对比就没有伤害

2. Sora出现比GPT4更重要：AGI真的要来了

3. Sora的核心意义：不仅仅是文生视频，而是“世界模型”，是“认知”

4. Sora背后的瞎想：脑子已经不够用了

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品