[洞察] Sora到底效果有多好?为什么说Sora是AGI的重要里程碑?又意味着什么?

举报
郑岩 - 我是郑大师~ 发表于 2024/05/08 15:38:47 2024/05/08
【摘要】 题记欢迎来到路边社瞎洞察栏目~~首先还是感谢OpenAI,在春节临近开班才发了新模型Sora,又又一次降维打击了整个AIGC行业,不然可能整个春节大家都不能消停了。TLDR,如果这篇帖子只留一句话,我想说:Sora意味着,AGI真的要来了…PS:无意贩卖焦虑,莫慌。不过,在大趋势面前,每个人都值得理解它、思考自己的选择。 目录 题记 目录 1. Sora vs. Runway Gen2:没...

题记

欢迎来到路边社瞎洞察栏目~~

首先还是感谢OpenAI,在春节临近开班才发了新模型Sora,又又一次降维打击了整个AIGC行业,不然可能整个春节大家都不能消停了。

TLDR,如果这篇帖子只留一句话,我想说:Sora意味着,AGI真的要来了…

PS:无意贩卖焦虑,莫慌。不过,在大趋势面前,每个人都值得理解它、思考自己的选择。

目录

1. Sora vs. Runway Gen2:没有对比就没有伤害

Sora实在是太炸了,可能没追这场AI大戏的同学没感觉,来个对比就知道了:如下是sora vs. runway gen2的对比

ps:runway是当前相当出色的文生视频、图生视频的产品(收费的,差不多15美金能做2分钟视频)

6cf320a408e5678e2ac31ebeb8df35f9_500x503.gif@900-0-90-f.gif

再来一个:
05a3cc362f8083d4bdfd02a2404470c0_500x503.gif@900-0-90-f.gif

看了Sora,我才理解,之前对于“视频”这两个字有误解,原来生成的可能不太配叫视频。

这里有几个事儿基本上是颠覆性的:
1、之前都是几秒钟,现在可以搞1分钟
2、之前基本是定格动画,现在很丝滑
3、之前基本没有物理交互,现在似乎开窍了,相当有逻辑

所以,基本上整个视频生成行业都没得玩儿了,都等着Sora开放了吧。(ps 现在是非常受限的red team测试阶段)

目前Sora的所有输入都来自OpenAI的文章,如果想知道具体的信息,看啥都不如直接去看原文,那里讲解和DEMO更详细:SoraVideo generation models as world simulators

2. Sora出现比GPT4更重要:AGI真的要来了

ChatGPT让人觉得AI能像人一样聊天,Sora让人觉得AI能像人一样理解世界。

虽然Sora的技术报告信息不多,但核心内容基本都在摘要里了:
image.png

这背后还是有几个潜在的趋势在:

  1. 大力依然能出奇迹(large scale是关键词)
  2. transformer依然是大腿(transformer + diffusion model)
  3. 大模型真的能理解世界运行的规律 – 世界模拟器(world simulators)
  4. 涌现依然存在(3D一致性、物体保持、与世界互动、虚拟世界模拟

其实是这四条单独看还行,加在一起就有了一句潜台词,才是这里最让人细思极恐的:再接着干,真能干出AGI来。

我记得去年这会儿,Yann LeCun不断dis GPT,说GPT不懂世界,只能基于world model来做,要有环境反馈和cost机制。

需要充分的理解世界,是AGI不能绕过去的坎,而Sora将这种能力具象化呈现了。

我不知道Sora背后的world simulator具体包含了哪些,但是这里看到的效果是,一部分世界运行机制,确实通过学习大量的视频patchs悟到了,当然,Sora的报告里也提到了一些还不太行的地方,但是我认为是可以不断补齐的,至少说明路是顺的。

3. Sora的核心意义:不仅仅是文生视频,而是“世界模型”,是“认知”

浅层看,Sora之后,我们得到一个非常优秀的视频生成器,可以用来辅助自媒体、短视频的制作,可以让每个人都可以成为导演,叠加创意(周红衣称之为科技平权)。

但深层次看,就像OpenAI文章里写的,这是对“世界模拟器”的一次成功验证

之前Ilya Sutskever有提到,GPT某种程度上呈现世界模型的能力,但是之前的体会都是比较浅,需要视频来补充(文不如图,图不如视频)。举个例子,GPT可以做40位的加减法,说明GPT某种意义上实现了一个大数计算器。但是GPT不清楚红色和蓝色哪个颜色离紫色最近,有点像“盲人”。

目前看,Sora验证了视频里确实可以提取更完整的“世界模型”,比汉堡被咬了一口会留下一个嘴巴形状的豁口。这个事儿就有意思了,有了“世界模型”,意味着在“认知”层面,有非常大的提升,可以做很多很多。
(从AI应用的角度看,主要是包含感知、认知、决策,三个环节。感知是目前最成熟的,认知目测有非常大的进展,剩下的决策就顺理成章了。)

随便设想一下:

  • 机器人(具身智能),可以更理解物理世界的反馈机制
  • 强大的社会劳动生产工具,完全超出ChatGPT小助手的范畴,更理解因果

当然,如果有人想干坏事儿,那也更容易了,就单是“杀猪盘”就更容易了(春节前还看到HK有公司被数字人骗了两千多万美金)

4. Sora背后的瞎想:脑子已经不够用了

PS:如下是我的个人理解,或者说,是顺着OpenAI的文章向前理解。但是今天还看到一些AI大佬们的点评,说啥的都有,Yann LeCun一如既往的dis。这块还没最终答案,仅供参考。

前面写涌现的时候,我特别加粗了“虚拟世界模拟”,这个事儿非常值得深究。

故事是这样的,Sora可以通过Minecraft提示词来生成“我的世界”游戏视频。这意味着,Sora已经通过预训练的视频,学到了“我的世界”的世界逻辑。我认为这是一个佐证,证明这套方法可以理解世界运行机制

image.png

反过来想,大模型到底学到了什么?之前我的理解停留在大模型是压缩器的认知上。从Sora来看,不仅压缩了信息,还对世界进行了建模

那么我就特别好奇了,开始无限联想:

  • 之前我们在游戏里建模,靠的是游戏引擎,里面有物理公式来驱动,但是实际上,这一切规律本来就在这里,客观存在着,AI大模型get了世界规律,就能反过来驱动世界(现实版的“格物致知”)
  • 如果Sora能对世界建模,那提炼的到底是啥?
  • 如果宏观世界可以建模,微观世界如何?宏大叙事可以,个体如何?
  • 如果只是看的足够多,就能建模,那真正的个人助手、员工助手,应该是时刻盯着你、看你怎么生活、工作就够了(这让我又想起前阵子看的 rewind.ai
  • 如果能建模、能生成,如果给充分的输入,岂不是可以各种模拟,模拟城市、模拟人生、模拟XX?

不管咋的,这波OpenAI又秀到了,而且极大的推进了AGI的进程。

春节回老家,大部分人对于AI还是完全不理解的状态。时代滚滚向前,无人能挡。可能后续除了科技上的发展,哲学上的发展也要跟进了。


image.png

那么,AGI不是梦,降临派、拯救派、幸存派,你站哪个?

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。