[洞察] Sora到底效果有多好?为什么说Sora是AGI的重要里程碑?又意味着什么?
题记
欢迎来到路边社瞎洞察栏目~~
首先还是感谢OpenAI,在春节临近开班才发了新模型Sora,又又一次降维打击了整个AIGC行业,不然可能整个春节大家都不能消停了。
TLDR,如果这篇帖子只留一句话,我想说:Sora意味着,AGI真的要来了…
PS:无意贩卖焦虑,莫慌。不过,在大趋势面前,每个人都值得理解它、思考自己的选择。
目录
1. Sora vs. Runway Gen2:没有对比就没有伤害
Sora实在是太炸了,可能没追这场AI大戏的同学没感觉,来个对比就知道了:如下是sora vs. runway gen2的对比
ps:runway是当前相当出色的文生视频、图生视频的产品(收费的,差不多15美金能做2分钟视频)
再来一个:
看了Sora,我才理解,之前对于“视频”这两个字有误解,原来生成的可能不太配叫视频。
这里有几个事儿基本上是颠覆性的:
1、之前都是几秒钟,现在可以搞1分钟
2、之前基本是定格动画,现在很丝滑
3、之前基本没有物理交互,现在似乎开窍了,相当有逻辑
所以,基本上整个视频生成行业都没得玩儿了,都等着Sora开放了吧。(ps 现在是非常受限的red team测试阶段)
目前Sora的所有输入都来自OpenAI的文章,如果想知道具体的信息,看啥都不如直接去看原文,那里讲解和DEMO更详细:Sora和Video generation models as world simulators
2. Sora出现比GPT4更重要:AGI真的要来了
ChatGPT让人觉得AI能像人一样聊天,Sora让人觉得AI能像人一样理解世界。
虽然Sora的技术报告信息不多,但核心内容基本都在摘要里了:
这背后还是有几个潜在的趋势在:
- 大力依然能出奇迹(large scale是关键词)
- transformer依然是大腿(transformer + diffusion model)
- 大模型真的能理解世界运行的规律 – 世界模拟器(world simulators)
- 涌现依然存在(3D一致性、物体保持、与世界互动、虚拟世界模拟)
其实是这四条单独看还行,加在一起就有了一句潜台词,才是这里最让人细思极恐的:再接着干,真能干出AGI来。
我记得去年这会儿,Yann LeCun不断dis GPT,说GPT不懂世界,只能基于world model来做,要有环境反馈和cost机制。
需要充分的理解世界,是AGI不能绕过去的坎,而Sora将这种能力具象化呈现了。
我不知道Sora背后的world simulator具体包含了哪些,但是这里看到的效果是,一部分世界运行机制,确实通过学习大量的视频patchs悟到了,当然,Sora的报告里也提到了一些还不太行的地方,但是我认为是可以不断补齐的,至少说明路是顺的。
3. Sora的核心意义:不仅仅是文生视频,而是“世界模型”,是“认知”
浅层看,Sora之后,我们得到一个非常优秀的视频生成器,可以用来辅助自媒体、短视频的制作,可以让每个人都可以成为导演,叠加创意(周红衣称之为科技平权)。
但深层次看,就像OpenAI文章里写的,这是对“世界模拟器”的一次成功验证。
之前Ilya Sutskever有提到,GPT某种程度上呈现世界模型的能力,但是之前的体会都是比较浅,需要视频来补充(文不如图,图不如视频)。举个例子,GPT可以做40位的加减法,说明GPT某种意义上实现了一个大数计算器。但是GPT不清楚红色和蓝色哪个颜色离紫色最近,有点像“盲人”。
目前看,Sora验证了视频里确实可以提取更完整的“世界模型”,比汉堡被咬了一口会留下一个嘴巴形状的豁口。这个事儿就有意思了,有了“世界模型”,意味着在“认知”层面,有非常大的提升,可以做很多很多。
(从AI应用的角度看,主要是包含感知、认知、决策,三个环节。感知是目前最成熟的,认知目测有非常大的进展,剩下的决策就顺理成章了。)
随便设想一下:
- 机器人(具身智能),可以更理解物理世界的反馈机制
- 强大的社会劳动生产工具,完全超出ChatGPT小助手的范畴,更理解因果
当然,如果有人想干坏事儿,那也更容易了,就单是“杀猪盘”就更容易了(春节前还看到HK有公司被数字人骗了两千多万美金)
4. Sora背后的瞎想:脑子已经不够用了
PS:如下是我的个人理解,或者说,是顺着OpenAI的文章向前理解。但是今天还看到一些AI大佬们的点评,说啥的都有,Yann LeCun一如既往的dis。这块还没最终答案,仅供参考。
前面写涌现的时候,我特别加粗了“虚拟世界模拟”,这个事儿非常值得深究。
故事是这样的,Sora可以通过Minecraft提示词来生成“我的世界”游戏视频。这意味着,Sora已经通过预训练的视频,学到了“我的世界”的世界逻辑。我认为这是一个佐证,证明这套方法可以理解世界运行机制。
反过来想,大模型到底学到了什么?之前我的理解停留在大模型是压缩器的认知上。从Sora来看,不仅压缩了信息,还对世界进行了建模。
那么我就特别好奇了,开始无限联想:
- 之前我们在游戏里建模,靠的是游戏引擎,里面有物理公式来驱动,但是实际上,这一切规律本来就在这里,客观存在着,AI大模型get了世界规律,就能反过来驱动世界(现实版的“格物致知”)
- 如果Sora能对世界建模,那提炼的到底是啥?
- 如果宏观世界可以建模,微观世界如何?宏大叙事可以,个体如何?
- 如果只是看的足够多,就能建模,那真正的个人助手、员工助手,应该是时刻盯着你、看你怎么生活、工作就够了(这让我又想起前阵子看的 rewind.ai )
- 如果能建模、能生成,如果给充分的输入,岂不是可以各种模拟,模拟城市、模拟人生、模拟XX?
- …
不管咋的,这波OpenAI又秀到了,而且极大的推进了AGI的进程。
春节回老家,大部分人对于AI还是完全不理解的状态。时代滚滚向前,无人能挡。可能后续除了科技上的发展,哲学上的发展也要跟进了。
那么,AGI不是梦,降临派、拯救派、幸存派,你站哪个?
- 点赞
- 收藏
- 关注作者
评论(0)