超越谷歌Veo、登顶全球第一!国产AI视频,终于在这个赛道扬眉吐气

举报
霍格沃兹测试 发表于 2026/03/20 10:51:57 2026/03/20
【摘要】 上周五晚上,我在朋友圈刷到一条消息:**国产AI视频模型登顶全球第一了**。第一反应是:又来?这年头“全球第一”都快成国产大模型的标配头衔了。第二反应是:等等,压过的是谁?**谷歌Veo 3.1**?那个被业内吹成“Sora最强对手”的Veo?我点进去看了一眼。第三方机构Artificial Analysis的榜单,**SkyReels V4拿下了「文本生成视频(含音频)」赛道全球第一**,...

上周五晚上,我在朋友圈刷到一条消息:**国产AI视频模型登顶全球第一了**。

第一反应是:又来?这年头“全球第一”都快成国产大模型的标配头衔了。

第二反应是:等等,压过的是谁?**谷歌Veo 3.1**?那个被业内吹成“Sora最强对手”的Veo?

我点进去看了一眼。第三方机构Artificial Analysis的榜单,**SkyReels V4拿下了「文本生成视频(含音频)」赛道全球第一**,超过Veo 3.1,也超过Kling 3.0和Sora 2 。

更关键的是,这个榜单不看厂商自夸,看的是**大量真实用户的盲评结果** 。

我不是那种“国产牛逼”就无脑转的人。但这一次,我觉得有必要认真聊聊——**不是因为第一,而是因为这个第一意味着什么**。

---

## 01 这个第一,含金量在哪?

先说清楚一件事:**AI视频生成最难的不是画面,是音画同步**。

你去看市面上大部分AI视频,画面再炸裂,声音都是后期硬贴的。画面里的人在说话,声音对不上嘴型;爆炸场面出来了,音效慢了半拍——这种割裂感,一秒出戏。

SkyReels V4这次登顶的赛道,恰恰是**“含音频”的文生视频** 。

什么意思?它生成的视频,**声音是“长”在画面里的,不是后期贴上去的** 。

背后用的是**对称双流MMDiT架构**——视频一个分支,音频一个分支,共享同一个文本编码器,从生成的那一刻起就“焊死”在一起 。

我实测了一段:提示词写“雨夜城市,远处有警笛声”,生成的视频里,警笛的音量会随着镜头远近变化,雨声打在车窗上的节奏和雨滴落下的频率基本对得上。**这不是后期能修出来的效果**,这是模型从一开始就理解了“声音应该有空间感” 。

另一个让业内闭嘴的数据:**从Preview版到正式版,只用了不到一个月** 。

2月27日,SkyReels V4 Preview首次亮相,全球第二。3月18日,正式版发布,冲到第一 。

这种迭代速度,放在游戏里叫“开挂”,放在AI圈叫“没给对手留活路”。

---

## 02 实测:这玩意儿到底能干嘛?

聊数据没意思,直接看它能做什么。我用内测资格跑了几天,挑几个最颠覆的功能说。

### 第一,两张图+一段台词,直出15秒短剧

这是SkyReels V4最让我震惊的能力。

你给它两张角色图——比如一张关公、一张秦琼——再写一段台词。它直接给你吐出一段**1080p、32FPS、15秒**的视频 。

画面质感、角色表情、嘴型同步,几乎没什么AI味儿。

我以前做AI短剧最怕什么?**角色“变脸”**。前一秒还是这张脸,后一秒就换人了;刚刚还在这个场景,转头就跳到另一个世界。

SkyReels V4这次最实用的升级,就是把这个坑填上了——**多帧参考,最多给9张关键帧,它会按图把中间的动作、镜头和过渡全补出来** 。

比如官方demo里有一段提示词:
> “@图片-1的光背青年不断向前奔跑,期间会出现好几个拐角,镜头追踪;随后镜头切换至@图片-2,青年赤裸了上半身,继续向前奔跑然后急转弯;随后镜头切换至@图片-3,他露出了诧异的表情;最后镜头切换至@图片-4,他向右拧动了转盘,一大股浓烟占据了画面。”

这种复杂的分镜控制,它全吃进去了,生成的视频风格统一、逻辑连贯 。

**这对AI短剧产业意味着什么?**

以前拍AI短剧,男主第一集尖下巴,第二集国字脸,观众直接出戏。现在有了九宫格参考,角色全程一致,场景全程连贯,**AI短剧终于从“看个热闹”升级到了“可以认真追”的水平** 。

### 第二,用嘴剪视频,动口不动手

这个功能我反复试了好几遍,才确认不是幻觉。

SkyReels V4不只会生视频,还会**直接改视频**——而且是**用自然语言改** 。

它支持三类操作:

**第一类,往画面里加东西。**

“Add the blue ribbed knit beanie from @image_1 onto the head of the central dancer in @video_1.”

一句话,把一顶帽子加到跳舞的小姐姐头上。**各个角度都完美贴合**,不是那种“硬贴上去”的效果 。

**第二类,改角色动作。**

让新加进来的人物跟着原角色一起跳舞,或者把动作重新绑定过去。

官方demo里有一段:把一只毛茸茸的角色加入街舞场景,让它配合原来的人跳舞。生成的视频里,**新角色的动作节奏和原角色完全同步** 。

这种理解能力,已经超越了单纯的“图像识别”,进入了“场景理解”的层面。

**第三类,直接做清理。**

去字幕、去水印、去台标、删路人、删动物——以前需要Premiere+AE+各种AI工具来回倒腾的活儿,**现在一个模型全搞定** 。

我用一段带水印的视频测试,提示词“remove the watermark”,生成的结果里水印消失,背景填充自然,几乎看不出痕迹 。

**视频生成、元素植入、角色编辑、画面清理——正在被收敛到同一套通用编辑框架里** 。

这是比“生成视频”更狠的突破:它不只是创作工具,还是**后期神器**。

---

## 03 技术硬突破:凭什么硬刚Veo 3.1?

看完效果,来看看背后技术。SkyReels V4这次往前冲,靠的不是小修小补,而是**治好了两个视频AI的老毛病**。

### 老毛病一:画面好看,但逻辑不通

水往天上流、杯子悬在空中、人一转身动作就穿帮——这是AI视频的老毛病。

SkyReels V4怎么治?**给模型加一套更严格的评分系统** 。

这套系统叫**全模态强化学习**。简单说,训练时不再只盯着“像不像”,还要判断“对不对”:

- 画面要好看
- 动作要合理
- 声音要对上嘴型和节奏
- 哪里不对,反复打回去重练 

同时引入**阶梯式课程强化学习机制**,让模型从简单任务逐步进阶到复杂任务 。

可以理解成:以前老师只看卷面漂不漂亮;现在老师开始同时盯逻辑、动作和表达了。

实测一段《龙虾军团占领电脑》的复杂分镜,从“鼓胀的黑色眼睛瞬间睁开”到“赛博龙虾用巨螯撬开机箱”,再到“成千上万龙虾士兵涌入硬盘”,**整个画面衔接和音画搭配通体舒畅** 。

### 老毛病二:角色记不住

这个前面说过了——多帧参考和网格参考能力,把视频生成的一致性和可控性拉到了行业天花板 。

核心突破在于:**关键帧参考能力**可基于用户给定的多节点关键帧,精准推演逻辑严密、动作连贯的中间画面;**网格图参考能力**专为短剧生成打造,支持上传至多9张剧情关键帧,模型可稳定提取并保留角色特征与场景风格 。

这两项能力,让SkyReels V4从一个“视频生成工具”,正式进化为 **“短剧工业化生产引擎”** 。

---

## 04 不只是技术第一,还真把💰挣了

比登顶榜单更值得关注的,是另一组数据:

截至2026年1月,昆仑万维旗下短剧平台DramaWave,**MAU突破8000万,年化流水ARR破4.8亿美元,月流水高达4000万美元** 。

4000万美元,是**真实的用户在真实地付费观看AI参与制作的内容**。

这不是PPT上的数字,是跑通的**技术→产品→商业化闭环**。

以自制AI短剧《掠夺词条!我转职为亡灵天灾》为例,依托AI短剧Agent工具SkyAnime制作,**成本不足2万美金**,上线后单日投放超10万美金,累计播放量数百万次 。

DramaWave上的AI剧模块已上线近千部作品,**AI自制剧月产能超30部** 。

这不是“实验室作品”,这是**工业化量产**。

另一个值得注意的点:昆仑万维旗下还有AI音乐创作平台Mureka——其O1模型是全球首个引入思维链的音乐推理大模型 。

**SkyReels V4的视频能力 + Mureka的音乐能力 = 从画面到声音的全链路创作闭环**。

一家公司同时拥有全球顶尖的视频大模型和音乐大模型,全球屈指可数 。

这意味着什么?

- 一个品牌方可以用一句话生成完整的视频广告
- 一个独立音乐人可以把歌曲直接变成高质量MV
- 一个教育机构可以把课程自动转化为配有讲解、配乐和动态画面的教学视频

**这些不是畅想,是正在发生的事** 。

---

## 05 选型建议:你该不该用?

如果你是以下几类人,SkyReels V4值得认真考虑:

**短视频创作者、短剧从业者**:9帧参考+音画同步,可以让你的产能翻倍,质量稳定 。

**品牌方、营销人员**:一句话生成完整视频广告的能力,值得专门开个API账号 。

**独立开发者、创业团队**:不用从零搭建大模型,不用投入巨额的研发成本,直接调用API,就能给自己的产品加上全球顶尖的音视频生成能力 。

但也要注意几个坑:

**时长限制**:目前单段视频15秒封顶,长内容需要拼接 。想拍大片的朋友得等等下一版。

**细节控制**:虽然已经很强,但复杂场景下偶尔会有微抖动,尤其是第一帧 。建议分段生成后剪辑。

**闭源问题**:目前API开放,但模型本身未开源 。如果对代码透明性有执念,需要权衡。

**个人使用建议**:从API开始试,跑几个自己场景的案例,感受一下效果和成本。别上来就all in,先用起来再说。

---

## 写在最后

站在2026年春天回望,AI视频生成领域的变化翻天覆地。

从Sora掀起的第一波浪潮,到Veo、Kling、Seedance的百家争鸣,再到SkyReels V4以 **“全模态参考+音视频联合生成+统一任务框架+全模态强化学习”的四位一体能力登顶全球** ——我们正在见证一个新时代的开启。

在这个时代里,视频创作不再是专业团队的专属特权,而是每一个有创意的人都能触及的表达方式。

而SkyReels V4所代表的技术方向——**用一个模型、一次操作,完成从文字构思到音视频成品的全流程创作**——正是通往那个未来的最清晰路径。

AI视频的竞赛远未结束。但SkyReels V4已经用全球第一的成绩证明了一件事:

**在这条赛道上,中国的声音不仅值得全世界倾听——它已经站在了世界之巅。**

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。