- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

超越谷歌Veo、登顶全球第一！国产AI视频，终于在这个赛道扬眉吐气

霍格沃兹测试发表于 2026/03/20 10:51:57 2026/03/20

【摘要】上周五晚上，我在朋友圈刷到一条消息：**国产AI视频模型登顶全球第一了**。第一反应是：又来？这年头“全球第一”都快成国产大模型的标配头衔了。第二反应是：等等，压过的是谁？**谷歌Veo 3.1**？那个被业内吹成“Sora最强对手”的Veo？我点进去看了一眼。第三方机构Artificial Analysis的榜单，**SkyReels V4拿下了「文本生成视频（含音频）」赛道全球第一**，...

上周五晚上，我在朋友圈刷到一条消息：**国产AI视频模型登顶全球第一了**。

第一反应是：又来？这年头“全球第一”都快成国产大模型的标配头衔了。

第二反应是：等等，压过的是谁？**谷歌Veo 3.1**？那个被业内吹成“Sora最强对手”的Veo？

我点进去看了一眼。第三方机构Artificial Analysis的榜单，**SkyReels V4拿下了「文本生成视频（含音频）」赛道全球第一**，超过Veo 3.1，也超过Kling 3.0和Sora 2 。

更关键的是，这个榜单不看厂商自夸，看的是**大量真实用户的盲评结果** 。

我不是那种“国产牛逼”就无脑转的人。但这一次，我觉得有必要认真聊聊——**不是因为第一，而是因为这个第一意味着什么**。

---

## 01 这个第一，含金量在哪？

先说清楚一件事：**AI视频生成最难的不是画面，是音画同步**。

你去看市面上大部分AI视频，画面再炸裂，声音都是后期硬贴的。画面里的人在说话，声音对不上嘴型；爆炸场面出来了，音效慢了半拍——这种割裂感，一秒出戏。

SkyReels V4这次登顶的赛道，恰恰是**“含音频”的文生视频** 。

什么意思？它生成的视频，**声音是“长”在画面里的，不是后期贴上去的** 。

背后用的是**对称双流MMDiT架构**——视频一个分支，音频一个分支，共享同一个文本编码器，从生成的那一刻起就“焊死”在一起。

我实测了一段：提示词写“雨夜城市，远处有警笛声”，生成的视频里，警笛的音量会随着镜头远近变化，雨声打在车窗上的节奏和雨滴落下的频率基本对得上。**这不是后期能修出来的效果**，这是模型从一开始就理解了“声音应该有空间感” 。

另一个让业内闭嘴的数据：**从Preview版到正式版，只用了不到一个月** 。

2月27日，SkyReels V4 Preview首次亮相，全球第二。3月18日，正式版发布，冲到第一。

这种迭代速度，放在游戏里叫“开挂”，放在AI圈叫“没给对手留活路”。

---

## 02 实测：这玩意儿到底能干嘛？

聊数据没意思，直接看它能做什么。我用内测资格跑了几天，挑几个最颠覆的功能说。

### 第一，两张图+一段台词，直出15秒短剧

这是SkyReels V4最让我震惊的能力。

你给它两张角色图——比如一张关公、一张秦琼——再写一段台词。它直接给你吐出一段**1080p、32FPS、15秒**的视频。

画面质感、角色表情、嘴型同步，几乎没什么AI味儿。

我以前做AI短剧最怕什么？**角色“变脸”**。前一秒还是这张脸，后一秒就换人了；刚刚还在这个场景，转头就跳到另一个世界。

SkyReels V4这次最实用的升级，就是把这个坑填上了——**多帧参考，最多给9张关键帧，它会按图把中间的动作、镜头和过渡全补出来** 。

比如官方demo里有一段提示词：
> “@图片-1的光背青年不断向前奔跑，期间会出现好几个拐角，镜头追踪；随后镜头切换至@图片-2，青年赤裸了上半身，继续向前奔跑然后急转弯；随后镜头切换至@图片-3，他露出了诧异的表情；最后镜头切换至@图片-4，他向右拧动了转盘，一大股浓烟占据了画面。”

这种复杂的分镜控制，它全吃进去了，生成的视频风格统一、逻辑连贯。

**这对AI短剧产业意味着什么？**

以前拍AI短剧，男主第一集尖下巴，第二集国字脸，观众直接出戏。现在有了九宫格参考，角色全程一致，场景全程连贯，**AI短剧终于从“看个热闹”升级到了“可以认真追”的水平** 。

### 第二，用嘴剪视频，动口不动手

这个功能我反复试了好几遍，才确认不是幻觉。

SkyReels V4不只会生视频，还会**直接改视频**——而且是**用自然语言改** 。

它支持三类操作：

**第一类，往画面里加东西。**

“Add the blue ribbed knit beanie from @image_1 onto the head of the central dancer in @video_1.”

一句话，把一顶帽子加到跳舞的小姐姐头上。**各个角度都完美贴合**，不是那种“硬贴上去”的效果。

**第二类，改角色动作。**

让新加进来的人物跟着原角色一起跳舞，或者把动作重新绑定过去。

官方demo里有一段：把一只毛茸茸的角色加入街舞场景，让它配合原来的人跳舞。生成的视频里，**新角色的动作节奏和原角色完全同步** 。

这种理解能力，已经超越了单纯的“图像识别”，进入了“场景理解”的层面。

**第三类，直接做清理。**

去字幕、去水印、去台标、删路人、删动物——以前需要Premiere+AE+各种AI工具来回倒腾的活儿，**现在一个模型全搞定** 。

我用一段带水印的视频测试，提示词“remove the watermark”，生成的结果里水印消失，背景填充自然，几乎看不出痕迹。

**视频生成、元素植入、角色编辑、画面清理——正在被收敛到同一套通用编辑框架里** 。

这是比“生成视频”更狠的突破：它不只是创作工具，还是**后期神器**。

---

## 03 技术硬突破：凭什么硬刚Veo 3.1？

看完效果，来看看背后技术。SkyReels V4这次往前冲，靠的不是小修小补，而是**治好了两个视频AI的老毛病**。

### 老毛病一：画面好看，但逻辑不通

水往天上流、杯子悬在空中、人一转身动作就穿帮——这是AI视频的老毛病。

SkyReels V4怎么治？**给模型加一套更严格的评分系统** 。

这套系统叫**全模态强化学习**。简单说，训练时不再只盯着“像不像”，还要判断“对不对”：

- 画面要好看
- 动作要合理
- 声音要对上嘴型和节奏
- 哪里不对，反复打回去重练

同时引入**阶梯式课程强化学习机制**，让模型从简单任务逐步进阶到复杂任务。

可以理解成：以前老师只看卷面漂不漂亮；现在老师开始同时盯逻辑、动作和表达了。

实测一段《龙虾军团占领电脑》的复杂分镜，从“鼓胀的黑色眼睛瞬间睁开”到“赛博龙虾用巨螯撬开机箱”，再到“成千上万龙虾士兵涌入硬盘”，**整个画面衔接和音画搭配通体舒畅** 。

### 老毛病二：角色记不住

这个前面说过了——多帧参考和网格参考能力，把视频生成的一致性和可控性拉到了行业天花板。

核心突破在于：**关键帧参考能力**可基于用户给定的多节点关键帧，精准推演逻辑严密、动作连贯的中间画面；**网格图参考能力**专为短剧生成打造，支持上传至多9张剧情关键帧，模型可稳定提取并保留角色特征与场景风格。

这两项能力，让SkyReels V4从一个“视频生成工具”，正式进化为 **“短剧工业化生产引擎”** 。

---

## 04 不只是技术第一，还真把💰挣了

比登顶榜单更值得关注的，是另一组数据：

截至2026年1月，昆仑万维旗下短剧平台DramaWave，**MAU突破8000万，年化流水ARR破4.8亿美元，月流水高达4000万美元** 。

4000万美元，是**真实的用户在真实地付费观看AI参与制作的内容**。

这不是PPT上的数字，是跑通的**技术→产品→商业化闭环**。

以自制AI短剧《掠夺词条！我转职为亡灵天灾》为例，依托AI短剧Agent工具SkyAnime制作，**成本不足2万美金**，上线后单日投放超10万美金，累计播放量数百万次。

DramaWave上的AI剧模块已上线近千部作品，**AI自制剧月产能超30部** 。

这不是“实验室作品”，这是**工业化量产**。

另一个值得注意的点：昆仑万维旗下还有AI音乐创作平台Mureka——其O1模型是全球首个引入思维链的音乐推理大模型。

**SkyReels V4的视频能力 + Mureka的音乐能力 = 从画面到声音的全链路创作闭环**。

一家公司同时拥有全球顶尖的视频大模型和音乐大模型，全球屈指可数。

这意味着什么？

- 一个品牌方可以用一句话生成完整的视频广告
- 一个独立音乐人可以把歌曲直接变成高质量MV
- 一个教育机构可以把课程自动转化为配有讲解、配乐和动态画面的教学视频

**这些不是畅想，是正在发生的事** 。

---

## 05 选型建议：你该不该用？

如果你是以下几类人，SkyReels V4值得认真考虑：

**短视频创作者、短剧从业者**：9帧参考+音画同步，可以让你的产能翻倍，质量稳定。

**品牌方、营销人员**：一句话生成完整视频广告的能力，值得专门开个API账号。

**独立开发者、创业团队**：不用从零搭建大模型，不用投入巨额的研发成本，直接调用API，就能给自己的产品加上全球顶尖的音视频生成能力。

但也要注意几个坑：

**时长限制**：目前单段视频15秒封顶，长内容需要拼接。想拍大片的朋友得等等下一版。

**细节控制**：虽然已经很强，但复杂场景下偶尔会有微抖动，尤其是第一帧。建议分段生成后剪辑。

**闭源问题**：目前API开放，但模型本身未开源。如果对代码透明性有执念，需要权衡。

**个人使用建议**：从API开始试，跑几个自己场景的案例，感受一下效果和成本。别上来就all in，先用起来再说。

---

## 写在最后

站在2026年春天回望，AI视频生成领域的变化翻天覆地。

从Sora掀起的第一波浪潮，到Veo、Kling、Seedance的百家争鸣，再到SkyReels V4以 **“全模态参考+音视频联合生成+统一任务框架+全模态强化学习”的四位一体能力登顶全球** ——我们正在见证一个新时代的开启。

在这个时代里，视频创作不再是专业团队的专属特权，而是每一个有创意的人都能触及的表达方式。

而SkyReels V4所代表的技术方向——**用一个模型、一次操作，完成从文字构思到音视频成品的全流程创作**——正是通往那个未来的最清晰路径。

AI视频的竞赛远未结束。但SkyReels V4已经用全球第一的成绩证明了一件事：

**在这条赛道上，中国的声音不仅值得全世界倾听——它已经站在了世界之巅。**

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

超越谷歌Veo、登顶全球第一！国产AI视频，终于在这个赛道扬眉吐气

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

超越谷歌Veo、登顶全球第一！国产AI视频，终于在这个赛道扬眉吐气

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品