- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

直播带火实时音视频市场，这些技术趋势你需要了解

音视频大管家发表于 2021/01/24 16:47:34 2021/01/24

9.3k+ 0 0

【摘要】进入到2020 年，COVID-19 给全球带来了前所未有的冲击，全球化的背景下，从学习、工作到娱乐，都不得不搬到网上，这直接导致实时音视频(RTC)一下子成为了生活的必须品。

LiveVideoStack联合创始人、主编包研

三分天下

2020 年的 COVID-19 给RTC 市场注入了前所未有的动力。从某 RTC PaaS 平台公布的数据看，从2013年成立到2019 年6 月累计客户为801 家，到2020 年6 月增长到1486 家，增长超过85%，不可否认疫情扮演了催化剂的作用。RTC PaaS 市场波澜不惊，但 COVID-19 成为左右市场的最大“X 因素”。和其他云服务类似，RTC PaaS 市场的马太效应正在显现，客户向头部企业集中。具体来说，未来市场中的主流 RTC PaaS 平台将三分天下：

A. PaaS RTC 服务商。依靠先发优势带来的客户、技术、品牌、生态等全方位领先，为自己铸造了足够宽的护城河。但不可否认，依靠单一层次，单一场景的服务很难满足用户更复杂的业务需求，如果不横向扩展业务场景，纵向扩展业务服务层次，被公有云服务商巨头赶上只是时间问题。

B. 公有云。所有的公有云巨头都把多媒体业务视为核心市场，RTC 又是其中的关键。Twitch 刚刚将自己的直播能力通过公有云对外服务，华为也在不断打磨 RTC 服务。另一方面，公有云拥有海量客户、资源与技术积淀，虽然在某些单点与 RTC PaaS 平台存在差距，但这可以通过人才引进、收购等方式快速补足。但更大的挑战是对用户业务场景的把握，这需要更多时间来试错。

C. 创业团队，细分市场与自生态。一些拥有优秀技术和产品能力的创业团队可能搅动这个市场，在一些细分市场也存在行业壁垒，形成特定的小生态。最后，一些大型应用服务会通过自研来实现部分 RTC 能力，比如教育、电商、社交等场景。

当然还有 X 因素会对 RTC 生态造成影响。这些 X 因素包括重大的技术变革、全球经济格局变化与政策法规调整等。

融合技术

所谓融合技术，就是用户只需要一个 SDK/API 实现各种通信能力的接入，包括华为在内的国内主流公有云服务商大多采用这一方式。最典型的场景是，用户通过 RTMP 接入观看市场，当需要和他人互动是，即可切换到 RTC 网络。这样的好处是，既保证的用户体验，又可以最大限度的使用成熟的 RTMP 服务，将成本降低。不过，海外市场与国内大相径庭。海外更主流的是 DASH/HLS 及 CMAF/LHLS。

SaaS 与 PaaS 融合

长远看，SaaS 与 PaaS 互相渗透将不可避免。最知名的例子就是 Zoom，通过 SDK 向合作伙伴提供 RTC 服务。字节跳动、Bigo、YY 都在摩拳擦掌提供 RTC 服务。同样的，PaaS 也会涉足 SaaS，比如华为不仅提供 RTC 服务，还提供了视频会议平台华为云会议及办公协作软件 WeLink。

AI 技术融合

AI 技术不断成熟和发展，正在渗透到多媒体技术的方方面面，这一趋势不可抵挡。

· 语音识别与语音合成：从 Siri 到小冰，从智能手机到智能音响，语音识别已经无处不在，无需赘述。而语音合成则是让电脑把文本变成语音，比如 Google 开源的 Tacotron 已经可以实现99% 的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多地通过 AI 生成。

· 声纹-人声识别与音乐识别：声音是可以作为身份验证的，但是风险也同时存在，比如有人拿了你的录音去登录你的银行账号。而 DNN（深度神经网络）可以掌握更多的声音特征，从而降低风险。而在音乐识别方面则没有那么高风险，但也直接关系到用户的体验，各大音乐 App 都集成了相关的功能。

· 回声消除：这是一个所有音频设备必须解决的问题，在多麦克风设备上消除回声相对容易。但在一些低端的 Android 设备上，如果只有一个麦克风就需要利用 AI 来帮助消除回声，效果非常不错。

· ABR：ABR 即动态码率，其目的是为了解决客户端在不稳定网络下仍能流畅地观看视频，并且最大化的保证画质。ABR 算法需要关注客户端的视频缓存，以及当下的最大带宽，从而去预测未来一段时间提供给该客户端的码率。AI 的出现可以进一步提升 ABR 的效果，最著名的要数 MIT 提出的 Pensieve。

· 图像增强：关于图像增强大家谈的很多，也许你在看一些热门影片的时候已经用到了 AI 加持的图像增强技术。比如，将 SDR 转换为 HDR 视频，视频超分（将720p 变成1080p），每秒30 帧视频变换为每秒60 帧等等。

· 内容理解：AI 内容理解并不限于生成封面图，精彩剪辑，或者只看某个角色的镜头，这在内容推荐、广告平台有帮助。此外，内容理解还能帮助更好地处理视频，比如可以针对不同的视频内容选择不同的 Codec，以及相关的编码工具；也可以找到视频中人眼最关注的部分，分配更多的码率，降低不易察觉的画面的码率，在保证用户体验的前提下降低码率。同时，AI 可以把竖版的短视频裁剪成适合横屏播放的内容。

· 画质评估：AI 还能帮助检测视频源片中的瑕疵，比如黑屏，异物遮挡，这可以在后期制作中修剪。同理，AI 也可以帮助发现字幕遮挡关键画面信息的情况，从而调整字幕出现的时间或位置。关于内容理解的应用，Netflix 走在业界前沿，可以多关注。

而且 AI 的学习曲线是比较友好的，对于多媒体技术工程师不会构成太大的挑战。将给行业带来巨大的改变。

技术人才分层与人才供给

音视频技术人才大概可分为三大层，五小层：

· 第一大层是制定标准、协议、算法，以及设计架构与优化系统性能的高级人才。这部分人才在市场上供不应求；

· 第二大层为工程实现和能力接入与维护工程师，他们是支撑多媒体应用的主力军，总量将达到百万级。由于需求量巨大，总体上属于供不应求；

· 第三大层为内容生产者，他们是普通的用户，但是可以快速掌握简单的多媒体接入能力；

因此，可以看到在 RTC 市场，技术融合是大趋势，云服务巨头将拥有更多资源优势，实时音视频行业的发展，需要加大人才培养的力度。

最后，COVID-19 实现了对用户在多媒体技术能力方面的认知教育。这将在全社会种下技术改变生活的种子，会有更多的创新、创业玩家涌现，也让技术更容易渗透到行业。

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

作者其他文章

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

开发者空间

了解空间

工作台

开发工具

实战案例

空间活动

空间论坛

开发平台

软件开发生产线 CodeArts

AI平台ModelArts

数据治理中心 DataArts Studio

数字内容生产线 MetaStudio

精选服务

云数据库 GaussDB

云数据库 RDS for MySQL

MapReduce服务 MRS

数据仓库服务 DWS

分布式缓存服务Redis版

分布式消息服务 DMS

华为云实时音视频 SparkRTC

媒体处理 MPC

主机迁移服务 SMS

对象存储迁移服务 OMS

云消息服务 KooMessage

云手机服务 KooPhone

企业搜索服务 KooSearch

云地图服务 KooMap

更多开放能力

开发工具

API生态

CodeArts API

API Explorer

Terraform Explorer

KooCLI

API 中心

SDK 中心

开发服务

Codelabs

DevStar

低代码平台Astro

CodeArts IDE

Huawei Cloud Toolkit

Classroom

开发资源

开源镜像站

开源资源

开发语言

开发实践

入门精选

分发资源

企业应用中心

企业通用专区

教育专区

华为应用专区

政务云专区

硬件云服务商城

医疗健康专区

跳蚤市场

华为云开发者日

直播专区

开发者精品活动

DTSE Tech Talk

加入HCDE

加入HCDG

加入HCSD

加入HCWD

鲁班会

沃土云创计划·企业

沃土云创计划·高校

沃土云创计划·个人

沃土云创计划·开源共创

博客

论坛

专题

开发者榜单

学习路径

在线课程

动手实验

考试认证

培训服务