直播带火实时音视频市场,这些技术趋势你需要了解

举报
音视频大管家 发表于 2021/01/24 16:47:34 2021/01/24
【摘要】 进入到2020 年,COVID-19 给全球带来了前所未有的冲击,全球化的背景下,从学习、工作到娱乐,都不得不搬到网上,这直接导致实时音视频(RTC)一下子成为了生活的必须品。

02-包研.jpg

LiveVideoStack联合创始人、主编 包研

三分天下 

2020 年的 COVID-19 给RTC 市场注入了前所未有的动力。从某 RTC PaaS 平台公布的数据看,从2013年成立到2019 年6 月累计客户为801 家,到2020 年6 月增长到1486 家,增长超过85%,不可否认疫情扮演了催化剂的作用。RTC PaaS 市场波澜不惊,但 COVID-19 成为左右市场的最大“X 因素”。和其他云服务类似,RTC PaaS 市场的马太效应正在显现,客户向头部企业集中。具体来说,未来市场中的主流 RTC PaaS 平台将三分天下: 

A. PaaS RTC 服务商。依靠先发优势带来的客户、技术、品牌、生态等全方位领先,为自己铸造了足够宽的护城河。但不可否认,依靠单一层次,单一场景的服务很难满足用户更复杂的业务需求,如果不横向扩展业务场景,纵向扩展业务服务层次,被公有云服务商巨头赶上只是时间问题。 

B. 公有云。所有的公有云巨头都把多媒体业务视为核心市场,RTC 又是其中的关键。Twitch 刚刚将自己的直播能力通过公有云对外服务,华为也在不断打磨 RTC 服务。另一方面,公有云拥有海量客户、资源与技术积淀,虽然在某些单点与 RTC PaaS 平台存在差距,但这可以通过人才引进、收购等方式快速补足。但更大的挑战是对用户业务场景的把握,这需要更多时间来试错。 

C. 创业团队,细分市场与自生态。一些拥有优秀技术和产品能力的创业团队可能搅动这个市场,在一些细分市场也存在行业壁垒,形成特定的小生态。最后,一些大型应用服务会通过自研来实现部分 RTC 能力,比如教育、电商、社交等场景。 

当然还有 X 因素会对 RTC 生态造成影响。这些 X 因素包括重大的技术变革、全球经济格局变化与政策法规调整等。 


融合技术 

所谓融合技术,就是用户只需要一个 SDK/API 实现各种通信能力的接入,包括华为在内的国内主流公有云服务商大多采用这一方式。最典型的场景是,用户通过 RTMP 接入观看市场,当需要和他人互动是,即可切换到 RTC 网络。这样的好处是,既保证的用户体验,又可以最大限度的使用成熟的 RTMP 服务,将成本降低。 不过,海外市场与国内大相径庭。海外更主流的是 DASH/HLS 及 CMAF/LHLS。

 

SaaS 与 PaaS 融合 

长远看,SaaS 与 PaaS 互相渗透将不可避免。最知名的例子就是 Zoom,通过 SDK 向合作伙伴提供 RTC 服务。字节跳动、Bigo、YY 都在摩拳擦掌提供 RTC 服务。同样的,PaaS 也会涉足 SaaS,比如华为不仅提供 RTC 服务,还提供了视频会议平台华为云会议及办公协作软件 WeLink。

 

AI 技术融合 

AI 技术不断成熟和发展,正在渗透到多媒体技术的方方面面,这一趋势不可抵挡。 

· 语音识别与语音合成:从 Siri 到小冰,从智能手机到智能音响,语音识别已经无处不在,无需赘述。而语音合成则是让电脑把文本变成语音,比如 Google 开源的 Tacotron 已经可以实现99% 的人声还原。你在喜马拉雅或各种影视剧中听到的明星声音将越来越多地通过 AI 生成。 

· 声纹-人声识别与音乐识别:声音是可以作为身份验证的,但是风险也同时存在,比如有人拿了你的录音去登录你的银行账号。而 DNN(深度神经网络)可以掌握更多的声音特征,从而降低风险。而在音乐识别方面则没有那么高风险,但也直接关系到用户的体验,各大音乐 App 都集成了相关的功能。 

· 回声消除:这是一个所有音频设备必须解决的问题,在多麦克风设备上消除回声相对容易。但在一些低端的 Android 设备上,如果只有一个麦克风就需要利用 AI 来帮助消除回声,效果非常不错。 

· ABR:ABR 即动态码率,其目的是为了解决客户端在不稳定网络下仍能流畅地观看视频,并且最大化的保证画质。ABR 算法需要关注客户端的视频缓存,以及当下的最大带宽,从而去预测未来一段时间提供给该客户端的码率。AI 的出现可以进一步提升 ABR 的效果,最著名的要数 MIT 提出的 Pensieve。 

· 图像增强:关于图像增强大家谈的很多,也许你在看一些热门影片的时候已经用到了 AI 加持的图像增强技术。比如,将 SDR 转换为 HDR 视频,视频超分(将720p 变成1080p),每秒30 帧视频变换为每秒60 帧等等。 

· 内容理解:AI 内容理解并不限于生成封面图,精彩剪辑,或者只看某个角色的镜头,这在内容推荐、广告平台有帮助。此外,内容理解还能帮助更好地处理视频,比如可以针对不同的视频内容选择不同的 Codec,以及相关的编码工具;也可以找到视频中人眼最关注的部分,分配更多的码率,降低不易察觉的画面的码率,在保证用户体验的前提下降低码率。同时,AI 可以把竖版的短视频裁剪成适合横屏播放的内容。 

· 画质评估:AI 还能帮助检测视频源片中的瑕疵,比如黑屏,异物遮挡,这可以在后期制作中修剪。同理,AI 也可以帮助发现字幕遮挡关键画面信息的情况,从而调整字幕出现的时间或位置。关于内容理解的应用,Netflix 走在业界前沿,可以多关注。 

而且 AI 的学习曲线是比较友好的,对于多媒体技术工程师不会构成太大的挑战。将给行业带来巨大的改变。

 

技术人才分层与人才供给

音视频技术人才大概可分为三大层,五小层: 

· 第一大层是制定标准、协议、算法,以及设计架构与优化系统性能的高级人才。这部分人才在市场上供不应求; 

· 第二大层为工程实现和能力接入与维护工程师,他们是支撑多媒体应用的主力军,总量将达到百万级。由于需求量巨大,总体上属于供不应求; 

· 第三大层为内容生产者,他们是普通的用户,但是可以快速掌握简单的多媒体接入能力; 

因此,可以看到在 RTC 市场,技术融合是大趋势,云服务巨头将拥有更多资源优势,实时音视频行业的发展,需要加大人才培养的力度。 

最后,COVID-19 实现了对用户在多媒体技术能力方面的认知教育。这将在全社会种下技术改变生活的种子,会有更多的创新、创业玩家涌现,也让技术更容易渗透到行业。

 
【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。