【云驻共创】SparkRTC特性及应用变革
一、华为云音视频服务的发展历史
说到华为云音视频服务,很多人可能会感到陌生。其实,华为云音视频服务最早可以追溯到上世纪八十年代,1988年华为就已经向大众提供通话服务,当时华为具备国内一流的音频引擎和一流的音视频网络技术。到了2004年,华为开始对外提供视频业务,其中,包括先进的H.265编解码、最佳的VR/AR技术、一流的直播CDN能力以及对超高清分辨率的支持等。
2008年,华为推出了视频会议产品,同时申请了很多相关的技术专利,包括UDP协议、抗丢包算法,另外,还具备业内一流的3A算法保证视频会议的音频质量。2017年,华为云正式上线,搭建了海量的边缘节点和CDN节点。华为云音视频服务的目标是长期专注于音视频极致体验的持续提升,引领行业发展。
华为云视频基于一张专业的、强大的实时音视频网络,致力于为全球提供实时音视频服务,帮助客户快速获得音视频通话、互动直播等能力。同时,华为云视频团队聚集了音视频通讯领域的顶尖人才,在视频、音频领域拥有30年的技术积累,打造出最专业的实时音视频产品和服务,并多次应用在大型多国联合会议中。华为完全自主研发,在音视频处理、网络自适应、平台兼容性方面达到了业内领先水平。目前,华为云视频产品覆盖直播、会议、教育、社交、游戏等众多领域,赢得了字节、美图、爱学习、美术宝等众多企业的信赖,也说明了华为云实时音视频服务的超高质量和优越性能。
二、华为云RTC重新定义实时音视频
2.1 服务升级
华为云RTC团队重新定义了当下的实时音视频服务,涉及到三个方面,包括体验升级、业务升级、技术升级。其中,体验升级的具体表现有:观看0延时,音视频端到端延迟小于200毫秒;弱网流畅,视频丢包50%,音频丢包80%不卡顿;高清体验,1080P+H265+感知编码。业务升级的具体表现有:超大规模,助力业务扩大服务半径;随时随地、线上线下、无限互动;智能媒体处理,加速视频业务创新。技术升级的具体表现有:多套网络、多套系统、多套SDK,统一融合;基于边缘节点和分布式架构,流量高峰自动扩容;资源效率提升30%,开发和运维效率提升50%。
2.2 服务层级
华为云RTC服务大体分为三层结构,最底层是全球3000多个边缘节点和多元算力基础设施,提供了一切服务和功能的物理和网络基础。中间层是丰富的功能支持,智能视频处理服务,包括简单易用的SDK和API、云上的专业工具、安全的业务系统、音视频技术积累、网络自适应能力、智能编码技术、云原生架构、云边端协同、智能调度等。最上层是业务层,千行百业,包括互动文娱、企业会议、在线教育、电商直播、游戏等。
2.3 服务架构
华为云实时音视频服务的全功能视图如下图所示,其中包括了三大部分,第一部分是主播端,也就是SDK的发送端,需要处理音视频采集,音视频数据的预处理,比如回声消除、丢包对抗、智能降噪、啸叫控制等,还有音视频数据的编码,需要设置正确的编码参数(采样率、码率、帧率、分辨率等)和编码方式(硬编、软编)。最后,将编码好的音视频数据封包发送出去。
第二部分是实时音视频RTC的服务端,包括实时转码功能,就是按照需求实时转码输出标清、高清、超清等多种分辨率;直播功能,将房间内的音视频数据推送给直播服务;混流功能,就是将多路音视频混合成一路媒体流;录制功能,就是将音视频流实时录制下来,并把录制内容存储到OBS对象存储服务中;审核功能,就是支持对音频、视频内容进行审核,保证不出现违规内容;房间管理功能,支持单个主播加入多个房间进行互动PK。
第三部分是实时音视频RTC的播放端,也就是SDK的接收端,需要拉取服务端的音视频流,完成网络解包,音视频数据的解码,其中包括硬解码、软解码,以及音视频数据的后处理,包括音效美化、趣味变声、听声定位等,还有就是播放渲染时的自定义布局。
三、高效的网络部署
3.1 精品高速网络
华为云自建骨干网、网络协同提供精品高速网络,能够实现端管边云协同、无线加速:统一支持中国移动、联通、电信全国各省用户加速,统一支持5G切片、MEC下沉、4/5G QoS加速。另外,在手机端的APP上,按需调用无线网络加速能力,减少卡顿率22%。在公共互联网的基础上重构网络,自健骨干网100多专线、1000多运营商直连,节点全球覆盖、区域专线互通、运营商接入网络一跳接入。在控制面也采取了很多的措施,比如,基于全球网络质量状态提前预测和实时更新路由。在数据面,分段重传和冗余传输,多路径并行传输等。
3.2 跨域通讯路由
华为云利用AI预测和智能路由,突破了跨域通讯路由的挑战。支持全景测量,端管边云各分段各层级的网络质量探测、细粒度和低开销的测量技术。支持规律预测,利用全球网络在时间和地域上周期性、此起彼伏的变化规律,避开网络局部拥塞,提供优质链路,最大程度发挥网络性能。另外,支持跨域控制和调度,基于AI规律预测进行智能路由调度,解决运营商自治域间存在路径迂回、丢包率高等问题。相比传统公共互联网,全球链路时延降低20%。
3.3 抗弱网能力
华为云打造业界最佳的弱网抗丢包能力,自适应复杂网络,打造稳定流畅体验,能够实现在弱网环境下自适应地找到延时和流畅的最佳契合点。在忙时网络丢包时,能够保障50%视频抗丢包,80%音频抗丢包。
其中就有私有抗网损算法在发挥作用,包括向前纠错算法、RE-RS嵌套纠错算法、自适应冗余、自动重传HARQ、AJB自适应抗抖动Buffer。智能调速,包括智能网络探测,根据时延和丢包率的关系,判断网络模型及可用带宽,控制编码速率与纠错方案。视频自动升降速,传输带宽降低或者恢复时,主动降低或恢复视频帧率、视频分辨率以及实时匹配当前带宽下最优视频质量。
四、音视频编码
4.1 SCC编码
华为云的SCC编码,特点是内容智识别、色彩高保真和辅流编码,具体表现有视频流畅度效果帧率平稳在1080P/15fps,PPT出图时延极低,图文细节显示高清,在首先带宽场景下,用户体验流畅。
4.2 自研音频算法
音频自研算法深度配合,打造高可靠的音频体验。通过传统和AI回声算法结合,能够保证双讲场景不漏回声、不丢字,能够适应稳态环境,又能快速适应外部环境变化,快速收敛,支持更低信回比场景的回声抑制。另外,传统降噪和AI降噪结合可以同时抑制平稳和非平稳噪声,解决噪声收敛慢等问题,噪声抑制后相对传统降噪残留更少。结合AI-VAD降噪和自动增益精确人声检测,实现更好的降噪和自动增益效果,处理后信号更平稳,小信号响应更快更准确。
五、其他功能
5.1 视频审核技术
一站式、多模态智能视频审核让违规内容无所遁形,让音视频在RTC网络实时传输过程中就完成相应的内容审核,亮点是审核场景多,支持9种常用场景,包括色情、性感、恐暴、涉政、灌水、谩骂广告、违禁品、画中画;速度快,单张图片的处理速度是0.1秒;时效好,敏感词库对接信管办,可自定义,无需等待学习;结果准,视觉+语言+文本多模态内容审核技术,准确率可以达到95%。
5.2 全终端SDK
华为云音视频服务具备覆盖全终端的SDK,包括windows、Mac、Android、iOS、Web、electron,另外,资源消耗小,应用包小、耗电低、CPU使用率低(平均15%)、内存占用少(平均100M),就有就是简单易用,多开发语言支持、完整功能示例代码、灵活API组合调用。最后,通过端云协同提供最佳体验,根据时延、丢包率低关系,判断网络模型及可用带宽,实现视频自动升降速,以实时匹配当前带宽下最优的音视频质量。
六、应用场景举例
接下来,介绍一个华为云实时音视频服务的应用场景——轻松构建高品质的互动教学体验。小班课,高画质、高音质,比如1对1小班课或者1对N小班课,视频是1080P高清画质,H265视频编码,在同等分辨率和带宽条件下,成本更低。音频是48kHz高品质采样率,跨国优质网络接入。大型直播课,千人互动、自由连麦,比如大型直播课、超级大班课。增加单节课参与人数,支持千人实时互动,增强客户获客和盈利能力。双师课堂,稳定流畅,比如双师课堂、名师课堂,极致抗弱网卡顿率低于5%,流畅不卡顿,在中小城市优质网络接入。
结尾
华为云实时音视频服务(SparkRTC)凭借在视频业务领域长期技术积累,快速为行业提供高并发、低延迟、高清流畅、安全可靠的全场景、全互动、全实时的音视频服务,适用于在线教育、办公协作、社交文娱、在线金融等场景。特别是在当前疫情肆虐的情况下,华为云实时音视频服务会拥有更多的使用场景和更好的表现,敬请期待!
本文整理自华为云社区【内容共创】活动第15期。
活动地址:https://bbs.huaweicloud.com/blogs/345822
任务13: SparkRTC特性及应用变革
- 点赞
- 收藏
- 关注作者
评论(0)