面向5G演进的云数据中心

举报
技术火炬手 发表于 2019/02/20 15:37:51 2019/02/20
【摘要】 5G时代,数字生态链将全面覆盖 “端-管-云” 各关键环节,无线终端设备、基站空口接入、网络传输技术的革新与跨越式发展,仅仅覆盖了这个生态链构建的“端”和“管”部分,而处于5G数字生态枢纽核心位置的“云数据中心”,也扮演着举足轻重的角色。

5G时代,数字生态链将全面覆盖 “端-管-云” 各关键环节,无线终端设备、基站空口接入、网络传输技术的革新与跨越式发展,仅仅覆盖了这个生态链构建的“端”和“管”部分,而处于5G数字生态枢纽核心位置的“云数据中心”,也扮演着举足轻重的角色。

怎样的云数据中心架构,才能真正满足5G时代网络和业务的需求?我们的答案是:开放、高效、柔性、智能的分布式全栈云数据中心架构。

开放

“开放”体现为各层次云服务不与单厂家锁定,依托主流开源、符合“事实标准”的北向服务API及其应用生态,比如基础设施资源服务层已趋于稳定成熟的OpenStack弹性计算、存储、网络服务与API,作为结构化与半结构化数据服务层业界公认开源标准的Hadoop/Spark大数据及MySQL/PostGreSQL数据库、HBase/Cassandra/MangoDB NoSQL数据库、Redis/Memcache分布式缓存服务与API,迅速成为应用开发部署与微服务治理框架主流的Kubernetes容器化平台服务与API,以及作为人工智能机器学习、深度学习框架服务标准的Tensorflow、MXnet等AI平台服务与API等。

高效

5G网络的速率相比4G提升了百倍以上,对可靠性、时延保障等方面的要求也更为苛刻,以满足未来虚拟现实、超高清视频、智能制造、自动驾驶等典型行业应用场景的需要。因此,在严格遵从业界事实标准的开放服务API与生态的前提下,能否满足5G网络及业务对云平台的高网络吞吐量、高并发计算与存储IO需求,达到云数据中心整体性能与成本最优,成为衡量5G时代云数据中心竞争力的试金石。面对上述需求,x86通用CPU处理平台已面临难以克服的瓶颈。此时就需要通过引入ARM CPU、智能网卡SOC,以及GPU/FPGA乃至NPU神经网络处理芯片等异构计算架构,通过云平台调度引擎,依据业务应用类型调度运行在能效比与性价比最优的硬件形态上。

5G时代的vEPC、CloudRAN基站系统等数据平面网元,对电信云化NFVI基础设施云平台也提出更多诉求,包括网络流量转发带宽提升1到2个数量级,更低的转发时延,单网元及单服务器节点的吞吐量也要从10G级提升到100G级,这使得通用x86 CPU之上基于纯软件实现的Overlay云网络性能面临难以突破的性能瓶颈。因此,将网络功能直通卸载到基于FPGA甚至SOC芯片等异构硬件之上成为业界共同的选择。同时,泛在的5G物联网场景则需要将从各行业的分布式IoT终端及边缘节点收集而来的海量数据进行大规模存储、处理、分析和可视化管理,通过将上述计算任务卸载到GPU/FPGA集群乃至NPU上,同样可以把高密计算性价比和能效比提升5到10倍。

随着存储侧新一代SCM Flash存储介质的引入所带来的单位容量成本下降及其在分布式存储架构下的广泛采用, RDMA over以太网、NV-Link互联等超高速、低时延链路连接技术的引入,将新介质分布式存储及异构计算集群的性能优势进一步发挥到极致。

柔性

5G面临的另一挑战,在于如何敏捷高效地实现“网络切片”的编排与重组能力。除了要求5G网元自身进行针对性的业务与承载协议演进,网络切片能力的构筑,更依赖于如何在云数据中心平台层统一拉通5G IoT应用数据层、核心网层及无线接入各层网元,实现涵盖管理、控制以及转发层的端到端网络功能、容量以及QoS性能等的动态按需隔离,依据各垂直业务场景需求,在最短时间内,以最高效率完成上述网元与业务应用的实例化部署、容量与业务配置,以及网络连接建立的自动化。

面向ICT应用统一自动化编排服务,不仅支持将各类应用、组件容器和异构虚拟机、物理机资源形态的依赖关系、拓扑管理及自动化部署模板化,更进一步支持包含顺序、循环分支,以及事务完整性控制在内的工作流编排能力。这使得“网络切片”管理员可任意按需调用和编排调度IaaS/PaaS服务API能力,以及5G网元和应用服务所开放的北向ICT SaaS API能力,从而将原先纷繁复杂、需要数周甚至数月时间的端到端5G网络建设与调试,简化为小时级/分钟级的一键式全自动化、可模板复制的过程。

分布式

5G物理网络接入与路由网络功能,以及5G物联网设备接入、应用平台和多样化的第三方应用等,都将以虚拟机或者容器化形式,运行在多个不同层次的分布式云数据中心站点上。比如IoT业务及大数据、AI深度学习分析与计算平台,一般将运行在具备两地三中心冗余保护的大规模数据中心,该层次的数据中心规模往往可达数万台主机;而位于5G数据面接入点的功能比如vEPC网关,以及部署在城域汇聚接入POP点附近,以无收敛、无阻塞带宽就近接入的企业备份容灾、视频存储、低时延敏感的交互类业务,通常运行在一站式“Cloud In Box”小规模卫星云站点上,主机规模数十台到数百台不等。

无所不在的5G网络,对无收敛的超低时延和超高带宽的网络接入提出更高的要求,因此5G自身必须具有云化网络功能,如无线空口协议处理、基带控制与无线资源管理调度,乃至网络数据隧道、路由转发及汇聚处理等基础网络功能,以及业务处理功能;还包括视频监控AI模式识别,IoT终端数据的流处理过滤, AR/VR 游戏的3D内容渲染及实时用户操作交互等移动边缘计算(MEC)业务应用,均需要从集中数据中心推移到接入网络边缘,从而实现“云+边缘”模式下“集中化智能分析与敏捷开发迭代”同“近端接入实时处理”的优势互补,将终端侧产生的大量高带宽非结构化或多媒体数据,收敛转换为高价值、相对低带宽的结构化数据,上传到云端数据中心进行集中分析处理,并下发对边缘和终端的控制命令,有效提升业务体验的同时,大幅增强5G端到端网络及云端业务应用的整体吞吐能力。

一种典型的边缘计算参考架构,是采用拉远的分布式标准Docker容器或轻量化容器节点统一接入Kubernetes管理服务集群,北向开放与主流生态兼容的边缘计算服务,可支持数以万计的边缘节点接入注册及安全证书管理,同时支持海量分布式边缘容器以及无服务器计算实例的并发批量部署与生命周期管理。通过进一步打通边缘计算服务与云端丰富的PaaS平台、大数据分析以及AI训练/推理等全栈云服务的数据通路,将大大加快5G云数据中心生态ISV伙伴的IoT、视频、AI、游戏AR/VR等分布式全网全程类创新业务的开发上线速度,缩短迭代更新周期,为运营商的差异化竞争赢得先机。

智能

物联网是5G建设的主要场景之一,其产生的海量数据,不仅需要云数据中心提供超大规模的弹性存储容量与计算能力支撑,更需要通过易于配置和使用的“智能引擎”,结合多个领域的背景知识与数据建模,从海量数据中快速“学习和提炼”出高价值信息与策略,以此控制IoT终端与边缘设备完成最终的闭环。典型场景包括无线视频监控场景下的图像与视频识别,车联网场景下基于车辆GPS位置轨迹及驾驶行为偏好分析,智能交通场景中的拥堵、违章检测、红绿灯优化,智慧城市场景中的群体密度以及移动模式预测,以及智能电网场景下的电力使用分布与高峰预测等。

上述面向5G IoT场景的“智能引擎”,需要云数据中心依托大数据平台所汇聚的IoT“数据湖”,进一步提供预集成业界主流的机器学习、深度学习、图引擎、搜索算法等基础平台服务与API,以及视觉/语音/自然语言/OCR识别等通用领域AI服务与API。服务于不同垂直行业、多租户网络切片、地理分布式部署的5G云数据中心,将承载数以十万到百万计的资源节点、网元实例、业务应用实例,要保障如此庞大复杂的资源与业务体系的可持续无间断运行,如果仍然沿用传统的人工干预和被动响应的运维模式,则数千人的庞大运维队伍必将成为运营商难以承受的重负,为此引入人工智能辅助的主动式预测性维护势在必行。

以从云数据中心各个软硬件子系统收集而来的海量日志信息作为无监督学习的数据源,以故障维护的最佳实践经验库为有监督学习的输入,并调用基础云平台强大的AI/ML算法与计算能力,展开故障根因分析、异常行为模式自动识别、硬件基础设施故障的提前预测和自动化修复,从而将云数据中心自身的软硬件运维效率提升到人均千台服务器以上,支撑运营商在5G时代以最小的投入,为用户提供最佳的SLA体验。

进入2018年以来,无论是设备商还是运营商,对于5G都报以巨大的期望。按照部分国家的产业政策,5G的商用很可能会提前,而不是仅仅计划到2019年之后。兵马未动,粮草先行,运营商必须提前规划建设开放、高效、柔性、智能的分布式全栈云数据中心,这样才能保证5G网络快速实现开放和扁平化,5G行业应用能够快速变现。

-----------------------------

本文转自期刊《华为技术》

原文链接:https://www.huawei.com/cn/about-huawei/publications/communicate/80/cloud-dc-5g


【版权声明】本文为华为云社区用户转载文章,如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。