数字化转型“军舰”启航:详解华为云容器全新解决方案
进入2019年下半年,云原生计算已经得到了云计算行业和传统IT界的广泛认同。国际知名市场咨询机构Gartner在前不久发布的2019公有云服务趋势报告中指出,从传统工作负载上云开始,双模IT理论将引导用户在应用架构和运营两个方面逐渐走向云原生;云原生设计将包括容器与无服务器计算模型的使用,这些技术将在2019年以更快的速度普及;云运营将具备弹性和可扩展性,能够充分发挥超大型平台和云应用的优势。
以Kubernetes容器为代表的云原生技术在2019年获得了广大技术厂商的全力支持,作为Kubernetes开源社区的国内第一大贡献厂商,华为则自2016年就开始全力围绕Kubernetes进行云原生计算的布局,2019年3月更是全行业首发容器多云及混合云解决方案。
在最近的2019华为全联接大会上,华为云又进一步发布了全新升级的新一代容器基础设施“Vessel(军舰)”,包括Kubernetes集群调度平台Volcano、容器存储Update版本Everest、新一代容器网络Yangtse以及容器监控Update版本Glacier。Vessel作为面向更大规模、更高性能的下一代容器基础设施平台,将重点解决大中型企业尤其是泛互联网行业深入推进落地Kubernetes容器平台所面临的大规模核心业务SLA保障的问题。此外,华为云还重点面向AI、大数据和基因等批量计算场景,推出了基于Kubernetes的高性能批量计算解决方案。
公有云的双模IT
当前,数字化转型正在进入深水区,云原生应用与传统应用上云之间的界线正在打破,企业需要的不仅是简单的传统工作负载直接迁到云数据中心,更需要对传统工作负载进行云原生架构改造,以适应云运营的方式,最大程度发挥云计算的优势。根据Gartner,公有云的双模指的是使用云管理传统工作负载(模式1)和将云作为新应用创新的开发平台(模式2),2017年开始云原生项目比例从10%增长到现在的30%。
换句话说,目前为止,向云迁移都是以IT资源管理为核心,大部分的迁移项目都只是把本地虚机迁移到云端虚机,而并不对应用本身的架构进行大的改造,这就是所谓“换汤不换药”。模式1带来的主要是集中于IT服务管理的收益,对企业的商业模式创新并没有直接的影响;模式2则是真正的云端创新、深度创新。
以云原生计算为代表的模式2,主要包括开源的Docker容器、Kubernetes容器集群管理、Istio服务网格等,然而在云计算兴起的头十年里主要用于DevOps开发测试环境中,并不能深入到企业的生产环境中。华为云应用管理服务域总经理方璞强调,虽然云原生技术近年来在落地标准化方面做的很好,也确实击中了很多广大公司的痛点,但在满足大企业大规模生产的时候,还有很大的差距。比如在集群规模方面,开源版本虽然宣称可以达到5000节点的规模,但其实并没有考虑容器监控、网络和存储的限制。
方璞比喻道,Kubernetes的Logo是舵,Istio的Logo是帆船,两个组合就好比是民用的“小帆船”,而企业数字化转型所需要的是商用级的“大军舰”。方璞认为“军舰级”的云原生技术可以为企业带来三大优势:一是满足面向海量应用的运维需求,特别是达到类似互联网行业的快速业务上线、秒级或分钟级业务升级等运维能力,这将给所有企业运维场景带来天翻地覆的变化;二是随着人工智能时代的到来,云原生技术将彻底与大数据技术结合在一起并释放巨大的算力,把数据转变成企业生产力;三是随着5G的到来,带宽将不再是问题,泛互联网融合趋势非常明显,比如游戏与视频的整合、视频与电商的融合等等,5G时代的云原生技术在边云协同场景中将为企业创新带来巨大的推动力。
多云混合云2.0:容器基础设施全面升级
2016年,华为在国内首发基于Kubernetes的容器服务CCE;2017年,成为第一批全球Kubernetes认证的服务提供商,CCE也首批通过了Kubernetes的一致性认证;2018年发布云AI容器和Istio服务网格;2019年3月全行业首推MCP云容器多云及混合云管理平台。
这次在HC 2019大会上,华为云进一步全面升级了以容器为核心的基础设施:华为云容器多云混合云解决方案2.0。方璞强调,升级后的解决方案,依托更大规模的集群管理能力、更快的容器网络和存储、更完善的监控管理,满足企业核心业务上云的诉求,从创新业务容器化的试水区,进入到核心业务容器化的深水区,推进企业数字化进入全新的阶段。
首先,本次升级了华为云容器引擎CCE所管理的Kubernetes集群规模。由于开源Kubernetes在调度、网络、存储、监控等各方面的技术限制,目前业界的容器产品对于Kubernetes集群的支持规模普遍有限。而华为云此次通过一系列的技术突破,将单集群的管理规模提升到了10000节点、100万容器,并且提供了30秒100节点的快速扩容能力。
其次,推出的容器存储更新版本Everest,统一了容器卷的管理,使用Kubernetes Volume语义屏蔽多种存储服务差异,拉通创建、删除、查询、迁移、备份等操作,同时构建了百万IOPS、低时延、高性价比的容器存储,在AI计算、基因数据分析、大数据处理等场景有着明显优势。当前的开源容器存储生态中,只定义了南向的标准化容器存储接口CSI,即容器编排系统与存储技术供应商之间的接口,而Everest“珠穆朗玛峰”提供了易用、大规模、高性能的容器存储,实现了从“民用级”向企业级的提升。
第三,推出了新一代容器网络Yangtse。在大规模场景下,华为云容器网络发放与接通速度有了飞越式增长,1万容器Port发放只需1分钟,容器网络接通速度小于1秒。Yangtse“扬子江”的意义在于构建云原生的容器网络,把之前分层的容器网络与下层VPC网络打通,消除通信的损耗,让容器网络与原生云网络达到完全一样的效果
最后就是容器监控的更新版本Glacier,支持跨云应用的全景监控,并支持社区的原生Prometheus生态。结合集群联邦与策略引擎,可实现30秒应用跨云的自动弹性。Glacier“冰川”的意义在于打造下一代容器基础设施的容器监控与自动弹性扩容,实现近似于无限的巨大容量并且稳定。
上述新发布内容组成了升级后的华为云容器基础设施平台Vessel,也是华为云容器多云混合云解决方案2.0的“底座”,包含在华为云容器服务系列产品中,包括云容器引擎CCE、多云容器平台MCP、容器镜像服务SWR、应用服务网格ASM等。相比于今年3月份的1.0版本,升级后的版本还解决了跨云容灾、区域化策略运营、智能流量治理等问题:基于Kubernetes Federation和Istio的核心能力,将不同云之间的Kubernetes集群统一管理起来,并通过Istio的智能路由能力,实现业务请求的跨云分发。也就是说,1.0版本主要集中在Kubernetes集群联邦和多云混合云的应用管理方面,而2.0版本则打通了多云混合云的容器监控以及流量治理,让企业可以实现容器应用的高级特性,例如多云的流量分发、业务分担、容灾备份等。
方璞强调,华为早期就在Kubernetes社区的Federation集群联邦项目中,该项目也是由华为主导和贡献的,因此华为云也就顺其自然地基于Federation推出了多云容器管理平台(MCP),这是多云混合云解决方案的核心组成,在华为云MCP界面里可以轻松管理多个公有云、私有云和私有数据中心的Kubernetes集群。而当各个云平台的Kubernetes集群被管理起来之后,面向整个应用生命周期的多云混合云管理诉求就随之而来,包括多云的容器监控、容器存储、容器网络互通、流量治理等,都存在大量技术难题,MCP就通过产品化方式满足了这些需求。
容器批量计算平台:让AI、大数据与基因计算爆发
有了新一代容器基础设施之后,企业为了推进数字化转型,还需要面向特定计算场景的解决方案,这就是本次HC 2019推出的华为云高性能容器批量计算解决方案,主要覆盖大数据容器、AI容器和基因容器三大场景,特别把去年发布的AI容器服务、基因容器服务以及最新的大数据容器服务统一到了一个技术平台上,这就是以Volcano调度引擎为核心的高性能容器批量计算平台。
方璞强调,本次发布的高性能容器批量计算解决方案采用了多种先进技术,核心的调度引擎Volcano每秒可调度1000容器,支持批量任务与容器的快速发放,并提供群集调度、公平调度、队列调度等高级功能;Volcano与华为云容器实例CCI原生搭配,由CCI所提供的高性能容器算力,以及华为昇腾系列AI处理器、鲲鹏系列服务器、高性能网络与存储加速芯片,能够提供更高性能、更高性价比的容器批量计算解决方案。在部分客户的实际应用案例中,通过使用华为云高性能容器批量计算平台,在针对基因测序数据分析时,对全人类基因组30X样本分析的效率能提升10倍,大数据分析场景下效率提升40%,AI模板训练提升3-5倍。
本次全新发布的大数据容器服务,则面向传统大数据技术的存算一体、烟囱式基础设施等问题,实现了调度性能的提升、存算分离、易运维和自动弹性伸缩等创新能力。此前,传统大数据基础设施节点既用于存储也用于计算,难以实现极致的性能与成本。此次华为云的大数据容器服务,为企业提供存算分离的基于Kubernetes的容器化大数据平台,弥补了当前主流大数据平台的不足,在调度、任务管理、性能、成本等方面都优于传统方案。
本次AI容器服务的更新版本支持10种以上业界主流深度学习框架,除了包括Tensorflow、MxNet、Pytorch、Caffe2在内的各种社区开源框架外,也包含了华为全场景AI计算框架MindSpore在内的一些新框架。新版本的华为云AI容器在开放性、调度性能、计算性能、以及资源利用率上都有很大提升,尤其借助Volcano引擎,使AI容器具有性价比30%+的提升。华为云AI容器在图像识别、自然语言处理、智能监控、自动驾驶,包括近期热门的视频换脸特效等各种场景都有实践经验。
本次基因容器服务的更新版本新增了以容器方式实现生信领域广泛使用SGE集群管理能力,使得传统线下生信分析环境可以无缝迁移上云,并获得容器技术所带来的好处。除此之外,更新的基因容器GCS还带来了对基因领域顶级机构Broad Institute所发布的Cromwell引擎的支持,开发者只需提交标准的WDL流程,就可以按需进行WDL基因数据分析,遵从GA4GH(全球基因组学与健康联盟)统一标准。
华为云高性能容器批量计算解决方案的核心调度引擎Volcano先前已于6月底在KubeCon上海进行了发布。至今短短三个月时间,Volcano已经吸引了众多头部科技厂商的参与,是Kubernetes社区最活跃的项目之一,而且包括Kubeflow、PaddlePaddle、MPI、KubeGene等在内的多个主流计算框架都已经支持了Volcano。而去年底,华为云ModelArts一站式AI开发平台在斯坦福大学DAWN Benchmark榜单中获得图像识别训练和推理性能双料冠军,其底层就是采用了Volcano调度引擎。Volcano引擎除了支持传统的X86算力外,还支持华为自研的昇腾处理器以及鲲鹏处理器,特别是支持今年7月刚发布的鲲鹏Kubernetes容器和鲲鹏Serverless容器,满足企业用户对多元异构算力的需求。
Volcano调度引擎与大数据、AI、基因三大容器服务组成了华为云高性能容器批量计算解决方案,为客户提供云原生的高性能容器计算平台。方璞介绍,基因容器服务目前已经在华大、未来组等国内基因测序的头部企业使用;刚发布的大数据容器服务目前正在做邀测,从测试的情况来看,性价比提升了30%以上;AI容器服务目前最大的客户是华为云的EI智能体,不但支撑ModelArts提供全流程的开发服务,而且为公司内各产品线业务提供高性能的AI计算基础设施,而外部多家头部客户也在使用AI容器用于语音识别、视频处理、自动驾驶等场景。
云原生的方向:多云、智能、异构、边缘
华为云容器在云原生方面的理念可以总结为:多云、智能、异构以及边缘。在多云方面,目前企业更多的是将一些创新型项目进行容器化改造,核心的生产系统因为目前云原生技术在集群规模、调度、网络、存储、监控等方面的原因,还无法全面实施容器化。在智能和异构方面,随着AI技术的流行,云原生技术需要与以GPU、FPGA/ASIC、华为昇腾与鲲鹏为代表的异构计算相结合,为云和边缘上的智能计算场景提供更高性能、更易获取的异构资源。在边缘计算方面,下一代云计算的形态并不会是集中式的数据中心,而是由成千上万个边缘节点连成的泛在式、分布式的边缘网络,形成泛在的云,而云原生技术也需要从单一集群向多集群、多区域、分布式节点发展,这里面包括网络、数据、应用在内都存在很多挑战性的问题需要解决。
针对多云、智能、异构、边缘这四大理念,本次华为云多云混合云解决方案更新版本,重点解决了集群管理规模、调度、网络、存储性能的问题,为企业核心生产系统的容器化提供有力的技术支撑;高性能容器批量计算解决方案全面支持多云以及智能和异构,也全面满足了大数据、AI以及基因计算对于容器化的需求。而华为云发布的KubeEdge项目去年就已经进入CNCF社区,成为社区的首个智能边缘项目,目前已经吸引了大量的知名公司参与,是CNCF最活跃的项目之一。
在持续推进容器基础设施和高性能容器计算解决方案之外,今年上半年华为云还推出了容器专家服务,即面向企业的云原生技术咨询服务。这套咨询服务是基于华为云前两年帮助客户进行容器化改造、实施和运维过程中逐步总结下来的实战经验,是基于真正实战经验的总结出来的方法论,非常贴近客户真实的诉求,能够有效解决企业落地云原生技术过程中的实际问题。
总的来说,虽然华为在2017年才进入公有云市场,但根据市场调查公司IDC最新的《中国公有云服务市场(2019第一季度)跟踪》报告,2019年第一季度中国公有云IaaS+PaaS整体市场中,华为云以5.2%的市场份额排名中国公有云市场前五;此外在IaaS厂商市场份额方面,华为云也是Top5中增速最快的厂商。这说明,虽然公有云市场发展已经有十年之久,但数字化转型的市场才刚刚开始,在数字化转型巨浪的推动下,公有云市场也将再次爆发。而华为云新一代容器基础设施“军舰”也开始启动,将帮助企业在数字化转型路上踏浪前行!(文/宁川)
- 点赞
- 收藏
- 关注作者
评论(0)