浅谈云原生AIOps实践——华为云SRE专家王萌萌
来源:《华为云SRE确定性运维专刊》第三期
作者简介:华为云专家王萌萌,主要负责华为云CloudScope等运维工具开发及管理。
云原生的机遇与挑战
云原生是应对当前市场不确定性的一项关键技术。今天的市场上存在新冠疫情、客户忠诚度下降、传统技术加速迭代、经济进入新常态等诸多不确定性因素,企业经常面临突发需求和挑战,传统技术难以满足灵活性需求。云原生虽被公认是应对不确定性的重要技术,但其应用过程也存在两方面挑战:
首先,云原生技术不再由某一家或几家厂商垄断,而是变为由社区主导,因此缺乏很多企业定制特性。企业无法直接应用落地云原生技术,需要经过一系列改造适配,才能实现平滑落地。比如高可用的能力,开源软件通常能保证的只有软件的正常工作,但是当软件运行在企业的生产环境中,企业所要求的数据安全、合规、高可用、灾难恢复等能力都需要企业自己构建。
另外,云原生技术本身的复杂性对企业而言是较大的挑战。CNCF与社区定义的各种云原生工具数量可达上百个,企业往往面临选择困境。例如在K8s容器编排技术成熟之前,选择其他竞争技术的企业到今天可能面临必须切换到K8s的问题,而未来K8s也不一定一直占据主导地位。
云原生对运维的挑战
本节用具体案例分析云原生技术给运维带来的挑战。上述案例中,获取最终客户的体验指标,需要考察用户终端通过4G、5G、WIFI和运营商网络、华为骨干网络再到VM、租户、VPC的一系列链路的实时质量。运维部门需要监控所有链路的每一个环节,并采取相应的分析技术来进行定界,已确定具体的瓶颈位置。为此需要一系列监控手段和诊断能力。
比如需要用到pingmesh、网流监控等技术来覆盖物理网络的所有链路,用黑盒拨测、主机流监控等能力覆盖虚拟网络的所有节点。同时也需要用到流表分析、拓扑诊断、网关抓包等技术来快速分析与定界。
流量进入数据中心后,经过应用、实例资源、虚拟化网络、物理网络,再到硬件层。每种不同的设备或网络类型都有不同的协议、资源,同样需要分层定界各自覆盖监控能力。
以华为云的规模为例,链路超过千万级,每分钟超过5亿次探测,每天产生100TB监控数据。当规模达到一定量级之后,会面临两方面的挑战。一是工程挑战,怎样实现数据的秒级采集、高速存储、快速计算等目标,怎样用最小化的探测次数覆盖尽可能多的链路?二是数据分析问题,如何快速识别哪个国家,哪个地区,哪个运营商用户访问华为云有问题?是华为云问题还是用户问题还是运营商问题?仅靠传统的工程方法和数据分析方法难以满足用户体验的苛刻要求。
对此,在实践中运用AIOps技术才能解决问题。华为云独创三种网络算法,分别是三曲线异常检测算法,实现告警即定界的能力,精准发现故障。多维告警压缩算法,运用省份、城市、机房等多维矩阵运算,直达关键异常信息,告警压缩100倍以上。联动决策和自愈系统,基于探测路径、故障模式自动分析出、入方向异常,快速定界网络问题,联动自动化平台实现故障自愈,当前已实现100%群体性故障,5分钟内流量自动调度。
华为云智能运维平台CloudScope
作为全自研的智能运维平台,CloudScope与华为云相伴而生,发展至今已走过6年历程。CloudScope致力于华为云服务运维,全方位覆盖服务部署、全景监控、故障自愈、资源纳管、数据分析等运维场景,自动化对服务进行全生命周期管理。CloudScope旨在缩短开发周期、增加部署频率,提高运维效率,节省运维人力,保证流程可控、操作可靠,面对不确定性的运维风险,构筑确定性的运维结果。
目前CloudScope仍限于华为云内部使用,但随着平台能力的提升,CloudScope已经有能力为客户赋能、提升客户业务表现。华为云计划未来将CloudScope推向市场,从而服务更多客户,帮助客户解决云原生场景下的各种运维问题。
- 点赞
- 收藏
- 关注作者
评论(0)