浅谈云原生AIOps实践——华为云SRE专家王萌萌

举报
SRE确定性运维 发表于 2023/03/28 11:00:37 2023/03/28
【摘要】 本文基于云原生时代运维面临的挑战,介绍了华为云推出的针对性解决方案——智能运维平台CloudScope,分享了云原生环境下落地AIOps的经验与心得。

来源:《华为云SRE确定性运维专刊》第三期


7.png

      作者简介:华为云专家王萌萌,主要负责华为云CloudScope等运维工具开发及管理。

      云原生的机遇与挑战
      云原生是应对当前市场不确定性的一项关键技术。今天的市场上存在新冠疫情、客户忠诚度下降、传统技术加速迭代、经济进入新常态等诸多不确定性因素,企业经常面临突发需求和挑战,传统技术难以满足灵活性需求。云原生虽被公认是应对不确定性的重要技术,但其应用过程也存在两方面挑战:

5-1.PNG

      首先,云原生技术不再由某一家或几家厂商垄断,而是变为由社区主导,因此缺乏很多企业定制特性。企业无法直接应用落地云原生技术,需要经过一系列改造适配,才能实现平滑落地。比如高可用的能力,开源软件通常能保证的只有软件的正常工作,但是当软件运行在企业的生产环境中,企业所要求的数据安全、合规、高可用、灾难恢复等能力都需要企业自己构建。

      另外,云原生技术本身的复杂性对企业而言是较大的挑战。CNCF与社区定义的各种云原生工具数量可达上百个,企业往往面临选择困境。例如在K8s容器编排技术成熟之前,选择其他竞争技术的企业到今天可能面临必须切换到K8s的问题,而未来K8s也不一定一直占据主导地位。
      云原生对运维的挑战

5-2.PNG

      本节用具体案例分析云原生技术给运维带来的挑战。上述案例中,获取最终客户的体验指标,需要考察用户终端通过4G、5G、WIFI和运营商网络、华为骨干网络再到VM、租户、VPC的一系列链路的实时质量。运维部门需要监控所有链路的每一个环节,并采取相应的分析技术来进行定界,已确定具体的瓶颈位置。为此需要一系列监控手段和诊断能力。
      比如需要用到pingmesh、网流监控等技术来覆盖物理网络的所有链路,用黑盒拨测、主机流监控等能力覆盖虚拟网络的所有节点。同时也需要用到流表分析、拓扑诊断、网关抓包等技术来快速分析与定界。

5-3.PNG

      流量进入数据中心后,经过应用、实例资源、虚拟化网络、物理网络,再到硬件层。每种不同的设备或网络类型都有不同的协议、资源,同样需要分层定界各自覆盖监控能力。

5-4.PNG

      以华为云的规模为例,链路超过千万级,每分钟超过5亿次探测,每天产生100TB监控数据。当规模达到一定量级之后,会面临两方面的挑战。一是工程挑战,怎样实现数据的秒级采集、高速存储、快速计算等目标,怎样用最小化的探测次数覆盖尽可能多的链路?二是数据分析问题,如何快速识别哪个国家,哪个地区,哪个运营商用户访问华为云有问题?是华为云问题还是用户问题还是运营商问题?仅靠传统的工程方法和数据分析方法难以满足用户体验的苛刻要求。

5-5.PNG

      对此,在实践中运用AIOps技术才能解决问题。华为云独创三种网络算法,分别是三曲线异常检测算法,实现告警即定界的能力,精准发现故障。多维告警压缩算法,运用省份、城市、机房等多维矩阵运算,直达关键异常信息,告警压缩100倍以上。联动决策和自愈系统,基于探测路径、故障模式自动分析出、入方向异常,快速定界网络问题,联动自动化平台实现故障自愈,当前已实现100%群体性故障,5分钟内流量自动调度。

      华为云智能运维平台CloudScope

      作为全自研的智能运维平台,CloudScope与华为云相伴而生,发展至今已走过6年历程。CloudScope致力于华为云服务运维,全方位覆盖服务部署、全景监控、故障自愈、资源纳管、数据分析等运维场景,自动化对服务进行全生命周期管理。CloudScope旨在缩短开发周期、增加部署频率,提高运维效率,节省运维人力,保证流程可控、操作可靠,面对不确定性的运维风险,构筑确定性的运维结果。
 5-6.PNG

      目前CloudScope仍限于华为云内部使用,但随着平台能力的提升,CloudScope已经有能力为客户赋能、提升客户业务表现。华为云计划未来将CloudScope推向市场,从而服务更多客户,帮助客户解决云原生场景下的各种运维问题。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。