结合开源工具与云平台能力 构建可视化监控体系

举报
SRE确定性运维 发表于 2023/09/08 11:49:29 2023/09/08
【摘要】 本案例通过提升基础资源监控平台自动化、监控观测指标标准化、数据治理智能化,构建一体化运维监控平台,帮助企业实现基础监控指标全覆盖,监控规范化、标准化和自动化,有效提升运维工作效率,增强云上业务稳定性。

文章来源:《华为云确定性运维案例集(稳定可靠篇)》


业务背景.PNG



      在全球数字化转型的大背景下,网络化、数字化、智能化成为企业发展的新方向,IT系统的建设成为重中之重。随着业务的急速发展,早期的业务系统运维效率低,自动化水平不足,矛盾日益突显,原有监控体系已无法满足业务发展的变化,需要通过提升基础资源监控平台自动化、监控观测指标标准化、数据治理智能化,构建一体化运维监控平台,帮助企业持续提升运维效率。为此,业务需要提供精准海量的专业数据查询能力,实现业务平台在数据开放性、数据准确性、业务敏捷性、业务稳定性方面持续提升。

业务现状.PNG




      企业运维挑战主要存在如下方面:
      1. 基础资源监控、开源组件监控、应用层监控缺少统一告警平台及通知能力;
      2. 云上监控指标规则凌乱无统一标准,优化调整困难;
      3. 早期资源命名不规范,导致监控发现异常,难以识别资源归属;
      4. 环境操作人员复杂,组织变更频繁,导致反复创建/回收控制台账号,耗费大量运维人力精力;
      5. 公司日常使用办公软件,日常权限、变更等审批未联动,难以管控;
      6. AK/SK缺乏统一管理手段,当前具体使用情况不可知。

方案实践.PNG



      为应对以上挑战,急需构建监控体系,实现生产账号管理以及业务运行状态的实时掌控。通过监控告警、云审计服务、账号审批流程工具方案设计解决企业的运维诉求。

      1、运维监控工具建设

      (1)监控告警工具方案设计
      通过监控管理平台,设计核心功能解决企业基础资源、高阶服务、应用层、第三方中间件等指标全方位监控。
      告警:基础设施层资源CES承载,高阶服务实例监控AOM承载。另外,将应用层告警、开源组件告警对接至CES的自定义告警模块。这样,CES+AOM即可承载企业端到端系统的告警能力;
      通知:CES+AOM对接至SMN消息实现通知服务,实现告警的短信、邮件、语音等消息通知能力,缩短了租户的故障发现时长,提升租户运维效率,减少人力消耗;
      监控大屏:将应用系统指标、开源组件监控指标、CES的基础设施层指标、AOM的高阶服务指标均对接至Prometheus,通过Prometheus进行全量告警数据采集,Grafana实现大屏展示,直观清晰地展现设备实时运行状态。

9.JPG

      (2)云审计服务方案设计
      将日常监控事件、操作信息等对接至CTS云服务,数据转储OBS,OBS支持海量数据存储,以便CTS更长周期的日志查询。CTS的关键审计内容通过SMN,SMN传递至消息接收软件,方便企业在日常办公中掌控现网运维状况。

10.JPG

      (3)账号审批流程设计
      根据该企业日常办公软件特点,制定个性化审计方案,将日常各种资源申请、权限申请、账号申请等业务流关联至办
公软件系统,方便运维人员的审批管理,软件得到审批指令后,同意即通过接口调用启动发放流程,不同意即结束申请流程。这样不仅提升了运维人员工作效率,同时也支持了事后审计。

11.JPG

      2、运维内容建设
      (1)资源监控与优化
      配置阶段:依据企业告警配置最佳实践,配置基础告警监控。
      分析阶段:统计分析基础告警配置后的高频告警和高风险告警,优先调整优化。
      优化阶段:根据历史和当前告警信息、业务的敏感程度、业务影响,分析告警阈值的合理性,输出告警优化建议,跟进优化动作落实,、确保效果达成。
      (2)资源命名规范
      命名包含几个关键字段,提升资源的识别度,方便运维人员通过命名快速找到业务模块及对应资源,确定影响程度,提升运维效率。
      环境属性:命名包含prd、pre、test等字段,通过该字段即可知道资源对应的环境属性。
      业务模块归属:命名中包含X1、X2、Y1等业务模块名称,便于快速找到对应的业务。
      微服务名称:命名中包含微服务的名称,便于更精准地确定该实例资源的具体功能。

业务提升.PNG



      1. 运维体系升级,实现统一监控、统一告警、云服务和自建应用统一集成;
      2. 云上服务监控指标定制优化,告警指标设置合理化;
      3. 专线运维能力提升,增加业务可靠性,问题闭环率达到85%;
      4. 综合优化多项云上风险和问题,预防性能瓶颈、降低故障影响、合理分配资源,保障业务稳定性;
      5. 健全账号和数据库审批系统,提升运维工作效率。

案例总结.PNG



      结合业务现状,基于监控告警、日志审计、审批流程等,进行一系列的技术研讨、方案设计、代码开发、测试验证和生产部署,完成账号和数据库审批系统、堡垒机前置系统、告警收敛等开发部署工作,形成完整的可观测性监控体系,帮助企业实现基础监控指标全覆盖,监控规范化、标准化和自动化,有效提升运维工作效率,增强云上业务稳定性。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。