结合开源工具与云平台能力 构建可视化监控体系
文章来源:《华为云确定性运维案例集(稳定可靠篇)》
在全球数字化转型的大背景下,网络化、数字化、智能化成为企业发展的新方向,IT系统的建设成为重中之重。随着业务的急速发展,早期的业务系统运维效率低,自动化水平不足,矛盾日益突显,原有监控体系已无法满足业务发展的变化,需要通过提升基础资源监控平台自动化、监控观测指标标准化、数据治理智能化,构建一体化运维监控平台,帮助企业持续提升运维效率。为此,业务需要提供精准海量的专业数据查询能力,实现业务平台在数据开放性、数据准确性、业务敏捷性、业务稳定性方面持续提升。
企业运维挑战主要存在如下方面:
1. 基础资源监控、开源组件监控、应用层监控缺少统一告警平台及通知能力;
2. 云上监控指标规则凌乱无统一标准,优化调整困难;
3. 早期资源命名不规范,导致监控发现异常,难以识别资源归属;
4. 环境操作人员复杂,组织变更频繁,导致反复创建/回收控制台账号,耗费大量运维人力精力;
5. 公司日常使用办公软件,日常权限、变更等审批未联动,难以管控;
6. AK/SK缺乏统一管理手段,当前具体使用情况不可知。
为应对以上挑战,急需构建监控体系,实现生产账号管理以及业务运行状态的实时掌控。通过监控告警、云审计服务、账号审批流程工具方案设计解决企业的运维诉求。
1、运维监控工具建设
(1)监控告警工具方案设计
通过监控管理平台,设计核心功能解决企业基础资源、高阶服务、应用层、第三方中间件等指标全方位监控。
告警:基础设施层资源CES承载,高阶服务实例监控AOM承载。另外,将应用层告警、开源组件告警对接至CES的自定义告警模块。这样,CES+AOM即可承载企业端到端系统的告警能力;
通知:CES+AOM对接至SMN消息实现通知服务,实现告警的短信、邮件、语音等消息通知能力,缩短了租户的故障发现时长,提升租户运维效率,减少人力消耗;
监控大屏:将应用系统指标、开源组件监控指标、CES的基础设施层指标、AOM的高阶服务指标均对接至Prometheus,通过Prometheus进行全量告警数据采集,Grafana实现大屏展示,直观清晰地展现设备实时运行状态。
(2)云审计服务方案设计
将日常监控事件、操作信息等对接至CTS云服务,数据转储OBS,OBS支持海量数据存储,以便CTS更长周期的日志查询。CTS的关键审计内容通过SMN,SMN传递至消息接收软件,方便企业在日常办公中掌控现网运维状况。
(3)账号审批流程设计
根据该企业日常办公软件特点,制定个性化审计方案,将日常各种资源申请、权限申请、账号申请等业务流关联至办
公软件系统,方便运维人员的审批管理,软件得到审批指令后,同意即通过接口调用启动发放流程,不同意即结束申请流程。这样不仅提升了运维人员工作效率,同时也支持了事后审计。
2、运维内容建设
(1)资源监控与优化
配置阶段:依据企业告警配置最佳实践,配置基础告警监控。
分析阶段:统计分析基础告警配置后的高频告警和高风险告警,优先调整优化。
优化阶段:根据历史和当前告警信息、业务的敏感程度、业务影响,分析告警阈值的合理性,输出告警优化建议,跟进优化动作落实,、确保效果达成。
(2)资源命名规范
命名包含几个关键字段,提升资源的识别度,方便运维人员通过命名快速找到业务模块及对应资源,确定影响程度,提升运维效率。
环境属性:命名包含prd、pre、test等字段,通过该字段即可知道资源对应的环境属性。
业务模块归属:命名中包含X1、X2、Y1等业务模块名称,便于快速找到对应的业务。
微服务名称:命名中包含微服务的名称,便于更精准地确定该实例资源的具体功能。
1. 运维体系升级,实现统一监控、统一告警、云服务和自建应用统一集成;
2. 云上服务监控指标定制优化,告警指标设置合理化;
3. 专线运维能力提升,增加业务可靠性,问题闭环率达到85%;
4. 综合优化多项云上风险和问题,预防性能瓶颈、降低故障影响、合理分配资源,保障业务稳定性;
5. 健全账号和数据库审批系统,提升运维工作效率。
结合业务现状,基于监控告警、日志审计、审批流程等,进行一系列的技术研讨、方案设计、代码开发、测试验证和生产部署,完成账号和数据库审批系统、堡垒机前置系统、告警收敛等开发部署工作,形成完整的可观测性监控体系,帮助企业实现基础监控指标全覆盖,监控规范化、标准化和自动化,有效提升运维工作效率,增强云上业务稳定性。
- 点赞
- 收藏
- 关注作者
评论(0)