移动终端+ChatOps,破局传统运维局限
一、引言
随着云计算、大数据、人工智能等技术的快速发展,企业IT系统的复杂性和规模性日益增加,这对运维团队提出了更高要求。传统的运维模式已难以满足快速响应、高效协同的需求,因此,移动运维终端和ChatOps作为一种新兴的运维协作方式应运而生。本文讲述了GTS SRE团队引入移动运维终端和ChatOps理念解决团队痛点的实践。
二、业务背景
GTS SRE团队依托iDOE智能数字化运维使能平台,承担GTS数字化交付/技术作业、伙伴使能、运营运维等交付数字化平台,以及HEC上部署的外销SaaS服务的运维职责,业务部署覆盖HEC/HIS上全球30+数据中心。随着越来越多的交付工具转入团队运维,业务规模快速增长,传统运维模式逐渐暴露出响应慢、协作效率低、问题解决效率低等问题,其中团队面临的如下几个核心痛点更为突出:
-
作业严重依赖PC和后台堡垒机权限
大量作业场景严重依赖PC和后台堡垒机权限,如流程类作业(账号权限审批、工单审批/转派、告警/事件响应等)、变更类作业(升级、搬迁、采集机处理、网络诊断、主机/服务后台配置修改、紧急故障处理等)。人不在PC旁时,各项工作被阻塞;正常工作时段(人在PC旁),申请EID口令到登录主机后台耗时12-15分钟起步,非工作时段(尤其是周末,人不在PC旁)时间完全不可控,紧急故障情况下严重影响故障恢复时长。 -
作业可信风险
大量的后台手工作业场景,方案与执行不一致风险(误操作、漏操作、重复操作、操作顺序错误)、非法授权(违背最小化授权原则、非法提权、越权操作、违规转借口令等)等作业可信风险难以彻底规避。
三、方案实践
1. 场景分析
结合GTS云服务运维业务现状分析,SRE团队识别出五大类场景急需摆脱对PC及堡垒机后台权限的依赖:
- 流程类作业场景:如自动化脚本审批、变更方案审批、变更单审批、事件单响应、权限角色(IDOE角色、华为云权限、堡垒机权限、FS账号权限等)审批、告警处理(确认、清除、派单等)。
- 自动化查询场景:日常告警或事件处理中高频的查询场景,如服务/进程状态查询、日志查询、参数配置查询、版本信息查询、API/URL拨测检测、网络连通性检测、K8S集群健康检查、慢SQL查询等。
- 自动化变更场景:日常告警或事件处理中高频的快速恢复手段(或三板斧),如主机重启、堆栈重启、应用重启、Pod重启、主备切换、日志清理、进程/会话查杀、redis缓存清理、应急预案执行等。
- 运维持续改进:运维KPI晾晒、工单晾晒/催办、告警晾晒/催办、排班、工单信息查询、资产信息查询等。
- 安全运维场景(单列):如安全告警处理、安全事件处理、安全态势感知等。
2. 方案选型
经过对各类应用场景的落地成本和易用性进行评估,最终决策按照如下策略进行方案选型:
其中移动运维终端能力选择基于GDE Link平台(GDE面向开发者提供的低代码移动端开发平台,用户只需低门槛的托拉拽方式就能高效地构建移动办公解决方案)构建,而ChatOps能力则基于公司内部2023年的爆款内源Welink机器人应用小鲁班(不依赖于运行环境,不需要安装脚本,统一通过welink实现消息发送与回复;提供了一个自定义插件的框架,用户可以基于该框架自行实现小鲁班不具备的能力)构建。
3. 业务设计与实现
(1) 基于GDE Link的移动终端运维
如前文所述,移动终端运维能力主要聚焦日常流程类作业(如各类工单或账号权限审批,工单转派、待办查询、告警响应等)以及安全运维场景。对于一些常见的固化的自动化操作流程,如拨测、Agent重启等也在移动运维终端提供了便捷入口。
(2) 基于小鲁班的ChatOps运维
ChatOps运维能力基于小鲁班Welink机器人服务构建,考虑到现网运维面临的操作不确定风险,当前未使用小鲁班的AI能力,而是基于小鲁班的插件框架开发自定义插件调用iDOE平台的接口完成一些典型场景的运维作业,如KPI、变更、事件、告警、CMDB信息查询,以及高频的自动化查询或低风险变更操作。当前SRE团队共实现了如下2个自定义插件:
/idoe信息查询
(支持调用iDOE平台接口查询KPI、变更、事件、告警以及CMDB信息)/idoe执行指令
(支持调用iDOE平台接口执行自动化查询或变更指令)
信息交互流程设计
当小鲁班接收到用户发送一条消息后,会首先筛选出此人/群/部门所拥有的功能,然后再根据正则表达式匹配判断此消息触发的是哪一个功能插件(小鲁班自带的通用插件还是用户自行开发的自定义插件),如果都不是,则说明此用户希望使用的是AI聊天,则会调用场景AI的 UniAIGC服务来回答用户的问题。
用户旅程设计
对于查询类指令(无论是通过iDOE接口查询iDOE平台的运维数据,还是通过iDOE自动化通道执行查询类指令),无需通过审批即可下发执行;对于变更类指令,当前已经于iDOE变更管理系统紧急变更流程端到端打通,当用户发出指令后,会自动创建SOP变更方案和变更电子流,等待相关审批责任人通过PC或移动运维终端审批后,即可自动执行。
功能体验
用户通过Welink向小鲁班机器人服务发出入口指令后,小鲁班会对用户进行短信验证码身份认证,经过身份认证后,才可以执行idoe插件自带的指令。
安全控制
iDOE平台不仅本身提供了一些固定场景的ChatOps指令,如KPI查询、变更单查询、事件单查询、告警查询、CMDB信息查询等,还提供了一套强大的ChatOps指令封装框架,支持用户将Shell脚本、Shell指令、以及经过审批的变更SOP方案封装成ChatOps指令,通过Welink入口执行。为了保证运维的安全性,iDOE平台进行了一系列的安全设计:
- 所有ChatOps指令必须明确标识查询或变更属性,且上线过程必须经过CAB(重大变更评审委员会)集体评审
- 所有ChatOps指令都带有用户白名单控制,限定特定的用户或群组才可以执行
- 所有ChatOps指令执行时必须经过短信验证码身份认证
- 所有ChatOps指令的执行都有会记录任务日志,对于变更类ChatOps指令的执行与现网SOP自动化通道、紧急变更流程端到端打通,保证操作标准化、自动化,变更有审批,过程可追溯
四、业务提升
随着移动运维终端以及ChatOps运维能力的逐步落地,GTS SRE团队对PC和后台堡垒机的依赖正在逐步减轻,各项日常运维工作效率明显提升。
运维能力 | 应用情况 |
---|---|
移动运维终端 | - 变更单和方案审批、总览类使用移动端处理量占比分别为20%、5%、10% - 告警及时处理率从94%升到99% - 工作时段,审批时长从5分钟降至2分钟;非工作时段,事件单响应平均时长从20分钟下降到5分钟,审批时长从30分钟降至16分钟 |
ChatOps | 自上线以来,GDE等7大业务投入使用,开发指令92+条,识别价值场景58+个,使用指令600+次 相比登录后台作业(工作时段节省3-5分钟,非工作时段节省10分钟),典型巡检场景效率提升40%,应急演练场景效率提升60% 通过ChatOps入口执行的作业全部为自动化流程操作(无需登录堡垒机后台执行繁琐人工步骤),与变更管理流程端到端打通,作业方案与作业授权、作业执行完全一致性保证,作业可信风险有效削减 |
五、案例总结
GTS SRE团队通过引入移动终端运维和ChatOps理念帮助团队有效地降低了对PC和后台堡垒机权限的依赖,随时随地可以接入现网运维,让“喝着咖啡做运维”不再是妄想。但是当前团队在此方面的努力仍然处于非常初级的水平,很多交互体验(如ChatOps对话)与用户的预期仍存在较大差距,还有大量的运维作业场景需要团队去思考如何通过移动终端和ChatOps去落地。随着大预言模型等AI能力在运维领域的应用实践逐步成熟,团队也会不断探索AI能力在GTS云服务运维领域的落地。
- 点赞
- 收藏
- 关注作者
评论(0)