移动终端+ChatOps,破局传统运维局限

举报
华为云确定性运维 发表于 2025/10/14 16:17:32 2025/10/14
【摘要】 本文基于SRECON25 EMEA主题演讲HyperRouter: Lessons Learnt from Building an L4 Load Balancing Service整理而成,在SRECon官网上可以找到演讲视频和材料。

image.png

一、引言

随着云计算、大数据、人工智能等技术的快速发展,企业IT系统的复杂性和规模性日益增加,这对运维团队提出了更高要求。传统的运维模式已难以满足快速响应、高效协同的需求,因此,移动运维终端和ChatOps作为一种新兴的运维协作方式应运而生。本文讲述了GTS SRE团队引入移动运维终端和ChatOps理念解决团队痛点的实践。

二、业务背景

GTS SRE团队依托iDOE智能数字化运维使能平台,承担GTS数字化交付/技术作业、伙伴使能、运营运维等交付数字化平台,以及HEC上部署的外销SaaS服务的运维职责,业务部署覆盖HEC/HIS上全球30+数据中心。随着越来越多的交付工具转入团队运维,业务规模快速增长,传统运维模式逐渐暴露出响应慢、协作效率低、问题解决效率低等问题,其中团队面临的如下几个核心痛点更为突出:

  1. 作业严重依赖PC和后台堡垒机权限
    大量作业场景严重依赖PC和后台堡垒机权限,如流程类作业(账号权限审批、工单审批/转派、告警/事件响应等)、变更类作业(升级、搬迁、采集机处理、网络诊断、主机/服务后台配置修改、紧急故障处理等)。人不在PC旁时,各项工作被阻塞;正常工作时段(人在PC旁),申请EID口令到登录主机后台耗时12-15分钟起步,非工作时段(尤其是周末,人不在PC旁)时间完全不可控,紧急故障情况下严重影响故障恢复时长。

  2. 作业可信风险
    大量的后台手工作业场景,方案与执行不一致风险(误操作、漏操作、重复操作、操作顺序错误)、非法授权(违背最小化授权原则、非法提权、越权操作、违规转借口令等)等作业可信风险难以彻底规避。

三、方案实践

1. 场景分析

结合GTS云服务运维业务现状分析,SRE团队识别出五大类场景急需摆脱对PC及堡垒机后台权限的依赖:

  1. 流程类作业场景:如自动化脚本审批、变更方案审批、变更单审批、事件单响应、权限角色(IDOE角色、华为云权限、堡垒机权限、FS账号权限等)审批、告警处理(确认、清除、派单等)。
  2. 自动化查询场景:日常告警或事件处理中高频的查询场景,如服务/进程状态查询、日志查询、参数配置查询、版本信息查询、API/URL拨测检测、网络连通性检测、K8S集群健康检查、慢SQL查询等。
  3. 自动化变更场景:日常告警或事件处理中高频的快速恢复手段(或三板斧),如主机重启、堆栈重启、应用重启、Pod重启、主备切换、日志清理、进程/会话查杀、redis缓存清理、应急预案执行等。
  4. 运维持续改进:运维KPI晾晒、工单晾晒/催办、告警晾晒/催办、排班、工单信息查询、资产信息查询等。
  5. 安全运维场景(单列):如安全告警处理、安全事件处理、安全态势感知等。

2. 方案选型

经过对各类应用场景的落地成本和易用性进行评估,最终决策按照如下策略进行方案选型:

其中移动运维终端能力选择基于GDE Link平台(GDE面向开发者提供的低代码移动端开发平台,用户只需低门槛的托拉拽方式就能高效地构建移动办公解决方案)构建,而ChatOps能力则基于公司内部2023年的爆款内源Welink机器人应用小鲁班(不依赖于运行环境,不需要安装脚本,统一通过welink实现消息发送与回复;提供了一个自定义插件的框架,用户可以基于该框架自行实现小鲁班不具备的能力)构建。

3. 业务设计与实现

(1) 基于GDE Link的移动终端运维

如前文所述,移动终端运维能力主要聚焦日常流程类作业(如各类工单或账号权限审批,工单转派、待办查询、告警响应等)以及安全运维场景。对于一些常见的固化的自动化操作流程,如拨测、Agent重启等也在移动运维终端提供了便捷入口。

(2) 基于小鲁班的ChatOps运维

ChatOps运维能力基于小鲁班Welink机器人服务构建,考虑到现网运维面临的操作不确定风险,当前未使用小鲁班的AI能力,而是基于小鲁班的插件框架开发自定义插件调用iDOE平台的接口完成一些典型场景的运维作业,如KPI、变更、事件、告警、CMDB信息查询,以及高频的自动化查询或低风险变更操作。当前SRE团队共实现了如下2个自定义插件:

  • /idoe信息查询(支持调用iDOE平台接口查询KPI、变更、事件、告警以及CMDB信息)
  • /idoe执行指令(支持调用iDOE平台接口执行自动化查询或变更指令)
信息交互流程设计

当小鲁班接收到用户发送一条消息后,会首先筛选出此人/群/部门所拥有的功能,然后再根据正则表达式匹配判断此消息触发的是哪一个功能插件(小鲁班自带的通用插件还是用户自行开发的自定义插件),如果都不是,则说明此用户希望使用的是AI聊天,则会调用场景AI的 UniAIGC服务来回答用户的问题。

用户旅程设计

对于查询类指令(无论是通过iDOE接口查询iDOE平台的运维数据,还是通过iDOE自动化通道执行查询类指令),无需通过审批即可下发执行;对于变更类指令,当前已经于iDOE变更管理系统紧急变更流程端到端打通,当用户发出指令后,会自动创建SOP变更方案和变更电子流,等待相关审批责任人通过PC或移动运维终端审批后,即可自动执行。

功能体验

用户通过Welink向小鲁班机器人服务发出入口指令后,小鲁班会对用户进行短信验证码身份认证,经过身份认证后,才可以执行idoe插件自带的指令。

安全控制

iDOE平台不仅本身提供了一些固定场景的ChatOps指令,如KPI查询、变更单查询、事件单查询、告警查询、CMDB信息查询等,还提供了一套强大的ChatOps指令封装框架,支持用户将Shell脚本、Shell指令、以及经过审批的变更SOP方案封装成ChatOps指令,通过Welink入口执行。为了保证运维的安全性,iDOE平台进行了一系列的安全设计:

  • 所有ChatOps指令必须明确标识查询或变更属性,且上线过程必须经过CAB(重大变更评审委员会)集体评审
  • 所有ChatOps指令都带有用户白名单控制,限定特定的用户或群组才可以执行
  • 所有ChatOps指令执行时必须经过短信验证码身份认证
  • 所有ChatOps指令的执行都有会记录任务日志,对于变更类ChatOps指令的执行与现网SOP自动化通道、紧急变更流程端到端打通,保证操作标准化、自动化,变更有审批,过程可追溯

四、业务提升

随着移动运维终端以及ChatOps运维能力的逐步落地,GTS SRE团队对PC和后台堡垒机的依赖正在逐步减轻,各项日常运维工作效率明显提升。

运维能力 应用情况
移动运维终端 - 变更单和方案审批、总览类使用移动端处理量占比分别为20%、5%、10%
- 告警及时处理率从94%升到99%
- 工作时段,审批时长从5分钟降至2分钟;非工作时段,事件单响应平均时长从20分钟下降到5分钟,审批时长从30分钟降至16分钟
ChatOps 自上线以来,GDE等7大业务投入使用,开发指令92+条,识别价值场景58+个,使用指令600+次
相比登录后台作业(工作时段节省3-5分钟,非工作时段节省10分钟),典型巡检场景效率提升40%,应急演练场景效率提升60%
通过ChatOps入口执行的作业全部为自动化流程操作(无需登录堡垒机后台执行繁琐人工步骤),与变更管理流程端到端打通,作业方案与作业授权、作业执行完全一致性保证,作业可信风险有效削减

五、案例总结

GTS SRE团队通过引入移动终端运维和ChatOps理念帮助团队有效地降低了对PC和后台堡垒机权限的依赖,随时随地可以接入现网运维,让“喝着咖啡做运维”不再是妄想。但是当前团队在此方面的努力仍然处于非常初级的水平,很多交互体验(如ChatOps对话)与用户的预期仍存在较大差距,还有大量的运维作业场景需要团队去思考如何通过移动终端和ChatOps去落地。随着大预言模型等AI能力在运维领域的应用实践逐步成熟,团队也会不断探索AI能力在GTS云服务运维领域的落地。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。