【华为云Stack】【大架光临】第2期:云上远程运维的最后那点担心,“云梯”帮你解决

大架光临 发表于 2021/11/04 16:46:47 2021/11/04
【摘要】 远程运维已是趋势,华为云Stack“云梯”方案,实现客户云便捷安全的接入远程运维中心,对现有客户本地云配置影响小,提供透明的统一审计能力,易控可控的连接通道,帮助客户从复杂的云运维中解放出来,更加专注业务创新。

作者:华为云Stack高级架构师 李春寒

远程运维是趋势,安全可信是根基

便捷高效的云服务已成为企业解放生产力、推动业务创新的重要支撑。随着云平台的规模快速扩大,若继续使用传统的运维手段,将会对政企IT运维部门带来非常繁琐复杂的工作。这表现在:

  • 云服务需持续更新迭代,规模大,变更升级风险高;
  • 传统运维手段不适应云化运维,故障识别难,运维效率低;
  • 面对容器、大数据、AI等纷杂的新技术,运维人员无法快速应对突发故障;
  • 云运维专家成本高,如某局点配置的PaaS/大数据等运维专家,仅20%时间处理复杂的问题,80%处理低阶日常维护工作,造成人力浪费。

在这种背景下,华为云着力构建“1+3+N”全球技术服务体系,为政企用户提供全球交付和运维能力。依托华为云专业的运维人员、成熟的运维体系、领先的运维能力,把客户从复杂的运维工作中解放出来,聚焦于业务创新。企业客户通过专线或VPN等方式接入远程运维服务时,安全可信的网络连接方案是远程运维的基础,否则反而会将安全风险(数据安全、网络攻击)引入到客户本地云中。


聊一聊远程运维的安全风险

智能化的远程运维中心至少需要具备如快速升级、部署、扩容、故障处理、巡检、告警监控等能力,典型架构如下图1,远程运维中心的多种运维工具或通信协议往往会导致通信矩阵庞大,网络配置复杂,这样必然带来一些网络安全风险。

 

1 远程运维典型架构

这些风险主要包括:

  • 防火墙上通信矩阵复杂,监听端口众多,网络攻击者可能会针对这些监听端口发起攻击,威胁客户本地云内网安全;
  • 运维工具和运维代理间的通信多样化,除了从防火墙控制外,无法有效地从某一个控制端点上按照运维业务或数据维度做细粒度的控制,缺乏自助控制;
  • 基于TLS等协议的加密流量,客户无法统一审计,依赖离散的运维工具代理(分布式运维工具代理)本身的审计能力,审计难度大,数据安全无法有效保证;
  • 缺乏针对潜在恶意指令的拦截和防范手段。


华为云Stack的远程运维安全连接方案

基于上面描述的远程运维接入过程中可能存在的问题,华为云Stack基于专线或VPN基础之上提供远程运维安全接入产品“云梯”,整体架构设计如下:

 

2 “云梯”架构

在不改变运维工具本身架构的情况下,整体架构主要包含这些关键组件:

  • 运维工具的这些特性能力十分重要:
  1. 快速部署、升级、扩容:实现云服务快速部署、持续迭代升级,全网同版本、同架构、同生态;升级变更方案专家统一制定,降低变更升级风险;
  2. 快速故障定位、故障处理、主动巡检、AIOps等:专家7*24小时在线,重大问题研发专家会诊,疑难问题发现快、定位快、修复快,快速一键式巡检,发现系统潜在风险;
  3. 告警监测:实时监测告警数据,智能分析,及时快速提前介入,主动预防;
  • 云梯Server完成中心运维工具的请求转发、响应和告警监控数据上报;
  • 云梯Client与远程运维中心的云梯Server建立安全加密的消息通道,接收云梯Server的转发消息,针对不同协议完成请求的代理,调用目标运维工具代理获取响应;
  • 运维工具代理接收并执行运维指令,主要包括如:
  1. 安装包、升级包下载,完成云服务安装与版本升级;
  2. 驱动AIOps脚本执行,收集、分析故障日志,快速定位问题根因,执行巡检任务,检查云服务健康状态;
  3. 对接客户本地云告警,完成告警数据上报;以华为云Stack为例主要包括如下类型告警:
  • 通信告警:网元内部、网元之间、网元与管理系统之间、管理系统之间的通信失败而引起的告警。如:设备通信中断告警。
  • 业务质量告警:如:设备拥塞告警。
  • 设备告警:物理资源故障而引起的告警。如:计算节点磁盘不足。
  • 完整性告警:请求的操作不能正常提供。如:非法的修改、增加和删除用户信息
  • 安全告警:安全服务或机制检测到有关安全方面的问题发生。如:鉴权失败、非法访问。

当客户远程运维使用“云梯时”,各组件相互配合,共同保障安全:

  1. 位于客户本地云中的云梯Client与远程运维中心云梯Server保持长连接,建立一条连接远程运维中心与客户本地云的消息通道,所有运维指令下发或监控数据上报请求都通过这一通道进行传输,这样能够避免客户本地云边界防火墙端口监听的同时也能将原有运维工具与运维工具代理间多种协议的连接收编到统一的长连接中,实现通信矩阵的收编;
  2. 以运维指令下发为例:远程运维中心的运维工具通过https向运维工具代理发送运维请求时,请求经过云梯Server进行动态路由,分别在云梯Server中完成请求的封装,通过长连接消息通道完成消息分发,在云梯Client中完成请求的解封装,恢复请求发起调用运维工具代理获取响应,响应消息返回至调用方。这样的好处在于针对如上的每一个请求位于客户侧的云梯Client均能够解析请求指令和响应的详细内容,实时将完整的请求与响应数据记录到审计日志中实现透明审计;
  3. 如上请求转发过程中,客户侧云梯Client能够实时获取请求和响应数据,基于目的地址或运维数据特征,提供细粒度的白名单放通策略(自定义或预置),云梯Client仅会转发允许放通的请求,其他请求均无法经过云梯到达客户本地云运维区,更无法到达客户云内网,保证数据安全,将通道控制权掌握在客户手中。

“云梯”作为一体化的安全、可信、可控远程运维解决方案中的关键能力,我们做了几个重点技术能力构建,解决远程运维的安全风险:

1. 将客户本地云运维工具代理相关的防火墙监听端口减少至0,将运维工具多种通信协议的通信链路收编到统一的长连接中,如下图所示:

图3 “云梯”场景运维接入

2. 针对运维过程中的加密协议(如https等)提供透明审计能力,实时查看运维指令内容,如下图5所示,同时提供敏感数据(账号、口令等)识别、脱敏与拦截,防止数据泄露;


截图2.png


图4 “云梯”流量审计

3. 提供细粒度基于运维业务或数据特征的控制策略,按需放通运维指令,将运维的控制权掌握在客户手中。如在某段时间内仅允许巡检指令下发,则该时段内变更类指令将会被拦截。


“云梯”已成,加速政企智能升级

当前云梯已上线华为云(西安)运维中心,同时云梯结合运维工具提供安全、可信、可控的远程运维解决方案,形成“1+2+5”的安全体系:

  • 1套安全管理体系:构建远程+现场两级安全运维体系;
  • 2项安全认证:ISO27001认证、网络安全三级等保认证;
  • 5类安全管控机制:数据安全、IT安全、人员安全、物理安全、作业可信。

现已支撑50+政企云上运维,囊括政府、交通、医疗、电力等8大行业。如:

1. 华为云Stack国家电网提供集中运维解决方案:

  • 问题处理效率比常规情况提升约50%
  • 各省问题平均闭环时间缩短至45天,快速迭代云服务版本。

2. 华为云(西安)运维中心为甘肃省医疗保障局提供智能运维解决方案:


  • 智慧医保系统运维效率提升30%-50%,全面保障医保信息平台全生命周期业务连续性。

3. 华为云(西安)运维中心为中国一汽提供一站式运维服务:

  • 累计处理线上问题500+
  • 问题处理效率提升46%
  • 需求变更100%成功。

面向未来,在线智能化的远程运维已经成为政企数字化转型的最优解。华为云Stack远程运维“云梯”连接方案,实现客户云便捷安全的接入远程运维中心,对现有客户本地云配置影响小,提供透明的统一审计能力,易控可控的连接通道,全方位保障客户本地云远程运维接入安全。帮助客户从复杂的云运维中解放出来,更加专注业务创新,加速千行百业数字化转型和智能升级。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区),文章链接,文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:cloudbbs@huaweicloud.com进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。