做好ABAC账号权限管理 守护安全生产底座

举报
SRE确定性运维 发表于 2023/09/08 16:54:15 2023/09/08
【摘要】 安全生产是运维安全管理中的重要环节,本案例主要围绕典型事件对运维工具管理、安全生产人员权限管理以及安全生产稽查等方面进行剖析,以帮助企业提高质量与安全生产建设,保障现网稳定运行。

文章来源:《华为云确定性运维案例集(稳定可靠篇)》

业务背景.PNG




      IT运维的核心是确保系统安全、高效、平稳地进行,安全生产是运维安全管理中的重要环节。近年来,随着大数据、云计算、人工智能等技术的发展,自动化运维逐渐成为企业提高效率、降低成本和保障安全的重要手段。然而企业在生产过程中仍然缺乏自动化工具、难以统一管理、误操作风险高以及风险识别不及时等问题,因此需要不断探索自动化运维的新技术和方法,如构建标准化流程规范、引进智能的自动化工具、建立统一的标准和平台、对账号权限进行全生命周期管理等,以提高安全生产的效率和质量。

业务现状.PNG




      1、现状调研
      企业在运维生产过程中,存在很多不确定风险。如运维生产人员操作流程不规范、缺乏明确制度和标准来指导运维生产动作、运维人员角色权限模糊不清等。因此,需要建立严格的安全生产制度及变更管理流程,利用自动化工具实时监控运维过程,定期审查运维生产策略和标准,确保生产目标和实际需求一致,保障企业运维安全生产。
      2、挑战分析
      » 现网操作缺乏标准化:现网操作风险较大,不规范操作会导致网络故障、系统崩溃等风险,这些稳定性问题会直接影响企业的业务及口碑。
      » 自动化稽查工具缺乏或自动化稽查能力覆盖不全:目前运维安全生产仍有大部分依靠人工进行手动操作,缺乏自动化工具的支持;
      即使已有自动化稽查能力,但仍无法覆盖所有场景,导致稽查工作效率低下或部分场景无法稽查,从而无法及时识别人因风险。
      » 现网运维涉及工具较多,统一授权难度大:现网运维涉及工具较多,且不同的运维工具归属不同的云服务及团队,工具用户权限统一管理、集中授权难度大、权限风险不可控。
      » 误操作风险高:手动操作容易产生误操作,导致系统出现故障或异常,自动化工具可以减少此类风险。
      针对以上痛点,企业可以结合该安全生产实践经验,采取相应的措施,提高运维安全生产质量,保障现网稳定运行。

方案实践.PNG




      一、安全生产典型案例
      本次安全生产实践通过两个典型安全生产案例的引入,逐步剖析安全生产的相关解决方案及技术关键点。
      案例场景一:执行未经验证的命令引发多个核心业务受损。 
      案例场景二:机房人员操作现网主备路分接箱,导致多个机柜共XX台设备掉电,多个服务业务异常。
      案例启示:
      ① 变更方案或命令都需经过验证和变更评审,不可采用未经验证的方案或命令进行现网变更;现网所有风险操作,严格遵守变更流程,禁止未经审批操作变更;
      ② 交付过程中网络一旦与现网网络连通,无论是否转维,变更动作都需严格遵守变更流程;
      ③ 变更过程中若遇到变更异常情况,立即停止操作并第一时间回退;
      ④ 权限管理的必要性:人员资质与操作变更权限过大带来的隐患;
      ⑤ 实施变更前需进行风险识别,禁止高风险操作未落实1+1check机制;
      ⑥ 通过安全生产稽查,树立“敬畏现网”的意识,提升员工安全风险意识。

      二、解决方案
      基于“正向建,反向查”模式,构建ABAC账号权限管理能力和安全生产稽查能力,提升运维工具防护能力和人员安全生产意识,保障现网安全稳定运行。
      1. 正向建:构建ABAC账号管理能力,实现系统访问按需最小授权。
      通过主体属性、客体属性、动作属性和环境属性,构建ABAC账号管理能力,实现授权与现网作业权限一致性能力,规避基于RBAC的权限过大风险。
     (1)通过围绕现网操作的运维工具,进行统一的账号、角色、授权和审计操作日志管理。
     (2)基于ABAC模型,通过作业平台(COP)对用户身份进行双因子认证,并校验变更实施人的访问策略,动态控制作业人员的现网访问。

39.JPG

      访问控制策略规范

40.JPG

      2. 反向查:通过安全生产稽查能力,构建不敢犯的“场”,减少人因误操作风险。
      通过制定运维操作流程规范,明确现网操作标准化要求及红线范围,并基于流程规范要求加强安全生产稽查能力建设,构建员工思想上“不想”违背,行为上“不敢”违背,以及工具上“不能”违背的能力。

41.JPG

      » 制定运维领域流程规范,明确操作标准化要求:通过发布《SRE运维工程师运维军规》、《XXX生产环境运维禁止行为规范》等流程文件,明确现网操作标准化要求及运维操作红线行为,做到有法可依,有法必依,执法必严,违法必究。
      » 构建安全生产自动化稽查能力:利用前端防火墙+后端操作日志,构建未知工具通道检测能力;并基于现网操作日志可追溯能力,构建安全生产自动化稽查能力,实现安全生产运维风险及时识别。
      » 例行稽查,识别人员异常行为:通过“人员、方案、时间、授权、通道、操作”六个维度,对流程合规、现网操作一致性等方面进行例行稽查,及时识别违规操作及人员异常行为,减少人员恶意操作风险。
      » 安全生产稽查未遵从处置:针对操作违规人员,及时冻结或清理违规人员资质与权限,并对违规事件及人员进行问责,并将稽查结果应用于事前、事中拦截,消减人因风险,构建不敢犯的“场”。

业务提升.PNG

      » 变更引入事件数:相比提升前降低30%以上。
      » 人因事件数(变更是人为引起的):相比提升前降低50%以上。
      » 现网操作标准化构建:统一运维工具通道,实现特权账号100%纳管,全面监控和管理安全生产过程。
      » 安全生产稽查:安全生产自动化稽查覆盖率提升至80%,未自动覆盖领域通过人工稽查补充,覆盖多个系统层面和业务场景,提升稽查覆盖率及准确率,及时识别现网风险。

案例总结.PNG

      在运维安全生产环境上,通过构建统一运维通道、对操作权限及账号权限进行统一管理、制定生产操作规范和实现运维安全自动化稽查等,实现现网操作标准化,减少人员误操作风险,防范较大事故,达到安全生产可防、可控、可治,让运维更加高效、便捷、安全。
      【名词解释】
      ABAC (Attribute Based Access Control) 基于属性的权限控制,是一种为解决行业分布式应用可信关系访问控制模型。
      RBAC(Role Based Access Control)基于角色的访问控制,是一种访问控制模型和策略。


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。