让确定性运维,成为城市安全的底线和高线

举报
SRE确定性运维 发表于 2024/01/16 11:27:17 2024/01/16
【摘要】 华为云政务云运维团队是一群不一般的守护者,通过一套全面、可靠的政务云运维体系,涵盖了平台架构设计、组织流程、能力构建等多个环节,最大程度上化解城市安全的不确定性,守护云上城市的每一个角落。

文章转载:TechForWhat

      警察、公交司机、环卫工人、外卖小哥等,被冠以通常意义上的「城市守护者」,小到日常生活,大到生命财产安全,城市的方方面面都离不开他们,而在不被大多数人知晓的地方,还有另一群「城市守护者」。

      数字时代的衣食住行离不开云计算,尤其以政务云为代表的关键云基础设施,承载了大量关乎国计民生的公共事业,任何一次短暂的业务中断,都可能影响市民的体验和信任,确保城市数字化基础设施稳定运行的运维人员,他们也在用新的方法和手段守护城市。

2.PNG

      每座城市或多或少走在数字化途中,云计算的出现为业务提供了更高的效率、更好的安全性,但上层应用的多样化、敏捷化,以及底层基础设施的复杂化、异构化,让城市上云之后的管理,变为一揽子系统性问题,传统运维的弊端开始显现出来。

      确定性运维理念,便是华为云经过自身和外部多年实践探索,将华为云服务产品基础能力、华为云SRE优秀实践以及专家经验整合,首创的云上运维理念,旨在通过系统化的运维将业务的“不确定性”变为“确定性”。
      数字化正在演变为城市的核心竞争力,确定性运维,将成为城市安全的底线和高线。

城市安全的新战场

      20世纪最有影响的经济学家之⼀富兰克·H·奈特,在其著作《风险、不确定性和利润》写到,风险是可知其概率分布的不确定性,人们可以根据过去来推测未来的可能性,而不确定性是指不可度量的风险,人们无法根据过去的经验来推断事情在未来发生的概率。

      城市的数字化转型就是一场走向未知的旅程,以往城市安全涵盖交通安全、环境安全、食品安全和社会治安等,每个角色都能各得其所,城市才有长足的发展。目前,在高层战略的导向下,城市安全增添了数字安全的内涵,“没有网络安全就没有国家安全”,点明了城市安全的新战场。


3.PNG

      运维安全就是城市安全的重要一环,现实中的业务、运维、安全互相关联、彼此依赖,同样以政务云为例,政务云对运维安全的重视程度越来越高,黑客、白帽子忙于挖掘运维安全漏洞,政府和企业忙于构建运维安全体系。

      旧地图找不到新大陆,沿用以往的的传统运维思路,解决不了当下的运维难题,政务云业务海量增长,软件的快速上线模糊了运维和研发的边界,业务上线速度和现网稳定之间的冲突难以调和,运维不能再充当“救火队员”。

      此外,“重用轻管缺运营”也是当前政务云的主要问题,出现了诸如云网资源服务申请体验差、效率低,云网资源无法统一管理,缺少全局的资源拓扑,计量计费缺失,无法进行部门费用统计,云网资源运维能力分散或缺失、可观测性差,运营决策数据、服务考核评价体系不完善等问题。

      华为云既要帮助客户业务简单高效地上好云,更要持续优化地用好云,安全可靠地管好云,确定性运维就是华为云的依托。


华为云,寻找运维的确定性

      不确定成为一种常态,另一种确定性随之涌现,那就是新的思考、技术和手段,都会被用于找寻相对的确定性,华为云总结出的“确定性运维”体系,就是运维变革的一个样例。

      华为自身的数字化转型就应用了确定性运维的理念。据了解,在华为云近五年业务增长百倍的情况下,质量结果业界领先,并使能华为集团流程IT及其他对外服务业务。

      由此,这套能力外溢成六个上云工具套件,并叠加使能和托管两大专业服务,沉淀为“2+6”确定性运维解决方案。


4.PNG

      其中,“2”指两大专业服务(使能服务OES及管云服务MS),“6”指迁移、运维、云财务管理、容灾多活、Landing Zone以及安全云脑六大产品解决方案套件,使能云上客户构建确定性运维体系以及高可用架构、上线管理、确定性恢复、风险治理、财务管理等能力,逐步实现安全可信、稳定可靠、资源高效、业务敏捷。

      奈特不止提出了问题,也给出了两种减少不确定性的方法。一种是集中化,一种是专业化,有意思的是,两者都可以在华为云的确定性运维方案中找到影子。

      集中化体现在云计算平台的规模上,在一定条件下,零散的小规模私有IT基础设施,转变为集中的规模化公共云计算平台,安全水平随之提高,政府云服务于整个城市,也在一定程度上屏蔽了部分安全问题。

      专业化体现在技术和经验的含金量,随着IT规模的增加,专业化决策能够减少不确定性,同时也能产生更熟练的技能,以更好地应对不确定性,换句话说,专业的人做专业的事。

      近段时间,行业内发生多起云计算事故,有的局限在单一的业务模块,有的则引发大规模应用宕机,特别是互联网应用仰仗的云服务,让行业不禁担心其安全和运维能力。

      与互联网云服务商不同,华为云将运维提到一个更高的位置。稳定性的提升可能并不需要特别高深、晦涩的技术,而是大量的工程细节以及专注投入,这意味着要做好稳定性,就得始终保持一定的投入,当企业在稳定性投入和成本取舍之间失去平衡,事故迟早会发生。

      大部分云服务商都很难保持持续投入,华为难能可贵的地方,就是固定保持和做业务开发一定比例的投入,并长久地将稳定性红利输出给客户,这可能是最简单粗暴的落地路径,却也是其他厂商难以坚持的地方。


守护云上城市

      一城一云,不仅驱动城市治理迈向更高的台阶,更需要背后是稳稳的运维安全。华为云为全国160+城市提供了稳定可靠、安全可信、可持续发展的政务云服务, “一城一云”通过华为云SRE运维,提供面向云服务全生命周期的质量看护,实现现网可预期的高可用质量结果,数字城市得以全方位、全周期的稳健发挥作用,让城市各领域都能“上好云、用好云”。

5.PNG

      在湖北省十堰市,武当云已经为数家市属政府和事业单位提供了基础云服务支持,当政府开始发放新春消费券,网络、资源性能峰值会达到平时百倍以上,后测算入网带宽峰值达到771Mbps,出网带宽峰值达到1.10Gbps,最大会话连接数达41万。

      武当云团队特别为新春消费券发放活动制定了高效、安全的解决方案和应急预案。同时武当云专业运维团队为本次活动提供7*24小时高质量专属保障服务,为广大十堰市民众提供稳定流畅的活动体验,助力活动圆满举行。
在确定性运维理念的指引下,运维安全成为华为云的独具特色的全周期运维服务。华为云政务云SRE打造了“驻地+运维中心”特色运维模式,现场运维团队驻扎在客户本地,配备专属技术服务经理,提供贴身式服务。

      同时,远端运维中心构建统一知识库,原厂运维专家高效复用且研发兜底;7x24小时守护数字城市安全,并提供超过300多个专业服务覆盖业务云上全生命周期,成就极致用云体验。更多城市开始在推广大促、重要节日、上线开服和云展会等活动期间,选择华为云的云上保障护航服务,稳定度过业务高峰。

      可能是任意一个时间点,可能是任意一个城市,华为云运维监控中心不时响起同一种警报,这是一场场发生在华为政务云上的突袭演练,随后华为云运维团队有序集合起来,在没有任何通知的情况下执行突袭演练,实战化检验监控发现、快速响应、故障定位恢复等全面处理故障和应急协同能力。

      未来,唯一确定的,就是不确定性。华为云政务云运维团队是一群不一般的守护者,通过一套全面、可靠的政务云运维体系,涵盖了平台架构设计、组织流程、能力构建等多个环节,最大程度上化解城市安全的不确定性,守护云上城市的每一个角落。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。