数智融合:让运维开发者从“消防员”向 “建筑师” 转型
来源:华为云确定性运维专刊(第四期)
近年来各类新零售平台、直播带货、网购电商的兴起,面对海量C端用户及行业客户,如何提供高效、可靠、安全的物流IT服务,确保货物的安全到达,已成为物流企业的刚性需求。面对业务场景的多变化,对研发提出了更高的要求,顺丰科技“快递+”应对物流个性化服务的新需求,为中小客户提供综合的物流解决方案。
图 顺丰智慧快递AlOps 规划
顺丰科技快递+业务运维架构(1+1+1):1个底座,1套体系,1套能力,保障业务高可用
在应对多行业个性化物流需求时,顺丰智慧物流通过构建“1+1+1”运维架构:一个混合云底座,一套保障体系,一套稳定性能力,并结合华为云实践经验,构建确定性运维能力,做到故障的可防、可控,保障系统高可用,支撑业务快速发展。
一个底座:构建统一云底座,通过云上DevOps、应用云原生改造、IT治理,实现业务敏捷,快速交付为满足业务敏捷性和时效性的需求,顺丰科技和华为云联合创新,基于华为云CodeArts,顺丰科技实现了云上敏捷DevOps开发,覆盖软件开发全流程,从需求规划-迭代管理-代码托管-CICD流水线-测试,应用上线效率提升了3倍,发布成功率达99.5%,线上漏洞数减少29%。顺丰科技与华为云合作实现了100多套业务系统云原生改造和全面上云,同时构建了云上IT治理体系覆盖组织管理、项目管理、资源管理等八大方向,更好地匹配业务发展需要。
一套体系:系统保障体系建设,实现故障可防可控
在变更风险可控上,顺丰通过通过自动化、可灰度、可快速回退来控制变更的风险。变更的自动化可以带来变更效率的提升,并且降低人为操作带来的风险,保障自动化引起故障的爆炸半径,确保当自动化程序出错时,影响控制在可控的范围之内。
在可观测性方面,结合华为云AOM、CES、APM、LTS、CES等云监控服务,顺丰从用户层、业务层、应用层、基础资源层打造立体化的监控体系,可以实时监控系统各项指标,更好地监控和检测系统的运行情况。通过全面提升IT系统的可观测性,支持复杂故障快速排查定位,并实现运维从被动响应到主动预防,将有效保证用户网络的业务连续和稳定运行。
同时在一些重要节点,为确保故障发生后最快地恢复业务,顺丰科技构建了应急处置体系,在“双11”、“618”等重要电商购物节通过重大事件保障来保障系统稳定。
一套能力:系统稳定性能力构建,实现应用高可用
在面对海量B端客户服务,顺丰科技在华为云上构建跨region的多活高可用架构,从使多活流量接入、多活流量业务改造、多活区域监控得到全方位的业务故障切换及容灾备份能力。结合架构健康度、工程能力和韧性健康度,确保不同地点的物理系统能够提供连续的业务稳定持续在线,实现RPO指标达到秒级、RTO<30分钟,业务稳定性大幅度提升。
顺丰科技基于AIOps规划 —— 将运维智能化、“确定性”化
顺丰智慧快递体系在确定性运维、云原生技术等领域将继续探索AIOps方面的全新应用,通过AIOps,实现更快的告警事件响应、专注打造更加一体化的“统一运维平台”、更加自动化的告警处置,围绕人工智能技术来对智慧快递中的繁杂的运维工作自动化处理,解放生产力,以专注创新和创造更好的运维工具产品以提高告警的快速响应能力,进而为最终用户提供更好的产品和服务体验!
总结
顺丰科技智慧快递业务将更加专注于AI技术在运维领域的探索和应用。在运维领域中,去探索一些场景的匹配、应用和落地,在这些场景中进一步降本提质增效,让运维部门在商业链条中发挥更大的价值,降低企业的IT成本,提升整体运维能力,持续建立一个高效、平稳、安全的运维系统平台,支撑业务发展、转型和创新。
- 点赞
- 收藏
- 关注作者
评论(0)