百联全渠道运维体系治理之路 探索数字化转型新路径

举报
华为云确定性运维 发表于 2024/10/11 09:46:27 2024/10/11
【摘要】 2024年9月20日,华为全联接大会2024确定性运维论坛在上海举办,百联集团商业互联网部高级副总监兼百联全渠道电子商务有限公司副总经理王善良现场分享《百联全渠道运维体系治理之路》。

      2024920日,华为全联接大会2024确定性运维论坛在上海举办,论坛围绕数字化转型过程中企业关注的质量与效能展开交流,百联集团商业互联网部高级副总监兼百联全渠道电子商务有限公司副总经理王善良分享《百联全渠道运维体系治理之路》,构建容灾双活及自研运维自动化平台,保障系统的稳定运行,促进业务高质量发展,质效双升。 

1.jpg

图:百联集团商业互联网部高级副总监兼百联全渠道电子商务有限公司副总经理王善良分享

      2014年百联集团在2015-2017三年行动规划中提出,必须紧密围绕商务电子化和传统业务改革转型两条主线,2015年成立百联全渠道公司,全面负责商务电子化推进。2016年5月19日百联全渠道公司自研的i百联平台正式上线。

      从传统到全渠道 百联全渠道平台建设实践

      在百联集团的数字化转型过程中,百联全渠道通过一系列的策略和实践,构建一个高效、稳定且灵活的运维管理体系,助力百联业务发展。

      ● 运维数据治理能力建设:构建全面的运维数据平台,对运维场景的深度数据化支撑,确保数据的准确性和及时性;

      ● 告警能力建设:提供统一的告警服务,有效降低告警噪音,实现告警信息的精准定向推送;

      ● 容灾能力建设:面对多机房的挑战,采取集群+多AZ(Availability Zone)的部署策略,不仅增强应用及中间件的稳定性,还确保数据库备份在异地的容灾能力,大大提升系统的可靠性和恢复速度;

      ● 流程管理建设:进行运维流程梳理,建立多维度的标准化和规范化体系,优化工作流程,提高整体的运营效率;

      ● 作业平台建设:打破不同团队之间的信息孤岛,打造一站式的作业平台。通过固化运维流程,集成多种运维工具,促进了跨团队的协作与共享,避免资源的重复投入;

      ● 弹性伸缩建设:充分利用华为云计算的灵活性,通过弹性伸缩机制,根据业务流量自动调整资源,既保证服务的响应速度,又降低运营成本;

      ● 多机房灾备:使用华为云同城跨AZ实现了应用及数据库的高可用性,通过异地机房实现了数据库灾备;保障应用、中间件和数据库的可靠性。

1.png

图:百联运维体系建设蓝图

      数智驱动 百联全渠道平台的运维治理经验

      ● 运维平台建设的基石:建立流程规范体系。落地流程体系,建立标准化流程,引入自动化工具,进行文化建设和人员培训,持续进行改进和优化,保障系统稳定性,提升运维效率,提高服务质量,保障业务连续性。

      ● 运维平台建设的技术核心:CMDB底座。打造以应用为对象的CMDB平台,采用模板化生成配置和自动化发布,实现CICD快速交付,以提高工作效率;通过作业平台进行批量运维,实现自动化运维。基于应用拓扑进行数据及权限管理,精准实现最小化权限配置。

      ● 运维数据治理。通过规范运维数据源和建设应用间的数据链路,实现运维数据的可观测和可溯源。持续优化运维数据质量,完善运维数据体系及架构,沉淀有效的运维数据资产,为运维自动化工作提供可靠的数据支持。

      ● 自动化平台建设。通过自动同步云服务数据、自动部署监控以及服务资源的自动扩缩容,实现资源的自动化管理;通过定时自动执行备份、日志清理、系统巡检等任务实现任务自动化;通过定制流程自动发布各个环境的代码实现发布自动化;根据CMDB系统的资源归属,快速跟进及了解告警详情实现告警自动化。

      ● 告警平台建设。支持多种告警源的接入,包括系统监控、安全监控、应用监控等,以应用维度聚合告警,方便用户快速定位问题。减少误判和降低噪音,提供基线和静默策略,根据用户需求进行设置。

      百联全渠道平台建设成效 加速数字化转型变革

      ● 体系化治理提升系统稳定性:通过持续的运维流程建设 ,运维变更流程的自动化转变等一系列的体系化治理,有效的降低系统事故数量。

      ● 运维数据质量新高:实现CMDB对资源的100%纳管率;通过模板生k8s配置、发布配置、监控配置的正确率接近100%;完善基础架构、云平台、应用数据、数据库、中间件等多套数据模板;90%的链路关系通过应用采集来实现;结合以上措施提升云上数据质量。

      ● 发布质量及效率提升:在配置文件生成成功率、发布任务秒级触发效率、发布异常检测成功率等方面实现高质量提升。

      ● 告警覆盖度:在持续优化的过程上,告警覆盖度展现出显著的提升,如同一张无形的保护网,全面覆盖运维、开发以及产品等多个关键领域;告警指标和业务影响关联度逐步提升,为决策提供更精准、更及时的信息支持。

      ● 能效提升:结合运维平台的加持,应用运维人均微服务个数、DBA人均运维数据库数量、代码发布自动化覆盖率等指标均稳步提效;弹性伸缩后生产环境应用服务OS数量大幅降低;运维能效提升,达成更加高效、可靠、可持续的运维管理。

     未来,百联全渠道将持续优化运维体系建设,结合确定性运维实践经验,从传统零售模式向全渠道零售模式转变的过程中,进行运维模式的变革与创新,推动业务高质量发展,为消费者带来更加便捷、个性化的购物体验。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。