乘云启航,打造面向未来的数字化新零售商业体

举报
华为云确定性运维 发表于 2024/09/13 11:16:46 2024/09/13
【摘要】 本文重点介绍百联全渠道业务中台全量上云实践经验,在面临集团业务多元性、架构复杂性及上云的复杂性的挑战下,通过上云试点、灰度切流、测试和演练等,确保业务系统顺利割接上云,乘云启航,打造面向未来的数字化新零售商业体。

— i 百联业务中台全量上云实践分享

来源:华为云确定性运维专刊(第五期)

1.PNG

        一、百联集团数字化转型历程

      百联集团成立于2003年4月,由原一百集团、华联集团、友谊集团、物资集团合并组成。百联核心业务深耕上海、发展长三角,优势业务布局全国,涵盖主题百货、购物中心、大型卖场、标准超市、便利店、专业专卖等零售业态,经营汽车贸易、电子商务、仓储物流、消费服务、电子信息等领域。截至2023年底,全国零售网点近4700家,长三角零售网点占比超80%,上海零售网点占比约50%。其中,百货、购物中心、奥特莱斯门店数与总面积以及超商门店数均为上海第一,青浦奥特莱斯销售额连续多年蝉联全国第一。百联集团在2015年成立了百联全渠道电子商务有限公司,定位是紧密围绕商务电子化和传统业务改革转型两条主线,全力推进百联集团商务电子化。

      2016年5月19日i百联平台正式上线,该平台上线实现了百联集团内数张会员卡的会员打通、积分打通,完成整个集团下各业态会员一张卡的目标。从上线至今,i百联平台的功能定位从最早期的门店数字化改造及商务电子化平台建设,已经逐步完善深化到集团数字化转型的一系列项目中,并于今年8月16日正式完成i百联业务中台全量上云切换工作。

      同时,在百联集团‘1+2+N’数字化转型战略中,上云是其中很重要的一个项目,以“上云”作为起手式,先业务上云,再云上创新,乘云启航,逐步实现企业数智化转型战略。

      二、业务上云的挑战分析

      百联集团业务架构多元复杂,i百联业务中台既包括了集团共享中台的内容,如:共通的会员、支付、促销等功能,也包括面向各二级公司业务特色的业态中台的内容,如:面向百联股份的到店业务,面向联华、第一医药的到家业务,同时平台也与多个外部合作商有系统功能交互。

      公司上云面临的挑战主要来自于三个方面原因:集团业务多元性、架构复杂性及上云的复杂性。

      业务方面:涉及百货、商超、物流、医药等,如事故对经济和民生影响大,社会面影响大。

      技术方面:系统微服务之间网状调用,分批切换难度大,一把切换停机长、风险高。整个i百联业务中台涉及操作系统4000+个、数据库100+套、中间件70多套、微服务数600+个、定时任务数1300+个以及内部域名2000+个,上云迁移、适配任务识别及改造工作量巨大。

      管理方面:整个上云迁移工作涉及集团内9家二级公司、公司内10多个一级部门及近300家第三方合作商协调工作,涉及多业态和多供应商沟通协商影响最小化的统一停机时间窗口难度较高。整个上云迁移方案涉及上云系统的适配改造、自动化运维平台改造、降级方案制定、降级演练、上云迁移演练、及配合上云验证等过程。上云方案过程中开展正式会议120+场,上云切换当晚近200+人现场保障。

2.PNG

      三、三步法”业务上云方案

      基于识别的业务上云挑战,百联全渠道联合华为云上云迁移团队制定了上云试点、灰度切流、测试和演练的业务上云三步骤方案。

      【上云试点方案】

      基于百联全渠道系统的复杂性及上云事故的巨大影响性,经讨论通过小范围试点,验证迁移流程和方案的可行性,识别问题和风险,确保后续大规模迁移顺利进行。

      试点目的如下:

      1、对上云方案进行验证。

      2、进行团队协同磨合。

      3、提前识别迁移风险。

      4、通过实践积累经验。

      最终通过多批次小范围试点、总结和优化,为最终全量上云切换打下坚实基础。

3.PNG

4.PNG

      【灰度切流方案】

      在搭建云上环境后,让应用访问原机房数据库,然后切少量流量到华为云生产环境以验证从网络层到应用层的部署正确性,应用层通过逐步灰度上云,验证无问题后将应用层和数据层全量切至华为云。

      【测试和演练方案】

      整个上云过程步骤多,需要进行充分的功能测试、性能压测和切换演练,为尽可能提前模拟上云操作步骤,基于华为云最佳实践1:1生产环境建立了切换演练环境。

      搭建演练环境的目的如下:

      1、通过搭建演练环境,验证搭建的步骤/脚本/自动化发布系统,搭建云上生产环境出错概率低。

      2、在此环境可以进行上云演练操作。

     3、上云前在演练环境压测,可提前发现上云后可能存在的性能风险。

5.PNG

      通过演练解决以下问题:

      1、通过演练执行多项切换上云步骤,提前熟悉操作流程,缩短切换停机时间。

      2、增强多人执行操作并行及串行操作间的配合默契。

      3、通过演练检查runbook遗漏点,演练优化runbook,提高正确性和完整性,部分步骤通过脚本或工具自动化执行,缩短相关操作的时间,提升操作正确率。

      4、通过演练识别未知问题,减少切换当晚风险。

      5、通过演练加强技术积累,提升问题快速解决能力。

      最终通过4正1回滚,做到切换上云问题收敛,将上云时间缩短6小时。

      因为上云项目的复杂性,我们基于华为云上云迁移最佳实践制定详细的切换上云切换前Checklist和上云操作runbook。Checklist用于在切换前确保相关前置工作都已经顺利完成,runbook确保正式切换当晚现场200多人能够按照事先约定的步骤有序操作。runbook每个操作精确到操作人、确认人、命令脚本、预计操作时长、串并行标识和回退决策点等。正式上云切换前CheckList共67项检查点,5次演练共执行300多个检查点,正式runbook共236项任务,5次演练共执行1000多项任务。

6.PNG

      正是因为前期百联全渠道及华为云充分的准备工作,最终保障了百联全渠道比原计划提前完成上云切换工作,同时在上云切换成功后,能够一直保持整体运行稳定。

      四、 业务上云的经验及价值总结

      百联全渠道庞大且复杂的业务系统最终顺利切换上云,得益于以下六个方面因素:

      1、清晰的战略目标,引导上云过程中的决策和资源分配。华为云咨询服务协助百联制定了云转型的蓝图,并制定了三步走的战略规划,打基础、建能力、巩固与优化。

      2、成熟的方法论,以华为云上云迁移方法论作为框架指导,确保上云过程的有序进行。

      3、项目早期的全局思维,企业上云需要具备项目早期的全局思维,预则立,不预则废。在项目早期,项目组就思考整个上云的里程碑,需要在什么时间做什么工作,并梳理上云交付全景图。

      4、强有力的组织保障,作为集团一把手工程,明确联合项目组成员分工,集团、业态、公司领导及各部门同事的大力支持、配合。

      5、高效的团队协作,有效的沟通协调和决策能力是构建高效团队协作的关键。双方项目组认真严谨的态度,建立了坦诚的沟通机制、WBS跟进机制,鼓励思考和提出问题的解决方案的文化。

      6、完善的上云方案,通过任务分解、方案先行、迭代试点、上云演练、复盘总结、经验沉淀的机制,保证上云方案的完美执行。

      本次业务上云创造了三大价值:

      1、提高容灾便利性,vpcpeer方便打通多机房。

      2、提升系统可用性,方便应用部署云多机房。避免自然灾害、不可抗力因素导致的机房故障,从而造成系统不可用。上云前DB异地灾备,无应用高可用,上云后应用整体双机房高可用。

      3、加快业务创新,基于云上成熟PaaS产品和快速申请部署资源能力,提升应用开发上线效率,加快业务创新步伐。

7.PNG


【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。