上千节点滚动升级成功!中国最佳零售银行上万分析师竟全程没有察觉
近年来,中国最佳零售银行以App优先策略进军零售金融3.0时代,以MAU为指向性指标,全面推进零售数字化转型,打造最佳客户体验银行。通过引入华为云FusionInsight建设全行统一的金融大数据平台,汇聚各渠道业务数据,实现全行数据资源共享,用于探索新的客户体验和商业模式。当前,某股份制银行大数据平台规模达到千余节点,承载了行内上万应用,支撑反欺诈、智慧营销等重要业务场景,日均处理数万大数据作业。
随着某股份制银行不断深入使用大数据技术,逐步了支撑行内关键金融业务,对于整个大数据平台的服务连续性要求也越来越高,一方面行内大数据平台要紧跟技术潮流不断升级革新,一方面要求支撑行内外业务的大数据平台能够7*24小时不中断服务。然而传统的方案需要断电重启,显然不能满足行内业务连续性保障的要求;同时在行内大数据平台升级过程中,对于大数据、数据湖这种复杂系统来讲,传统升级方案如果碰到突发的故障,容易导致整个升级动作中断重来,为平稳升级带来极大地挑战。
近期,某股份制银行采用FusionInsight MRS云原生数据湖滚动升级能力,实现行内大数据平台的成功滚动升级,使得行内2万+应用正常运行,并且实现两个“不中断”:
1)业务不中断:通常大数据和数据湖平台承载了成千上万的任务作业,在升级过程中,关键的数据分析服务要能够不间断地支撑上层业务,这往往导致升级和使用存在着矛盾冲突;MRS具有循环滚动升级能力,一次升级少量节点,循环滚动,直至整个集群的所有节点升级到新版本;同时,为了降低升级对关键任务SLA的影响,MRS还提供滚动升级暂停能力,在任务高峰时段或关键任务执行时,可以保障关键任务正常平稳运行。
分批次升级示意图
2)进度不中断:大数据和数据湖平台是一个极其复杂的系统,由服务器、存储、网络、软件等组成,在升级时经常会碰到突发事件,如磁盘故障、网络拥塞问题;MRS提供故障节点隔离能力,在故障发生时,可以跳过该节点的升级动作,让故障处理和集群升级有序进行。在大数据平台升级过程中,部署人员需要应对各种突发事件,如磁盘故障、网络拥塞等多种异常场景,客户要求不中断升级。
滚动升级不仅是一个升级动作,更是一个系统工程。某股份制银行本次升级过程,携手华为云FusionInsight团队,从兼容性、可靠性、工具自动化、保障团队等多方面入手,注重细节,实现了行内大数据平台架构的平滑演进,升级过程行内用户无感知,保障上层业务平稳运行。MRS目前已通过中国信通院3万+大集群评测,还可以通过集群联邦扩展到10万+大集群。除此之外,FusionInsight 8.x新版本还为客户的大规模集群提供Superior高性能调度器,具有丰富的调度策略,在资源共享和隔离、调度性能、资源利用率方面具有极致表现。Superior将传统一维调度转为二维空间搜索调度,其调度速率可高达35w/s个Container,是开源Capacity能力的2倍+,让整个集群的资源利用率最高达到98%+。
下图是分别在Superior和Capacity下关于“资源利用率”的监控视图:可以看出Superior近乎100%的资源使用率,而Capacity下资源无法得到充分利用。
MRS Superior资源利用率
开源Capacity资源利用率
截止目前华为云FusionInsight滚动升级已先后帮助国有大行、股份制银行、城商农信广东移动、浙江移动等客户实现平滑升级,顺利完成累计60000多节点的无风险升级,让3000+政企客户技术永新,业务永远在线。
- 点赞
- 收藏
- 关注作者
评论(0)