使能伙伴,春节重大保障“不停歇”
作者:高文科
2022年春节前夕,接伙伴紧急求助,客户转播业务要上云,要紧急部署上线商用,系统将承载春晚转播,春晚是中国传统节日,系统对网络带宽和并发链接数要求较高,但是实际的业务压力是不确定的,在此背景下和时间节点下,本次保障的任务艰巨、责任重大。
华为云使能伙伴,携手客户做好服务保障
在项目保障开工会上快速和客户对齐业务目标和上线计划:核心目标就是要保证系统稳定运行。关键里程碑为:业务模型评估,部署方案输出,业务部署上线,业务压测,组建保障团队,风险识别和消减,重保方案和应急预案,保障启动,并制定了详细的例行保障运作机制和协作分工,同时输出了伙伴赋能的措施。
针对性的部署方案:紧急组织相关人员业务需求进行摸底,分析业务模型和主要特征,针对性输出资源满足度评估和部署方案,并提前考虑不确定风险和因素,在方案中针对带宽和并发连接数留有较大冗余,保证方案的准确和合理性;
围绕部署方案进行压测:部署方案经过三轮联合评审后协调客户和云能联合进行压测,主要针对客户业务系统的压测和流量管控和云平台可承受能力的压测,然后对压测数据进行了多轮分析和匹配度关联,为监控阈值提供定量输入。
华为云根据压测的数据和业务特征,进行现网风险识别和重保方案输出风险识别
·业务部署方案风险:业务的分担,业务容灾切换,业务熔断限流,业务扩容等方面均和客户交流具体措施并邮件确认;
·云平台风险:云主机反亲和性,ELB实例规格调整最大,安全白名单等在云平台跟踪落地完成。
重保方案:
· 保障团队:联合保障团队(伙伴+华为);
· 保障方式:现场保障+远程办公室+在线OnCall;
· 巡检监控:根据压测数据针对性输出核心监控指标和阈值,通过监控判断指标的情况,做出相应的应急和处理措施;
应急方案:
· 客户系统应急措施和云平台应急措施的输出,并进行了事前演练,将操作控制在5分钟以内;
·本次的现场保障安排和应急演练的结果,得到了客户的认可和支持。
· 例行保障和运作:
·日常巡检和指标确认:根据平台监控指标和阈值,定时查看平台指标并分析,完成监测和巡检,联合伙伴分析当天的数据(业务高峰,阈值占比,系统风险),并进行保障信息通报;
伙伴赋能:
· 保障方案和运作明确后,针对伙伴相关团队进行了三次赋能:
· 整体业务方案赋能:业务模型和特征,部署方案,关键风险,注意事项;
· 保障方案和应急赋能:协同运作,分工界面,应急方案和联合WarRoom.
· 例行监控赋能:监控方法和措施,阈值的设置和业务风险判断,应急处置;
现场保障:
现场保障组克服疫情防控的各种困难,在春晚前到达X市现场,和客户保障团队进行了充分沟通和紧急配合,并进行了7*24小时的值班,成为伙伴保障现场的“华为军团”,并对伙伴监控团队进行了现场赋能。
保障结果:
完成了春晚重大保障,保证了系统运行稳定,无异常情况发生,最终顺利完成了此次重大保障任务。
整体保障经验与总结:
1、针对时间紧急,任务艰巨的保障任务,要组织相关人员进行保障前的充分讨论、头脑风暴,让所有领域都有“专业”贡献。
2、过程中的方案,细节,风险识别全面:方案中涉及的所有点记录分析讨论,识别可能遇到的风险点,给出风险消减的措施并跟踪闭环;
3、保障措施和执行:保障措施全面执行到位,过程中不断跟踪,监控完成情况,立刻/马上执行,并检查措施完成的情况;
4、伙伴高度协同:和伙伴组建联合保障团队,并在流程中明确分工和运作支撑机制,快速赋能,充分利用伙伴保障团队资源。
- 点赞
- 收藏
- 关注作者
评论(0)