云上重保 为赛事直播保驾护航
文章来源:《华为云确定性运维案例集(稳定可靠篇)》
赛事直播运维保障经常面临各种突发状况的考验,需要解决稳定、时效、协调等复杂问题,确保IT设备运维服务稳定运行,保障赛事“0时差”互动,全力对赛事直播/转播投入云上重保服务,实现赛事系统保障要求的“0故障、0中断”。
赛事直播在时间紧、任务重、要求高的挑战下,保障团队成立联合保障项目组,启动高效响应机制,形成一张综合立体保障网。根据保障现场状况,疏通保障流程、保障需求和风险点,明确保障计划和保障范围、资源Region、完成赛前全面细致的调试及运行维护工作,确保保障范围内的全部设施设备进入最优的状态。
本次保障面临的挑战:
» 类似规模直播过去产生故障多,本次重保服务要求全程“0故障”;
» 赛事直播发生故障被动响应为主,本次活动设置主动预防性的保障方案及应急响应体系,达到主被动预防相结合的效果,实现“0中断”目标;
» 赛事期间超大流量洪峰易导致设备过载,本次需保障直播/转播设备平稳运行;
» 赛事直播有时延、卡顿等现象,造成观众体验不佳,本次活动需要“0时差”的直播护航,确保用户全程流畅观感。
在赛事直播期间,保障团队重点关注赛事直播/转播运行保障和应急处理,业务模型评估、资源评估、网络评估、业务压测、应急方案制定、变更管控以及系统监控等保障活动,同时依据各系统特点和类型,制定日常保障方案和突发事件汇报路线图,实现保障有力、应急有序的服务。
1、保障前风险识别及应对措施
根据重保服务的工作方法,从以下维度进行保障前准备工作:业务模型评估、资源评估、网络评估和业务压测等进行风险识别;针对识别到的风险制定应对措施,如应急方案制定、变更管控、系统监控等关键措施。
(1)业务模型评估
根据保障项目的关键业务、组网架构、资源使用、云服务范围和业务特征(计算、网络、存储等资源使用规律)进行业务模型评估,识别保障的核心应用、核心资源。通过评估分析,本次赛事直播属于互联网类型,主要特征是并发链接数、带宽、时延和安全攻击不确定。
(2)资源评估
针对业务模型评估现网资源容量评估和特性评估服务,明确是否需要紧急扩容(预估业务峰值);从系统容量、带宽、并发链接数等指标和客户需求分析,系统能力均能满足业务需求。
(3)网络评估
针对网络路径点上设备进行评估,重点在各个部件的带宽、链接数、峰值出现时满足不了的限流,安全攻击。
(4)压测和模拟
根据业务峰值预测进行压力测试,对云平台各种关键指标和监控数据进行分析评估;并对应急预案进行模拟执行,进行确定性的快速恢复验证。
客户压测流量路径分为Internet外部流量压测和云上系统内部流量压测两种压测场景,压测对象分为单机能力压测和集群能力压测两种。
(5)应急方案制定
根据前面的评估识别具体的风险点,给出解决措施,如扩容,限流等,并监控措施落地,输出应急预案和措施。针对客户业务系统以及云平台分场景设计应急方案,确保各方案均有明确操作步骤与责任人,且所有应急预案均经过实践演练。
(6)变更管控
保障前3天进行Region级变更管控,所有变更暂停。
(7)系统监控
根据业务模型和网络路径情况,设置主要的监控点和核心指标,如最大并发链接数、最大出/入口流量等,并根据业务诉求设置对应的阈值,通过监控判断指标情况,进而给出相应的应急和处理措施。
(8)立体化保障方案
结合前期的分析和评估,输出端到端的保障方案、保障措施、针对性的监控、应急预案、保障阵型、保障策略和运作机制,全方位覆盖保障的各个环节。
2、保障中和保障后关键措施
过去,大型赛事直播会因为视频网站流量暴增产生延时、信号中断等问题,面对大型赛事直播,稳定可靠是用户体验的根本,增加多种挑战。对此,保障团队采取现场保障+远程应急(办公室+远程)+ 远程巡检(监控+OnCall)的保障方式。
在日常巡检和指标确认上,根据平台监控指标和阈值,定时查看平台指标并分析,在赛事前后完成监测和巡检,多个赛事则进行多次巡检;每日21:00分析当天的数据(业务高峰,阈值占比,系统风险);在保障要求上:保障人员必须保证24小时手机畅通,并在5分钟内响应;如遇紧急问题及时启动联合WarRoom快速处理闭环;在问题闭环上,巡检问题必须当天内闭环。
集中协调运维资源
联合保障小组现场和远程的高度协同,保障矩阵团队协作,流程节点稳步推进。
运维实现标准化
通过上述一系列联合保障措施,实现0故障,保障赛事业务系统正常稳定运行,实现运维标准化和流程化,提高运维服务的效率和质量,为后期的保障提供流程支撑。
流量分析,确保网络畅通
通过联合保障帮助平台分析高峰网络流量,精准预测业务压力和突发情况,快速定位网络中的问题,实现高效运维,确保网络稳定。
赛事直播运维保障面临超大流量洪峰导致设备过载、直播有时延、卡顿等突发状况的考验,为解决这些问题,业务通过制定上线应用识别、风险识别、容量分析、应急方案制定、变更管控以及系统监控等保障活动,同时依据各系统特点和类型,制定日常保障方案和突发事件汇报路线图,确保用户全程流畅观感,实现赛事直播整个过程“0故障、0中断”。
- 点赞
- 收藏
- 关注作者
评论(0)