云上重保 为赛事直播保驾护航

举报
SRE确定性运维 发表于 2023/09/08 15:55:07 2023/09/08
【摘要】 本案例结合赛事直播运维保障面临的挑战,通过制定上线应用识别、风险识别、安全评估、应急方案以及系统监控等保障活动,实现应急有序的重大赛事保障服务,确保赛事直播整个过程“0故障、0中断”。

文章来源:《华为云确定性运维案例集(稳定可靠篇)》

业务背景.PNG



      赛事直播运维保障经常面临各种突发状况的考验,需要解决稳定、时效、协调等复杂问题,确保IT设备运维服务稳定运行,保障赛事“0时差”互动,全力对赛事直播/转播投入云上重保服务,实现赛事系统保障要求的“0故障、0中断”。
      赛事直播在时间紧、任务重、要求高的挑战下,保障团队成立联合保障项目组,启动高效响应机制,形成一张综合立体保障网。根据保障现场状况,疏通保障流程、保障需求和风险点,明确保障计划和保障范围、资源Region、完成赛前全面细致的调试及运行维护工作,确保保障范围内的全部设施设备进入最优的状态。

业务现状.PNG



      本次保障面临的挑战:
      » 类似规模直播过去产生故障多,本次重保服务要求全程“0故障”;
      » 赛事直播发生故障被动响应为主,本次活动设置主动预防性的保障方案及应急响应体系,达到主被动预防相结合的效果,实现“0中断”目标;
      » 赛事期间超大流量洪峰易导致设备过载,本次需保障直播/转播设备平稳运行;
      » 赛事直播有时延、卡顿等现象,造成观众体验不佳,本次活动需要“0时差”的直播护航,确保用户全程流畅观感。

方案实践.PNG



      在赛事直播期间,保障团队重点关注赛事直播/转播运行保障和应急处理,业务模型评估、资源评估、网络评估、业务压测、应急方案制定、变更管控以及系统监控等保障活动,同时依据各系统特点和类型,制定日常保障方案和突发事件汇报路线图,实现保障有力、应急有序的服务。

30.JPG

      1、保障前风险识别及应对措施
      根据重保服务的工作方法,从以下维度进行保障前准备工作:业务模型评估、资源评估、网络评估和业务压测等进行风险识别;针对识别到的风险制定应对措施,如应急方案制定、变更管控、系统监控等关键措施。
      (1)业务模型评估
      根据保障项目的关键业务、组网架构、资源使用、云服务范围和业务特征(计算、网络、存储等资源使用规律)进行业务模型评估,识别保障的核心应用、核心资源。通过评估分析,本次赛事直播属于互联网类型,主要特征是并发链接数、带宽、时延和安全攻击不确定。
      (2)资源评估
      针对业务模型评估现网资源容量评估和特性评估服务,明确是否需要紧急扩容(预估业务峰值);从系统容量、带宽、并发链接数等指标和客户需求分析,系统能力均能满足业务需求。
      (3)网络评估
      针对网络路径点上设备进行评估,重点在各个部件的带宽、链接数、峰值出现时满足不了的限流,安全攻击。
      (4)压测和模拟
      根据业务峰值预测进行压力测试,对云平台各种关键指标和监控数据进行分析评估;并对应急预案进行模拟执行,进行确定性的快速恢复验证。
      客户压测流量路径分为Internet外部流量压测和云上系统内部流量压测两种压测场景,压测对象分为单机能力压测和集群能力压测两种。
      (5)应急方案制定
      根据前面的评估识别具体的风险点,给出解决措施,如扩容,限流等,并监控措施落地,输出应急预案和措施。针对客户业务系统以及云平台分场景设计应急方案,确保各方案均有明确操作步骤与责任人,且所有应急预案均经过实践演练。
      (6)变更管控
      保障前3天进行Region级变更管控,所有变更暂停。
      (7)系统监控
      根据业务模型和网络路径情况,设置主要的监控点和核心指标,如最大并发链接数、最大出/入口流量等,并根据业务诉求设置对应的阈值,通过监控判断指标情况,进而给出相应的应急和处理措施。
      (8)立体化保障方案
      结合前期的分析和评估,输出端到端的保障方案、保障措施、针对性的监控、应急预案、保障阵型、保障策略和运作机制,全方位覆盖保障的各个环节。

      2、保障中和保障后关键措施
      过去,大型赛事直播会因为视频网站流量暴增产生延时、信号中断等问题,面对大型赛事直播,稳定可靠是用户体验的根本,增加多种挑战。对此,保障团队采取现场保障+远程应急(办公室+远程)+ 远程巡检(监控+OnCall)的保障方式。
      在日常巡检和指标确认上,根据平台监控指标和阈值,定时查看平台指标并分析,在赛事前后完成监测和巡检,多个赛事则进行多次巡检;每日21:00分析当天的数据(业务高峰,阈值占比,系统风险);在保障要求上:保障人员必须保证24小时手机畅通,并在5分钟内响应;如遇紧急问题及时启动联合WarRoom快速处理闭环;在问题闭环上,巡检问题必须当天内闭环。

业务提升.PNG



      集中协调运维资源
      联合保障小组现场和远程的高度协同,保障矩阵团队协作,流程节点稳步推进。
      运维实现标准化
      通过上述一系列联合保障措施,实现0故障,保障赛事业务系统正常稳定运行,实现运维标准化和流程化,提高运维服务的效率和质量,为后期的保障提供流程支撑。
      流量分析,确保网络畅通
      通过联合保障帮助平台分析高峰网络流量,精准预测业务压力和突发情况,快速定位网络中的问题,实现高效运维,确保网络稳定。

案例总结.PNG



      赛事直播运维保障面临超大流量洪峰导致设备过载、直播有时延、卡顿等突发状况的考验,为解决这些问题,业务通过制定上线应用识别、风险识别、容量分析、应急方案制定、变更管控以及系统监控等保障活动,同时依据各系统特点和类型,制定日常保障方案和突发事件汇报路线图,确保用户全程流畅观感,实现赛事直播整个过程“0故障、0中断”。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。