云上系统高并发能力提升,护航传祺节日大型活动圆满完成
案例供稿:张智铭
文章来源:《华为云确定性运维案例集(第2期)》
一、业务背景
随着网络直播的兴起,越来越多企业选择将春节晚会活动搬到线上,通过云上直播的方式与员工、合作伙伴以及广大群众共享盛宴,本次广汽乘用车有限公司(下称“广汽传祺”)策划春节晚会活动也在线上进行。面对春节期间假日流量高峰考验,华为云临危受命保障企业春节晚会活动,业务涉及广汽传祺核心应用、登录服务、超级合伙人三大业务模块。
二、业务现状
关键挑战1:业务百倍增长。广汽传祺今年首次在春节晚会投放广告,缺少参考数据,入口WAF防护三个核心域名预计XXW QPS,考虑到春节期间流量洪峰,预估增长100倍。
关键挑战2:业务链路不清晰。缺少春节晚会活动涉及业务的核心链路图,仅知流量从WAF入口,但应用层、数据层等后端云服务链路关联关系未知。
关键挑战3:压测方案不明确。企业自行压测,压测方案不明确、压力系数不清晰,无法准确在华为云灰度环境验证,待通过提升摸高密度,不断推演后端服务的压力系数。
关键挑战4:客户侧业务瓶颈。企业自行压测XXQPS场景下,业务出现瓶颈,且软件由第三方开发,业务细节及资源部署不清晰。
三、方案实践
本次保障是满足广汽传祺客户营销业务的春节晚会广告引流活动需要,涉及CCE、ECS、EVS、OBS、ELB、WAF、RDS等产品,持续9天,时间段为2024年2月1日至2024年2月9日,华为云投入泛计算、网络、安全、存储、容器、数据库等领域专家,与广汽传祺客户组建联合保障工作组,进行专项保障。
1、保障前风险识别:
· 链路优化:构建客户业务三大业务肖像,关联重保实例及监控指标,制定应急预案;优化部署,核心链路上客户自建微服务高可用优化;隐患治理,老旧版本治理,使用独享资源,提升稳定性
· 构建压力模型:基于核心业务流及其压测数据建模,推演逐层的流量压力传递系数,并以此识别瓶颈点及设计扩容方案。·
· 摸高压测:华为与广汽传祺人员结对,三轮压测共计完成30+轮次生产压测,识别超伙,中台等模块性能瓶颈20+。
· 容量治理:基于摸高压测各云服务容量指标数据,评估容量风险,同时构建分层压力系统及防护能力,端到端评估应急逃生能力应对溢出流量,确保系统整体能抗100倍流量增长。
· 可靠性优化:根据实际业务逻辑,映射xx个核心云服务、XX个核心实例,结合华为云保障最佳实践,确定业务性能基线,识别并闭环可靠性风险50+。
2、风险预案
· 安全防护:配置兜底CC限速、TOP10 URL限速和登录领券等核心URL限速。观察TOP源IP、TOP访问URL等,针对明显异常源ip或url提供给客户拉黑和限速。
· 分层流控:基于压测的云服务各项监控指标,构建分层(接入层、应用层、持久化层)流控、降级的防护能力,建立预警值、预测值、底线值三层防护预案。
· 保障及应急预案:建立预警值、预测值、底线值三层防护预案,用确定性的应急预案应对客户不确定的流量增长。
在此次春节重大活动保障的过程中,开启故障处理绿色通道,所有的问题都由现场技术经理统一收口,分配到后方的各领域研发与运维支撑人员,组织专家进行快速恢复、解决、规避,并按照值班制度和客户共同现场、值守和支撑。
四、业务提升
保障结果:
2月1日~7日,各服务域多名专家进驻现场,同时线上数名专家远程支持,进行容量分析、可用性分析、架构优化、压力测试、应急预案、风险整改等工作。
保障完成XX项风险整改,闭环率100%。优化后最终系统承载可承载XXW QPS业务量,承载能力提升20+倍,IAAS、PAAS、WAF等各领域云资源运行整体稳定,各项指标在预期范围内。除夕当晚,广汽传祺0重大问题、云服务指标均在正常范围内。
五、案例总结
春节是阖家团圆、欢声笑语的日子,面对广汽传祺春节晚会活动的保障任务,华为云组建专项运维专家团队,坚守岗位,以高度责任感,卓越的专业能力,通过摸高压测、安全防护、性能基线,保障及应急预案等措施,应对超常流量洪峰,保障业务稳定运行,成功为传祺春节晚会活动全程保驾护航。
- 点赞
- 收藏
- 关注作者
评论(0)