4+2+1运维运营体系,打造海量CDN节点安全运维能力
《确定性运维2.0案例集第3期》
一、业务背景
随着互联网、云计算、IoT的飞速发展以及5G的商业应用落地,以网络视频为主的数字内容消费需求出现爆发式增长。同时,物联网终端接入数量预计到2025年达到550亿量级,会产生海量物联网数据。因此,行业客户急需“高带宽、低延时、海量连接”的优质服务。
Z公司作为一家在网络技术服务领域有着深厚积累的集团型企业,基于市场需求,以自身网络技术为基础,从无到有搭建了内容加速网络(CDN),为全球用户提供高速、稳定、便捷且安全的网络访问加速服务。随着各CDN服务商基础技术能力趋同,在市场快速发展的背景下,以带宽分发、价格比较为主的CDN能力已难以适应行业竞争态势。如何以打造“基础技术+运维运营服务能力”的综合竞争力,成为行业关注的焦点。
二、 业务现状
在推进CDN业务发展的过程中,公司面临着以下核心挑战:
1、专业服务体系待升级:CDN是实时性服务,需要专业的运维运营团队、业务流程、保障措施之间进行协同作用,尤其是针对一些突发上量的场景,更是需要专项运维保障;同时,业务指标分析及服务运营策略调整方面,也需要专业的运维运营团队支持。当前,公司体系化的运维运营能力待升级,在服务稳定性、可靠性以及业务优化提升方面存在挑战。
2、系统架构能力需完善:在CDN技术领域、分析业务模型变化、规划架构及调整等能力方面,公司还存在不少薄弱之处,限制了系统性能的最大化发挥。
3、提高智能化管理水平:CDN业务包含数百项关键指标,过程中更是产生着海量数据,需要基于业务变化,实时对各项业务指标进行分析并及时调整策略。前期主要依靠专业团队及简单的管理工具开展,智能化工具使用率不高,运维运营效率大打折扣,持续垒高管理成本。
三、方案实践
公司综合考虑行业发展趋势和自身实际情况,围绕CDN业务核心---服务与运维运营,与华为云携手,借鉴华为云在CDN领域的最佳实践经验,从服务组织、业务流程、管理工具、保障机制等多方面入手,打造基于自身业务现状的“4+2+1”运维运营服务体系为核心的解决方案。
“4+2+1”运维运营服务体系核心能力围绕4个业务活动、2个业务规划、1套智能工具平台 展开。
4个业务活动
1.主动巡检
基于业务诉求,根据系统现状制定巡检模板及配置信息,对200+巡检项自动开展日常巡检,并将巡检结果实时推送业务负责人,便于即时感知。通过7*24小时排班机制,保证巡检过程中出现的问题被及时处理。
2. 应急响应
围绕节点故障、网络阻断、突发上量、内容劫持、节点攻击、业务故障、硬件故障等CDN服务常见故障,制定应急措施,确保服务质量稳定。‘
3. 重大保障
为解决大型发布会、赛事直播等重大事件期间,业务流量突发带来各种不确定性风险。公司携手华为云成立专属运维专家团队,制定以事前评估、事中保障、事后总结为设计思路的定制化运维重保方案。
① 事前评估:保障前进行评估业务、制定保障方案、评估验证方案,并提供技术咨询和支持。
② 事中保障:保障中,通过“全局统一调度、智能巡检保障、应急分级预防”等专项保障动作提供快速响应和支持。使用智能运维平台精准监控CPU、带宽等20+关键业务指标,并进行实时优化。
③ 事后总结:保障结束后提供保障总结报告,沉淀保障经验并进行传递留档。
3. 运营支撑
在业务接入、日常巡检、故障处理、变更处理、需求跟踪、安全管理等日常保障中建立日度监控机制。在业务协同方面,建立单周汇报平台需求进展及风险项识别、双周汇报近期管控面问题进展与管控面问题优化措施、月度汇报节点建设情况与业务流量数据说明的管理沟通机制。
2个业务规划
1. 运营管理
以业务经营质量及发展为核心,从日常数据中分析发现业务需求、业务规律,针对性的进行优化。
在客户运营方面,从智能化工具平台出发,开发提供管理配置自定义、域名冲突处理、日志管理优化、数据自动分析等特定功能的增值服务,帮助客户更高效管理自身业务。
在业务经营方面,基于智能化工具平台,实现分析域名质量、节点质量、本省率、量级变化、无量节点等关键业务指标的全域自动化分析并提供分析报告,实现基于CDN业务需求及规律的定向切量调度,使得系统业务价值最大化。
2. 能力建设
基于CDN专业知识、运维运营方案、工具开发能力提升的需求,与华为云制定包含CDN市场分析、业务评估、规划设计、服务选型、方案配置、系统维护、故障排查、系统运维、业务运营、研发提升等维度的知识体系课程,并分阶段开展培训,构建起系统化的“架构设计、性能调优、服务保障” 的服务能力体系。
1套智能化工具平台
处于对系统运行情况进行实时监测、关键业务指标及变化趋势实时展示、运行数据数字化管理以及运维效率提升的目的,公司协同华为云打造了专门的智能管理平台。
智能管理平台提供以下核心能力:
1) 系统化配置管理:配置管理自动化,包括节点添加、删除和参数调整,简化运维流程,提高配置的一致性和准确性。
2) 日志管理与分析:平台能够自动收集CDN日志并形成数据分析报告,帮助运维团队洞察流量趋势和用户行为,支撑决策。
3) 智能运维服务:平台提供全局智能运维服务,自动对实时水位、流量、带宽等核心业务数据进行实时监测、分析。基于智能调度策略,在节点出现故障时,自动发送告警信息,并将业务从故障节点调度到正常节点,保障业务稳定不中断;发现节点负载较高时,自动降低该节点流量,并将流量分配到其它节点,保证整体性能最优;同时,提供智能切换功能,为业务运行选择服务成本最佳的线路。
四、业务提升
1. 组织流程可靠保障
公司基于业务需求,搭建起运维运营专属服务团队,制定从业务监测与分析、故障感知与预警、故障应急处理、事件与变更分级的标准化作业流程,并通过7*24小时排班机制,形成系统化的服务保障体系。
2. 系统架构优化
针对HTTPS请求、动态加速以及小文件占比增加的业务模型变化趋势,对CDN节点数量及硬件配置进行合理优化,避免QPS过高导致服务器负载压力大从而引起CDN节点崩溃。
3. 突发流量平稳支撑
专业的运维保障团队成功处理了各类流量突发式增长带来的压力与挑战,流量高峰期系统稳定及资源充足,大幅提升客户满意度,塑造了专业、可靠的服务形象,推动流量突发型重大事件保障业务增长420%。
五、案例总结
作为CDN服务业务的新入者,为快速融入市场、可持续发展。公司通过引入华为云CDN“4+2+1”运维运营服务体系,从组织、流程、系统、业务、保障机制等维度构建业务高效能服务力。以高可用运维运营为核心基线,确保企业在成本、效率、体验等方面的持续调优,充分释放企业效能,在白热化的市场竞争中,塑造以服务为核心的差异化竞争优势。基于“4+2+1”运维运营服务体系,公司在业内建立了良好的品牌口碑,吸引越来越多的客户使用公司的CDN服务,实现点播加速业务增长240%,直播加速业务增长260%,域名数量增长50%,为持续做大业务空间提供强大支撑。
- 点赞
- 收藏
- 关注作者
评论(0)