“三阶一站式”全链路 IDC 云化转型
文章来源:《确定性运维专刊第6期》
一、喜马拉雅IDC云化转型背景
喜马拉雅作为音频分享平台,以优质内容和良好体验深受用户喜爱,以“万物有声”为理念,通过音频内容传递智慧,以满足各年龄段用户需求。平台音频总数达4.8亿条,截至2024年,活跃创作者突破290万,服务用户数亿,月活跃用户量超3亿,展现出强大的用户活跃度和市场影响力。
为支撑庞大业务的稳健发展,喜马拉雅部署超过XX台服务器,托管于专业IDC机房,并依赖云服务商A和B的主备设施。然而,随着业务快速发展,传统IDC模式面临诸多困境,制约业务高效推进和可持续发展。为突破这一困境,喜马拉雅投资XX万元用于硬件设备升级,并与华为云展开深度合作,引入CloudDC创新的云化混合托管模式,探索IDC云化模式,实现整体基础设施升级,帮助公司快速迈向“云上喜马2.0”时代。
二、IDC面临的挑战
三、“三阶段”全链路优化IDC云化转型
面对IDC托管中遇到诸多挑战,喜马拉雅积极探索新的数据中心(IDC)模式,通过与华为云携手,制定“建云、入云、管云”的三阶段实施计划,确保项目落地。
三阶段全链路优化方案图
1、建云:创新的自动化流水线进行工程交付
喜马拉雅原有的IDC主备机房有超XXX+台物理设备,为防止特殊配置引发故障,确保设备配置标准化与统一至关重要。我们依据项目实际和入云要求,确定建云方案,搭建云化统一运维平台,采用自动化流水线管理,实现服务器生命周期管理、OS及核心配置的实时监控。
建云:自动化流水线方案图
建云方案中,喜马拉雅重点规划服务器上架及维修、BMS上线、机器运行监控以及BMS下线。为确保建云工作顺利推进,我们成立建云小组,负责应对可能出现的各种突发事件,保障整个建云流程高效、有序地开展。
高可用统一运维平台
具体入云方案:喜马拉雅规划并构建IDC机房的高可用架构(符合国际和国家A级标准),建立云化的高可用统一运维平台,实现对现有和新增BMS资源池的整体全生命周期管理。整个管理过程分3步。
(1)标准化流程构建:
建立全面且规范的管理流程,涵盖从资源配置到配置实施的各个环节,确保整个过程有章可循,形成标准化的操作规范。
(2)自动化实施:
确保所有配置任务均已实现自动化处理,从而降低人为操作带来的风险。
(3)机器运行实时监控与动态调整:
系统运行过程中,实施实时监控机制,发现潜在异常,系统自动触发巡检流程,并根据巡检结果重新执行BMS下线、服务器上架及维修与BMS上线操作,确保系统稳定运行。
2、入云:零停机迁移切换方案
喜马拉雅在音频行业有着强大的用户活跃度和市场影响力,业务覆盖广,系统复杂且相互关联紧密,一旦停机迁移切换,对业务影响巨大。在入云迁移中,必须要做到零停机切换,保障业务的连续性。因此制定出“零停机业务迁移”的入云方案,方案分为两大关键环节:分层迁移策略和有序切换步骤。
- 分层迁移策略:先切应用层,后切数据层
策略如下:提前完成专线扩容(X.XT)
① 应用层切换期间先灰度在全量,有问题可立即回退,回退过程平滑。
② 数据层集中三天统一切换完成,减少中间态时间,减少专线故障风险
本次迁移工作,通过合理策略保障迁移稳定可靠,将对业务的影响降至最低。鉴于稳定网络环境是迁移顺利推进的关键,首先完成专线扩容,保障网络稳定性与传输效率。应用层切换采用先灰度再全量策略,出现问题可平滑回退,有效降低迁移风险;数据层切换则集中三天完成统一切换,减少中间态时间,降低专线故障风险 。
- 有序切换步骤:数据同步→应用发布→接入灰度切换→资源层切换
切换步骤如下:
① 数据同步
② 应用发布-RPC+WEB+Task单实例发布
③ 接入层灰度切流,流量100%
④ 资源层切换
3、管云:全链路持续服务保障现网稳定运行,协助构建1-5-10的恢复能力
建云和入云只是建好“喜马拉雅运维长征路”,真正的挑战在于后续管云工作,管云通过高可用架构设计、风险治理以及快速恢复的三大核心能力,来保障online全业务的稳定运行。同时,为应对极端情况或意外情况,我们还制定了X*X灾难应对和终极快速恢复方案。
管云:全链路持续服务保障现网稳定运行
(1)高可用架构:为喜马拉雅IDC的高可用性评估与目标设计,制定可用度标准,有效防范平台系统性风险。
- 构建高可用度量标准和测算方法,从架构视角对现网进行可用性调研和评估,输出各组件的可用度评估。
- 制定运维全局可用度目标和各组件模块指标规范。
(2)风险治理:在测试或者准生产环境中进行混沌工程风险管理,主动发现风险。
- 明确混沌工程的具体试点场景(区域掉电、断网,机房高温),构建演练基线和演练流程规范。
- 针对试点场景控制演练爆炸半径,通过模拟故障场景并执行演练评估和发现风险。
华为针对数据中心制定了四场景高可靠演练。
(3)快速恢复&“1-5-10”:打造涵盖应用+云平台+中间件以及网络全栈的全方位监控体系,实现全链路故障定界,提高故障定界效率。基于华为云的产品能力及现有的监控运维工具,规划设计并实施从应用程序到云端再到网络的端到端全链路监控、故障定位、隔离与恢复方案,已在实际网络环境中进行验证。
构建“1分钟(发现)-5分钟(定界)-10分钟(联合业务恢复)”的持续运维服务体系,采取识别、覆盖和演练的思路夯实目标达成的基础,确保在1分钟内发现故障,5分钟内完成故障定位,并在10分钟内实现业务的联合恢复。
1分钟发现故障:
- 所有故障均能及时完成上报,并定期开展测试与演练。根据不同告警层级和阶段,设置了多层级报警机制,并持续优化了四道防线的报警规则,有效应对业务高峰期的挑战。
- 对于批量故障和阈值检测产生的报警,进行了分类分级监控,以便快速响应和处理。同时,对潜在风险报警机制进行了持续优化,确保监控体系的高效性和精准性。
5分钟故障定界:
- 将服务器、交换机、云资源等软硬件资源的信息固定下来,并针对专线等高风险场景优化故障定位方法,增加了拨测功能。
- 核心运维团队成员保持稳定,包括技术支持经理(TAM)、二级运维工程师和其他关键岗位人员,均设置备用人员。
- 通过持续的网络观察和讲解训练以及战情室演练,确保团队能迅速掌握并运用这些技能。
10分钟恢复业务:
- 组建五种常见的批量故障模式库,涵盖了机房内部设备、CCE集群(高度自动化和管理化的Kubernetes服务)、网络(物理和虚拟)、专线以及DDoS攻击(全称:Distributed Denial of Service,分布式拒绝服务攻击)。
- 分析四种高可用架构类型:冗余与灾难恢复、过载控制、故障管理以及访问路径。
- 制定两种逃生方案:NAT(网络地址转换)和NG逃生方案(NG是在防火墙或其他网络设备中设,确保网络故障时能够快速恢复业务流量而设计的紧急方案)。
- 所有的演练方案都必须达到100%的成功率。
(4)X*X灾难应对和终极快速恢复方案:5分钟拉起X万核资源
出现地质灾害或其他紧急场景时,可以在5分钟迅速拉起X万核的资源,将喜马拉雅原有的IDC和新拉起的IDC资源整合为统一的IDC机房,实现资源的无缝对接,极大地提升资源的灵活性和可用性。在双AZ(可用区)的加持下,整个迁移过程实现真正的无缝切换。
四、关键经验总结
1. 建好云:搭建自动化流水线管理模式
- 标准化与自动化:针对喜马拉雅复杂的IDC环境,通过标准化设备配置和自动化流水线管理,优化服务器生命周期管理,提升运维效率。
- 弹性资源管理:采用资源分级管理和动态重分配策略,根据业务需求灵活调整资源池规模,提高资源利用率。
- 高可用架构:构建符合国际和国家A级标准的高可用架构,为后续入云工作奠定了坚实基础。
2. 入好云:实现零停机业务迁移
- 分层迁移策略:采用“先切应用层,后切数据层”的策略,结合灰度切换和快速回退机制,确保迁移过程的平稳性。
- 快速资源拉起:华为云迅速拉起X万核资源,整合新旧IDC环境,实现资源无缝对接,保障业务连续性。
- 有序切换步骤:通过数据同步、应用发布、灰度切流和资源切换的有序步骤,确保迁移高效稳定。
3. 管好云:构建确定性运维能力
- 高可用架构设计:通过高可用性评估和目标设计,制定可用度标准,有效防范系统性风险。
- 风险治理:采用混沌工程主动发现风险,通过模拟故障场景进行高可靠演练,提升系统韧性。
- 快速恢复体系:构建“1分钟发现、5分钟定界、10分钟恢复”的运维服务体系,提升故障响应和恢复效率。
喜马拉雅通过“建云、入云、管云”三阶段实施计划,成功解决IDC机房在稳定性、网络扩展性、成本控制和运维管理等方面挑战,在稳定性、业务可用性、成本优化和安全保障方面均显著提升,整体推动基础设施和运维管理的现代化升级,提高喜马拉雅业务效率,增强市场竞争力,实现运维体系的全面升级。
五、价值体现
DC云化方案让喜马拉雅实现业务和技术价值双提升:
- 业务价值
- 成本降低:显性降本xxxw/月(机柜、带宽、服务器、交换机等),3年降本xxxxw+。
- 运维效率提升:借助平台完成自动化定时巡检、一站式自主感知硬件信息。
- 可用性提升:成熟的容灾备份机制,双AZ 999%可用性,XW核弹性快速扩容。
- 技术价值
- 应用优化:域名改造解决IP硬编码问题 | 容器化改造,提升服务稳定性。
- 规范优化:统一内核参数规范 | 中间件组件版本升级归一。
- 架构优化:服务、中间件双AZ高可用升级 | 超大数据库拆库隔离。
- 安全优化:满足等保三要求,DDOS完成南北流量清洗,CFW完成东西流量防护,支撑TOPN IP溯源,支持快速定位和封堵。
六、总结
通过这次与华为云深度合作,喜马拉雅将服务器部署在华为机房中进行云化托管,引入其先进的云化托管技术和经验。喜马拉雅与华为云的这种云化合作模式不仅提高了资源利用率,还大幅降低了机房租赁和运维成本,同时,依托于华为云可靠的基础设施和强大的技术支持,喜马拉雅的业务稳定性显著提升,为业务的持续发展提供坚实保障。
- 点赞
- 收藏
- 关注作者
评论(0)