“三阶一站式”全链路 IDC 云化转型

举报
华为云确定性运维 发表于 2025/03/29 10:48:29 2025/03/29
【摘要】 本文重点介绍喜马拉雅在面对传统IDC机房托管过程中的稳定性不够、扩展性延伸困难等挑战,联合华为云确定性运维团队,探索出“三阶一站式”全链路IDC云化转型方案,通过建云、入云、管云”三阶段,构建确定性运维能力,实现业务升级与IDC云化转型。


文章来源:《确定性运维专刊第6期》

一、喜马拉雅IDC云化转型背景

喜马拉雅作为音频分享平台,以优质内容和良好体验深受用户喜爱,“万物有声”为理念,通过音频内容传递智慧,以满足各年龄段用户需求。平台音频总数达4.8亿条,截至2024年,活跃创作者突破290万,服务用户数亿,月活跃用户量超3亿,展现出强大的用户活跃度和市场影响力。

为支撑庞大业务的稳健发展,喜马拉雅部署超过XX台服务器,托管于专业IDC机房,并依赖云服务商A和B的主备设施。然而,随着业务快速发展,传统IDC模式面临诸多困境,制约业务高效推进和可持续发展。为突破这一困境,喜马拉雅投资XX万元用于硬件设备升级,并与华为云展开深度合作,引入CloudDC创新的云化混合托管模式,探索IDC云化模式,实现整体基础设施升级,帮助公司快速迈向“云上喜马2.0”时代。


二、IDC面临的挑战

三、“三阶段”全链路优化IDC云化转型

面对IDC托管中遇到诸多挑战,喜马拉雅积极探索新的数据中心(IDC)模式,通过与华为云携手,制定“建云、入云、管云”的三阶段实施计划,确保项目落地。

 

三阶段全链路优化方案图

1、建云:创新的自动化流水线进行工程交付

喜马拉雅原有的IDC主备机房有超XXX+台物理设备防止特殊配置引发故障,确保设备配置标准化与统一至关重要我们依据项目实际和入云要求,确定建云方案,搭建云化统一运维平台,采用自动化流水线管理,实现服务器生命周期管理OS核心配置的实时监控。

 

建云:自动化流水线方案图

建云方案中,喜马拉雅重点规划服务器上架及维修、BMS上线、机器运行监控以及BMS下线。为确保建云工作顺利推进,我们成立建云小组,负责应对可能出现的各种突发事件,保障整个建云流程高效、有序地开展。

 

高可用统一运维平台

具体入云方案:喜马拉雅规划并构建IDC机房的高可用架构(符合国际和国家A级标准)建立云化的高可用统一运维平台,实现对现有和新增BMS资源池的整体全生命周期管理整个管理过程分3步

1)标准化流程构建:

建立全面且规范的管理流程,涵盖从资源配置到配置实施的各个环节,确保整个过程有章可循,形成标准化的操作规范。

2)自动化实施:

确保所有配置任务均已实现自动化处理,从而降低人为操作带来的风险。

3)机器运行实时监控与动态调整:

系统运行过程中,实施实时监控机制,发现潜在异常系统自动触发巡检流程,并根据巡检结果重新执行BMS下线、服务器上架及维修BMS上线操作,确保系统定运行。

2、入云:零停机迁移切换方案

喜马拉雅在音频行业有着强大的用户活跃度和市场影响力,业务覆盖广,系统复杂且相互关联紧密,一旦停机迁移切换,对业务影响巨大。在入云迁移中,必须要做到零停机切换,保障业务的连续性。因此制定出“零停机业务迁移”的入云方案,方案分为两大关键环节:分层迁移策略和有序切换步骤。

  • 分层迁移策略:先切应用层,后切数据层

策略如下:提前完成专线扩容(X.XT)

 应用层切换期间先灰度在全量,有问题可立即回退,回退过程平滑。

 数据层集中三天统一切换完成,减少中间态时间,减少专线故障风险

本次迁移工作,通过合理策略保障迁移稳定可靠,将对业务影响降至最低。鉴于稳定网络环境是迁移顺利推进的关键,首先完成专线扩容,保障网络稳定性与传输效率。应用层切换采用先灰度再全量策略,出现问题可平滑回退,有效降低迁移风险;数据层切换则集中三天完成统一切换,减少中间态时间,降低专线故障风险

  • 有序切换步骤:数据同步→应用发布→接入灰度切换→资源层切换

切换步骤如下:

① 数据同步

② 应用发布-RPC+WEB+Task单实例发布

③ 接入层灰度切流,流量100%

④ 资源层切换 

3、管云:全链路持续服务保障现网稳定运行,协助构建1-5-10的恢复能力

建云和入云只是建好“喜马拉雅运维长征路”,真正的挑战在于后续管云工作,管云通过高可用架构设计风险治理以及快速恢复的三大核心能力,来保障online全业务的稳定运行。同时,为应对极端情况或意外情况,我们还制定了X*X灾难应对和终极快速恢复方案。

 

管云:全链路持续服务保障现网稳定运行

1)高可用架构:为喜马拉雅IDC的高可用性评估与目标设计,制定可用度标准,有效防范平台系统性风险。

  • 构建高可用度量标准和测算方法,从架构视角对现网进行可用性调研和评估,输出各组件的可用度评估。
  • 制定运维全局可用度目标和各组件模块指标规范。

2)风险治理:在测试或者准生产环境中进行混沌工程风险管理,主动发现风险。

  • 明确混沌工程的具体试点场景(区域掉电、断网,机房高温),构建演练基线和演练流程规范。
  • 针对试点场景控制演练爆炸半径,通过模拟故障场景并执行演练评估和发现风险。

华为针对数据中心制定了四场景高可靠演练。


3)快速恢复&1-5-10:打造涵盖应用+云平台+中间件以及网络全栈的全方位监控体系,实现全链路故障定界,提高故障定界效率。基于华为云的产品能力及现有的监控运维工具,规划设计并实施从应用程序到云端再到网络的端到端全链路监控、故障定位、隔离与恢复方案,已在实际网络环境中进行验证。

构建1分钟(发现)-5分钟(定界)-10分钟(联合业务恢复)”的持续运维服务体系,采取识别、覆盖和演练的思路夯实目标达成的基础,确保在1分钟内发现故障,5分钟内完成故障定位,并在10分钟内实现业务的联合恢复。

1分钟发现故障:

  • 所有故障均能及时完成上报,并定期开展测试与演练。根据不同告警层级和阶段,设置了多层级报警机制,并持续优化了四道防线的报警规则,有效应对业务高峰期的挑战。
  • 对于批量故障和阈值检测产生的报警,进行了分类分级监控,以便快速响应和处理。同时,对潜在风险报警机制进行了持续优化,确保监控体系的高效性和精准性。

5分钟故障定界:

  • 将服务器、交换机、云资源等软硬件资源的信息固定下来,并针对专线等高风险场景优化故障定位方法,增加了拨测功能。
  • 核心运维团队成员保持稳定,包括技术支持经理(TAM)、二级运维工程师和其他关键岗位人员,均设置备用人员。
  • 通过持续的网络观察和讲解训练以及战情室演练,确保团队能迅速掌握并运用这些技能。

10分钟恢复业务:

  • 组建五种常见的批量故障模式库,涵盖了机房内部设备、CCE集群(高度自动化和管理化的Kubernetes服务)、网络(物理和虚拟)、专线以及DDoS攻击(全称:Distributed Denial of Service,分布式拒绝服务攻击)。
  • 分析四种高可用架构类型:冗余与灾难恢复、过载控制、故障管理以及访问路径。
  • 制定两种逃生方案:NAT(网络地址转换)和NG逃生方案(NG是在防火墙或其他网络设备中设,确保网络故障时能够快速恢复业务流量而设计的紧急方案)。
  • 所有的演练方案都必须达到100%的成功率。

4)X*X灾难应对和终极快速恢复方案:5分钟拉起X万核资源

出现地质灾害或其他紧急场景时,可以5分钟迅速拉起X万核的资源,将喜马拉雅原有的IDC和新拉起的IDC资源整合为统一的IDC机房实现资源的无缝对接极大地提升资源的灵活性和可用性。在双AZ(可用区)的加持下,整个迁移过程实现真正的无缝切换


四、关键经验总结

1. 建好云:搭建自动化流水线管理模式

  • 标准化与自动化:针对喜马拉雅复杂的IDC环境,通过标准化设备配置和自动化流水线管理,优化服务器生命周期管理,提升运维效率。
  • 弹性资源管理:采用资源分级管理和动态重分配策略,根据业务需求灵活调整资源池规模,提高资源利用率。
  • 高可用架构:构建符合国际和国家A级标准的高可用架构,为后续入云工作奠定了坚实基础。

2. 入好云:实现零停机业务迁移

  • 分层迁移策略:采用“先切应用层,后切数据层”的策略,结合灰度切换和快速回退机制,确保迁移过程的平稳性。
  • 快速资源拉起:华为云迅速拉起X万核资源,整合新旧IDC环境,实现资源无缝对接,保障业务连续性。
  • 有序切换步骤:通过数据同步、应用发布、灰度切流和资源切换的有序步骤,确保迁移高效稳定。

3. 管好云:构建确定性运维能力

  • 高可用架构设计:通过高可用性评估和目标设计,制定可用度标准,有效防范系统性风险。
  • 风险治理:采用混沌工程主动发现风险,通过模拟故障场景进行高可靠演练,提升系统韧性。
  • 快速恢复体系:构建“1分钟发现、5分钟定界、10分钟恢复”的运维服务体系,提升故障响应和恢复效率。

喜马拉雅通过“建云、入云、管云”三阶段实施计划,成功解决IDC机房在稳定性、网络扩展性、成本控制和运维管理等方面挑战,在稳定性、业务可用性、成本优化和安全保障方面均显著提升,整体推动基础设施和运维管理的现代化升级,提高喜马拉雅业务效率,增强市场竞争力,实现运维体系的全面升级。

五、价值体现

DC云化方案让喜马拉雅实现业务和技术价值双提升:

  • 业务价值
  • 成本降低:显性降本xxxw/月(机柜、带宽、服务器、交换机等),3年降本xxxxw+。
  • 运维效率提升:借助平台完成自动化定时巡检、一站式自主感知硬件信息。
  • 可用性提升:成熟的容灾备份机制,双AZ 999%可用性,XW核弹性快速扩容。
  • 技术价值
  • 应用优化:域名改造解决IP硬编码问题 | 容器化改造,提升服务稳定性。
  • 规范优化:统一内核参数规范 | 中间件组件版本升级归一。
  • 架构优化:服务、中间件双AZ高可用升级 | 超大数据库拆库隔离。
  • 安全优化:满足等保三要求,DDOS完成南北流量清洗,CFW完成东西流量防护,支撑TOPN IP溯源,支持快速定位和封堵。

六、总结

通过这次与华为云深度合作,喜马拉雅将服务器部署在华为机房中进行云化托管,引入其先进的云化托管技术和经验。喜马拉雅与华为云的这种云化合作模式不仅提高了资源利用率,还大幅降低了机房租赁和运维成本同时,依托华为云可靠的基础设施和强大的技术支持,喜马拉雅的业务稳定性显著提升,为业务的持续发展提供坚实保障。

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。