DLI服务客户业务连续性保障之道
DLI(数据湖探索)作为华为云上的大数据Serverless服务,如果说易用免运维是服务存在的价值基石,客户上来使用后的业务功能连续性则是服务存在的安身立命之本。DLI服务结合华为云的高可用规范要求,以及自身的服务特点,逐步形成了一套端到端的用户可用性保障体系,找到了服务对用户承诺的保障之道。
高可用设计
服务管控面组件的多实例设计是基本的设计要求,每一个组件都提供了至少3个的实例备份,每个实例部署在不同的物理AZ,同时每一个组件实例出现异常时都能够被快速拉起,确保组件实例不衰减。从单个组件实例异常到整AZ物理节点崩溃的极端场景都能够有效保障服务管控面的极端运行。
对单个用户物理集群,集群管控面也做了多实例保障,计算节点则是通过自动排除异常节点,保障在出现单个异常节点的情况下剩余资源能够监控运行。另外,如果用户业务可用性要求特别高,还可以选择集群的多AZ能力属性。
用户业务异常快速监测
服务通过不间断的服务拨测,第一时间保障服务基本功能的可用性。另外,服务当前已设计了426项监控指标,从物理资源的基础指标、服务组件状态、周边组件可行性、API业务响应时长及成功率、单个用户的作业失败率等全方位对系统及用户业务可用性进行实时监控,当服务的关键监控指标性超出阈值,第一时间通过邮件、短信方式知会运维人员和相关用户。另外,当系统中出现关键的系统或作业执行失败时,系统自身也会第一时间触发告警。
WarRoom攻关与新用户上线保障
华为云针对现网关键问题的WarRoom攻关机制:
入口1监控发现:监控中心发现批量告警,或核心业务受损的告警,直接由监控人员联系War Room值班经理启动War Room。
入口2 报障发现:服务经理收到客户报障或运维人员通过巡检监控手段发现事故符合入口条件,直接联系War Room值班经理启动War Room。
监控中心值班经理为7*24小时oncall制,接到通知后5分钟以内启动War Room。
DLI服务在遵从华为云WarRoom规范的情况下,除了已有的现网老用户,针对新用户上线的初期,都会安排专人进行对接重点保障,以WarRoom的要求来确保用户业务平稳上线,保障其在上线初期的高风险周期内平稳运行。
用户功能兼容性保障
云模式是一套软件全网给万千用户提供业务能力,升级频率会经常会相比于用户自建IDC频繁很多,有时是因为新增增强了业务能力,又有时是修改了代码BUG紧急进行上线。如何保障频繁升级不对用户功能带来影响,是服务长期面临的灵魂拷问。DLI服务的做法是完整对照服务特性树列表,持续积累了2.6万个分级自动化测试用例(服务内部组件间Mock、周边组件Mock、无Mock),并针对实际用户的使用方式整理出了关键18个场景,每天持续构建验证,对现有能力做到完整测试覆盖。通过持续的自动化覆盖,保障不断新增的新特性不对老功能侵入影响。
一键式单组件快速上线
华为上的云服务,基于华为的伏羲系统做到了针对服务内单个组件的快速上线能力,通过在流水线上挂接分级用例,工程师在提交完影响业务功能的代码BUG修改后,一键式就能完成功能代码的快速安全上线,实现对业务问题的快速修复。
通过服务上线后3年多来的持续优化改进,以及华为云整体运维工程能力的提升, DLI服务已经连续1年以上没有收到影响客户主体业务的网上报障,逐步找到了在华为云上为用户可靠提供价值的发展之道。
欢迎体验数据湖探索(DLI)服务:https://www.huaweicloud.com/product/dli.html
- 点赞
- 收藏
- 关注作者
评论(0)