数据智能运营平台开发 助力广义SRE能力构建

举报
SRE确定性运维 发表于 2023/09/08 16:07:15 2023/09/08
【摘要】 SREBI通过完善数据仓库建设、提升平台通用能力建设和优化业务视角设计等方式,解决领域内业务场景复杂性高、业务需求多线并行、数据分析时间成本高等问题,提高运维效率与数据准确性,帮助企业实现降本增效。

文章来源:《华为云确定性运维案例集(稳定可靠篇)》

业务背景.PNG

      SRE数据运营(简称SREBI)是在SRE部站点数字化下,面向运维领域经营管理而构建的数据运营系统,主要关注的是SRE对外度量、考核、评价与决策数据(含原始数据),驱动云服务产品质量改进。SREBI包括管理、运营、开发、运维、租户五大视角,还有六大纵向维度和六大横向维度进行产品功能和数据模型的设计,帮助开发和运维人员瞄准共同的SLO目标开展工作,及时针对可用性问题识别根因,梳理改进措施,成为广义SRE能力构建的得力助手。
      SREBI的主营业务场景包括现网质量、站点风控和客户风险,通过数字化实现SRE运维流程、运维安全、站点、服务、客户现状与风险可视化,促进站点、服务、客户的运维风险识别及闭环质量的改进。当前主要用户为各业务部门管理者,包括开发、运维与质量管理人员,日均PV 2000+,日均UV 300+。

业务现状.PNG

      随着业务场景及业务量的增长,SREBI需要处理更复杂的业务场景和更多的数据量;同时,由于业务的多样性和不确定性,SREBI需要确保数据的准确性和可靠性,以便更好地支持业务决策和风险管理。当前业务面临的挑战主要体现在以下方面:
      (1)SREBI覆盖的业务范围太广,当前只专注报表,业界对BI五个阶段:了解现状、解决问题、控制风险、预测未来、智能运营五个阶段,SREBI当前处于了解现状阶段,下一步需要做什么,怎么做,当前缺乏整体思考。
      (2)对于当前SREBI的需求,缺少整体分析,没有产品思维去思考,都是业务方驱动,最终导致的结果是定制化需求越来越多,积压的需求也越来越多。
      (3)SREBI数据来源依赖于数据湖,当前数据湖对于各领域数据都没有统一的SLA要求,依赖的数据入湖时间不可控,批作业失败不感知等,导致数据不可信,最终影响到下游的数据准确性、可靠性和及时性。
      (4)现有运维域的周边工具都有相关的数据可视模块,SREBI与周边工具的边界和定位不清晰,会导致业务需求不清楚在哪落地,重复开发浪费开发资源等问题。

方案实践.PNG

      为解决面临的挑战,SREBI从以下三个方面入手。

31.JPG

      1、数据仓库建设
      参照业界通用的方法论,从数据入湖、数据储存、数据开发等方向,再根据SRE领域当前的情况进行规范化。
      (1)数据入湖:建立标准的入湖流程,从业务对象和逻辑实体梳理,到数据安全定级,再到隐私数据法务评审,最后才是根据业务情况全量或增量的实施入湖动作,并配置恰当的监控告警,使湖内数据可信,有源可溯,有据可依。
      (2)数据管理:对数据从创建到销毁的整个生命周期进行管理和控制,对重要数据进行加密,并定期备份数据,以防止数据丢失或损坏,对热点数据进行缓存,对非频繁访问的历史数据进行归档,以释放存储空间,降低成本。
      (3)数据开发:根据维度建模理论,将SREBI的数仓分为SDI、DWD、DWB、DWS和DM五层,简化数据管理,提高数据表的复用性和开发效率,支持多维度的数据分析。

      2、平台能力建设
      根据SREBI当前人力管道不足的痛点,开发了两大明星功能并开放了业务自助分析的能力。
      (1)数据自动巡检:根据业务指标的历史数据,按照标准差的特定算法,每日自动巡检指标数据,异常时即会自动通知负责的开发人员,节省了每日人工巡检数据的人力。
      (2)通用数据集接口:设计了一套通用的数据接口能力,前后端人员按照固定的参数和SQL模板进行开发联调,不再需要按照传统的模式一个组件提供一个特定的JAVA接口,大大的提高了开发效率。
      (3)自助分析能力:借助AthenaBI平台的能力,按需逐步开放SRE领域的通用数据集,并进行培训,方便业务分析人员申请数据后自助的进行个性化报表开发和数据分析。

      3、业务视角设计
      按照SRE四大业务战场:全面质量、站点风控、服务韧性和大客户保障,SREBI从管理、运营、开发、运维、租户五大视角,还有六大纵向维度和六大横向维度进行产品功能和数据模型的设计,帮助各业务团队达成其目标。

业务提升.PNG

      协助业务目标达成:
      1. 现网质量:构建监控、事件、变更、问题、安全生产等领域的数据运营能力,通过对现网数据的持续运营,驱动产品改进,提升现网质量。
      2. 版本一致性:核心主力云服务公有云管理面微服务版本一致性提升,并冲刺100%;云服务完成租户面版本对接;完成缺陷&EOX版本治理。
      3. PRR优化改进:核心主力服务复盘率实现100%。
      4. OP账号治理:所有服务对接CCMS,实现公有云(含共享IAM的HCSO站点)整体轮转率提升。

案例总结.PNG

      SREBI通过完善数据仓库建设、提升平台通用能力建设和优化业务视角设计等方式,解决领域内业务场景复杂性高、业务需求多线并行、数据分析时间成本高以及数据准确性不达预期等问题,为各业务部门节省人力成本与时间成本,达成无需加大数据分析人力投入以应对不断增长的业务需求,提高运维效率与数据准确性,实现降本增效的目标。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。