华为云维享会·浙江站:数智升级 释放企业云上管理澎湃生产力

举报
华为云确定性运维 发表于 2024/11/11 11:29:49 2024/11/11
【摘要】 11月8日,华为云维享会浙江站成功在华为(杭州)全球培训中心举办。现场聚焦运维稳定性治理、运维体系建设、监控告警体系设计等核心议题,共同探讨云时代的运维挑战,洞悉运维领域的新技术、新实践与新发展。

      随着企业数智化进程的深入,千行百业加速业务迭代,云资源爆炸性增长,运维管理逐渐面临诸多挑战。保障系统的稳定可靠,是企业业务最基本的“生命线”。如何运用确定性的方法来有效应对不确定性的问题,将成为未来运维工作的关键所在。

大合照16比9.jpg

图:现场合影

      11月8日,华为云维享会浙江站成功在华为(杭州)全球培训中心举办。现场邀请30余位浙江卓越企业代表、行业技术专家、运维负责人等各位嘉宾莅临现场,以“数智升级,释放企业云上管理澎湃生产力”为主题,聚焦运维稳定性治理、运维体系建设、监控告警体系设计等核心议题,共同探讨云时代的运维挑战,洞悉运维领域的新技术、新实践与新发展。

郑佳佳16比9.jpg

上图:华为公有云交付与服务总经理

      会议伊始,华为公有云交付与服务总经理在开场致辞中提到,在数智化转型过程中,企业需要提升运维能力和效率来应对日益复杂的运维挑战。华为云始终把安全、稳定、高质量放在第一位,经过多年经验沉淀并结合自身运维实践,成功构建确定性运维体系,故障可防可控可治,助力企业将业务系统中的不确定性变成确定性。希望在未来华为云能与大家携手并进,共创服务新价值。

      云上有为·运筹“维”幄

      在数字化转型中,IT运维面临稳定性和快速响应的双重挑战,需要从传统模式向"确定性运维"转变。

3.jpg

图:华为云计算全球生态部SRE专家

      会上,华为云计算全球生态部SRE专家带来分享《确定性运维赋能企业数智化转型 为云原生时代应用稳定性保驾护航》。他表示,随着数智化进程的深入,现网故障监控与快恢已成为企业共同关注的焦点。华为云结合自身运维实践,打造确定性运维平台AppStage,聚焦故障的快速发现与恢复,赋能企业IT稳定高效运行。通过技术创新和运维流程优化,集成先进的技术和工具,如AIOps、智能数据工厂和运维RPA等,提高故障监控告警准确率和覆盖率,从数据采集、处理到分析全流程自动化,构建确定性恢复能力,显著提升故障管理的智能化水平,保障系统可用性和用户体验。

4.jpg

上图:同花顺SRE负责人 杨征

      随后,同花顺SRE负责人杨征在会上与大家分享了《极端行情下的稳定性保障实践》。在9月24日金融监管部门宣布了降准降息等一系列重磅政策后,股市大涨,创2020年7月6日以来最大单日涨幅。在此极端行情下,同花顺从业务稳定性、技术保障策略、组织制度等维度,精准、有序、高效应对股市增长行情,最终达成无重大故障,无热搜舆情,增量业务转化保障。

      监控告警体系直接决定确定性恢复能力构建与SLO达成,面对体系建设的四大挑战:大规模、多站点、多服务与异构兼容,监控告警体系应如何设计?

5.jpg

上图:华为云监控专家

      华为云监控专家表示,监控要关注六大能力:设计态主要为监控即发现、定级、定界;保鲜保活主要为监控可视化、监控即代码、监控有效性。构建适应动态变化的监控告警体系对于业务提升服务稳定性和恢复效率尤为重要。通过SLOs、SLIs、VALET原则、事件管理、持续优化与保鲜等技术方法,赋能企业实现高效、精准的监控告警体系设计。

      云上运维·决胜云端

6.jpg

上图:华为云运维产品专家

      在运维提升确定性的过程中,可观测性也备受企业关注。华为云运维产品专家表示,华为云统一可观测平台集指标、日志、调用链数据关联分析、根因分析和场景化分析于一体,构建强可观测分析能力。帮助企业实现全链路可观测性,提升运维效率和业务稳定性,帮助企业解决特定业务场景下的实际问题,实现业务与技术的高效协同。

7.jpg

上图:海亮运维总监 刘建

      随着企业规模的扩大和层级的复杂,随之而来的管理挑战也愈加凸显。庞大的IT资源和冗杂的系统管理问题已成为企业运维的核心焦点。

      海亮运维总监刘建就集团型企业的云上运维管理实践与大家进行分享。在前期,海亮遇到了隐患发现难、定界定位难、问题恢复慢等挑战,针对性规划了统一运维管理平台,围绕事前要规范、事中快响应、事后控影响,完善运维态能力,及时响应并快速解决故障,支撑业务稳定可靠。目前,海亮已构建全生命周期消减风险流程体系,提升业务可用性,下一步将重点推进智能化运维、数字化运营。

      在企业IT系统业务规模逐步扩大,系统复杂度不断增加的背景下,基础设施开始大规模分布式演进,故障发生可能性大幅提升,演练验证系统的高可用性和故障的快速恢复能力越来越重要。

8.jpg

上图:华为2012实验室混沌工程专家

      华为2012实验室混沌工程专家分享《如何通过混沌工程管理系统可用性》,基于可用性管理面临的两大核心挑战:可用性定目标不可信、可用性抽象,建设了基于混沌工程的全新运维管理框架。分享提到,华为云已将混沌工程作为SRE的运维管理实践,系统地治理可用性,混沌工程能够在可靠性建设中发挥重要作用,更智能化地帮助企业完成业务可用性验证与优化。分享中还重点介绍了混沌工程落地的2个关键方法:FMEA+7维分析法,结合实施案例做了分享。

      在人工智能、大数据、物联网等技术革新背景下,华为云维享会通过联合2000+全球企业、学者与行业大咖共同开展白皮书、专刊和案例集等共创形式,分享最佳实践经验,通过IT建设与运营能力的持续提升,助力企业数智化转型,实现企业质效双升。华为云维享会将继续联合更多会员参与共创,为行业发展贡献专业价值。

      千磨万击还坚劲,任尔东西南北风。面向数字化未来,企业的IT运维将迎来更多新变革和新挑战。未来,华为云将基于自身数字化转型实践经验,持续深耕,携手客户、伙伴持续开展运维变革与创新,释放企业云上管理澎湃生产力,共同见证云上运维管理新篇章。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。