华为云拉美峰会召开,确定性运维驱动企业迈向智能未来

举报
华为云确定性运维 发表于 2025/09/05 15:18:25 2025/09/05
【摘要】 2025年9月1日,华为云拉美峰会开幕,华为云首席信息官受邀分享,与现场客户伙伴一起交流云上运维创新技术与经验。

      2025年9月1日,华为云拉美峰会开幕,本届大会以“以AI加速,以云拓展”为主题,华为云拉美区SRE专家工程师受邀分享《从混乱到控制:华为云确定性运维之道》,与现场客户伙伴一起交流云上运维创新技术与经验,与会者探讨云技术如何帮助企业降低成本、提高效率和促进业务创新,共赢云上行业智能化未来。

89.JPG

图:华为云拉美区SRE专家工程师

      在数字化转型浪潮中,拉美企业面临风险检测、响应效率和数据质量等挑战,运维成为加速企业组织变革的重要生产力工具,有助于提升系统效率与业务稳定性,推动组织变革。华为云是拉美客户多云的首选,其竞争优势主要体现在三个方面:

      第一,技术创新:已在拉美部署50多个混合云项目,依托华为卓越的软硬件集成能力,提供卓越性能;

      第二,商业优势:依托行业的丰富经验,以及强大的合规性和安全保障能力;

      第三,本地实力:拥有覆盖5个国家的数据中心、8大行业的2500多家本地合作伙伴,以及9个国家的本地化团队,实现深度本地服务支持。

      确定性运维实践,加速拉美企业变革迈向智能化

      确定性运维体系作为华为云内部总结的理念已被广泛应用和实践,和客户一起开展面向应用视角的稳定性提升工作,帮助客户在质量、成本和效率中寻找最优方案,为客户全球业务保驾护航。

      ● 质量文化是基础。华为云致力于构建高质量的质量管理模型,建立完善的质量控制体系和组织架构。为此,特别设立安全生产和质量管理委员会,通过业务部门、质量管理团队及公司审计团队的多层防线,实现组织化与系统化运作。

      ● 高可用设计是前提。华为云从接入层开始设计方案,对平台层、应用层持续优化改造,保障系统的可用度。持续不断开展混沌工程进行保鲜,每年数百次演练,确保当故障来临时的业务稳定性。

      ● 动态风险治理是保障。企业在人因工程中重点关注违规行为、错误、疏忽及遗漏等问题。华为云为此制定多项措施以减少人为失误率,通过系统管理和人员纠正机制来解决问题,并运用IT系统和算法实现智能拦截,从而有效应对人因失效。

      ● 智能运维是未来。华为云通过专家经验驱动AI系统,构建完整的数字孪生系统,快速连接客户资源与应用,实现高效映射与问题定位。未来,华为云将开放这些能力,使客户的应用层数据与系统关联,实现一体化管理决策。在算法层面,华为云采用大小模型结合的方式,融合多个专家系统,连接专家经验与物理世界,持续优化AI模型能力,提升效率和组织协同,逐步实现确定性。

      华为云专业服务,提供确定性运维解决方案支撑企业业务稳定运行

      华为云提供一系列的专业服务,帮助拉美地区的企业在多样化场景中更好地使用和管理云服务, 结合最佳解决方案和创新实践,与全球客户共同探索行业数智化转型。

      在确定性运维解决方案上,通过OES (operation enabling service)专家服务配合工具平台,将故障快恢、可观测、故障快恢验证等能力落地,使能千行万业迈向“确定性”;MS (Management Service)提供端到端的基础设施管理及应用管理,达到业务和资产情况全链路可观测的同时,围绕组织、流程、工具构建确定性恢复能力,助力客户聚焦核心业务,实现降本增效,持续构建稳定性核心能力体系,加速千行万业在实际场景中的落地应用。

78910.JPG

图:确定性运维解决方案

      华为云提供系列工具支撑企业运维提效。华为云提供一站式诊断工具,通过确定性运维评估问卷的方式,快速诊断企业的运维成熟度模型,并且自动生成运维优化建议。在COC(Cloud operations center)的工具上,为用户提供安全、高效的一站式智能运维平台,满足客户集中运维诉求。承载确定性运维业务场景,提供变更管理、批量运维等核心特性,实现在安全合规的前提下,提升用户运维能力成熟度和云上运维效率。在实验场景上,如“CPU使用率过载故障演练”,企业可以创建演练任务,启动演练,并查看演练过程,COC工具提供不同的实验场景,满足企业各种运维场景的使用。

      从“高可用”到“业务永续”的跃迁

      技术创新,构建“数字韧性”。 2025年2月25日,智利北部输电线路突发故障,引发全国范围的大规模停电,98%以上人口受到影响,公共基础设施大量瘫痪。在此突发情况下,华为云服务的跨国企业、金融机构和公共服务系统仍然稳定运行,业务零中断。华为云通过技术架构创新和全球化布局,华为云SRE团队做到全链路可观测,秒级报警,迅速识别事故根因,快速应急响应,端到端进行业务巡查,全面保障客户业务万无一失。经过为期27小时的重保,通过电力零中断切换柴发、1分钟Warroom响应、7×24h在线、持续监控和预警并完成业务端到端巡检,保障了客户业务的平稳运行。

      全栈联动,保障业务零中断。在此前2023年2月份的新加坡市电异常中,机房遭受双路市电电压骤降,制冷系统重启后工作异常,机房内持续温升最高至60℃左右,造成不可控风险。华为云紧急启动Warroom进行高温重保,经过22+小时全链路重保,在其他云厂商机房大面积故障时,华为云机房温度得以恢复正常,这得于华为云全栈软硬件一体化的监控系统以及华为云指挥系统,温控系统、硬件系统和软件系统也做到了全联动,最终实现业务零中断。

      在人工智能、大数据、物联网等全球化技术革新背景下,华为云维享会通过联合2000+全球企业、学者与行业大咖共同开展白皮书、专刊和案例集等共创形式,分享最佳实践经验,通过IT建设与运营能力的持续提升,实现企业质效双升,华为云维享会未来在拉美地区也将联合邀请更多企业参与共创,为行业发展贡献专业价值。   

      拉美的数字经济和技术创新需要一个更多元、更具活力的创新生态,需要全行业共同发展。华为云结合确定性运维体系的实践经验和7*24小时支持,在拉美当地确保对客户需求的快速反应,即使在极端情况下也能实现快速恢复,保障拉美客户业务的连续性。华为云将创新技术、全球化经验、行业数字化转型经验和全球化生态建设能力共享,帮助客户和伙伴更好地拓展全球市场,以安全可靠,智能运营,资源高效,业务敏捷为目标,让运维成为智能世界变革的加速器!

【声明】本内容来自华为云开发者社区博主,不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息,否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。