AI驱动质效双跃升 维享会·2024年度会议召开
2024年12月20日,维享会·2024年度会议召开,本次大会云集专家学者、行业技术先锋和企业会员,围绕企业关注的质量和效能展开分享和交流,结合确定性运维2.0经验,共同探讨最佳实践,推动企业提升运营和运维效率,驱动业务高质量增长。
现场合影
华为云SRE部部长安宇开场致辞,他表示:“确定性运维从开始提出到现在三年多时间,虽然谈论的是确定性,但每一年都在变。在快速变化的时代,运维并不是不变才是确定性,而是需要持续发生变革。在变革的过程,我们围绕安全、质量、运营等话题探讨,如何让运维体系成为整个企业IT发展驱动器,通过确定性运维驱动业务变革。维享会创造这样的一个互相交流的平台,和行业大咖一起共创,提升整个行业的运维质量、安全和运营效率等能力,也提升运维在数字化变革过程中起到加速器的作用。”
华为云SRE部部长安宇开场致辞
AI时代下运维能力提升的创新路径
会上,信通院云大所副主任郑立分享,当前AI时代业务的高速发展和复杂性,对系统稳定性和运维能力提出更高要求。为了满足这些要求,需要构建一套全面的智能化运维能力体系。稳定的算力基础承载AI算力资源,为智能化运维提供持续稳定的算力支持。智能化运维技术也是构建智能运维能力体系的关键,通过运用AI算法和模型,对运维数据进行持续加工和分析,可以提高运维效率和准确性。在此基础上,基于算法和模型开发智能化运维工具也是必不可少的,这些工具可以根据不同运维智能化场景的需求和特点进行定制化调整,从而满足实际运维需求。
郑立强调,未来在AI时代业务持续高速发展,信通院将继续完善各类运维和AI云标准体系的建设,构建全面而高效的智能运维体系,指导企业通过优化管理模式、提升技术水准,强化云服务运行安全水平,提升企业运维效率,降低运维成本,并为业务的稳定运行提供可靠的支持,推动产业协同发展。
信通院云大所副主任郑立分享
维享会2024总结及2025展望
会上,华为云SRE运维使能中心总监林华鼎分享,维享会在2024年与会员开展10+场峰会、20+专题沙龙、3+高校公开课/选修课、发布2期刊物,与会员开展确定性运维2.0实践经验交流和共创,共同推动产业发展。
林华鼎介绍,确定性运维1.0主要分享稳定可靠的1+N的体系能力,以及企业运维成熟度评估。面向确定性运维2.0的实践进阶,通过OES 2.0(operation enabling service)专家服务配合工具平台,将故障快恢、可观测、故障快恢验证等能力落地,使能千行万业迈向“确定性”;MS 2.0(Management Service)提供端到端的基础设施管理及应用管理,达到业务、资产情况全链路可观测的同时,围绕组织/流程/工具等构建确定性恢复能力,助力客户聚焦核心业务,实现降本增效,通过持续构建稳定性核心能力体系,加速在实际场景中的落地应用。在AI能力创新方面,借助平台能力,让企业低成本、轻量化、高效率部署AI Agent,实现灵活问数、智能报表和智能分析,适配模型和成熟落地场景,助力企业业务场景落地,提升业务效能。
林华鼎表示,确定性运维实验室基于确定性运维2.0,提供COC云管平台、运维成熟度诊断工具等工具场景化体验,为体验者提供一台云主机、一套开发工具和云上存储空间,汇聚昇腾、鸿蒙、鲲鹏等各项根技术的开发工具资源,并提供配套案例指导开发者从开发编码到应用调测。“让每个开发者拥有一台云主机”,低门槛体验华为工具和资源。展望未来,确定性运维与会员共创DevSecOps开发与运维工具链深度融合,发挥AI创新在IT治理中的重要作用,繁荣行业生态。
华为云SRE运维使能中心总监林华鼎分享
维享会新会员入会仪式
会议现场,华为云SRE部部长安宇向维享会新会员颁发入会证书,与会员共拓运营管理新范式,未来邀请更多会员开展共创专刊、白皮书等内容,开展多种交流形式,分享优秀实践观点,推动行业标准建设。
维享会新会员入会仪式
构建确定性运维能力:护航美宜佳实现高效运营
会上,美宜佳控股有限公司数据IT体系运管总监、技术总监吴鸿钦分享,随着业务量快速增长与数字化转型加速,运维工作面临故障数量较多和故障恢复时间较长等挑战,实现业务高质量和高效能,SRE成为必备条件,确定性运维变革成为关键路径。美宜佳基于确定性运维1+N体系实践经验,在一个底座能力管理体系上,不断深化6大支柱能力技术体系,围绕故障快恢和混沌演练等能力开展系统设计,制定运维变革和能力提升路径,采用专家服务与工具平台的模式,有效减少系统故障数量,提升业务系统故障管理能力,做到系统“少出事”、“出了事快速恢复”。加速组织运维变革,支撑百店同切方案达成确定性,促进系统韧性和演练能力双提升,加强主动运维能力建设,验证确定性运维技术维度可行性,支撑万家门店业务高速发展。
美宜佳控股有限公司数据IT体系运管总监、技术总监吴鸿钦分享
全新托管模式+运维升级,喜马拉雅进阶云上2.0
会上,上海喜马拉雅信息科技有限公司基础架构总监胡建华分享,在应对IDC战略升级,应对建设周期、运维成本与稳定性的挑战,喜马拉雅基于Cloud DC创新方案,在建好云方面,打造自动化流水线,主导工程交付,基于云化后的统一运维平台,打造自动化流水线管理服务器生命周期状态切换,OS及核心配置实时监控;在用好云方面,零停机切换,确保入云过程平稳顺畅,上云迁移实现应用零停机切换,保障业务连续性;在管好云方面,通过全链路运维体系,构建1-5-15的恢复能力。通过这些措施,现对业务中断的"零"感知,同时实现降低成本、提高效率的目标,支撑喜马拉雅业务快速发展。
上海喜马拉雅信息科技有限公司基础架构总监胡建华分享
一站式多场景AI应用,助推产业智能化转型
会上,新希望地产大数据总监王举分享,结合AI中台实现新希望集团全域资源统一管控,通过实现AI资产共享和数字化成果再赋能,在自然语言智能问数和业务数据分析报告等场景,开展全面线上化、数据可视化、决策智能化等阶段工作,助力业务降本提效。在地产业务,基于AI原生应用引擎实践,结合两大场景的AI解决方案,集中运营管控,赋能内部产业应用。通过智能问数平台方案,助推地产业务满足高自由度、高响应的数据查询,实现业务系统和开发工具互联互通,与业务系统无缝对接实现快速智能化,提供智能问数能力。同时,结合数据分析报告解决方案,以AI分析报告助推案场项目盘客数据可视化,基于大模型能力,自动生成项目不同角色每日盘客分析报告并分发跟进,提升一线效率,助推项目案场高效盘客,提高资源利用效率和业务流程的自动化程度。
新希望地产大数据总监王举分享
主题分享:确定性运维技术分享
会上,华为云SRE运维高级产品经理唐余鹏分享,华为云在2024年进行了大量实践,大部分企业对故障模式库和故障快恢十分重视,故障模式库是维护工作开展的基础之一。华为的故障模式库构建方案,是通过正向业务模块分层拆解,逆向FT-FMEA分析方案进行分析,正向、逆向叠加形成最终的故障模式库。在正向:业务模块分层拆分中,我们会打开业务的组网架构逐层的分析。逆向的FT-FMEA分析方法,是华为和伙伴基于标准FMEA联创的一个分析方法,这个方法规避FMEA方法在实际实施时难以匹配,容易导致故障模式发散,进而影响故障管理的效率等问题。华为云从实践中将场景融合为7维故障分析框架,确保故障全面分析的基础上故障模式不发散,有效提高故障场景分析的效率和质量。
唐余鹏表示,当前华为云有100+以上的专家持续在总结和维护关键故障场景,形成基线库,特别是MTTR的黄金指标,围绕故障模式库可以开展质量保障活动,比如:架构优化,上线前的测试、减少风险发生概率;另外就是故障快恢,围绕故障模式构建快恢方案,确保MTTR指标达成。整体来说,需要场景识别、恢复预案开发、预案演练执行和故障恢复,以及快恢平台的支撑。目前华为常态使用智能根因故障诊断技术,实现故障定界及自动化恢复。这些预案是否有效,需要定期进行现网的混沌演练,验证其效果,这些动作的实施有效保障现网稳定可靠。
华为云SRE运维高级产品经理唐余鹏分享
凝聚共识,AI驱动质效双跃升
在现场互动讨论环节,与会嘉宾积极讨论确定性运维白皮书2.0体系的能力深化内容,涵盖高可用设计、持续交付部署、运维能力可信、风险治理、资源治理、安全合规等,依据落地路径和优先级选出TOP5能力,为加速实现企业质效双升提供宝贵建议。此外,会员们还围绕业务云化后应用层、资源层运维管理可视化的需求,从链路的运维管理、统一的可视化监控、应用和资源的边界等方面提出见解,就确定性运维多云管理、故障快恢等核心能力的重要性达成一致意见,并重点讨论如何让AI开发与应用团队高效协同,如何让企业内人人懂AI、用AI,助力AI使能业务高质量增长。
2024维享会年度荣誉时刻
会上,为了嘉奖年度先锋实践者,维享会向2024年度积极参与贡献和参与分享的杰出会员颁发2024维享会“行业贡献奖”和“变革创新奖”,期待维享会会员分享更多优秀实践。
2024维享会年度荣誉时刻
未来,维享会将携手更广泛的专家资源与行业精英一起,不断突破技术边界,开展更多领域共创成果。结合AI创新,加速运维组织变革,实现企业云上质量和效能的跃升,释放云上澎湃生产力,让运维成为智能世界变革的加速器。
- 点赞
- 收藏
- 关注作者
评论(0)