华为云亮相 KubeCon China 2025,开源生态引领 AI 时代技术跃迁

举报
华为云开源 发表于 2025/06/17 18:44:52 2025/06/17
【摘要】 上周,云原生计算基金会(CNCF)旗舰会议 KubeCon+CloudNativeCon China 2025 在中国香港盛大召开。华为云重磅参会,在主题演讲, 分论坛,圆桌等多个会场带来10+场精彩演讲,深度分享云原生 AI 调度、智能边缘、多云容器、数据库、流量治理等领域前沿技术成果,领先构建 AI-Native 云原生基础设施,加速行业智能化升级。

上周,云原生计算基金会(CNCF)旗舰会议 KubeCon+CloudNativeCon China 2025 在中国香港盛大召开。华为云重磅参会,在主题演讲, 分论坛,圆桌等多个会场带来10+场精彩演讲,深度分享云原生 AI 调度、智能边缘、多云容器、数据库、流量治理等领域前沿技术成果,领先构建 AI-Native 云原生基础设施,加速行业智能化升级。

开源生态引领AI时代技术跃迁 

Towards Clouds of AI Clusters

会上,华为首席开源联络官, CNCF 基金会董事任旭东带来 “Towards Clouds of AI Clusters” Keynote 主题演讲,深度分享了AI原生时代的算力集群技术演进趋势,及华为在异构集群管理、云边协同AI、超大规模调度等领域的应用实践。

任旭东表示,当前企业在管理 AI 工作负载时,仍面临严峻挑战,尤其是在大模型训练、推理中对算力规模和集群协同的极高要求。应对大模型背后的算力困局,不仅需要异构硬件的高效协同,更依赖开源技术栈和分布式范式,如数据并行、模型并行、流水线并行进行深度支持,对异构算力的全栈兼容,最终才能在降低单位训练推理成本的同时,加速万亿参数级模型的商业化落地进程。华为通过 openEulerVolcanoKarmadaKubeEdge 等开源项目,从硬件驱动到集群资源调度实现算力设备的统一管理,支持 HyperNode 与多集群拓扑感知调度,并对 PyTorch / TensorFlow / MindSpore 等主流框架、大语言模型( LLMs )及智能体开发场景提供统一支持的全栈开源基础设施解决方案。

Volcano+Karmada 驱动 B 站亿级月活云原生AI调度

华为云云原生开源负责人,CNCF 技术监督委员会副主席王泽锋联合 Bilibili 资深研发工程师许龙,发表 “Optimizing AI Workload Scheduling: Bilibili's Journey to an Efficient Cloud Native AI Platform” Keynote 主题演讲,深入探讨 B 站人工智能工作负载调度优化实践。

Bilibili 拥有上亿月活用户,围绕视频业务覆盖搜索推荐、图像处理、视频编解码等多种应用场景。在 AI 技术深度渗透视频处理、模型训练等场景的当下,B站面对负载多样性、多集群管理等算力挑战,构建了以 Volcano Karmada 为核心的调度框架:

单集群侧通过 Volcano 实现 Workload 统一调度,引入等价类调度与 JobSet 对象优化性能;多集群层用 Karmada 支撑在线任务联邦调度,自研轻量系统解决离线高吞吐需求。结合 GPU 共享调度、编解码混合等三种模式,在提升资源利用率的同时,为 B  AI 应用落地提供了高效的云原生算力支撑。

Volcano 助力科大讯飞实现AI基础设施突破,赢得 CNCF 最终用户案例

会上,华为云云原生团队高级工程师常旭征联合科大讯飞平台架构师董江,发表 “Scaling Model Training with Volcano: iFlytek's Kubernetes Breakthrough” Keynote主题演讲,分享基于 Volcano 的云原生 AI 训练资源调度优化方案。

科大讯飞在大规模模型训练中借助 Volcano 实现关键突破:通过构建基于 Volcano 的统一计算平台,集成 AirFlow / Spark 等传统任务框架,以队列机制解决多租户资源公平分配问题,同时运用 Gang 调度、Binpack 算法及拓扑感知策略,将 GPU 利用率提升 40% 以上,故障恢复时间缩短 70%,资源干扰率降低 50%,保障业务稳定性和资源使用灵活性。

Volcano 是华为云发起开源的业界首个云原生批量计算引擎,也是 CNCF 首个批量计算项目,主要用于 AI、大数据、基因、渲染等诸多高性能计算场景,能力涵盖队列与资源管理、统一作业 API、多样化调度策略、在离线混部、GPU 虚拟化、异构算力支持及性能优化等关键领域。针对当前大规模AI集群的性能问题,Volcano 新增基于 HyperNode 的网络拓扑感知调度策略,大幅提升人工智能训练和推理效率。

Cloud Native for AI,云原生使能大规模人工智能产业发展 

Karmada:破解AI任务部署多集群编排难题,支撑大规模数据平台的弹性与可靠性

Karmada 作为云原生多云多集群管理引擎备受用户与开发者欢迎。来自华为云的Karmada 社区 Maintainer 任洪彩,围绕 Karmada 的技术更新、核心特性、实际应用案例及社区生态展开,讲解了近期版本中备受关注的应用跨集群滚动更新,有状态应用故障迁移,优先级调度机制,Dashboard,联邦资源配额等特性。

同时,华为云技术团队也与 Bloomberg 进行了社区合作交流。 Bloomberg 分享了其利用 Karmada 构建弹性数据分析平台的实践经验,展示了 Karmada 在多集群管理场景下的优势性能。通过功能迭代和生态扩展,Karmada 解决了企业在跨集群管理中的核心挑战,Bloomberg 等企业的实践证明,Karmada 能够有效支撑大规模数据平台的弹性与可靠性需求,未来在 AI 训练、边缘计算等场景的拓展值得期待。

KubeEdge 赋能多领域、多场景边云协同AI智算

来自华为云云原生团队的KubeEdge社区Maintainer鲍玥,携手社区伙伴,带来4场云原生边缘计算技术演讲,议题涵盖KubeEdge大规模实现、落地案例分享以及社区治理工作等多个方向。在 “KubeEdge 社区新特性解读及多元场景案例” 使用混沌工程构建超大规模云原生边缘系统” “KubeEdge 深度探索:架构、用例和项目毕业动态” 系列议题中,KubeEdge分享了社区在智慧物流、机器人编排等领域的行业案例,介绍了项目在边缘场景中发挥的统一化管理、边缘自愈、实时性等优势,同时也带来了社区最新的新特性,包括支持批量边缘节点管理,全新DashBoard,子项目Sedna支持HPA等,以及在支持大规模场景的探索实践。

作为 CNCF 首个云原生边缘计算毕业级项目,KubeEdge 的毕业旅程备受关注,在“ KubeEdge毕业探索:从零开始构建多元化、协作型开源社区圆桌中,KubeEdge TSC 等技术专家, 共同向参会者分享总结了 KubeEdge 在社区发展与毕业历程中所做的工作,从技术成熟度、采用率、社区多样化、中立性等多个角度探讨社区健康发展的关键要素,并对 KubeEdge 毕业后的工作进行了规划与展望。

Kmesh:内核级流量治理引擎, 高效应对大规模流量应用需求

Kmesh 是集高性能、低开销及安全可靠于一身的内核级云原生流量治理引擎。本次大会上,来自华为云的 Kmesh 社区技术专家徐中虎一行,在 4 场议题演讲中分享,涵盖 Service Mesh 高性能、低底噪、安全性,易用性方面的探讨。本着轻量、易用、应用无侵入的设计原则,Kmesh 使用 eBPF  Service Mesh 彻底革命,推出业界极具竞争力的 Sidecarless 方案,在性能和可靠性上遥遥领先于业界相关竞品。

Kmesh 从高性能、低开销技术愿景出发,借助 kfunc,内核原生模式将流量治理能力完全下沉到 Kernel Space。同时,为解决 Service Mesh 重启升级影响用户业务稳定性的问题,Kmesh eBPF prog BPF Map Kmesh Daemon 运行进程分离的方式,实现重启升级不影响业务已有连接,减了 Service Mesh 对业务稳定性的影响。Kmesh 创新性地利用 Linux 内核的 XDP 技术,在网络包进入内核协议栈之前就进行快速处理,极大地降低了时延,提高了吞吐,克服了在处理大规模流量时,用户态鉴权存在的瓶颈,实现了服务间极致的鉴权性能。

openGemini:高性能时序数据库,降低企业业务成本

openGemini 是一款高性能时序数据库,主要面向物联网,车联网和运维监控等场景,为用户提供海量时序数据的高效存储和查询。openGemini 目前已经在能源、电力、航空航天、devops、物联网、车联网、矿山、大宗物流等 9 大领域应用落地。本届 KubeCon ChinaopenGemini 正式以 CNCF Sandbox 项目的身份参与。

会上,来自华为云的 openGemini 社区 Maintainer 向宇,向与会者在介绍了openGemini 技术特性与未来规划,并重点介绍了数据多副本及流式计算两个重要新特性,多副本可满足多数业务对数据可靠性的需求,同时社区将流式计算融入内核,简化业务架构,降低业务成本。

智能驱动的新一代AI-Native云原生基础设施   

云原生已迈入全面智能化的新阶段,华为云通过AI重构云原生,打造更适合AI应用的基础设施,为用户带来全新的智能化使用体验。在华为云展区,讲解专家向与会者展示了AI-Native的云原生基础设施,包括 UCSCCICCE AutopilotCCE Turbo 等多个行业级云原生代表产品,并介绍在 KubeEdgeVolcanoKarmadaKuasaropenGeminiKmesh 等业界首创开源项目中的技术创新成果。

作为云原生与 AI 领域的先驱者,华为云凭借多年来的产业实践和技术创新,连续8次蝉联中国容器软件市场份额第一,Omdia 评价产品战略与执行全球第一,打造业界领先的云原生解决方案,为企业数智化转型提供强大动力。

开源生态加速 AI 时代技术革新,驱动行业智能化跃迁。从 Cloud Native AI Native,技术创新助力产业可持续发展,我们期待与您共建繁荣云原生生态,携手全球企业与开发者,共赢产业智能未来。

【版权声明】本文为华为云社区用户原创内容,未经允许不得转载,如需转载请自行联系原作者进行授权。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。