- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

【云驻共创】打造最优混合云底座，使能大模型创新

皮牙子抓饭发表于 2024/08/05 17:08:50 2024/08/05

【摘要】华为云强调了共建现代化大模型混合云应用生态的重要性，并提出了全栈云数字化生产的最佳实践。华为云通过构建开放、包容的生态系统，整合公有云与私有云资源，支持大模型训练与应用，并覆盖DevOps、金融、医疗等多个领域。为实现高效、灵活的云服务交付，华为云引入了全栈智能集成工厂和数字化交付生产线，实现从评估、规划、设计、实施到验收的全生命周期管理。同时，华为云注重服务质量和效率，通过主动质量控制点和全栈周

摘要

华为云强调了共建现代化大模型混合云应用生态的重要性，并提出了全栈云数字化生产的最佳实践。华为云通过构建开放、包容的生态系统，整合公有云与私有云资源，支持大模型训练与应用，并覆盖DevOps、金融、医疗等多个领域。为实现高效、灵活的云服务交付，华为云引入了全栈智能集成工厂和数字化交付生产线，实现从评估、规划、设计、实施到验收的全生命周期管理。同时，华为云注重服务质量和效率，通过主动质量控制点和全栈周级交付模式，确保云服务的高质量和高效率。此外，华为云还利用AI技术进行智能优化，推动生产线的不断演进和进化，以适应快速变化的市场环境和技术趋势。综上所述，华为云正通过构建现代化大模型混合云应用生态和全栈云数字化生产最佳实践，引领云服务行业的未来发展。

一、AI算力与模型发展的未来展望

在HDC.2024开发者大会上，围绕“大模型混合云云平台技术发展”及“AI算力高效整合助力模型领先”的主题，探讨了AI技术在不同阶段的演进路径、应用场景与未来趋势，为开发者们提供了宝贵的洞见与建议。

1.1. 小模型时代：感知与理解世界

特点：小模型专注于特定领域的数据感知与分析，能够快速响应并理解特定场景下的信息。
应用：在专用领域如语音识别、图像识别等发挥重要作用，实现高效的数据处理与初步的智能交互。
建议：针对具体需求物理化部署小模型与服务器，优化资源利用，提升处理效率。

1.2. 大模型崛起：生成与创造世界

转变：从大模型的兴起开始，AI技术不再局限于感知理解，而是向生成与创造迈进，能够合成数据、模拟复杂场景并产生创造性结果。
云化算力：大模型需要强大的算力支持，云化算力建设成为关键。通过构建多样化的AI算力集群，实现算力资源的灵活调度与高效利用（如28%+45%的算力增长示例）。
应用扩展：大模型的应用范围扩展到通用领域，推动了AI技术的普及与深入发展。

1.3. 大模型普及：智能普惠世界

生产部署：随着技术的成熟与成本的降低，大模型开始进入生产环境，实现智能化的广泛应用。
轻量化部署：为了提升部署效率与灵活性，轻量化成为重要趋势，通过优化模型结构与算法，降低对硬件资源的要求。
高性能推理：在保证精度的同时，提升模型的推理速度，满足实时性要求高的应用场景。

1.4. 多云算力协同与云边协同

多云管理：面对多样化的算力需求，多云算力协同成为解决方案，通过统一的管理平台，实现不同云服务商之间的资源调度与共享。
云边协同：结合云端强大的计算能力与边缘端的低延迟特性，构建云边协同的AI系统，提升整体系统的响应速度与处理能力。
实际应用：已在40+边缘生产场景中成功应用，展示了云边协同模式的巨大潜力与广泛应用前景。

二、大模型混合云Cloud for AI：构建未来智能基石

“大模型混合云Cloud for AI”的主题，我们深入探讨了如何通过大规模、高性能、高可靠及云边协同的技术架构，推动AI技术的创新与应用。

2.1. 大模型混合云：一站式解决方案

平台介绍：大会介绍了大模型混合云平台，这是一个集投资、研发、生产于一体的综合性平台，旨在为大模型的开发与应用提供全方位支持。
关键组件：平台包含一站式大模型开发平台AMT、高效AI算力底座、多云管理与云联邦统一接入、算法与教控协同等关键组件，共同构建了一个强大的AI生态系统。

2.2. 技术特性与优势

大规模：平台支持千亿级别的模型训练集群部署，拥有大规模的AI节点集群和海量训练数据，为AI模型的训练提供了坚实的基础。
高性能：通过RoCE网络、调优技术及CKPT高速缓存层的应用，显著提升了模型训练的效率，缩短了开发周期。
高可靠：云硬协同技术确保了训练过程的长期稳定性，同时实现了故障感知与定界，结合智能化运维管理，保障了AI系统的持续稳定运行。

2.3. 边缘云：AI赋能生产前沿

多形态轻量化边缘：为了满足生产场站对AI技术的多样化需求，平台提供了多形态的轻量化边缘解决方案，提升了资源利用率，降低了部署成本。
高效赋能：通过边缘云技术，AI能够更加贴近生产一线，实现数据的实时处理与分析，为生产决策提供有力支持，推动产业升级与智能化转型。

三、大规模算力扩展与千亿模型训练集群部署

一个引人注目的焦点是“大规模算力扩展”及其在支持千亿模型训练集群部署方面的重大突破。

3.1. 算力扩展的迫切需求

随着中文预训练大模型规模的快速提升，对算力的需求也急剧增加。为了满足这一需求，大规模算力扩展成为关键。

3.2. 集群规模与节点能力

集群规模：大会展示了能够支持千亿级别模型训练的集群规模，包括数百至数千节点的配置，这些节点共同构成了强大的计算网络。
节点能力：具体提到了不同节点规模下的计算能力，如百节点、千节点级别的集群配置，以及它们各自在模型训练中的效率表现。

3.3. 大数据处理与存储

数据集规模：展示了处理TB级至PB级数据集的能力，这对于训练大规模模型至关重要。
CKPT与数据集管理：引入了CKPT（检查点）高速缓存层，支持PB级数据的高效读写，并实现了CKPT和数据集的长期保存。OBS（对象存储服务）用于冷数据持久化，确保数据的安全与可访问性。

3.4. 技术创新与优化

双处理理解涨器：通过采用先进的双处理理解涨器技术，提升了集群在处理复杂计算任务时的效率和稳定性。
存算分离（SFS Turbo）：实现了存储与计算的分离，进一步优化了资源利用，提高了训练效率。
语义直通数据联动：加强了数据在训练过程中的流动性和关联性，提升了模型的训练效果。

3.5. 大规模AI集群的应用

多场景支持：单集群能够支持千节点级的大规模部署，满足项目在预处理、训练、推理等多个场景下的需求。
弹性大容量样本存储：通过冷热数据分离策略，实现了样本数据的弹性存储，提高了存储效率和成本效益。

四、AI训练效率革命

我们深入探讨了如何通过技术创新大幅提升AI训练效率，特别是针对传统方案中存在的瓶颈进行了全面优化。

4.1. 传统方案的挑战与突破

传统方案瓶颈：传统100G ROCE网络存在hash冲突导致的负载不均衡问题，影响训练集群的整体性能。OBS存储虽然稳定，但8KIOPS的性能限制了CKPT（检查点）的保存和恢复速度，导致训练集群的发放和恢复耗时较长。
高性能算力底座：为了突破这些限制，我们引入了高性能算力底座，通过优化硬件和软件架构，实现了训练效率的大幅提升。

4.2. 存储与数据管理的创新

SFS Turbo存储加速：采用SFS Turbo技术，实现了高带宽（数百GB/s）和千万级IOPS的存储性能，极大地加速了CKPT的保存和恢复过程。同时，支持分钟级训练集群发放，显著提高了资源利用效率和训练速度。
块存储与CDM模型：结合块存储的优势和CDM（内容分发管理）模型，为训练数据提供了更加灵活和高效的管理方式，进一步提升了训练效率。

4.3. 网络性能的优化

高性能低时延网络：构建了无阻塞互联的高性能低时延网络，支持8*200G带宽，并实现了5U3的时延性能。这一网络架构不仅提升了数据传输速度，还通过减少等待时间提高了训练效率。
网络调优服务：提供专业的网络调优服务，通过精细调整网络参数和拓扑结构，有效提升了网络的有效吞吐能力，进一步将训练效率提高了20%。

4.4. 综合解决方案的优势

整体性能提升：通过综合应用高性能算力底座、SFS Turbo存储加速、高性能低时延网络以及网络调优服务等技术手段，我们实现了训练效率的整体提升。相较于传统方案，训练效率可提升50%以上。
快速响应与灵活部署：分钟级训练集群发放和CKPT秒级保存恢复的能力，使得AI训练过程更加灵活高效，能够快速响应业务需求的变化。

五、高可靠运维监控

关于“高可靠运维监控”的议题为我们揭示了如何通过软硬协同、跨域故障感知以及全链路监控等创新技术，实现分钟级故障感知定界与月级长稳训练，从而大幅提升AI训练与运维的可靠性和效率。

5.1. 软硬协同，跨域故障感知

集群健康保障：通过软硬协同的方式，实现了对集群的全面检查，确保0隐患、0故障。这一机制能够及时发现并解决潜在问题，避免故障发生。
高效故障处理：建立了高效的故障感知与定界系统，能够在作业运行后1分钟内感知故障，并在5分钟内自动恢复。同时，提供了详细的故障间隔时间和平均恢复时间数据，展示了系统的高可靠性和快速响应能力。
跨域故障模式库：构建了包含300+跨域故障模式的数据库，覆盖了计算设备、网络设备、存储设备等多个领域，为故障的快速定位和解决提供了有力支持。

5.2. 全链路监控与可视化

全链路覆盖：实现了从应用、中间件、数据库到物理设备的全链路监控，确保了监控的全面性和准确性。
分钟级可视定界：通过可视化界面，运维人员可以清晰地看到系统的健康状态、责任边界以及故障定界情况，从而快速做出决策。
统一数据模型：将100万+的数据孤岛整合为统一的数据模型，并构建了200万+的数据关系网络，使得数据之间的关联和查询更加高效和准确。

5.3. 断点续训与月级长稳训练

长稳训练能力：支持长达30+天的长稳训练，即使在遇到故障或中断时，也能通过断点续训机制保证训练的连续性和稳定性。
业界领先的断点保存机制：提供了业界最全的断点保存机制，支持5+种作业相关的断点保存，确保在任务中断后能够无缝恢复训练。
业务无感续训：通过智能的续训策略，实现了业务无感的续训过程，即使在训练过程中发生中断，也不会对业务造成明显影响。

六、智能化运维管理

智能化运维管理成为了一个引人注目的焦点。本次大会展示了如何通过先进的技术手段，实现运维管理的智能化升级，以覆盖更广泛的故障场景，并显著提升故障恢复能力。

6.1. 多层架构的全面覆盖

应用层：涵盖了业务应用、服务逻辑、公共依赖等，确保应用层面的稳定运行。
中间件与云平台：包括PCS、EVS、VP、FLS、NDSM等云服务组件，以及虚拟化层中的计算资源、存储资源和容器集群，实现了对中间件和云服务的深度集成与监控。
物理设备层：服务器、存储设备、网络设备等物理基础设施的全面监控，确保底层硬件的稳定性和可靠性。

6.2. 全链路拓扑与集中监控

全链路拓扑：通过0、I.6、RAN2Y等多种技术手段，构建了清晰的全链路拓扑图，使运维人员能够直观地了解系统架构和各个组件之间的关系。
集中监控：实现了对系统性能的实时监控，包括OS性能、数据库性能、业务性能指标等，以及日志和告警信息的集中处理，确保问题能够及时发现和响应。

6.3. 运维大模型与故障恢复能力

运维大模型：通过构建运维大模型，覆盖了80%以上的故障场景，能够基于历史数据和实时信息，对潜在故障进行预测和诊断。
故障恢复能力：将故障恢复时间从小时级缩短到分钟级，显著提升了系统的稳定性和可用性。同时，提供了丰富的故障处理策略和解决方案，确保运维人员能够迅速响应并解决问题。

6.4. 智能化运维工具与平台

即用型解决方案：提供了多种即用型解决方案，如自动化巡检、智能告警、故障自愈等，降低了运维门槛和成本。
分布式运维能力：支持大规模分布式系统的运维管理，通过自动化的方式实现资源调度、负载均衡和故障隔离。
灵活扩展与定制化：平台支持灵活的扩展和定制化开发，满足不同用户和业务场景的需求。

七、轻量化边缘

“轻量化边缘”成为了一个核心亮点，展示了如何通过多种边缘轻量化部署形态，高效赋能生产场站，推动AI技术的广泛应用。

7.1. 轻量化边缘云与AI平台

节点起步：从基础节点开始构建轻量化边缘云和AI平台，降低了部署门槛和成本。
推理卡算力切分：通过1:8的推理卡算力切分技术，显著提升了资源利用率，使得边缘设备能够承载更多的计算任务。

7.2. 云边协同与资源优化

避免云边重复建设：通过云边分展分级策略，实现了云资源与边缘资源的有效协同，避免了不必要的重复建设。
一朵云边峰建：构建了统一的云边协同框架，实现了资源的统一管理和调度，提升了整体服务效率。
本地化服务网络：针对边缘场景，构建了本地化服务网络，确保了数据的低延迟传输和处理。

7.3. 边缘智能升级

从边缘推理到边缘训练：不仅支持边缘推理，还逐步引入了边缘训练能力，使得边缘设备能够自主学习和优化，提升了系统的智能化水平。
AI工作流与场景化应用：通过AI工作流引擎，实现了对复杂场景的快速响应和智能化处理，推动了AI技术在生产场站中的广泛应用。

7.4. 灵活高效的算力资源利用

单卡多算法支持：支持NPU等硬件的单卡多算法运行，实现了算力的灵活配置和高效利用。
算力动态调度：根据任务需求和资源状态，动态调整算力资源的分配，确保了计算任务的高效执行。

7.5. 开发能力与部署灵活性

强大的开发能力：提供了丰富的开发工具和API接口，降低了开发门槛，加速了应用的开发和部署。
灵活部署形态：支持多种边缘部署形态，包括边缘服务器、边缘网关等，满足了不同场景下的部署需求。

7.6. 生态建设与产业合作

开放平台与生态合作：构建了开放的边缘计算平台，吸引了众多合作伙伴的加入，共同推动边缘计算技术的发展和应用。
产业协同：通过产业协同和资源共享，推动了边缘计算在工业、农业、智慧城市等多个领域的深入应用。

八、多云算力管理

“多云算力管理”的议题深入探讨了如何在多云环境下实现高效、灵活的资源管理和调度。

8.1. 多云合一的管理架构

多级云算力管理：构建了一个统一的多云管理架构，支持对多个云平台的算力资源进行集中管理和调度。这种架构能够跨越不同的云服务提供商，实现资源的统一视图和统一管理。
两级分布式云管平台：通过两级分布式云管理平台（如华为云Stack ManageOne），实现了对全局云资源的统一调度和管理。这一平台不仅支持公有云资源，还覆盖了私有云和混合云场景，实现了云资源的全面覆盖。

8.2. 跨云算力调度与管理

跨云算力调度：提供了跨云算力调度服务，能够根据业务需求、资源成本、性能表现等因素，自动选择最优的云资源进行任务部署。这种调度策略不仅提高了资源利用率，还降低了运营成本。
多云资源统一度量：通过一站式多云资源度量工具，实现了对多个云平台资源的统一监控和度量。运维人员可以清晰地看到各个云平台的资源使用情况和性能指标，为决策提供依据。

8.3. 联邦认证与权限管理

联邦认证：支持快速集成多个云平台的认证体系，实现了用户身份的统一管理和认证。这简化了用户在不同云平台间的登录和访问流程，提高了工作效率。
权限管理：提供了完善的权限管理机制，包括权限分配、角色管理、流程审批等。这确保了资源的安全访问和合规使用，防止了数据泄露和非法访问。

8.4. 灵活配置与接入管理

灵活配置：支持对云服务进行灵活配置和调度，包括UAAS、PAAS、容器、数据库等多种云服务。用户可以根据业务需求快速部署和调整资源，满足不同的应用场景。
按需接入：提供了按需接入管理功能，允许用户根据实际需求逐步接入新的云服务或云平台。这降低了初期投入成本，提高了系统的可扩展性。

8.5. 综合运维服务

综合运维服务：包括登录认证、申请审批、故障分析、监控安全等多个方面。这些服务共同构成了一个完整的运维体系，确保了多云环境的稳定运行和高效管理。
无服务器和无状态服务：支持无服务器计算和无状态服务，进一步简化了应用部署和管理流程。这使得开发者可以更加专注于业务逻辑的实现，而无需担心底层资源的配置和管理。

九、积木式云服务组合交付能力

“积木式云服务组合交付能力”的议题，展现了华为如何通过灵活组合“算力+数据+大模型+应用”的云服务，为不同行业构建最优的大模型云平台。

9.1. 积木式组合交付的核心理念

灵活性与可扩展性：积木式组合交付的核心在于其高度的灵活性和可扩展性。企业可以根据自身需求，像搭积木一样自由选择和组合不同的云服务组件，快速构建符合自身业务场景的大模型云平台。
一站式解决方案：通过整合算力集群、数据治理、大模型训练及应用开发等多个环节，华为提供了一站式的大模型云平台解决方案，降低了企业的技术门槛和运维成本。

9.2. 核心服务组件

算力集群建设：华为提供了强大的算力集群建设服务，包括高性能计算资源、存储资源和网络资源等，确保大模型训练和应用的高效运行。
数据治理工程：数据是大模型训练和应用的基础。华为的数据治理工程服务帮助企业实现数据的清洗、整合、加密和安全存储，确保数据的质量和安全。
大模型训练与应用：基于领先的AI技术和算法，华为支持多种大模型的训练和优化，如盘古大模型等，并提供丰富的应用接口和开发工具，助力企业快速将大模型应用于实际业务场景。

9.3. 行业定制化解决方案

行业大模型：针对不同行业的特点和需求，华为推出了定制化的行业大模型，如工业大模型、金融大模型等，这些大模型在特定领域具有更高的精度和泛化能力。
批量交付平台：通过构建批量交付平台，华为能够高效地为多个客户提供定制化的大模型云平台解决方案，加速行业数字化转型进程。

9.4. 技术生态与合作伙伴

技术生态构建：华为积极构建开放的技术生态，与众多合作伙伴共同推动大模型技术的发展和应用。通过技术交流和合作，不断提升大模型云平台的性能和功能。
全球化服务网络：依托华为的全球化服务网络，企业可以享受到跨地域、跨时区的技术支持和运维服务，确保大模型云平台的稳定运行和持续优化。

十、共建现代化大模型混合云应用生态与华为云全栈云数字化生产最佳实践

在华为开发者大会2024的展望中，共建现代化大模型混合云应用生态成为了核心议题之一。华为云通过其全栈云数字化生产最佳实践，携手伙伴及各行业用户，共同推动这一生态的繁荣与发展。

10.1. 共建开放生态

混合云应用生态：华为云致力于构建一个开放、包容的混合云应用生态，通过整合公有云与私有云的优势，满足企业多样化的业务需求。这一生态不仅支持大模型的训练与应用，还涵盖了DevOps、金融、医疗等多个领域。
统一技术框架和标准：为了实现生态的顺畅运行，华为云倡导并实践统一的技术框架和标准。这有助于确保云服务在不同平台间的无缝对接和持续同步，提升整体的服务质量和效率。

10.2. 全栈云数字化生产最佳实践

全栈智能集成工厂：华为云提供了从评估、规划、设计、实施到验收的全栈智能化生产流程。这一流程涵盖了硬件安装、软件部署、性能调优等多个环节，确保云服务的快速、高效部署。
数字化交付生产线：通过引入数字化交付生产线，华为云实现了云服务从需求到交付的全生命周期管理。这一生产线不仅提高了交付的准确性和效率，还为企业提供了更加灵活、按需的服务组合升级能力。

10.3. 高质量与高效率

主动质量控制：华为云构建了主动质量控制点，通过实时监测和预警机制，确保云服务的持续高质量运行。这有助于减少故障发生的可能性，提高用户满意度。
全栈周级交付：通过全栈周级交付模式，华为云能够快速响应市场需求，实现云服务的快速迭代和升级。这种高效率的交付方式有助于企业保持竞争优势，快速占领市场。

10.4. 持续演进与优化

AI智能优化：华为云不断利用AI技术进行智能优化，推动生产线的不断演进和进化。通过自动化和智能化手段，提升生产效率和服务质量，为企业创造更多价值。
持续演进策略：面对快速变化的市场环境和技术趋势，华为云坚持持续演进的策略。通过不断创新和升级，确保云服务的先进性和竞争力，为用户提供更加优质、高效的服务体验。

本文参与华为云社区【内容共创】活动第27期,

任务5: 主题2：打造最优混合云底座，使能大模型创新

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消