【云驻共创】大模型混合云,十大创新技术引领政企智能升级
前言
随着人工智能技术的快速发展,大模型在多个行业中正发挥着日益重要的作用。然而,大模型的训练和应用面临诸多挑战,如计算资源的高需求、数据处理的复杂性以及模型安全性的保障。为应对这些挑战,华为推出了混合云大模型十大创新技术,包括多样性算力调度、云边协同、AI-Native存储等。这些技术不仅涵盖了从基础设施到AI开发平台的全链条,还针对模型训练、数据工程和安全防护等关键环节进行系统性优化。华为云Stack致力于为客户提供强大的技术支持和专业服务,助力政企客户构建高效、可靠的大模型应用,推动行业智能化进程的加速。
大模型混合云发展
大模型已经成为当下的技术热点,OpenAI等公司不断刷新记录,硬件设备也一度供不应求,反映了人工智能技术的快速发展。然而,大多数大模型企业离实现盈利还有很长的路要走。大模型和生成式AI正处于技术高潮期,未来需要回归理性,真正为用户创造价值并实现商业化,才能有更广阔的前景。就中国而言,虽然在算力、算法和数据等基础领域可能不占优势,但得益于庞大的工业门类、金融消费人群以及政务城市体系,积累了丰富的应用场景和数据资源,为行业大模型的发展奠定了良好基础,有望在这一领域取得突破性进展。
在中国,虽然在算力、算法和数据等基础领域可能不占优势,但得益于庞大的工业门类、金融消费人群以及政务和城市体系,积累了丰富的应用场景和数据资源,这为行业大模型的发展奠定了良好基础。特别是在政务场景方面,由于数据安全和开发成本的要求极高,大模型落地面临众多不确定性。因此,通常采用先基于公有云进行预训练,再在私有云上使用私有数据进行二次训练的方式,既可以兼顾安全性,又可以控制成本,这成为当前最合规、最经济的路径。
我国拥有全球最丰富的工业门类、最多的金融消费人群以及最大规模的政务和城市体系,积累了丰富的应用场景和数据资源。这些都为大模型的发展提供了天然优势。
然而,政务场景的复杂多样性给大模型的落地带来了众多不确定性。数据安全、开发成本等挑战需要解决。业界常采用先基于公有云进行预训练,再在私有云上使用私有数据进行二次训练的混合云部署方式,既可以兼顾安全性,又可以控制成本,成为目前最合规、最经济的部署路径。
相比非云部署方案,混合云架构能够提供对通用算力和AI算力的统一调度,解决了监控难题。同时,丰富的技术栈可以更好地覆盖数据模型和应用开发,降低了开发门槛。此外,随着边缘推理需求的持续增长,云边协同的混合运架构将成为关键突破口,有效简化海量边缘设备的管理。
尽管我国在基础技术领域存在一定劣势,但凭借上述独特优势,已经为行业大模型的发展奠定了坚实基础。通过采用混合云部署架构,既可以兼顾数据安全,又可以控制开发成本,并为日益增长的边缘推理需求提供支撑
华为提出了政企大模型的三层架构,现已成为业界标准,包括硬底座、软底座和模型层。
硬底座提供了基础的通用与AI算力、存储、低时延网络等关键基础设施,确保系统的稳定性和高效性。
软底座是基于华为云Stack云基础设施,通过算存网协同实现多样化的算力调度。它支持智能与通用算力的融合,并通过云服务开发平台,提供开放的框架,支持多种工业大模型的全场景应用。整合了30多种通用大模型,并推出了相应的服务,全面赋能工业大模型的实施。
对于已部署华为混合云的客户,扩展AI算力变得简单如堆积木。用户可以在现有标准云服务的基础上,轻松叠加高阶AI服务,实现从通用算力到智能算力的平滑演进。这种灵活扩展的能力在业界中领先,只有华为能够提供这样的解决方案。
在未来,大模型有望成为政企技术和业务创新的重要平台。为了确保这一平台的高效服务,必须注重其技术基础,包括计算、存储、网络、安全和运维等核心领域。华为在这些方面做出了显著贡献,特别是在安全性和运维管理方面。
首先,大模型的实现面临着参数增长和算力利用率下降的挑战。为了应对这一问题,华为利用了多样化的平台、算力调度和加速能力来实现异构算力的有效融合。此外,通过高性能存储和多层缓存机制,显著提升了小文件加载效率,并通过200G的高速网络和全局负载均衡技术,将AI网络的控股能力提升了95%以上,从而最大限度地发挥每张卡的计算能力。
安全性是大模型应用中的一个关键问题,涉及各种潜在攻击和错误的价值观输出。为此,在原有系统防护的基础上,建立了数据模型和内容应用的双重防线,能够有效拦截新兴攻击,保障系统的安全性,检测率达90%以上。
运维管理同样是大模型应用中的重要环节。为了打破了传统硬件模型的局限,采用碎片化的运维方法,实现了全链路观测。系统能够在1分钟内发现问题,在10分钟内诊断,并在30分钟内恢复,确保了大模型不仅能够稳定运行,还能迅速恢复正常。通过这一改进,减少了大量的人力投入,提高了运维效率。
大模型的应用常被称为“大力出奇迹”,但不是简单的算力堆叠,关键在于如何高效利用计算资源。华为在这方面持续努力,通过工程化手段提升大模型的应用效率,确保算力的充分发挥。为了简化大模型的构建、训练和部署过程,华为提供了ModelArts一站式开发平台。这一平台支持大模型的异构集群管理、分布式训练、云边协同和全流程工作流,无论是哪个厂商的大模型,都可以在该平台上高效运行,同时底层算力也能得到优化调度,覆盖AI的全生命周期。
此外,华为基于强大的工程工具套件,提升数据模型应用的开发效率。数据质量和数量对于大模型的效果至关重要。华为通过数据工程套件提供智能数据获取、清洗、标注和配比技术,显著提升了数据的开发和标注效率,使其提高了10倍,同时也优化了数据质量。
在模型开发方面,华为结合盘古大模型的实践经验,沉淀了高效的训练方法。通过可视化的开发流水线和量化压缩技术,华为降低了大模型开发的门槛,使非高端开发人员也能轻松上手。华为的零代码开发工具进一步简化了开发流程,确保用户能够快速构建AI应用。
最后,在应用开发层面,华为引入了基于模板的工具,这一工具能够快速构建符合特定需求的应用,减少开发过程中投入的时间和精力。华为将复杂的问题留给自己,确保客户和厂商能够高效、无忧地使用大模型,实现5分钟快速构建AI应用的目标。这些措施共同推动了大模型的工程化应用,使其成为政企客户解决实际问题的强大工具。
在行业应用中,大模型的落地实施过程非常复杂。通过深入分析和总结,华为发现,当前面临的主要挑战包括经验不足、人才短缺和场景应用不明确。许多企业在使用过程中往往需要不断总结经验。为此,华为与众多企业合作,将积累的农业能力和经验整合,形成了六大阶段、三十个专业服务的完整体系。这一体系涵盖了从前期的影射POC测试、规划实施、数据集优化、场景分析、模型开发,到后期运维运营的整个大模型落地过程。
特别值得注意的是,大模型的运维和运营常被忽视,但它与建设同样重要。华为强调,只有注重大模型的运营和运维,才能确保其长期有效性和价值。例如,在鄂尔多斯,华为与客户共同进行大模型运营的辅助工作,推动了产业升级。这一过程中,华为不仅聚焦于拓展新场景和开发新的大模型,还致力于实现商业变现并提升大模型的长期价值。通过持续赋能和优化商业闭环,华为确保了大模型的实用性和经济效益。
华为的目标是将大模型从单纯的技术工具转变为真正的业务资产,通过不断深化合作和完善服务,推动大模型在实际应用中的成功落地。这不仅是技术的突破,更是商业化价值的实现,是华为在大模型领域的核心战略之一。
在大模型的产业发展中,生态系统的构建至关重要。华为一直强调,构建大模型的基础层和核心能力只是第一步。真正的成功需要吸引更多合作伙伴参与其中,形成一个丰富多样的生态圈。华为的定位是打造坚实的大模型底座和基础能力,借助的工具和服务,使更多具备专业知识的生态伙伴能够加入进来,为广泛的企业提供服务。
在具体场景应用方面,华为在金融、政府、矿业及其他能源行业中,已经聚集了100多个重点合作伙伴,基于盘古大模型和配套开发工具,构建了针对各行业的场景模型和创新应用。希望更多伙伴加入这一生态系统,丰富行业大模型方案,共同服务于各个行业的需求。
华为呼吁更多的合作伙伴共同分享AI带来的新机遇。目标是通过合作,集结更多的力量解决基础性和算法方面的难题,同时推动大模型产业的蓬勃发展。只有通过广泛的合作,才能真正实现大模型的价值,并推动其在各个行业的广泛应用。
在以往许多大模型的推出往往停留在技术层面,没有真正实现商业闭环。大模型的商业闭环必须紧密围绕行业应用展开。技术的有效性不仅体现在技术本身,更在于如何通过商业化实现长期的生命力。
华为能够与众多企业客户合作,开放业务场景,共同孵化并落地实践。例如,在政府层面的应用中,华为与多个城市合作,探索大模型在政务服务效率和城市管理优化方面的应用。通过AI技术在公文检索、事件分拨和政务处理中的应用,政务服务效率得到了显著提升,最高提升达95%。这些实际应用大幅度提升了政务工作的效率,为政务服务带来了显著改进。
在工业领域,华为与客户合作,探索矿山大模型与工业互联网的应用,通过云边协同提高矿山的安全性和效率。确保安全始终放在首位,同时推动AI与工业互联网的联合开发,促进跨行业、跨领域的应用。
在金融领域,华为与头部银行合作,探索大模型在研发、客服、授信等领域的应用,并取得了一定的成果。此外,华为还在铁路、电力等其他行业取得了积极进展。华为特别感谢并表扬了所有政府和企业客户,他们在大模型领域的实践非常务实,没有盲目跟风或冒进,而是按照清晰的目标和节奏稳步推进。
大模型的落地确实非常复杂,因为它涉及到一个复杂的系统功能,这对于一般企业来说具有很大的挑战。华为一直致力于围绕AI原生基础能力展开系统性的创新,不仅仅在应用场景上进行探索,还在技术层面上进行突破。经验表明,成功的落地必须同时具备技术支持和实际应用场景。
华为在云技术和基础设施层面发挥了软硬件协同和多云协同的优势,这些优势来源多年的实践。专注于异构计算资源的融合、多元化算力调度以及断点续训等技术创新。断点续训能力特别关键,它能够有效应对训练过程中的中断问题,避免因断点信息丢失导致的训练重启麻烦。华为致力于构建稳定、可靠、弹性高效的大模型启动基础设施,以支持大模型和AI应用的研发。
在开发平台方面,华为专注于数据治理、算力优化、量化压缩等核心算法,同时提供从数据工程到模型开发、应用开发的全流程自动化工具。目标是简化复杂的开发过程,提供成套的工具套件,助力模型的开发和部署。基于盘古大模型,华为采用了分层解耦的架构(5+N+X),持续优化统计数据编码、细粒度图文对齐以及三维多尺度神经网络等核心算法。
十大创新技术
在AI场景中,华为的AI算力占据了整体投资的大部分。如何高效地发挥这些AI算力的价值呢?业界面临的主要挑战之一是如何有效整合各类算力,包括CPU、GPU和NPU,统一进行管理?其次,在训练和推理过程中,是否能通过有效的调度算法提高算力利用率,从而提升线性扩展能力?
华为在这两个问题上取得了重要进展。首先,在统一管理方面,华为在K8S架构上开发了适用于异构算力管理的插件。这些插件不仅支持传统容器接入CPU,还支持GPU的接入。在训练场景下,基于Volcano调度引擎,华为开发了一系列通信效率优化的算法,如容器调度算法,解决了传统单容器调度在多用户并行场景下资源利用率低的问题。
此外,华为还开发了权重公平算法,解决了资源分配不均的情况,确保小任务也能获得足够的资源支持。为减少算力资源碎片化,华为推出了装箱调度算法和亲和调度算法,使得任务尽可能在单一节点或机房内完成,从而将算力利用率提升了47%。
在推理阶段,华为的算力切分算法能够将一张MPU卡切分为多张虚拟NPU卡,每张虚拟卡能独立承载不同的AI任务。通过这种灵活的切换,推理卡的资源利用率也能提高到80%以上。
随着AI大模型逐渐应用于诸如煤矿生产工业质检和电力巡检等工业场景,华为越来越意识到在边缘进行推理的重要性日益突显。然而,要在边缘部署AI,至少需要解决两个关键问题。首先是管理大量边缘设备的挑战,这些设备数量可能达到上万台,如何通过可视化的管理手段自动接收中心算法是一个难题。其次,面对如此庞大的设备群体,如何确保模型算法能够实时更新,保持持续更新和使用,也是一个重要挑战。基于华为混合云的云边协同方案,可以实现对海量边缘设备的统一管理以及模型更新的有效管理。
在中心侧,采用基于完播的二次形成一站式场景化训练工作流,旨在高效训练模型的同时实现统一的模型版本管理。模型在中心侧开发完成后,能够一键式地推送到边缘,边缘完成推理后,又能迅速将结果反馈给中心,实现中心的统一管控。
此外,边缘设备常常接收到一些AI误报和异常信息,包括增量数据。边缘设备接收到这些数据后,能够实时传回中心端,中心端的模型不断进行增量迭代和微调,保证模型始终更新,然后再将其推送至边缘。通过这样的架构,能够建立起中心训练、边缘推理、边学习、持续迭代的优化机制,将模型精度提升20%,并具备更强的适应性和应用性。
随着集群规模的不断扩大,面临着存储成为制约训练效率提升的一个瓶颈的问题。主要有两个方面的挑战:一是原始数据加载速度可能较慢,尤其是在集群规模扩大后;二是一旦出现故障,系统恢复时间较长,导致算力空转,降低了算力的利用效率。
华为云AI native存储提出了创新的三层架构,包括OBS数据湖、S3存储以及AI Turbo技术。在传统存储容量层和算力层之间,引入了高性能并行分布式文件系统AI Turbo。基于这一系统,通过SCT的闪存池构建分布式内存层级,有效降低延迟。借助云原生的弹性扩展技术,能够轻松应对TB级带宽和上千万LPS的挑战,应对AI训练的需求。
AI Turbo技术的主要解决问题是快速存储和恢复检查点文件。在保存阶段,通过异步持久化机制将检查点文件写入内存,使算力得以继续工作。随后通过异步机制将文件去重并存入活动存储,从而提高存储效率。在恢复加载阶段,AI Turbo能够智能感知故障类型。例如,对于进程级故障,直接从内存读取检查点文件并加载到节点上,任务可在10秒内完成。对于任务级故障,选择代表节点从表中拉取数据,并通过空闲参数网络广播到其他节点。通过这种恢复加载机制,成功将加载时间从以前的78分钟缩短到一分钟,大大提升了系统的可用性和效率。
大模型的计算和通信密切耦合,采用高带宽的网络已成为业界共识,尤其对于具备少量、大量和强同步特性的AI流量而言,通信效率取决于最慢的流。因此,提升整个网络的吞吐率对于大模型的训练效率至关重要。
传统的等价路由机制在处理少量流和大量流时可能因哈希不均而导致链路不均匀,进而引发网络拥塞和资源浪费。华为结合数十年在IT领域的技术积累,针对AI场景创新地提出了网络级负载均衡算法。该算法通过协同AI调度平台、网络控制器、AI服务器和交换机硬件设备,将AI任务调度与整个网络的通信关系及拓扑信息进行整合。
华为通过提前计算整个网络路径,并动态下发最优路径到网络中,实现了全网流量的负载平衡。这一优化措施使得整个网络的有效吞吐量能够达到95%以上。
华为始终秉承开放的态度,致力于支持更多的模型在华为的混合云平台上运行,充分发挥澎湃的算力。然而,在对接众多第三方大模型的过程中,这些模型中存在许多小算子。如果直接将这些小算子交给加速器进行处理,可能导致算力开销的显著增加和性能下降。此外,耗时较长的算子如果未能命中最优执行策略,也会导致算力利用的不充分。
基于异构技术架构,华为推出了一系列算子加速能力,包括算子融合、通算融合和算子自动调优。首先,在通算融合方面,将分布式网络通信中常见的算子与算法中的矩阵乘法算子进行结合,实现计算和通信的细粒度并行流水,从而降低运算时间。在算子融合方面,通过工序融合机制,将多个小算子合并,减少算子之间的过渡和中间数据的搬迁,从而降低内存开销。
在算子调优方面,华为运用智能化的数据切分技术,提前分析神经网络的计算过程,旨在尽可能使单个计算单元满载运行,减少系统资源碎片。通过这些优化措施,有效提升了算子的计算效率。
数据是人工智能模型算法构建的关键要素。在与多个行业客户合作的过程中,发现客户的数据通常存在一些重要问题,这些问题影响了数据的有效利用和模型的性能表现。
在企业构建专属大模型的过程中,面临着多个数据相关的挑战。首先,行业数据通常在企业内部处于零散状态,整合这些数据既困难又耗时。此外,获取外部数据也往往复杂而繁琐。其次,企业内部的数据类型多样,包括结构化数据和非结构化数据,但现有的数据加工工具无法有效处理这些多模态数据,导致数据质量较差。最后,大模型可能会产生不准确或偏颇的回答,因此需要高质量的校正数据来修正模型输出。
华为的大模型混合云平台提供了全链路的数据工程解决方案,包括八大创新工具,以解决这些问题。首先,通过内部数据集成工具,可以整合企业内部的IT和OT数据,并通过数据流通工具将外部数据纳入系统,从而提升数据集成效率50%。其次,在数据加工阶段,提供超过60种智能预处理算子、四类十大场景标注工具和三大类47个检查点标准化工具,这些工具可以将数据加工效率提升至10倍。
为了进一步提升数据质量,实施了负向数据过滤和智能推荐的数据比例调整,并提供可视化的数据资产管理工具。这些措施共同提高了数据的准确性,使得模型精度达到95%以上。
此外,数据的多样性也给大模型的训练带来了挑战。当前,AI模型的训练通常依赖于特定的数据结构,而不同模型可能需要不同的数据结构,这导致了数据的重复建模和较长的开发周期。在多模型开发过程中,数据工程的复杂性和周期延长的问题更为显著。同时,如果大模型只能处理表格文本等结构化数据,其预测精度通常较低,大约在60%左右。
通过华为的大模型混合云解决方案,企业能够有效整合和加工各种数据类型,提高数据质量,从而提升大模型的预测精度和整体性能。
华为云创新的统一数据编码技术,通过将多模态数据以三元组的形式输入到全局统一的大模型中,打破了传统大模型构建中面向数据建模的局限。该技术使得客户在构建大模型时,无需为不同的模型设计不同的建模方式。统一的数据编码形式使得模型可以更加高效地进行微调,从而实现大模型的快速开发和迭代。
基于统一的数据编码格式,华为云能够处理各种类型的数据,包括文本关联数据、时间点关联数据和图块相邻数据。这些数据以三元组编码的形式参与到训练任务中,有效地提升了数据的利用效率,使企业90%以上的数据得以充分发挥价值。通过这种方法,模型的精度至少提升15%以上。
这种技术的应用使企业能够实现更加高效和精准的预测,推动了数据价值的最大化和模型性能的显著提升。
在视觉大模型的应用中,特征参数提取是关键环节。传统的全局对齐方法常常忽视图像局部与整体语义之间的关联,从而导致特征信息提取不完整。另一方面,使用高分辨率图像虽然能够提供更多特征信息,但也会显著增加算力需求。
华为云通过引入创新的细粒度图文对齐技术,克服了传统全局对齐方式的局限性。通过像素区域和全图多层级的预训练方法,实现了精细的图像和文本关系对齐,解决了传统方案中存在的泛化能力差和精度低的问题。基于这种技术,华为的视觉大模型能够实现80%以上的业务场景开箱即用。
针对高分辨率图像带来的算力消耗问题,华为云采用了视觉空间压缩技术。在保留图像关键信息的同时,舍弃不重要的冗余信息,从而降低计算复杂度并加快推理速度。在实际测试中,该技术实现了40%以上的计算量减少,使得训练和推理速度提高了一倍。
这种优化使得视觉大模型在提供高效精确的识别能力的同时,也显著提升了计算资源的利用效率。
在大模型训练过程中,故障是一个主要的痛点,训练时间长,通常可能需要几个月,而故障的发生会导致训练中断,进而造成算力的空转。传统的故障检测和处理方式通常只能识别硬件或软件故障,并且处理方法多为冷重启,这一过程往往耗时数小时。
针对这一挑战,华为云大模型混合云平台引入了创新的无感断点续训技术。该技术包括全面的故障模式库和三级故障恢复架构,将故障感知和恢复时间从小时级别降低到分钟级别。华为基于多年IT运维经验,构建了一个覆盖服务器、AI卡、交换机及AI软件等四大类、超过1000种故障模式的全栈故障库。该库能够在分钟级内检测到95%以上的大模型故障。
一旦检测到故障,华为的三级故障恢复架构将进行故障处理:
1. 进程级故障:将故障任务挂起并快速重新启动。
2. 节点级故障:隔离故障节点,调度备机重新运行任务。
3. 集群级故障:对复杂的集群级故障进行并行加速,重新拉起任务。
通过这些措施,华为能够将故障恢复时间从以前的数小时缩短到分钟级,确保集群的稳定运行和高效的训练过程。
大模型技术在当前正处于快速发展的阶段,但随之而来的安全威胁也在不断演变。攻击者可能采用多种手段对大模型进行攻击,如对抗性攻击、隐私泄露、伪造信息等,这些攻击手段旨在寻找系统的安全漏洞。
为应对这些挑战,华为在云原生安全防护体系的基础上,推出了专门针对大模型的安全护栏特性。华为安全护栏是业界首个在中国信通院安全可信评测中达到5级的大模型安全方案。该方案包括以下几个关键特性:
1. 对抗性攻击防范:内置AI模型通过对抗性攻击检测防范技术,能够在第一道防线上拦截90%以上的攻击。该技术利用分类模型有效检测和阻止对抗性攻击。
2. 隐私保护*:通过内置的自然语言处理大模型,能够检测超过30种隐私敏感数据,进行毫秒级的检出,并对这些数据进行脱敏处理,确保用户隐私不被泄露。
3. 内容合规:针对多模态数据,提供超过1000种智能合规检测手段。通过正向引导,能够正确拦截95%以上的不良内容,确保生成内容符合合规标准。
4. 篡改检测:采用篡改检测技术,能够毫秒级地检测出对模型结果进行的篡改、信息修改等行为。同时,具备水印能力,使伪造信息可识别、可溯源,提升信息的可信度。
通过这些创新的安全措施,华为不仅提供了强大的防护能力,也确保了大模型在实际应用中的安全性和可靠性。
总结
本文详细展开了华为混合云大模型的十大创新技术,包括多样性算力调度、云边协同、AI-Native存储、增强AI网络、算子加速、全链路数据工程、统一数据编码、精细视觉神经网络、无感断点续训和安全护栏。这些技术覆盖了从云基础设施到AI开发平台和模型层,通过系统性创新加速了政企大模型的应用进程。
华为云Stack致力于打造优质的大模型基础能力,通过提供工具和专业服务,支持生态伙伴共同探索大模型与行业结合的创新路径。目前,已有超过100个重点合作伙伴在政府、金融、矿山、能源等行业中基于盘古大模型及开发平台构建了行业场景模型和创新应用。未来,华为云Stack将继续以坚定的战略耐心,深入行业场景,与客户和合作伙伴一起迎接AI的黄金时代。
本文参与华为云社区【内容共创】活动第27期 。
- 点赞
- 收藏
- 关注作者
评论(0)