昇腾CANN 8.0正式发布,多项核心技术引领大模型原生创新

举报
昇腾CANN 发表于 2024/10/17 09:40:57 2024/10/17
【摘要】 近日,在华为全联接大会2024期间,华为常务董事、ICT基础设施业务管理委员会主任汪涛重磅发布CANN 8.0。

近日,在华为全联接大会2024期间,华为常务董事、ICT基础设施业务管理委员会主任汪涛重磅发布CANN 8.0。新版本新增80多个融合算子、100多个Ascend C API,自研NB2.0和NHR集合通信算法并全面适应于超节点方案,基于LLM P-D分离部署方案设计并发布LLMDataDist组件,同时支持图模式能力扩展库TorchAir,提升PyTorch在NPU上的大模型推理性能。

昇腾异构计算架构CANN作为昇腾AI生态的根基和锚点,基于软硬件深度协同优化,持续构建昇腾产品解决方案在性能、易用性、稳定性和开放生态等方面的竞争力,全面支撑客户和开发者基于昇腾算力进行原生创新。

1 新增80+融合算子,大模型性能再提升

CANN 8.0全新升级昇腾算子加速库,新增200多个深度优化的基础算子,同时新增和优化80多个融合算子,覆盖MoE、多模态等场景,大模型执行性能提升显著。

新版本中,CANN针对MoE关键流程节点新增MoeGatingTopKSoftmax算子融合gating部分的softmax和topk计算以减少访存;新增MoEInitRouting加速routing处理,新增GroupedMatMul支持专家分组和并发执行,融合后的算子可提升20%-70%的计算性能;针对多模态理解场景,将图像加载和预处理下沉到昇腾Device侧,解码和预处理性能提升88%。

同时,优化实现FlashAttention融合算子,支持伪量化场景MSD(Multi-Scale-Dequant)方案量化加速,分解Q为多个int8的线性组合,将计算从A16W8变为A8W8,访存减少接近100%,可达到70%-100%的性能提升效果。

针对大规模集群场景,新增实现AllGatherMatMul、MatMulReduceScatter、MatMulAllReduce等通算融合算子,使得训练场景算子性能平均提升20%+(整网8%+);推理场景算子平均性能提升14%+(整网5%+)。通算融合方案通过加速引擎协同机制,将AICore、AICPU、SDMA处理过程并行,从而实现计算和通讯相互掩盖,达到计算和通信并行的效果。

通算融合性能提升效果对比图如下:

1.JPG

2 HCCL集成自研NB2.0和NHR等集合通信算法,全面适用于超节点方案

AI技术演进催生了全新的计算范式。长序列、多模态显著提升训练算力需求,然而,随着集群规模不断扩展,通信开销从原来的20%增长至50%以上,成为性能瓶颈,使得算力无法充分利用。在此情况下,基于高速总线互联的超节点技术逐渐成为解决问题的方案,同时,对于通信优化算法以及分布式并行算法也提出更高要求。

CANN8.0版本推出自研NB2.0通信算法,在硬件层面进行自适应通信域优化,复用SIO/HCCS/RoCE通信带宽,通过更细粒度的并行策略,减少通信步数,充分利用超节点通信全链路,将带宽利用率从不足40%提升到了60%+,整网性能提升20%+。

NB 2.0,实现物理链路多维并行,如下图所示:

2.JPG

同时,为解决大模型通信横跨多个带宽域而出现的带宽利用率低的问题,CANN自研NHR通信算法(Nonuniform Hierarchical Ring,非均衡的层次环算法),一方面采用多层次环状通信模式减少网络流量冲突,另一方面支持RDMA/DMA任务流水,在跨机通信场景下同时聚合片内、片间DMA任务,实现内存免拷贝。实测1GB数据量场景下,跨机集合通信算法性能可提升70%~100%。 

NHR算法任务拆分,流水并行,如下图所示:

3.JPG

3 基于LLM P-D分离部署方案设计并发布LLMDataDist组件

大模型推理的Prefill和Decode阶段往往存在计算和内存受限问题,资源分配不均,导致成本居高不下,这些趋势和挑战,都驱动着推理系统的重构,以更高效的资源调度与并行解码,满足推理商业落地的经济性要求。

考虑到LLM推理Prefill和Decode两阶段的计算/通信特征各有差异,例如Prefill阶段是算力密集型,而Decode阶段是访存密集型且请求batch化执行,将Prefill-Decode分别部署在不同实例甚至不同集群中能有效提升系统有效吞吐Goodput。

P-D分离部署方案:

4.JPG

P-D分离部署方案根据Prefill和Decode的不同特点,将它们分别部署到不同规格和架构的推理集群上,配合服务层的任务调度,在满足TTFT和TBT时延指标范围内,结合Continuous batching机制尽可能提高Decode阶段的batch并发数,提升该阶段的算力利用率;根据业务流量和Input/output负载不同,基于LLMDataDist的动态LINK Manager管理能力,灵活设置P/D节点的集群配比数,在Serving服务运行过程中支持时延无感知的节点动态扩缩容,也可以在运行过程中实时灵活切换P/D角色。

对于分离集群间的KVCache传输,通过昇腾AI处理器自带的8 * 200G RoCE网卡,独立的KVCache传输通信链路与P/D模型并行使用的HCCS链路完全物理隔离,使大多数场景传输额外时延控制在一个token的生成开销内,同时也隐藏在Prefill计算过程中。

此外,P-D分离部署方案给P/D的独立优化提供了更大的空间,例如在长序列场景,Prefill节点采用通信友好的TP+SP/CP混合并行,Decoder节点采用时延敏感的纯TP并行。

CANN8.0针对LLM P-D分离部署方案设计并发布LLMDataDist组件,支持分布式集群通信和数据管理,LLMDataDist利用昇腾集群多样化通信链路(HCCS/RoCE)实现跨实例和集群高效KVCache传输,并支持与主流LLM推理框架如MindIE-LLM、vLLM等集成。

LLMDataDist支持分布式集群通信和数据管理图如下所示:

5.JPG

4 支持图模式能力扩展库TorchAir,提升PyTorch在NPU上的大模型推理性能

2023年10月,CANN支持Ascend Extension for PyTorch(torch_npu),这意味着开发者可直接在昇腾设备上选择PyTorch作为前端推理框架,使用PyTorch的eager模式进行推理。为消除Eager模式下的调度时延,进一步提升大模型的推理表现,CANN 8.0新增支持torch_npu图模式能力扩展库TorchAir(Torch Ascend Intermediate Representation),对上通过torch.compile的npu_backend接入PyTorch FX图,并将FX图转换成Ascend IR graph,向下通过CANN的图引擎来获取调度、图融合、算子融合等性能收益。

TorchAir在生态上,完整继承PyTorch软件生态;编程体验上,完全复用PyTorch编程体验;性能上,基于CANN的图引擎获取NPU最优性能;用户扩展性上,可快速完成Ascend C算子入图注册。当前TorchAir已经应用于LLM、多模态等全场景推理网络。

6.JPG

5 Ascend C新增100+ API,算子开发效率提升30%

工欲善其事,必先利其器,大模型融合算子的开发离不开新一代算子编程语言Ascend C。作为算子开发利器,Ascend C针对昇腾硬件能力进行抽象和封装,为开发者提供稳定和兼容的分层API,是CANN实现大模型融合算子的基础。

新版本中,CANN进一步优化Ascend C的开发易用性,丰富数据搬运等底层API,提升开发灵活性,同时新增通信类、矩阵运算类等高层API,封装常用算法逻辑,减少重复开发,提升开发效率。例如Matmul算子代码量从几百行缩减到只有几行,典型融合算子开发效率可提升30%以上,极大程度提升大模型创新效率。

7.JPG

6 CANN深度开放策略

随着大模型的飞速演进,为更进一步提升AI计算效率,支撑开发者的算法创新诉求,CANN匹配开发者使用习惯,通过深度开放策略支持开发者原生创新,构筑差异化优势。目前已经开放图引擎、算子库、算子编程语言、编译器、运行时等能力,使能主流AI框架和加速库,更高效调用算力资源,支撑互联网、运营商、金融等行业的大模型创新和场景化落地。

CANN开放架构如下图所示:

8.JPG

同时,CANN持续提供最佳实践使能客户自主创新,目前社区已上线6个融合算子、27个Ascend C 高层API,以及7个HCCL通信算法样例。开发者可参考样例魔改,天级完成高性能算子开发,同时构筑了完备的能力构建体系,使能开发者自主开发,激发原生创新,目前已有17+客户基于CANN进行自主创新,完成了90+的高性能算子开发。

随着CANN 8.0版本的发布以及CANN的深度开放,相关教程和学习资源正在陆续上线昇腾社区(https://www.hiascend.com/software/cann),欢迎开发者使用体验。

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。