- 微信
- 微博
  
  分享文章到微博
- 复制链接
  
  复制链接到剪贴板

ATB是什么？

zjun 发表于 2024/11/08 19:39:55 2024/11/08

【摘要】 Ascend Transformer Boost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Transformer类模型的训练和推理而设计。

1 ATB介绍

Ascend Transformer Boost加速库（下文简称为ATB加速库）是一款高效、可靠的加速库，基于华为Ascend AI处理器，专门为Transformer类模型的训练和推理而设计。

ATB加速库采用了一系列优化策略，包括算法优化、硬件优化和软件优化，能够显著提升Transformer模型的训练和推理速度，同时降低能耗和成本。具体来说，ATB加速库通过优化矩阵乘法等核心算子和注意力机制的实现方式，实现了对Transformer模型的高效加速。此外，ATB加速库还充分利用了Ascend AI处理器的硬件特性，如算力、存储带宽和内存带宽，通过硬件加速和数据重用等技术，进一步提升了性能和效率。ATB加速库目前提供了底层基础的高性能算子以及高效的算子组合技术（Graph图算子），同时上层支持对接多种模型框架如PyTorch、MindSpore、Paddle。

总而言之，ATB加速库中包含了各类Transformer类模型的高度优化模块，在各种应用场景中发挥重要作用，为模型的训练和推理提供了强有力的支持。

2 ATB的软件架构

ATB架构图
从上述架构看，ATB优化的核心内容是在算子计算方面，通过优化算子计算的方式，比如：增加算计算并行机会，优化内存排布等。涉及到3种算子，如下所述。

2.1 基础Operation（原生算子）

用户可以根据需求使用对应的算子完成计算功能。这类算子为一系列基础算子，提供了如矩阵乘、转置等功能。详细信息请参考atb/infer_op_params.h和atb/train_op_params.h。

2.2 插件（Plugin）机制（插件算子）

自定义插件算子（PluginOperation）是一种为用户实现特定功能提供的机制。如果一些功能通过单算子或图算子无法实现，用户可以通过开发自定义插件算子实现对应的功能。

2.3 Graph Frame（图算子）

提供图算子（Graph）机制，用户根据模型设计对应的图算子，使用加速库提供的原生算子和创建的自定义算子创建图算子，完成相应的计算。

graph也就是图，其实就是将多个算子组合成一个图的形式进行调用。那么组合成图的形式有什么好处呢？

1 算子调用

说明这个问题前，首先来了解下算子的下发过程。举例来说，如下图：

算子host->device下发过程
一个算子的下发，过程大概要经过host（CPU）-> Device(Ascend, GPU…)的过程。

在这个过程中，Host做的事情大概又可以做如下划分：

1、python侧。模型一般是用python编写，算子首先发起调用是从python侧的接口；

2、c++侧。python侧发起后，一般是通过pybind技术，路由到C++侧，这个过程一般由AI框架完成，如torch或、mindspore等。在c++侧做的事情，一般有算子的infer（mindspore），算子输入输出、workspace内存申请，调用Device侧的接口（驱动层）。

那么明显的，从host->devcie是有个调用过程，这个过程肯定是存在开销的。

那如何能减少这个开销呢？ATB中graph frame的实现，就是将算子组成图的形式，将其整体一次性下发到device上，那么host->device的开销是可以极大减少的。这样端到端下的性能也就提升了。

2 ATB 图算子构建

用户需要自行设计并定义图的结构，即图结构中节点（Node）的组合与依赖关系，包括节点对应的单算子、节点的输入Tensor与输出Tensor，并识别这些Tensor为图的输入Tensor、输出Tensor和中间Tensor。

图输入Tensor，为用户使用图算子时需要从外部输入的所有Tensor。

图输出Tensor，为用户使用图算子时不会再进行下一步运算操作的所有Tensor。

图中间Tensor，为图算子运算中产生的临时Tensor。例如同一图算子中有算子A和算子X，算子A的输出Tensor为算子X所用，且该tensor对于图外部模块不可见，则该Tensor为中间tensor。

如下图所示，该示例图算子由两个节点组成，这两个节点均为Elewise_Add算子。a、b、c为图算子的三个输入Tensor，output为图算子的输出Tensor，a_add_b_output为图算子的中间Tensor。其中，节点0的输入为a和b，输出为a_add_b_output，节点1的输入为a_add_b_output和c，输出为output。

用户需要自行设计并定义图的结构，即图结构中节点（Node）的组合与依赖关系，包括节点对应的单算子、节点的输入Tensor与输出Tensor，并识别这些Tensor为图的输入Tensor、输出Tensor和中间Tensor。图输入Tensor为用户使用图算子时需要从外部输入的所有Tensor。图输出Tensor为用户使用图算子时不会再进行下一步运算操作的所有Tensor。图中间Tensor为图算子运算中产生的临时Tensor。例如同一图算子中有算子A和算子X，算子A的输出Tensor为算子X所用，且该tensor对于图外部模块不可见，则该Tensor为中间tensor。

3. ATB的算子执行流程

如上所述，ATB存在三种算子，那么每种算子的设计思考是什么，与Ascend上，或者说CANN（CANN：CANN-昇腾社区 (hiascend.com)）中的算子区别是什么。由于篇幅问题，请移驾到下述文章。
ATB三种算子的执行流程

本文主要参考：
ATB加速库

加速库使用指导

【声明】本内容来自华为云开发者社区博主，不代表华为云及华为云开发者社区的观点和立场。转载时必须标注文章的来源（华为云社区）、文章链接、文章作者等基本信息，否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容，欢迎发送邮件进行举报，并提供相关证据，一经查实，本社区将立刻删除涉嫌侵权内容，举报邮箱： cloudbbs@huaweicloud.com

点赞
收藏
关注作者

0/1000

抱歉，系统识别当前为高风险访问，暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称，即可参与社区互动！

*长度不超过10个汉字或20个英文字符，设置后3个月内不可修改。

确认取消

加入云驻计划，成为创作者

华为云周边好礼
免费体验产品
特殊身份标识
线下官方门票
内部专家零距离
与10000+优质创作者共同成长

立即加入

ATB是什么？

1 ATB介绍

2 ATB的软件架构

2.1 基础Operation（原生算子）

2.2 插件（Plugin）机制（插件算子）

2.3 Graph Frame（图算子）

3. ATB的算子执行流程

全部回复

设置昵称

关于作者

目录

加入云驻计划，成为创作者

ATB是什么？

1 ATB介绍

2 ATB的软件架构

2.1 基础Operation（原生算子）

2.2 插件（Plugin）机制（插件算子）

2.3 Graph Frame（图算子）

3. ATB的算子执行流程

全部回复

设置昵称

关于作者

目录

热门推荐查看更多

相关文章

加入云驻计划，成为创作者

相关产品