【2023 · CANN训练营第一季】——听CANN首席架构师解密Ascend C算子开发

举报
dayao 发表于 2023/05/31 13:18:19 2023/05/31
【摘要】 2023年5月昇腾AI开发者峰会上,昇腾CANN首席架构师闫长江老师解密了全新的Ascend C算子编程体系。正好CANN训练营开设了Ascend C算子开发的课程,学习完成后再听大神的串讲,有种豁然开朗的感觉。

前言:2023年5月昇腾AI开发者峰会上,昇腾CANN首席架构师闫长江老师解密了全新的Ascend C算子编程体系。正好CANN训练营开设了Ascend C算子开发的课程,学习完成后再听大神的串讲,有种豁然开朗的感觉。

CANN训练营的Ascend C算子课程参见:

https://www.hiascend.com/zh/developer/courses/detail/1627494761683783682

        闫老师的演讲包括三部分内容:第一部分是基础概念,包括CANN的基础知识,以及Ascend C算子并行计算的硬件和理论基础;第二部分讲述了Ascend C算子编程的关键概念(核函数和编程范式)和编程实践,以及算子测试程序的编程方法;第三部分讲述了Ascend C算子在cpu和npu上的孪生调试。

        下面是老师演讲的PPT。

一、基础知识

一)异构计算架构CANN

二)算子的硬件基础

        下面这张图,清晰展示了AICore的内部架构及模块功能,也讲述了Global Mem和Local Mem的关系,Local Mem靠近计算单元,带宽非常高,但容量不大,一般是几百KB到几MB;而Global Mem容量大,但带宽不高。因此需要将Global Mem的数据搬运到Local Mem上,进行运算,运算完成后再将运算结构从Local Mem搬运到Global Mem上。

        下面这张图讲述了一个Aicore的内部的计算单元,其中的向量和矩阵计算单元都是单指令多数据计算,也就是一个指令周期可以实现一组数据的加和乘。

三)并行计算        

        下面这张图,讲述了并行计算中的两种常见方法:SPMD和流水线,这两种方法都会提现到Ascend C的编程模型和编程方法中。

二、Ascend C算子编程

        核函数体现的是SPMD的编程思想,同时简化了用户的代码实现。开发代码时,只需要写单个AI Core核的实现代码。

        Ascend C算子采用标准的C++和一组专门的类库API进行编程的。这些API包括计算的,数据搬运以及同步等操作的API。API的操作对象是Tensor,Tensor根据存储位置不同分为GlobalTensor和LocalTensor。

        TPIPE的编程范式,实现了前述的流水线方式的并行计算。

        算子编写完成后,可以通过host侧的应用开发接口,调用开发好的算子进行测试,验证。

        下图讲述的是直接调用核函数的方式进行算子代码测试的。包括CPU和NPU两种测试方法,通过“__CCE_KT_TEST__”宏定义区分是运行在CPU上的代码还是NPU上的代码。

三、Ascend C算子孪生调试

        TIK C算子的调试手段丰富,可以在CPU,也可以在NPU上调试。这就是算子的孪生调试技术。

一)CPU域调试调优

        在CPU侧调试时,可以使用gdb工具进行调试,还有指令LOG和NPUcheck主动错误分析工具两大神器。指令log功能会把真正执行的指令队列列出来,也就是在运行CPU的核函数调用方式的编译运行后,会生成*.cce的文件,数量和定义的AiCore的数量一致,里面记录某个核上的实际指令序列。

二)NPU的仿真调试能力        

        提供了强大的指令日志和数据日志功能,便于分析和调试问题。从下面的图,可以看出double buffer的作用。

三)上板运行调试能力:打印板上运行统计,以及支持打印数据功能

        最后,闫老师对本次演讲的内容做了小结:

【版权声明】本文为华为云社区用户原创内容,转载时必须标注文章的来源(华为云社区)、文章链接、文章作者等基本信息, 否则作者和本社区有权追究责任。如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容,举报邮箱: cloudbbs@huaweicloud.com
  • 点赞
  • 收藏
  • 关注作者

评论(0

0/1000
抱歉,系统识别当前为高风险访问,暂不支持该操作

全部回复

上滑加载中

设置昵称

在此一键设置昵称,即可参与社区互动!

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。

*长度不超过10个汉字或20个英文字符,设置后3个月内不可修改。